跳转至内容
0
  • 版块
  • 讨论
  • 最新
  • 标签
  • 热门
  • 顶端
  • 用户
  • 版块
  • 讨论
  • 最新
  • 标签
  • 热门
  • 顶端
  • 用户
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
JIKE社区
  1. 首页
  2. 讨论区
  3. 技术专区
  4. 一个小爬虫

一个小爬虫

已定时 已固定 已锁定 已移动 技术专区
7 帖子 5 发布者 1.7k 浏览 1 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • S 离线
    S 离线
    soulasmr
    🍌
    发表于 最后由 编辑
    #1

    可以爬取这个站点的全部图片,并且放入指定文件夹
    网站:https://zazhitaotu.cc
    需要:python3.8+
    模块:requests、bs4
    脚本:

    import os
    import re
    
    import requests
    import random
    import bs4
    
    # 生成一个全站页面链接的列表
    urls = [f"https://zazhitaotu.cc/page/{url}/" for url in range(1, 26)]
    
    
    def random_ip():
        a = random.randint(1, 255)
        b = random.randint(1, 255)
        c = random.randint(1, 255)
        d = random.randint(1, 255)
        return str(a) + "." + str(b) + "." + str(c) + "." + str(d)
    
    
    def parsing(url):
        agent = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) "
                               "AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92."
                               "0.4515.107 Safari/537.36",
                 "X-Forwarded-For": random_ip()
                 }
        response = requests.get(url, headers=agent).content
        soup = bs4.BeautifulSoup(response, "html.parser")
        a_url = soup.find_all("a")
        title = soup.find("title").string
        img_url = soup.find_all("img")
        return a_url, img_url, title
    
    
    def download():
        for i in urls:
            a = parsing(i)
            a_urls = re.findall(r"https://zazhitaotu.cc/archives/[0-9]*.html", str(a))
            for img in a_urls:
                _, url, z = parsing(img)
                img_urls = re.findall(r"https://zazhitaotu.cc/usr/uploads/[0-9]*/[0-9]*/[0-9]*.jpg", str(url))
                try:
                    os.mkdir(z)
                except Exception:
                    print("文件夹存在,跳过")
                    continue
                for up in img_urls:
                    get_up = requests.get(up).content
                    filename = up.split("/")[-1]
                    with open(f"{z}/{filename}", "wb+") as f:
                        f.write(get_up)
                    
        
    if __name__ == "__main__":
        download()
    
    1 条回复 最后回复
    1
    • 9527飞 离线
      9527飞 离线
      9527
      发表于 最后由 编辑
      #2

      可以学习了

      三斤太阳光
      https://www.unfbx.com

      1 条回复 最后回复
      0
      • 9527飞 离线
        9527飞 离线
        9527
        发表于 最后由 编辑
        #3

        但是这个站怎么打不开啊。。。

        三斤太阳光
        https://www.unfbx.com

        S 1 条回复 最后回复
        0
        • B 离线
          B 离线
          belle20
          发表于 最后由 编辑
          #4

          you hAVe A W7 MAK keys for sale?

          1 条回复 最后回复
          0
          • 9527飞 9527

            但是这个站怎么打不开啊。。。

            S 离线
            S 离线
            soulasmr
            🍌
            发表于 最后由 编辑
            #5

            @飞的低一点 需要代理

            1 条回复 最后回复
            0
            • 我是小马甲~M 在线
              我是小马甲~M 在线
              我是小马甲~
              🤫
              发表于 最后由 编辑
              #6

              备份网站图片不错

              唐宋元明清,连排小工兵!

              1 条回复 最后回复
              0
              • M 离线
                M 离线
                mojj
                🍌
                发表于 最后由 编辑
                #7

                看不懂个 指挥scrapy

                1 条回复 最后回复
                0

                你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                有了你的建议,这篇帖子会更精彩哦 💗

                注册 登录
                回复
                • 在新帖中回复
                登录后回复
                • 从旧到新
                • 从新到旧
                • 最多赞同


                Popular Topics - 热门主题
                • 京东游跟进了0元体重秤
                  我是小马甲~M
                  我是小马甲~
                  1
                  6
                  1.1k

                • 中国广电免费领取30G通用数据流量
                  R
                  risifife
                  1
                  4
                  471

                • 阿里云Shell,可免费跑一些脚本
                  孤
                  孤傲的王
                  0
                  4
                  283

                • 河北移动放心用流量免费办理 8元套餐可办理!
                  游魂Y
                  游魂
                  0
                  3
                  188

                • Win 10 RTM Professional Volume:MAK
                  V
                  vip0546
                  0
                  3
                  46

                • 多人有声剧《八两银子,换个凶煞夫君》主播:天下书盟 718集完
                  0
                  1
                  1


                • 登录

                • 没有帐号? 注册

                • 登录或注册以进行搜索。
                夸克网盘
                4,396 个主题
                百度网盘
                4,336 个主题
                连续剧
                1,519 个主题
                国产剧
                1,027 个主题
                美剧
                709 个主题
                动作片
                661 个主题
                恐怖片
                527 个主题
                动画片
                401 个主题

                62

                在线

                44.0k

                用户

                50.1k

                主题

                126.0k

                帖子
                • 第一个帖子
                  最后一个帖子