跳转至内容
0
  • 版块
  • 讨论
  • 最新
  • 标签
  • 热门
  • 顶端
  • 用户
  • 版块
  • 讨论
  • 最新
  • 标签
  • 热门
  • 顶端
  • 用户
皮肤
  • Light
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • Dark
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(Zephyr)
  • 不使用皮肤
折叠
JIKE社区
  1. 首页
  2. 讨论区
  3. 技术专区
  4. 一个小爬虫

一个小爬虫

已定时 已固定 已锁定 已移动 技术专区
7 帖子 5 发布者 1.5k 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • S 离线
    S 离线
    soulasmr
    🍌
    写于 最后由 编辑
    #1

    可以爬取这个站点的全部图片,并且放入指定文件夹
    网站:https://zazhitaotu.cc
    需要:python3.8+
    模块:requests、bs4
    脚本:

    import os
    import re
    
    import requests
    import random
    import bs4
    
    # 生成一个全站页面链接的列表
    urls = [f"https://zazhitaotu.cc/page/{url}/" for url in range(1, 26)]
    
    
    def random_ip():
        a = random.randint(1, 255)
        b = random.randint(1, 255)
        c = random.randint(1, 255)
        d = random.randint(1, 255)
        return str(a) + "." + str(b) + "." + str(c) + "." + str(d)
    
    
    def parsing(url):
        agent = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) "
                               "AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92."
                               "0.4515.107 Safari/537.36",
                 "X-Forwarded-For": random_ip()
                 }
        response = requests.get(url, headers=agent).content
        soup = bs4.BeautifulSoup(response, "html.parser")
        a_url = soup.find_all("a")
        title = soup.find("title").string
        img_url = soup.find_all("img")
        return a_url, img_url, title
    
    
    def download():
        for i in urls:
            a = parsing(i)
            a_urls = re.findall(r"https://zazhitaotu.cc/archives/[0-9]*.html", str(a))
            for img in a_urls:
                _, url, z = parsing(img)
                img_urls = re.findall(r"https://zazhitaotu.cc/usr/uploads/[0-9]*/[0-9]*/[0-9]*.jpg", str(url))
                try:
                    os.mkdir(z)
                except Exception:
                    print("文件夹存在,跳过")
                    continue
                for up in img_urls:
                    get_up = requests.get(up).content
                    filename = up.split("/")[-1]
                    with open(f"{z}/{filename}", "wb+") as f:
                        f.write(get_up)
                    
        
    if __name__ == "__main__":
        download()
    
    1 条回复 最后回复
    1
    • 9527飞 离线
      9527飞 离线
      9527
      写于 最后由 编辑
      #2

      可以学习了

      三斤太阳光
      https://www.unfbx.com

      1 条回复 最后回复
      0
      • 9527飞 离线
        9527飞 离线
        9527
        写于 最后由 编辑
        #3

        但是这个站怎么打不开啊。。。

        三斤太阳光
        https://www.unfbx.com

        S 1 条回复 最后回复
        0
        • B 离线
          B 离线
          belle20
          写于 最后由 编辑
          #4

          you hAVe A W7 MAK keys for sale?

          1 条回复 最后回复
          0
          • 9527飞 9527

            但是这个站怎么打不开啊。。。

            S 离线
            S 离线
            soulasmr
            🍌
            写于 最后由 编辑
            #5

            @飞的低一点 需要代理

            1 条回复 最后回复
            0
            • 我是小马甲~M 在线
              我是小马甲~M 在线
              我是小马甲~
              🤫
              写于 最后由 编辑
              #6

              备份网站图片不错

              唐宋元明清,连排小工兵!

              1 条回复 最后回复
              0
              • M 离线
                M 离线
                mojj
                🍌
                写于 最后由 编辑
                #7

                看不懂个 指挥scrapy

                1 条回复 最后回复
                0
                回复
                • 在新帖中回复
                登录后回复
                • 从旧到新
                • 从新到旧
                • 最多赞同


                Popular Topics - 热门主题
                • 移动问卷调查,白嫖话费(概率)
                  J
                  js
                  1
                  2
                  85

                • 🇫🇷Lebara PayGo eSIM简略食用教程
                  TiFanT
                  TiFan
                  1
                  2
                  154

                • Ubuntu24 系统 Python3.12.3 升级 Python3.12.10
                  undefined
                  1
                  1
                  69

                • 嘉立创[疯狂星期三]免费白嫖铝合金外壳
                  T
                  tssz
                  0
                  4
                  149

                • 免费美国科技节点,每个月800G
                  4
                  4605
                  0
                  3
                  118

                • 工行云网点浏览打卡领立减金
                  J
                  js
                  0
                  2
                  66

                • 登录

                • 没有帐号? 注册

                • 登录或注册以进行搜索。
                百度网盘
                2,121 个主题
                夸克网盘
                936 个主题
                连续剧
                882 个主题
                国产剧
                672 个主题
                美剧
                413 个主题
                中国移动
                307 个主题
                动画片
                287 个主题
                动作片
                245 个主题

                92

                在线

                42.0k

                用户

                42.0k

                主题

                112.9k

                帖子
                • 第一个帖子
                  最后一个帖子