跳转至内容
0
  • 版块
  • 讨论
  • 最新
  • 标签
  • 热门
  • 顶端
  • 用户
  • 版块
  • 讨论
  • 最新
  • 标签
  • 热门
  • 顶端
  • 用户
皮肤
  • Light
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • Dark
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(Zephyr)
  • 不使用皮肤
折叠
JIKE社区
  1. 首页
  2. 讨论区
  3. 技术专区
  4. 一个小爬虫

一个小爬虫

已定时 已固定 已锁定 已移动 技术专区
7 帖子 5 发布者 1.5k 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • S 离线
    S 离线
    soulasmr
    🍌
    写于 最后由 编辑
    #1

    可以爬取这个站点的全部图片,并且放入指定文件夹
    网站:https://zazhitaotu.cc
    需要:python3.8+
    模块:requests、bs4
    脚本:

    import os
    import re
    
    import requests
    import random
    import bs4
    
    # 生成一个全站页面链接的列表
    urls = [f"https://zazhitaotu.cc/page/{url}/" for url in range(1, 26)]
    
    
    def random_ip():
        a = random.randint(1, 255)
        b = random.randint(1, 255)
        c = random.randint(1, 255)
        d = random.randint(1, 255)
        return str(a) + "." + str(b) + "." + str(c) + "." + str(d)
    
    
    def parsing(url):
        agent = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) "
                               "AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92."
                               "0.4515.107 Safari/537.36",
                 "X-Forwarded-For": random_ip()
                 }
        response = requests.get(url, headers=agent).content
        soup = bs4.BeautifulSoup(response, "html.parser")
        a_url = soup.find_all("a")
        title = soup.find("title").string
        img_url = soup.find_all("img")
        return a_url, img_url, title
    
    
    def download():
        for i in urls:
            a = parsing(i)
            a_urls = re.findall(r"https://zazhitaotu.cc/archives/[0-9]*.html", str(a))
            for img in a_urls:
                _, url, z = parsing(img)
                img_urls = re.findall(r"https://zazhitaotu.cc/usr/uploads/[0-9]*/[0-9]*/[0-9]*.jpg", str(url))
                try:
                    os.mkdir(z)
                except Exception:
                    print("文件夹存在,跳过")
                    continue
                for up in img_urls:
                    get_up = requests.get(up).content
                    filename = up.split("/")[-1]
                    with open(f"{z}/{filename}", "wb+") as f:
                        f.write(get_up)
                    
        
    if __name__ == "__main__":
        download()
    
    1 条回复 最后回复
    1
    • 9527飞 离线
      9527飞 离线
      9527
      写于 最后由 编辑
      #2

      可以学习了

      三斤太阳光
      https://www.unfbx.com

      1 条回复 最后回复
      0
      • 9527飞 离线
        9527飞 离线
        9527
        写于 最后由 编辑
        #3

        但是这个站怎么打不开啊。。。

        三斤太阳光
        https://www.unfbx.com

        S 1 条回复 最后回复
        0
        • B 离线
          B 离线
          belle20
          写于 最后由 编辑
          #4

          you hAVe A W7 MAK keys for sale?

          1 条回复 最后回复
          0
          • 9527飞 9527

            但是这个站怎么打不开啊。。。

            S 离线
            S 离线
            soulasmr
            🍌
            写于 最后由 编辑
            #5

            @飞的低一点 需要代理

            1 条回复 最后回复
            0
            • 我是小马甲~M 离线
              我是小马甲~M 离线
              我是小马甲~
              🤫
              写于 最后由 编辑
              #6

              备份网站图片不错

              唐宋元明清,连排小工兵!

              1 条回复 最后回复
              0
              • M 离线
                M 离线
                mojj
                🍌
                写于 最后由 编辑
                #7

                看不懂个 指挥scrapy

                1 条回复 最后回复
                0
                回复
                • 在新帖中回复
                登录后回复
                • 从旧到新
                • 从新到旧
                • 最多赞同


                Popular Topics - 热门主题
                • 在线免费国际学生证生成器
                  D
                  Darian
                  1
                  4
                  195

                • 安卓禁止摇一摇打开淘宝广告
                  J
                  js
                  1
                  3
                  114

                • XiaoMusic: 无限听歌,解放小爱音箱
                  undefined
                  1
                  1
                  108

                • 联通APP搜索“权益超市”->活动乐园->仲夏心愿计划
                  undefined
                  1
                  1
                  191

                • 本月生日的领邮储5立减
                  zyh2025Z
                  zyh2025
                  0
                  2
                  56

                • 工行新的财富相伴抽6000豆
                  H
                  hstybsn
                  0
                  2
                  124

                • 登录

                • 没有帐号? 注册

                • 登录或注册以进行搜索。
                百度网盘
                2,462 个主题
                夸克网盘
                1,484 个主题
                连续剧
                1,005 个主题
                国产剧
                723 个主题
                美剧
                472 个主题
                动作片
                321 个主题
                动画片
                311 个主题
                中国移动
                307 个主题

                114

                在线

                42.4k

                用户

                42.8k

                主题

                113.9k

                帖子
                • 第一个帖子
                  最后一个帖子