跳转至内容
0
  • 版块
  • 讨论
  • 最新
  • 标签
  • 热门
  • 顶端
  • 用户
  • 版块
  • 讨论
  • 最新
  • 标签
  • 热门
  • 顶端
  • 用户
皮肤
  • Light
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • Dark
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(Zephyr)
  • 不使用皮肤
折叠
JIKE社区
  1. 首页
  2. 讨论区
  3. 技术专区
  4. 一个小爬虫

一个小爬虫

已定时 已固定 已锁定 已移动 技术专区
7 帖子 5 发布者 1.4k 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • S 离线
    S 离线
    soulasmr
    🍌
    写于 最后由 编辑
    #1

    可以爬取这个站点的全部图片,并且放入指定文件夹
    网站:https://zazhitaotu.cc
    需要:python3.8+
    模块:requests、bs4
    脚本:

    import os
    import re
    
    import requests
    import random
    import bs4
    
    # 生成一个全站页面链接的列表
    urls = [f"https://zazhitaotu.cc/page/{url}/" for url in range(1, 26)]
    
    
    def random_ip():
        a = random.randint(1, 255)
        b = random.randint(1, 255)
        c = random.randint(1, 255)
        d = random.randint(1, 255)
        return str(a) + "." + str(b) + "." + str(c) + "." + str(d)
    
    
    def parsing(url):
        agent = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) "
                               "AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92."
                               "0.4515.107 Safari/537.36",
                 "X-Forwarded-For": random_ip()
                 }
        response = requests.get(url, headers=agent).content
        soup = bs4.BeautifulSoup(response, "html.parser")
        a_url = soup.find_all("a")
        title = soup.find("title").string
        img_url = soup.find_all("img")
        return a_url, img_url, title
    
    
    def download():
        for i in urls:
            a = parsing(i)
            a_urls = re.findall(r"https://zazhitaotu.cc/archives/[0-9]*.html", str(a))
            for img in a_urls:
                _, url, z = parsing(img)
                img_urls = re.findall(r"https://zazhitaotu.cc/usr/uploads/[0-9]*/[0-9]*/[0-9]*.jpg", str(url))
                try:
                    os.mkdir(z)
                except Exception:
                    print("文件夹存在,跳过")
                    continue
                for up in img_urls:
                    get_up = requests.get(up).content
                    filename = up.split("/")[-1]
                    with open(f"{z}/{filename}", "wb+") as f:
                        f.write(get_up)
                    
        
    if __name__ == "__main__":
        download()
    
    1 条回复 最后回复
    1
    • 9527飞 离线
      9527飞 离线
      9527
      写于 最后由 编辑
      #2

      可以学习了

      三斤太阳光
      https://www.unfbx.com

      1 条回复 最后回复
      0
      • 9527飞 离线
        9527飞 离线
        9527
        写于 最后由 编辑
        #3

        但是这个站怎么打不开啊。。。

        三斤太阳光
        https://www.unfbx.com

        S 1 条回复 最后回复
        0
        • B 离线
          B 离线
          belle20
          写于 最后由 编辑
          #4

          you hAVe A W7 MAK keys for sale?

          1 条回复 最后回复
          0
          • 9527飞 9527

            但是这个站怎么打不开啊。。。

            S 离线
            S 离线
            soulasmr
            🍌
            写于 最后由 编辑
            #5

            @飞的低一点 需要代理

            1 条回复 最后回复
            0
            • 我是小马甲~M 在线
              我是小马甲~M 在线
              我是小马甲~
              🤫
              写于 最后由 编辑
              #6

              备份网站图片不错

              唐宋元明清,连排小工兵!

              1 条回复 最后回复
              0
              • M 离线
                M 离线
                mojj
                🍌
                写于 最后由 编辑
                #7

                看不懂个 指挥scrapy

                1 条回复 最后回复
                0
                回复
                • 在新帖中回复
                登录后回复
                • 从旧到新
                • 从新到旧
                • 最多赞同


                Popular Topics - 热门主题
                • Bug! Bug !Google One 学生优惠 可无门槛验证
                  mztcM
                  mztc
                  3
                  14
                  5.0k

                • 中国科技云免费白嫖1 年 Cursor 使用权!快~~~
                  D
                  d914954480
                  1
                  7
                  1.9k

                • MySQL 8.0 OCP 限时免费考
                  HebutMrLiuH
                  HebutMrLiu
                  1
                  5
                  311

                • 免费科技代理流量巨多
                  孤
                  孤傲的王
                  1
                  4
                  96

                • 阿里云国际站轻量应用服务器 2C+1G+200M带宽 仅9.9美元一年!
                  T
                  Test
                  1
                  4
                  1.2k

                • <海外剧>行尸走肉:死城 第二季[2025][惊悚 恐怖 冒险][附行尸走肉 系列全部]
                  我是小马甲~M
                  我是小马甲~
                  1
                  3
                  23

                • 登录

                • 没有帐号? 注册

                • 登录或注册以进行搜索。
                百度网盘
                1,175 个主题
                连续剧
                698 个主题
                国产剧
                564 个主题
                美剧
                338 个主题
                中国移动
                307 个主题
                动画片
                231 个主题
                中国电信
                222 个主题
                动作片
                206 个主题

                149

                在线

                39.9k

                用户

                40.1k

                主题

                110.4k

                帖子
                • 第一个帖子
                  最后一个帖子