跳转至内容
0
  • 版块
  • 讨论
  • 最新
  • 标签
  • 热门
  • 顶端
  • 用户
  • 版块
  • 讨论
  • 最新
  • 标签
  • 热门
  • 顶端
  • 用户
皮肤
  • Light
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • Dark
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(Zephyr)
  • 不使用皮肤
折叠
JIKE社区
  1. 首页
  2. 讨论区
  3. 技术专区
  4. 一个小爬虫

一个小爬虫

已定时 已固定 已锁定 已移动 技术专区
7 帖子 5 发布者 1.5k 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • S 离线
    S 离线
    soulasmr
    🍌
    写于 最后由 编辑
    #1

    可以爬取这个站点的全部图片,并且放入指定文件夹
    网站:https://zazhitaotu.cc
    需要:python3.8+
    模块:requests、bs4
    脚本:

    import os
    import re
    
    import requests
    import random
    import bs4
    
    # 生成一个全站页面链接的列表
    urls = [f"https://zazhitaotu.cc/page/{url}/" for url in range(1, 26)]
    
    
    def random_ip():
        a = random.randint(1, 255)
        b = random.randint(1, 255)
        c = random.randint(1, 255)
        d = random.randint(1, 255)
        return str(a) + "." + str(b) + "." + str(c) + "." + str(d)
    
    
    def parsing(url):
        agent = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) "
                               "AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92."
                               "0.4515.107 Safari/537.36",
                 "X-Forwarded-For": random_ip()
                 }
        response = requests.get(url, headers=agent).content
        soup = bs4.BeautifulSoup(response, "html.parser")
        a_url = soup.find_all("a")
        title = soup.find("title").string
        img_url = soup.find_all("img")
        return a_url, img_url, title
    
    
    def download():
        for i in urls:
            a = parsing(i)
            a_urls = re.findall(r"https://zazhitaotu.cc/archives/[0-9]*.html", str(a))
            for img in a_urls:
                _, url, z = parsing(img)
                img_urls = re.findall(r"https://zazhitaotu.cc/usr/uploads/[0-9]*/[0-9]*/[0-9]*.jpg", str(url))
                try:
                    os.mkdir(z)
                except Exception:
                    print("文件夹存在,跳过")
                    continue
                for up in img_urls:
                    get_up = requests.get(up).content
                    filename = up.split("/")[-1]
                    with open(f"{z}/{filename}", "wb+") as f:
                        f.write(get_up)
                    
        
    if __name__ == "__main__":
        download()
    
    1 条回复 最后回复
    1
    • 9527飞 离线
      9527飞 离线
      9527
      写于 最后由 编辑
      #2

      可以学习了

      三斤太阳光
      https://www.unfbx.com

      1 条回复 最后回复
      0
      • 9527飞 离线
        9527飞 离线
        9527
        写于 最后由 编辑
        #3

        但是这个站怎么打不开啊。。。

        三斤太阳光
        https://www.unfbx.com

        S 1 条回复 最后回复
        0
        • B 离线
          B 离线
          belle20
          写于 最后由 编辑
          #4

          you hAVe A W7 MAK keys for sale?

          1 条回复 最后回复
          0
          • 9527飞 9527

            但是这个站怎么打不开啊。。。

            S 离线
            S 离线
            soulasmr
            🍌
            写于 最后由 编辑
            #5

            @飞的低一点 需要代理

            1 条回复 最后回复
            0
            • 我是小马甲~M 在线
              我是小马甲~M 在线
              我是小马甲~
              🤫
              写于 最后由 编辑
              #6

              备份网站图片不错

              唐宋元明清,连排小工兵!

              1 条回复 最后回复
              0
              • M 离线
                M 离线
                mojj
                🍌
                写于 最后由 编辑
                #7

                看不懂个 指挥scrapy

                1 条回复 最后回复
                0
                回复
                • 在新帖中回复
                登录后回复
                • 从旧到新
                • 从新到旧
                • 最多赞同


                Popular Topics - 热门主题
                • 联通app去搜 优享会员
                  undefined
                  1
                  1
                  137

                • 中国站ESA免费版重磅发布,白嫖阿里云免费ESA安全加速CDN
                  L
                  LeagueJinx
                  0
                  7
                  216

                • 帕萨特座椅记忆突然失灵,如何恢复?
                  我是小马甲~M
                  我是小马甲~
                  0
                  2
                  18

                • 移动1元支付宝红包或8元电费券 5元话费券
                  不
                  不隔山
                  0
                  2
                  187

                • 【邮储银行】微信立减金券包20元~
                  undefined
                  0
                  1
                  2

                • 广西农信立减金
                  undefined
                  0
                  1
                  2

                • 登录

                • 没有帐号? 注册

                • 登录或注册以进行搜索。
                百度网盘
                2,747 个主题
                夸克网盘
                1,952 个主题
                连续剧
                1,067 个主题
                国产剧
                754 个主题
                美剧
                488 个主题
                动作片
                382 个主题
                动画片
                327 个主题
                恐怖片
                316 个主题

                202

                在线

                42.8k

                用户

                43.5k

                主题

                114.8k

                帖子
                • 第一个帖子
                  最后一个帖子