跳转至内容
0
  • 版块
  • 讨论
  • 最新
  • 标签
  • 热门
  • 顶端
  • 用户
  • 版块
  • 讨论
  • 最新
  • 标签
  • 热门
  • 顶端
  • 用户
皮肤
  • Light
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • Dark
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(Zephyr)
  • 不使用皮肤
折叠
JIKE社区
S

soulasmr

@soulasmr
🍌
关于
帖子
11
主题
5
分享
0
群组
1
粉丝
1
关注
0

帖子

最新 最佳 有争议的

  • 通用套图爬虫
    S soulasmr

    @iitii 已经适配了,我前面还有一个项目,爬取 tg 消息里面的博客内容,全部下载,一次下载几百套图片,,但是感觉没啥意思,就换了一个思路

    技术专区

  • 通用套图爬虫
    S soulasmr

    虽然可以前面发了几个爬全站的脚本,但是我觉得资源在精不在多,故而打算完成一个通用的套图爬虫
    由于每个站的规则不一样,需要我来写规则,大家可以提供站
    站的要求:最好是一个单页面很多图的
    目前适配的站点
    https://telegra.ph/
    https://girlofthehour.com/
    https://everia.club/
    有想要的站可以评论提交
    本地网络有点问题,明天推送到github
    站点可以在帖子里提交或者github的issues
    github:https://github.com/qianmianyao/SimpleCrawler/issues

    技术专区

  • 一个小爬虫
    S soulasmr

    @飞的低一点 需要代理

    技术专区

  • 一个小爬虫
    S soulasmr

    可以爬取这个站点的全部图片,并且放入指定文件夹
    网站:https://zazhitaotu.cc
    需要:python3.8+
    模块:requests、bs4
    脚本:

    import os
    import re
    
    import requests
    import random
    import bs4
    
    # 生成一个全站页面链接的列表
    urls = [f"https://zazhitaotu.cc/page/{url}/" for url in range(1, 26)]
    
    
    def random_ip():
        a = random.randint(1, 255)
        b = random.randint(1, 255)
        c = random.randint(1, 255)
        d = random.randint(1, 255)
        return str(a) + "." + str(b) + "." + str(c) + "." + str(d)
    
    
    def parsing(url):
        agent = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) "
                               "AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92."
                               "0.4515.107 Safari/537.36",
                 "X-Forwarded-For": random_ip()
                 }
        response = requests.get(url, headers=agent).content
        soup = bs4.BeautifulSoup(response, "html.parser")
        a_url = soup.find_all("a")
        title = soup.find("title").string
        img_url = soup.find_all("img")
        return a_url, img_url, title
    
    
    def download():
        for i in urls:
            a = parsing(i)
            a_urls = re.findall(r"https://zazhitaotu.cc/archives/[0-9]*.html", str(a))
            for img in a_urls:
                _, url, z = parsing(img)
                img_urls = re.findall(r"https://zazhitaotu.cc/usr/uploads/[0-9]*/[0-9]*/[0-9]*.jpg", str(url))
                try:
                    os.mkdir(z)
                except Exception:
                    print("文件夹存在,跳过")
                    continue
                for up in img_urls:
                    get_up = requests.get(up).content
                    filename = up.split("/")[-1]
                    with open(f"{z}/{filename}", "wb+") as f:
                        f.write(get_up)
                    
        
    if __name__ == "__main__":
        download()
    
    技术专区

  • 花木兰1080p资源
    S soulasmr

    在线720p
    下载1080p
    地址:http://fulixb.xyz/43.html

    影音书籍

  • 合租po**hub会员的有没有
    S soulasmr

    @orange1986 终身是多少钱来着

    Jao易市场

  • 合租po**hub会员的有没有
    S soulasmr

    @loveloli 会员独享视频,可以下载,还有4k

    Jao易市场

  • 合租po**hub会员的有没有
    S soulasmr

    @xcgx 一个号卖100人的,我这个就是官方价格而已,我又不赚钱。。

    Jao易市场

  • 合租po**hub会员的有没有
    S soulasmr

    独享视频+4k视频
    9.9刀一个月,换算目前汇率是67.9
    打算找5个人开车
    68x12/5=163

    大约每人163每年,有人上车吗

    Jao易市场

  • 阿里云网盘开始邀请内测,大家怎么看?
    S soulasmr

    手机看

    活动优惠 阿里云网盘 阿里云

  • 搞了个tg频道,他们过他们的7夕,我负责更新他们的视频
    S soulasmr

    每个炮节都是国产区更新的日子啊
    tg开车频道:https://t.me/jinxuantaotu2333
    大家没事可以来玩玩

    风声鹤唳
  • 1 / 1
  • 登录

  • 没有帐号? 注册

  • 登录或注册以进行搜索。
百度网盘
1,175 个主题
连续剧
698 个主题
国产剧
564 个主题
美剧
338 个主题
中国移动
307 个主题
动画片
231 个主题
中国电信
222 个主题
动作片
206 个主题

266

在线

39.9k

用户

40.1k

主题

110.4k

帖子
  • 第一个帖子
    最后一个帖子