-
gibada说:
python 好用的爬虫库
-
Scrapy:Scrapy是一个基于Python的开源Web抓取框架,可以轻松快速地抓取网站中的数据,并以相应的数据格式存储,可以用于数据挖掘、分析和抓取网页信息等。
-
Beautiful Soup:Beautiful Soup是一个Python的HTML/XML的解析器,以及一个用来处理HTML/XML文档的库。它可以将一个HTML/XML文档转换成一个多层次的树状结构,然后可以轻松的从树状结构中提取出相关的数据。
-
Requests:Requests是一个Python库,用于发送HTTP请求。它可以根据需要添加头部、Cookie和其他数据,支持多种HTTP方法(GET、POST、PUT、DELETE等),并且支持SSL验证,还可以自动处理重定向。
-
Selenium:Selenium是一个用于Web应用程序自动化测试的工具,可以使用Python来控制浏览器,从而实现自动抓取网页内容或者模拟人类操作行为。
-
Urllib:Urllib是Python内置的HTTP请求库,可以用来发送HTTP请求。它可以自动处理HTTP头部,Cookie和重定向,可以用来发送GET和POST请求,并且支持SSL验证。
-