python爬虫(python爬虫框架)-IT技术网站

python爬虫

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，主动地抓取万维网信息的程序或许脚本。另外一些不常使用的姓名还有蚂蚁、主动索引、模仿程序或许蠕虫。
其实通俗的讲便是经过程序去获取web页面上自己想要的数据，也便是主动抓取数据
爬虫能够做什么？
你能够爬取小姐姐的图片，爬取自己有兴趣的岛国视频，或许其他任何你想要的东西，前提是，你想要的资源有必要能够经过浏览器拜访的到。
爬虫的本质是什么？
上面关于爬虫能够做什么，界说了一个前提，是浏览器能够拜访到的任何资源，特别是对于知晓web请求生命周期的学者来说，爬虫的本质就更简略了。爬虫的本质便是模仿浏览器翻开网页，获取网页中咱们想要的那部分数据。
浏览器翻开网页的过程：
1、在浏览器的输入地址栏，输入想要拜访的网址。
2、经过DNS服务器找到服务器主机，向服务器发送一个请求
3、服务器经过解析处理后返回给用户成果（包含html，js，css文件等等内容）
4、浏览器接收到成果，进行解说经过浏览器屏幕呈现给用户成果
上面咱们说了爬虫的本质便是模仿浏览器主意向服务器发送请求，获取、处理并解析成果的主动化程序。
爬虫的关键点：模仿请求，解析处理，主动化。

python爬虫框架

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规矩，自动地抓取万维网信息的程序或者脚本。下面我们一起来了解一下。
1.Scrapy
Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用结构。能够应用在包括数据发掘，信息处理或存储历史数据等一系列的程序中。。用这个结构能够轻松爬下来如亚马逊商品信息之类的数据。
项目地址：https://scrapy.org/
2.PySpider
pyspider是一个用python完成的功用强大的网络爬虫系统，能在浏览器界面上进行脚本的编写，功用的调度和爬取结果的实时查看，后端运用常用的数据库进行爬取结果的存储，还能定时设置使命与使命优先级等。
项目地址：https://github.com/binux/pyspider
3.Crawley
Crawley能够高速爬取对应网站的内容，支撑联系和非联系数据库，数据能够导出为JSON、XML等。
项目地址：http://project.crawley-cloud.com/
4.Portia
Portia是一个开源可视化爬虫东西，可让您在不需要任何编程常识的情况下爬取网站！简单地注释您感兴趣的页面，Portia将创建一个蜘蛛来从类似的页面提取数据。
项目地址：https://github.com/scrapinghub/portia
5.Newspaper
Newspaper能够用来提取新闻、文章和内容分析。运用多线程，支撑10多种语言等。
项目地址：https://github.com/codelucas/newspaper
6.BeautifulSoup
BeautifulSoup是一个能够从HTML或XML文件中提取数据的Python库.它能够经过你喜爱的转换器完成惯用的文档导航,查找,修改文档的方法.BeautifulSoup会帮你节省数小时乃至数天的工作时间。
项目地址：https://www.crummy.com/software/BeautifulSoup/bs4/doc/
7.Grab
Grab是一个用于构建Web刮板的Python结构。借助Grab，您能够构建各种杂乱的网页抓取东西，从简单的5行脚本到处理数百万个网页的杂乱异步网站抓取东西。Grab供给一个API用于履行网络请求和处理接收到的内容，例如与HTML文档的DOM树进行交互。
项目地址：http://docs.grablib.org/en/latest/#grab-spider-user-manual
8.Cola
Cola是一个分布式的爬虫结构，关于用户来说，只需编写几个特定的函数，而无需重视分布式运转的细节。使命会自动分配到多台机器上，整个过程对用户是透明的。