python爬虫(python爬虫是什么)-IT技术网站

python爬虫

爬虫：一段主动抓取互联网信息的程序，从互联网上抓取关于咱们有价值的信息
二、Python爬虫架构
Python爬虫架构首要由五个部分组成，分别是调度器、URL管理器、网页下载器、网页解析器、应用程序（爬取的有价值数据）。
调度器：相当于一台电脑的CPU，首要担任调度URL管理器、下载器、解析器之间的协调工作。
URL管理器：包括待爬取的URL地址和已爬取的URL地址，避免重复抓取URL和循环抓取URL，完成URL管理器首要用三种方法，经过内存、数据库、缓存数据库来完成。
网页下载器：经过传入一个URL地址来下载网页，将网页转换成一个字符串，网页下载器有urllib2（Python官方根底模块）包括需求登录、代理、和cookie，requests(第三方包)
网页解析器：将一个网页字符串进行解析，能够依照咱们的要求来提取出咱们有用的信息，也能够根据DOM树的解析方法来解析。网页解析器有正则表达式（直观，将网页转成字符串经过含糊匹配的方法来提取有价值的信息，当文档比较复杂的时候，该方法提取数据的时候就会非常的困难）、html.parser（Python自带的）、beautifulsoup（第三方插件，能够运用Python自带的html.parser进行解析，也能够运用lxml进行解析，相关于其他几种来说要强大一些）、lxml（第三方插件，能够解析xml和HTML），html.parser和beautifulsoup以及lxml都是以DOM树的方法进行解析的。

python爬虫是什么

简略来说互联网是由一个个站点和网络设备组成的大网，咱们经过浏览器拜访站点，站点把HTML、JS、CSS代码回来给浏览器，这些代码经过浏览器解析、烘托，将五光十色的网页出现咱们眼前；
一、爬虫是什么？
假如咱们把互联网比作一张大的蜘蛛网，数据便是寄存于蜘蛛网的各个节点，而爬虫便是一只小蜘蛛，
沿着网络抓取自己的猎物（数据）爬虫指的是：向网站建议恳求，获取资源后剖析并提取有用数据的程序；
从技能层面来说便是经进程序模仿浏览器恳求站点的行为，把站点回来的HTML代码/JSON数据/二进制数据（图片、视频）爬到本地，进而提取自己需求的数据，寄存起来运用；
二、爬虫的根本流程：
用户获取网络数据的方法：
方法1：浏览器提交恳求—>下载网页代码—>解析成页面
方法2：模仿浏览器发送恳求(获取网页代码)->提取有用的数据->寄存于数据库或文件中
爬虫要做的便是方法2；
1122865-20171109155753419-1411600537.png
1、建议恳求
运用http库向目标站点建议恳求，即发送一个Request
Request包括：恳求头、恳求体等
Request模块缺陷：不能履行JS和CSS代码
2、获取呼应内容
假如服务器能正常呼应，则会得到一个Response
Response包括：html，json，图片，视频等
3、解析内容
解析html数据：正则表达式（RE模块），第三方解析库如Beautifulsoup，pyquery等
解析json数据：json模块
解析二进制数据:以wb的方法写入文件
4、保存数据
数据库（MySQL，Mongdb、Redis）
文件
三、http协议恳求与呼应
1122865-20171109162243872-1491006257.png
Request：用户将自己的信息经过浏览器（socketclient）发送给服务器（socketserver）
Response：服务器接纳恳求，剖析用户发来的恳求信息，然后回来数据（回来的数据中或许包括其他链接，如：图片，js，css等）
ps：浏览器在接纳Response后，会解析其内容来显示给用户，而爬虫程序在模仿浏览器发送恳求然后接纳Response后，是要提取其中的有用数据。
四、request
1、恳求方法：
常见的恳求方法：GET/POST
2、恳求的URL
url全球统一资源定位符，用来界说互联网上一个仅有的资源例如：一张图片、一个文件、一段视频都能够用url仅有确定
url编码
https://www.baidu.com/s?wd=图片
图片会被编码（看示例代码）
网页的加载进程是：
加载一个网页，通常都是先加载document文档，
在解析document文档的时候，遇到链接，则针对超链接建议下载图片的恳求
3、恳求头
User-agent：恳求头中假如没有user-agent客户端装备，服务端或许将你作为一个非法用户host；
cookies：cookie用来保存登录信息
留意：一般做爬虫都会加上恳求头
1122865-20171109164328044-1812809779.png
1122865-20171109165932544-1148817400.png
1122865-20171109165421872-1350037263.png
恳求头需求留意的参数：
（1）Referrer：拜访源至哪里来（一些大型网站，会经过Referrer做防盗链策略；所有爬虫也要留意模仿）
（2）User-Agent:拜访的浏览器（要加上否则会被当成爬虫程序）
（3）cookie：恳求头留意带着
4、恳求体
恳求体
假如是get方法，恳求体没有内容（get恳求的恳求体放在url后边参数中，直接能看到）
假如是post方法，恳求体是formatdata
ps：
1、登录窗口，文件上传等，信息都会被附加到恳求体内
2、登录，输入过错的用户名暗码，然后提交，就能够看到post，正确登录后页面通常会跳转，无法捕捉到post
五、呼应Response
1、呼应状态码
200：代表成功
301：代表跳转
404：文件不存在
403：无权限拜访
502：服务器过错
2、responeheader
呼应头需求留意的参数：
（1）Set-Cookie:BDSVRTM=0;path=/：或许有多个，是来告知浏览器，把cookie保存下来
（2）Content-Location：服务端呼应头中包括Location回来浏览器之后，浏览器就会从头拜访另一个页面
3、preview便是网页源代码
JSO数据
如网页html，图片
二进制数据等
六、总结
1、总结爬虫流程：
爬取—>解析—>存储
2、爬虫所需工具：
恳求库：requests,selenium（能够驱动浏览器解析烘托CSS和JS，但有性能下风（有用没用的网页都会加载）；）
解析库：正则，beautifulsoup，pyquery
存储库：文件，MySQL，Mongodb，Redis
3、爬获校花网
最后送给我们点福利吧
1122865-20171109204929981-337261501.png
根底版：
ContractedBlock.gifViewCode
函数封装版
ContractedBlock.gifViewCode
并发版（假如总共需求爬30个视频，开30个线程去做，花的时间便是其中最慢那份的耗时时间）
ContractedBlock.gifViewCode
触及常识：多线程多进程
计算密集型使命：运用多进程，因为能Python有GIL，多进程能够利用上CPU多核优势；
IO密集型使命：运用多线程，做IO切换节省使命履行时间（并发）