志在指尖
用双手敲打未来

python爬虫(python爬虫是什么)

python爬虫

爬虫:一段主动抓取互联网信息的程序,从互联网上抓取关于咱们有价值的信息
二、Python爬虫架构
Python爬虫架构首要由五个部分组成,分别是调度器、URL管理器、网页下载器、网页解析器、应用程序(爬取的有价值数据)。
调度器:相当于一台电脑的CPU,首要担任调度URL管理器、下载器、解析器之间的协调工作。
URL管理器:包括待爬取的URL地址和已爬取的URL地址,避免重复抓取URL和循环抓取URL,完成URL管理器首要用三种方法,经过内存、数据库、缓存数据库来完成。
网页下载器:经过传入一个URL地址来下载网页,将网页转换成一个字符串,网页下载器有urllib2(Python官方根底模块)包括需求登录、代理、和cookie,requests(第三方包)
网页解析器:将一个网页字符串进行解析,能够依照咱们的要求来提取出咱们有用的信息,也能够根据DOM树的解析方法来解析。网页解析器有正则表达式(直观,将网页转成字符串经过含糊匹配的方法来提取有价值的信息,当文档比较复杂的时候,该方法提取数据的时候就会非常的困难)、html.parser(Python自带的)、beautifulsoup(第三方插件,能够运用Python自带的html.parser进行解析,也能够运用lxml进行解析,相关于其他几种来说要强大一些)、lxml(第三方插件,能够解析xml和HTML),html.parser和beautifulsoup以及lxml都是以DOM树的方法进行解析的。python

python爬虫是什么

简略来说互联网是由一个个站点和网络设备组成的大网,咱们经过浏览器拜访站点,站点把HTML、JS、CSS代码回来给浏览器,这些代码经过浏览器解析、烘托,将五光十色的网页出现咱们眼前;
一、爬虫是什么?
假如咱们把互联网比作一张大的蜘蛛网,数据便是寄存于蜘蛛网的各个节点,而爬虫便是一只小蜘蛛,
沿着网络抓取自己的猎物(数据)爬虫指的是:向网站建议恳求,获取资源后剖析并提取有用数据的程序;
从技能层面来说便是经进程序模仿浏览器恳求站点的行为,把站点回来的HTML代码/JSON数据/二进制数据(图片、视频)爬到本地,进而提取自己需求的数据,寄存起来运用;
二、爬虫的根本流程:
用户获取网络数据的方法:
方法1:浏览器提交恳求—>下载网页代码—>解析成页面
方法2:模仿浏览器发送恳求(获取网页代码)->提取有用的数据->寄存于数据库或文件中
爬虫要做的便是方法2;
1122865-20171109155753419-1411600537.png
1、建议恳求
运用http库向目标站点建议恳求,即发送一个Request
Request包括:恳求头、恳求体等
Request模块缺陷:不能履行JS和CSS代码
2、获取呼应内容
假如服务器能正常呼应,则会得到一个Response
Response包括:html,json,图片,视频等
3、解析内容
解析html数据:正则表达式(RE模块),第三方解析库如Beautifulsoup,pyquery等
解析json数据:json模块
解析二进制数据:以wb的方法写入文件
4、保存数据
数据库(MySQL,Mongdb、Redis)
文件
三、http协议恳求与呼应
1122865-20171109162243872-1491006257.png
Request:用户将自己的信息经过浏览器(socketclient)发送给服务器(socketserver)
Response:服务器接纳恳求,剖析用户发来的恳求信息,然后回来数据(回来的数据中或许包括其他链接,如:图片,js,css等)
ps:浏览器在接纳Response后,会解析其内容来显示给用户,而爬虫程序在模仿浏览器发送恳求然后接纳Response后,是要提取其中的有用数据。
四、request
1、恳求方法:
常见的恳求方法:GET/POST
2、恳求的URL
url全球统一资源定位符,用来界说互联网上一个仅有的资源例如:一张图片、一个文件、一段视频都能够用url仅有确定
url编码
https://www.baidu.com/s?wd=图片
图片会被编码(看示例代码)
网页的加载进程是:
加载一个网页,通常都是先加载document文档,
在解析document文档的时候,遇到链接,则针对超链接建议下载图片的恳求
3、恳求头
User-agent:恳求头中假如没有user-agent客户端装备,服务端或许将你作为一个非法用户host;
cookies:cookie用来保存登录信息
留意:一般做爬虫都会加上恳求头
1122865-20171109164328044-1812809779.png
1122865-20171109165932544-1148817400.png
1122865-20171109165421872-1350037263.png
恳求头需求留意的参数:
(1)Referrer:拜访源至哪里来(一些大型网站,会经过Referrer做防盗链策略;所有爬虫也要留意模仿)
(2)User-Agent:拜访的浏览器(要加上否则会被当成爬虫程序)
(3)cookie:恳求头留意带着
4、恳求体
恳求体
假如是get方法,恳求体没有内容(get恳求的恳求体放在url后边参数中,直接能看到)
假如是post方法,恳求体是formatdata
ps:
1、登录窗口,文件上传等,信息都会被附加到恳求体内
2、登录,输入过错的用户名暗码,然后提交,就能够看到post,正确登录后页面通常会跳转,无法捕捉到post
五、呼应Response
1、呼应状态码
200:代表成功
301:代表跳转
404:文件不存在
403:无权限拜访
502:服务器过错
2、responeheader
呼应头需求留意的参数:
(1)Set-Cookie:BDSVRTM=0;path=/:或许有多个,是来告知浏览器,把cookie保存下来
(2)Content-Location:服务端呼应头中包括Location回来浏览器之后,浏览器就会从头拜访另一个页面
3、preview便是网页源代码
JSO数据
如网页html,图片
二进制数据等
六、总结
1、总结爬虫流程:
爬取—>解析—>存储
2、爬虫所需工具:
恳求库:requests,selenium(能够驱动浏览器解析烘托CSS和JS,但有性能下风(有用没用的网页都会加载);)
解析库:正则,beautifulsoup,pyquery
存储库:文件,MySQL,Mongodb,Redis
3、爬获校花网
最后送给我们点福利吧
1122865-20171109204929981-337261501.png
根底版:
ContractedBlock.gifViewCode
函数封装版
ContractedBlock.gifViewCode
并发版(假如总共需求爬30个视频,开30个线程去做,花的时间便是其中最慢那份的耗时时间)
ContractedBlock.gifViewCode
触及常识:多线程多进程
计算密集型使命:运用多进程,因为能Python有GIL,多进程能够利用上CPU多核优势;
IO密集型使命:运用多线程,做IO切换节省使命履行时间(并发)

未经允许不得转载:IT技术网站 » python爬虫(python爬虫是什么)
分享到: 更多 (0)

评论 抢沙发

评论前必须登录!

 

志在指尖 用双手敲打未来

登录/注册IT技术大全

热门IT技术

C#基础入门   SQL server数据库   系统SEO学习教程   WordPress小技巧   WordPress插件   脚本与源码下载