志在指尖
用双手敲打未来

python爬虫的原理(Python爬虫的应用场景)

python爬虫的原理

爬虫的基本原理是模拟浏览器发送和接纳这个数据,但浏览器怎样发送和接纳这个数据呢?
2.1HTTP简介
HTTP协议(HyperTextTransferProtocol,超文本传输协议)意图是为了供给一种发布和接纳HTML(HyperTextMarkupLanguage)页面的办法。
HTTP是基于TCP协议之上的。在TCP/IP协议参阅模型的各层对应的协议如下图,其间HTTP是应用层的协议。默认HTTP的端口号为80,HTTPS的端口号为443。
2.2HTTP作业进程
一次HTTP操作称为一个业务,其作业整个进程如下:
1)地址解析
如用客户端浏览器恳求这个页面:http://localhost.com:8080/index.htm
从中分解出协议名、主机名、端口、对象途径等部分,关于我们的这个地址,解析得到的结果如下:
协议名:http
主机名:localhost.com
端口:8080
对象途径:/index.htm
在这一步,需要域名体系DNS解析域名localhost.com,得主机的IP地址。python爬虫
2)封装HTTP恳求数据包
把以上部分结合本机自己的信息,封装成一个HTTP恳求数据包
3)封装成TCP包,树立TCP衔接(TCP的三次握手)
在HTTP作业开端之前,客户机(Web浏览器)首先要经过网络与服务器树立衔接,该衔接是经过TCP来完成的,该协议与IP协议共同构建Internet,即著名的TCP/IP协议族,因此Internet又被称作是TCP/IP网络。
HTTP是比TCP更高层次的应用层协议,根据规则,只有低层协议树立之后才能,才能进行更层协议的衔接,因此,首先要树立TCP衔接,一般TCP衔接的端口号是80。这里是8080端口
4)客户机发送恳求命令
树立衔接后,客户机发送一个恳求给服务器,恳求方式的格局为:一致资源标识符(URL)、协议版本号,后边是MIME信息包含恳求修饰符、客户机信息和可内容。
5)服务器响应
服务器接到恳求后,给予相应的响应信息,其格局为一个状况行,包含信息的协议版本号、一个成功或错误的代码,后边是MIME信息包含服务器信息、实体信息和可能的内容。
实体消息是服务器向浏览器发送头信息后,它会发送一个空白行来表明头信息的发送到此为完毕,接着,它就以Content-Type应答头信息所描述的格局发送用户所恳求的实际数据
6)服务器封闭TCP衔接
一般情况下,一旦Web服务器向浏览器发送了恳求数据,它就要封闭TCP衔接,然后如果浏览器或者服务器在其头信息加入了这行代码
Connection:keep-alive
TCP衔接在发送后将仍然坚持翻开状况,所以,浏览器可以持续经过相同的衔接发送恳求。坚持衔接节省了为每个恳求树立新衔接所需的时间,还节省了网络带宽。

Python爬虫的应用场景

1、搜集数据
python爬虫程序可用于搜集数据。这也是最直接和最常用的方法。因为爬虫程序是一个程序,程序运行得非常快,不会因为重复的事情而感到疲倦,因此运用爬虫程序获取很多数据变得非常简略和快速。
因为99%以上的网站是根据模板开发的,运用模板能够快速生成很多布局相同、内容不同的页面。因此,只要为一个页面开发了爬虫程序,爬虫程序也能够对根据同一模板生成的不同页面进行爬取内容。
2、爬虫调研
比如要调研一家电商公司,想知道他们的产品销售状况。这家公司宣称每月销售额达数亿元。假如你运用爬虫来抓取公司网站上所有产品的销售状况,那么你就能够计算出公司的实践总销售额。此外,假如你抓取所有的谈论并对其进行分析,你还能够发现网站是否呈现了刷单的状况。数据是不会说谎的,特别是海量的数据,人工造假总是会与自然发生的不同。过去,用很多的数据来搜集数据是非常困难的,但是现在在爬虫的协助下,许多诈骗行为会赤裸裸地暴露在阳光下。python爬虫1
3、刷流量和秒杀
刷流量是python爬虫的自带的功能。当一个爬虫拜访一个网站时,假如爬虫躲藏得很好,网站无法识别拜访来自爬虫,那么它将被视为正常拜访。成果,爬虫“不小心”刷了网站的流量。
除了刷流量外,还能够参与各种秒杀活动,包括但不限于在各种电商网站上抢产品,优惠券,抢机票和火车票。目前,网络上很多人专门运用爬虫来参与各种活动并从中挣钱。这种行为一般称为“薅羊毛”,这种人被称为“羊毛党”。不过运用爬虫来“薅羊毛”进行盈余的行为实践上游走在法令的灰色地带,希望大家不要测验。

未经允许不得转载:IT技术网站 » python爬虫的原理(Python爬虫的应用场景)
分享到: 更多 (0)

评论 抢沙发

评论前必须登录!

 

志在指尖 用双手敲打未来

登录/注册IT技术大全

热门IT技术

C#基础入门   SQL server数据库   系统SEO学习教程   WordPress小技巧   WordPress插件   脚本与源码下载