志在指尖
用双手敲打未来

python爬虫(python爬虫经典例子)

python爬虫

网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照必定的规矩,自动地抓取万维网信息的程序或许脚本。别的一些不常运用的姓名还有蚂蚁、自动索引、模拟程序或许蠕虫。
浅显地讲,咱们把互联网比作一张大蜘蛛网,每个站点资源比作蜘蛛网上的一个结点,爬虫就像一只蜘蛛,按照设计好的道路和规矩在这张蜘蛛网上找到目标结点,获取资源。
为什么运用爬虫
为什么咱们需求运用爬虫呢?
咱们能够幻想一下一个场景:你非常崇拜一个微博名人,对他的微博非常入神,你想把他十年来微博上的每一句话摘抄下来,制作成名人语录。这个时分你怎么办呢?手动去Ctrl+C和Ctrl+V吗?这种办法的确没错,数据量小的时分咱们还能够这样做,但是数据不计其数的时分你还要这样做吗?
咱们再来幻想另一个场景:你要做一个新闻聚合网站,每天需求守时去几个新闻网站获取最新的新闻,咱们称之为RSS订阅。难道你会守时去各个订阅网站复制新闻吗?恐怕个人很难做到这一点吧。
上面两种场景,运用爬虫技术能够很轻易地解决问题。所以,咱们能够看到,爬虫技术首要能够帮助咱们做两类工作:一类是数据获取需求,首要针对特定规矩下的大数据量的信息获取;另一类是自动化需求,首要应用在相似信息聚合、查找等方面。python爬虫
爬虫的分类
从爬取对象来看,爬虫能够分为通用爬虫和聚集爬虫两类。
通用网络爬虫又称全网爬虫(ScalableWebCrawler),匍匐对象从一些种子URL扩充到整个Web,首要为查找引擎和大型Web服务提供商收集数据。这类网络爬虫的爬取规模和数量巨大,关于匍匐速度和存储空间要求较高,关于匍匐页面的次序要求相对较低。例如咱们常见的百度和谷歌查找。咱们输入关键词,它们会从全网去找关键词相关的网页,并且按照必定的次序呈现给咱们。
聚集网络爬虫(FocusedCrawler),是指挑选性地爬取那些与预先界说好的主题相关页面的网络爬虫。和通用网络爬虫比较,聚集爬虫只需求爬取特定的网页,爬取的广度会小很多。例如咱们需求爬取东方财富网的基金数据,咱们只需求针对东方财富网的页面拟定规矩爬取就行。
浅显地讲,通用爬虫就相似于一只蜘蛛,需求寻觅特定的食物,但是它不知道蜘蛛网的哪个节点有,所以它只能从一个节点开始寻觅,遇到节点就看一下,假如有食物就获取食物,假如这个节点指示某某节点有食物,那它就顺着指示去寻觅下个节点。而聚集网络爬虫就是这只蜘蛛知道哪个节点有食物,它只需求规划好道路到达那个节点就能获取到食物。

python爬虫经典例子

1.爬取强壮的BD页面,打印页面信息#第一个爬虫示例,爬取百度页面
importrequests#导入爬虫的库,否则调用不了爬虫的函数
response=requests.get(“http://www.baidu.com”)#生成一个response目标
response.encoding=response.apparent_encoding#设置编码格式
print(“状况码:”+str(response.status_code))#打印状况码
print(response.text)#输出爬取的信息
python
2.常用办法之get办法实例,下面还有传参实例#第二个get办法实例
importrequests#先导入爬虫的库,否则调用不了爬虫的函数
response=requests.get(“http://httpbin.org/get”)#get办法
print(response.status_code)#状况码
print(response.text)

3.常用办法之post办法实例,下面还有传参实例#第三个post办法实例
importrequests#先导入爬虫的库,否则调用不了爬虫的函数
response=requests.post(“http://httpbin.org/post”)#post办法访问
print(response.status_code)#状况码
print(response.text)

未经允许不得转载:IT技术网站 » python爬虫(python爬虫经典例子)
分享到: 更多 (0)

评论 抢沙发

评论前必须登录!

 

志在指尖 用双手敲打未来

登录/注册IT技术大全

热门IT技术

C#基础入门   SQL server数据库   系统SEO学习教程   WordPress小技巧   WordPress插件   脚本与源码下载