python爬虫(python爬虫经典例子)-IT技术网站

python爬虫

网络爬虫（又被称为网页蜘蛛，网络机器人），是一种按照必定的规矩，自动地抓取万维网信息的程序或许脚本。别的一些不常运用的姓名还有蚂蚁、自动索引、模拟程序或许蠕虫。
浅显地讲，咱们把互联网比作一张大蜘蛛网，每个站点资源比作蜘蛛网上的一个结点，爬虫就像一只蜘蛛，按照设计好的道路和规矩在这张蜘蛛网上找到目标结点，获取资源。
为什么运用爬虫
为什么咱们需求运用爬虫呢？
咱们能够幻想一下一个场景：你非常崇拜一个微博名人，对他的微博非常入神，你想把他十年来微博上的每一句话摘抄下来，制作成名人语录。这个时分你怎么办呢？手动去Ctrl+C和Ctrl+V吗？这种办法的确没错，数据量小的时分咱们还能够这样做，但是数据不计其数的时分你还要这样做吗？
咱们再来幻想另一个场景：你要做一个新闻聚合网站，每天需求守时去几个新闻网站获取最新的新闻，咱们称之为RSS订阅。难道你会守时去各个订阅网站复制新闻吗？恐怕个人很难做到这一点吧。
上面两种场景，运用爬虫技术能够很轻易地解决问题。所以，咱们能够看到，爬虫技术首要能够帮助咱们做两类工作：一类是数据获取需求，首要针对特定规矩下的大数据量的信息获取；另一类是自动化需求，首要应用在相似信息聚合、查找等方面。
爬虫的分类
从爬取对象来看，爬虫能够分为通用爬虫和聚集爬虫两类。
通用网络爬虫又称全网爬虫（ScalableWebCrawler），匍匐对象从一些种子URL扩充到整个Web，首要为查找引擎和大型Web服务提供商收集数据。这类网络爬虫的爬取规模和数量巨大，关于匍匐速度和存储空间要求较高，关于匍匐页面的次序要求相对较低。例如咱们常见的百度和谷歌查找。咱们输入关键词，它们会从全网去找关键词相关的网页，并且按照必定的次序呈现给咱们。
聚集网络爬虫（FocusedCrawler），是指挑选性地爬取那些与预先界说好的主题相关页面的网络爬虫。和通用网络爬虫比较，聚集爬虫只需求爬取特定的网页，爬取的广度会小很多。例如咱们需求爬取东方财富网的基金数据，咱们只需求针对东方财富网的页面拟定规矩爬取就行。
浅显地讲，通用爬虫就相似于一只蜘蛛，需求寻觅特定的食物，但是它不知道蜘蛛网的哪个节点有，所以它只能从一个节点开始寻觅，遇到节点就看一下，假如有食物就获取食物，假如这个节点指示某某节点有食物，那它就顺着指示去寻觅下个节点。而聚集网络爬虫就是这只蜘蛛知道哪个节点有食物，它只需求规划好道路到达那个节点就能获取到食物。

python爬虫经典例子

1.爬取强壮的BD页面，打印页面信息#第一个爬虫示例,爬取百度页面
importrequests#导入爬虫的库，否则调用不了爬虫的函数
response=requests.get(“http://www.baidu.com”)#生成一个response目标
response.encoding=response.apparent_encoding#设置编码格式
print(“状况码:”+str(response.status_code))#打印状况码
print(response.text)#输出爬取的信息

2.常用办法之get办法实例，下面还有传参实例#第二个get办法实例
importrequests#先导入爬虫的库，否则调用不了爬虫的函数
response=requests.get(“http://httpbin.org/get”)#get办法
print(response.status_code)#状况码
print(response.text)

3.常用办法之post办法实例，下面还有传参实例#第三个post办法实例
importrequests#先导入爬虫的库，否则调用不了爬虫的函数
response=requests.post(“http://httpbin.org/post”)#post办法访问
print(response.status_code)#状况码
print(response.text)