志在指尖
用双手敲打未来

python爬虫教程(python爬虫万能代码实战案例)

python爬虫教程

从实战出发,适合初学者。读者只需在阅读过程紧跟文章思路,理清相应的实现代码,30分钟即可学会编写简单的Python爬虫。
这篇Python爬虫教程主要讲解以下5部分内容:
了解网页;
使用requests库抓取网站数据;
使用BeautifulSoup解析网页;
清洗和组织数据;
爬虫攻防战;
今天给大家讲第一课了解网页;
以中国旅游网首页为例,抓取中国旅游网首页首条信息(标题和链接),数据以明文的形式出面在源码中。在中国旅游网首页,按快捷键【Ctrl+U】打开源码页面,如图1所示。
图1中国旅游网首页源码
认识网页结构
网页一般由三部分组成,分别是HTML(超文本标记语言)、CSS(层叠样式表)和JScript(活动脚本语言)。
HTML
HTML是整个网页的结构,相当于整个网站的框架。带“<”、“>”符号的都是属于HTML的标签,并且标签都是成对出现的。
常见的标签如下:
CSS
CSS
表示样式,图1中第13行<styletype="text/css">表示下面引用一个CSS,在CSS中定义了外观。
JScript
JScript表示功能。交互的内容和各种特效都在JScript中,JScript描述了网站中的各种功能。
如果用人体来比喻,HTML是人的骨架,并且定义了人的嘴巴、眼睛、耳朵等要长在哪里。CSS是人的外观细节,如嘴巴长什么样子,眼睛是双眼皮还是单眼皮,是大眼睛还是小眼睛,皮肤是黑色的还是白色的等。JScript表示人的技能,例如跳舞、唱歌或者演奏乐器等。
写一个简单的HTML
通过编写和修改HTML,可以更好地理解HTML。首先打开一个记事本,然后输入下面的内容:
输入代码后,保存记事本,然后修改文件名和后缀名为”HTML.html”;
运行该文件后的效果,如图2所示。
这段代码只是用到了HTML,读者可以自行修改代码中的中文,然后观察其变化。
关于爬虫的合法性
几乎每一个网站都有一个名为robots.txt的文档,当然也有部分网站没有设定robots.txt。对于没有设定robots.txt的网站可以通过网络爬虫获取没有口令加密的数据,也就是该网站所有页面数据都可以爬取。如果网站有robots.txt文档,就要判断是否有禁止访客获取的数据。
以淘宝网为例,在浏览器中访问https://zhuanlan.zhihu.com/p/110291248,如图3所示。
允许部分爬虫访问它的部分路径,而对于没有得到允许的用户,则全部禁止爬取,代码如下:
这一句代码的意思是除前面指定的爬虫外,不允许其他爬虫爬取任何数据。
使用requests库请求网站
安装requests库
首先在PyCharm中安装requests库,为此打开PyCharm,单击“File”(文件)菜单,选择“SettingforNewProjects…”命令,如图4所示。
选择“ProjectInterpreter”(项目编译器)命令,确认当前选择的编译器,然后单击右上角的加号,如图5所示。
在搜索框输入:requests(注意,一定要输入完整,不然容易出错),然后单击左下角的“InstallPackage”(安装库)按钮。如图6所示:
安装完成后,会在InstallPackage上显示“Package‘requests’installedsuccessfully”(库的请求已成功安装),如图7所示;如果安装不成功将会显示提示信息。python

python爬虫万能代码实战案例

女朋友看了都能学会的爬虫教育
自己时断时续学习操练了两三年python爬虫,从网上看了很多教程,跟大神们学习了各种神奇的操作,现在尽管没成为大神,可是想通过这篇教程来分享自己学习的爬虫实战事例。
通过本教程,你将学会如何用Python爬虫从网络上爬取你想要的电影下载资源。本事例以00电影网为例进行爬取,当然你能够修正代码爬取你想要的任何内容。
假如你是零根底,请从头阅览,假如你有些根底,能够挑选部分阅览。
第一章你需求的环境和软件
python3.5
既然咱们是python爬虫,那必然需求python了。我用的是3.5.3版别
官方下载链接点这个链接并下拉翻到图中方位
点击红框里的链接进行下载,假如你是64位体系就点第一个,假如你是32位体系就点第二个
下载完成后是一个.exe文件,双击运行,开端装置,一路下一步就能够了,这儿我没法一步步演示,假如遇到问题能够留言保证第一时间回答(我也从小白一路走过来,能体会遇到问题时的心境)
pycharmcommunity2017
这个呢是一个代码编辑器,能够大大提高编程功率
同样是去官网下载,并且community版别是免费的,完全够用
官网下载地址点进去之后如图所示
确保你挑选了红框的方位,然后点击download就能够下载了
下载完成后双击翻开装置程序,依然是一向点下一步就好了,当然也有一些自定义选项你能够自己挑选
环境配置
到这儿咱们的软件就装置好了
接下来便是环境配置,这一步的目的是让pycharm和python配合
首要,为了完成爬虫程序,咱们需求给python装置一些工具包,操作非常简略
在开端菜单查找cmd并回车,翻开终端命令行窗口
手动输入pip3install————–并回车
本文事例中需求两个库装置如下
pip3installrequests
pip3installBeautifulsoup4这两句要分别运行,等一句装置成功了再运行另一句
然后等待装置,成功后会提示下图字样
第二章开端写python爬虫
问题分析
在做任何爬虫之前,咱们都要先了解你爬取的网站的源码,根据源码来找到你想爬取的内容在什么方位
那么首要咱们来看看方针网站的页面源码方针网站,点击这个网址翻开网页,然后按F12键翻开开发者形式,如图所示
图中,中心靠右侧的赤色框里便是咱们首要查看的内容,你要从这儿面的代码中找到你想要的内容才能够进行爬取。
这儿,咱们的方针是查找电影资源并保存下来。能够看到,网页中心有一个查找框,输入电影名字点击查找之后,会跳出查找成果的页面,然后点击查找成果就进入了该电影的详情页,并且有下载链接,如图所示
这儿咱们查找的是霸王别姬。
由上述进程,能够明确咱们要写一个Python爬虫程序,让爬虫来代替咱们去查找和获取电影的下载链接,这便是咱们接下来编程的指导思想,告知你的程序让他去做什么。
总结一下,咱们的爬虫要做下面这几件事情:
1、翻开方针网页
2、找到查找框
3、提交查找电影名并翻开查找成果页面
4、进入查找电影详情页
5、找到下载链接方位并把一切链接保存到本地电脑上
编程完成爬虫
1、翻开方针网页
翻开pycharm左上角菜单栏以此点击file–>newproject
在弹出的对话框中,设置项目途径,这儿命名为spider,然后点击create
稍等几秒项目就建立完成了,这时候在左面资源管理器栏会出现spider项目文件夹,在spider上面右键–>new–>Pythonfile来创建一个python程序脚本文件,命名为spider
然后就能够开端教咱们的爬虫做事了

未经允许不得转载:IT技术网站 » python爬虫教程(python爬虫万能代码实战案例)
分享到: 更多 (0)

评论 抢沙发

评论前必须登录!

 

志在指尖 用双手敲打未来

登录/注册IT技术大全

热门IT技术

C#基础入门   SQL server数据库   系统SEO学习教程   WordPress小技巧   WordPress插件   脚本与源码下载