python爬虫教程(python爬虫万能代码实战案例)-IT技术网站

python爬虫教程

从实战出发，适合初学者。读者只需在阅读过程紧跟文章思路，理清相应的实现代码，30分钟即可学会编写简单的Python爬虫。
这篇Python爬虫教程主要讲解以下5部分内容：
了解网页；
使用requests库抓取网站数据；
使用BeautifulSoup解析网页；
清洗和组织数据；
爬虫攻防战；
今天给大家讲第一课了解网页；
以中国旅游网首页为例，抓取中国旅游网首页首条信息（标题和链接），数据以明文的形式出面在源码中。在中国旅游网首页，按快捷键【Ctrl+U】打开源码页面，如图1所示。
图1中国旅游网首页源码
认识网页结构
网页一般由三部分组成，分别是HTML（超文本标记语言）、CSS（层叠样式表）和JScript（活动脚本语言）。
HTML
HTML是整个网页的结构，相当于整个网站的框架。带“＜”、“＞”符号的都是属于HTML的标签，并且标签都是成对出现的。
常见的标签如下：
CSS
CSS
表示样式，图1中第13行＜styletype=＂text/css＂＞表示下面引用一个CSS，在CSS中定义了外观。
JScript
JScript表示功能。交互的内容和各种特效都在JScript中，JScript描述了网站中的各种功能。
如果用人体来比喻，HTML是人的骨架，并且定义了人的嘴巴、眼睛、耳朵等要长在哪里。CSS是人的外观细节，如嘴巴长什么样子，眼睛是双眼皮还是单眼皮，是大眼睛还是小眼睛，皮肤是黑色的还是白色的等。JScript表示人的技能，例如跳舞、唱歌或者演奏乐器等。
写一个简单的HTML
通过编写和修改HTML，可以更好地理解HTML。首先打开一个记事本，然后输入下面的内容：
输入代码后，保存记事本，然后修改文件名和后缀名为”HTML.html”；
运行该文件后的效果，如图2所示。
这段代码只是用到了HTML，读者可以自行修改代码中的中文，然后观察其变化。
关于爬虫的合法性
几乎每一个网站都有一个名为robots.txt的文档，当然也有部分网站没有设定robots.txt。对于没有设定robots.txt的网站可以通过网络爬虫获取没有口令加密的数据，也就是该网站所有页面数据都可以爬取。如果网站有robots.txt文档，就要判断是否有禁止访客获取的数据。
以淘宝网为例，在浏览器中访问https://zhuanlan.zhihu.com/p/110291248，如图3所示。
允许部分爬虫访问它的部分路径，而对于没有得到允许的用户，则全部禁止爬取，代码如下：
这一句代码的意思是除前面指定的爬虫外，不允许其他爬虫爬取任何数据。
使用requests库请求网站
安装requests库
首先在PyCharm中安装requests库，为此打开PyCharm，单击“File”（文件）菜单，选择“SettingforNewProjects…”命令，如图4所示。
选择“ProjectInterpreter”（项目编译器）命令，确认当前选择的编译器，然后单击右上角的加号，如图5所示。
在搜索框输入：requests（注意，一定要输入完整，不然容易出错），然后单击左下角的“InstallPackage”（安装库）按钮。如图6所示：
安装完成后，会在InstallPackage上显示“Package‘requests’installedsuccessfully”（库的请求已成功安装），如图7所示；如果安装不成功将会显示提示信息。

python爬虫万能代码实战案例

女朋友看了都能学会的爬虫教育
自己时断时续学习操练了两三年python爬虫，从网上看了很多教程，跟大神们学习了各种神奇的操作，现在尽管没成为大神，可是想通过这篇教程来分享自己学习的爬虫实战事例。
通过本教程，你将学会如何用Python爬虫从网络上爬取你想要的电影下载资源。本事例以00电影网为例进行爬取，当然你能够修正代码爬取你想要的任何内容。
假如你是零根底，请从头阅览，假如你有些根底，能够挑选部分阅览。
第一章你需求的环境和软件
python3.5
既然咱们是python爬虫，那必然需求python了。我用的是3.5.3版别
官方下载链接点这个链接并下拉翻到图中方位
点击红框里的链接进行下载，假如你是64位体系就点第一个，假如你是32位体系就点第二个
下载完成后是一个.exe文件，双击运行，开端装置，一路下一步就能够了，这儿我没法一步步演示，假如遇到问题能够留言保证第一时间回答（我也从小白一路走过来，能体会遇到问题时的心境）
pycharmcommunity2017
这个呢是一个代码编辑器，能够大大提高编程功率
同样是去官网下载，并且community版别是免费的，完全够用
官网下载地址点进去之后如图所示
确保你挑选了红框的方位，然后点击download就能够下载了
下载完成后双击翻开装置程序，依然是一向点下一步就好了，当然也有一些自定义选项你能够自己挑选
环境配置
到这儿咱们的软件就装置好了
接下来便是环境配置，这一步的目的是让pycharm和python配合
首要，为了完成爬虫程序，咱们需求给python装置一些工具包，操作非常简略
在开端菜单查找cmd并回车，翻开终端命令行窗口
手动输入pip3install————–并回车
本文事例中需求两个库装置如下
pip3installrequests
pip3installBeautifulsoup4这两句要分别运行，等一句装置成功了再运行另一句
然后等待装置，成功后会提示下图字样
第二章开端写python爬虫
问题分析
在做任何爬虫之前，咱们都要先了解你爬取的网站的源码，根据源码来找到你想爬取的内容在什么方位
那么首要咱们来看看方针网站的页面源码方针网站，点击这个网址翻开网页，然后按F12键翻开开发者形式，如图所示
图中，中心靠右侧的赤色框里便是咱们首要查看的内容，你要从这儿面的代码中找到你想要的内容才能够进行爬取。
这儿，咱们的方针是查找电影资源并保存下来。能够看到，网页中心有一个查找框，输入电影名字点击查找之后，会跳出查找成果的页面，然后点击查找成果就进入了该电影的详情页，并且有下载链接，如图所示
这儿咱们查找的是霸王别姬。
由上述进程，能够明确咱们要写一个Python爬虫程序，让爬虫来代替咱们去查找和获取电影的下载链接，这便是咱们接下来编程的指导思想，告知你的程序让他去做什么。
总结一下，咱们的爬虫要做下面这几件事情：
1、翻开方针网页
2、找到查找框
3、提交查找电影名并翻开查找成果页面
4、进入查找电影详情页
5、找到下载链接方位并把一切链接保存到本地电脑上
编程完成爬虫
1、翻开方针网页
翻开pycharm左上角菜单栏以此点击file–>newproject
在弹出的对话框中，设置项目途径，这儿命名为spider，然后点击create
稍等几秒项目就建立完成了，这时候在左面资源管理器栏会出现spider项目文件夹，在spider上面右键–>new–>Pythonfile来创建一个python程序脚本文件，命名为spider
然后就能够开端教咱们的爬虫做事了