python爬虫(python爬虫教程)-IT技术网站

　　python爬虫

1.什么是互联网？
互联网由连接到计算机（例如网络）的网络设备（网络电缆，路由器，交换机，防火墙等）组成
2.建立互联网的目的？
互联网的核心价值在于数据的共享/传输：数据存储在一台计算机上，并且计算机之间互连的目的是为了促进彼此之间的数据共享/传输，否则只能使用USB闪存驱动器Go复制到其他人的计算机以复制数据。
3.什么是互联网访问？爬虫做什么？
我们所说的上网冲浪是指客户端计算机向目标计算机发送请求，然后将目标计算机的数据下载到本地的过程。
用户获取网络数据的方式仅仅是：
1.浏览器提交请求->下载网页代码->解析/渲染到页面中。
搜寻器程序必须做的是：
2.模拟浏览器发送请求->下载网页代码->仅提取有用数据->存储在数据库或文件中
1和2之间的区别是：我们的搜寻器程序仅提取网页代码中对我们有用的数据

python爬虫教程

　importrequests
　　frombs4importBeautifulSoup
　　#58同城的二手市场主页面
　　start_url='http://bj.58.com/sale.shtml'
　　url_host='http://bj.58.com'
　　#定义一个爬虫函数来获取二手市场页面中的全部大类页面的连接
　　defget_channel_urls(url):
　　#使用Requests库来进行一次请求
　　web_data=requests.get(url)
　　#使用BeautifulSoup对获取到的页面进行解析
　　soup=BeautifulSoup(web_data.text,'lxml')
　　#根据页面内的定位信息获取到全部大类所对应的连接
　　urls=soup.select('ul.ym-submnu>li>b>a')
　　#作这两行处理是因为有的标签有链接，但是却是空内容
　　forlinkinurls:
　　iflink.text.isspace():
　　continue
　　else:
　　page_url=url_host+link.get('href')
　　print(page_url)
　　整体思路流程
经过URL获取说要爬取的页面的呼应信息（Requests库的使用）
经过python中的解析库来对response进行结构化解析（BeautifulSoup库的使用）
经过对解析库的使用和对所需求的信息的定位从response中获取需求的数据（selecter和xpath的使用）
将数据组织成一定的格式进行保存（MongoDB的使用）
经过对数据库中的数据进行挑选和组织，进行数据可视化的开始展示（HighCharts库的使用）
准备工作
下载并装置所需求的python库，包括：
requests库：用于向指定url发起恳求
BeautifulSoup库：用于解析回来的网页信息
lxml库：用于解析网页回来结果
pymongo库：用于完成python对MongoDB的操作
对所需求的网页进行恳求并解析回来的数据
关于想要做一个简略的爬虫而言，这一步其实很简略，主要是经过requests库来进行恳求，然后对回来的数据进行一个解析，解析之后经过关于元素的定位和挑选来获取所需求的数据元素，进而获取到数据的一个进程。