数据采集技术—Python网络爬虫项目化教程_行业百科

数据采集技术—Python网络爬虫项目化教程内容简介

网络爬虫就是一组能自动从网站的相关网页中搜索与提取数据的程序，这些数据是进一步实现数据分析的关键与前提。Python语言程序简单高效，编写网络爬虫有特别的优势，尤其业界有专门为Python编写的各种各样的爬虫程序框架，使得Python编写爬虫程序更加简单高效。

本书主要分成4个项目，项目1以爬取学生信息的项目为依托，讲解Python的Web访问技术，它是爬虫程序的基础。项目2以爬取城市天气预报项目为依托，讲解BeautifulSoup网页数据的爬取方法。项目3以爬取网络图像项目为依托，讲解网页的深度优先与广度优先顺序爬取路径的构造方法与多线程分布式网页爬取技术。项目4以爬取网站的图书信息项目为依托，讲解目前功能强大的分布式爬取框架Scrapy的程序设计技术。每个部分都遵循由浅入深的学习规律，理论与实践相结合，提高学生的实践能力。

本书为新形态一体化教材，配有丰富的教学资源，包括微课、教学大纲、课程标准、教学课件、案例源码、课后习题及习题答案等。本书同时配套建设了在线开放课程，学习者可登录智慧职教MOOC学院平台，在“Python程序设计”页面进行学习。本书可作为计算机软件技术专业、大数据技术应用专业及其他专业的专业教材，也可作为数据采集技术学习者的自学参考书^[1] 。

数据采集技术—Python网络爬虫项目化教程教材目录

前辅文

项目1爬取学生信息

1.1爬虫程序开发环境

1.1.1爬虫程序简介

1.1.2Python开发环境搭建

1.2FlaskWeb网站

1.2.1Flask简介

1.2.2Urllib程序包访问Web网站

1.3GET方法访问网站

1.3.1客户端GET方式发送数据

1.3.2服务器获取GET发送的数据

1.4POST方法向网站发送数据

1.4.1客户端POST发送数据

1.4.2服务器获取POST的数据

1.4.3GET与POST的混合使用

1.5Web下载文件

1.5.1服务器程序

1.5.2客户端程序

1.6Web上传文件

1.6.1上传二进制数据

1.6.2服务器程序

1.6.3客户端程序

1.7Web学生管理程序

1.7.1定义通讯协议

1.7.2服务器程序

1.7.3客户端程序

1.8正则表达式

1.8.1正则表达式规则

1.8.2查找匹配字符串

1.9实践项目—爬取学生信息

1.9.1项目简介

1.9.2服务器程序

1.9.3客户端程序

练习一

项目2爬取天气预报数据

2.1HTML文档结构与文档树

2.1.1HTML文档结构

2.1.2HTML文档树

2.2BeautifulSoup装载HTML文档

2.2.1BeautifulSoup的安装

2.2.2BeautifulSoup装载HTML文档

2.3BeautifulSoup查找文档元素

2.3.1查找HTML元素

2.3.2获取元素的属性值

2.3.3获取元素包含的文本值

2.3.4高级查找

2.4BeautifulSoup遍历文档元素

2.4.1获取元素结点的父结点

2.4.2获取元素结点的直接子元素结点

2.4.3获取元素结点的所有子孙元素结点

2.4.4获取元素结点的兄弟结点

2.5BeautifulSoup使用CSS语法查找元素

2.5.1使用CSS语法

2.5.2属性的语法规则

2.5.3Select查找子孙结点

2.5.4Select查找直接子结点

2.5.5Select查找兄弟结点

2.6实践项目—爬取天气预报数据

2.6.1项目简介

2.6.2HTML代码分析

2.6.3爬取天气预报数据

2.6.4爬取与存储天气预报数据

练习二

项目3爬取网站图像文件

3.1网站树的爬取路径

3.1.1Web服务器网站

3.1.2递归程序爬取数据

3.1.3深度优先爬取数据

3.1.4广度优先爬取数据

3.2网站图的爬取路径

3.2.1复杂的Web网站

3.2.2改进深度优先客户端程序

3.2.3改进广度优先客户端程序

3.3Python实现多线程

3.3.1Python的前后台线程

3.3.2线程的等待

3.3.3多线程与资源

3.4爬取网站复杂数据

3.4.1Web服务器网站

3.4.2爬取网站的复杂数据

3.4.3爬取程序的改进

3.5实践项目——爬取网站的图像文件

3.5.1项目简介

3.5.2单线程爬取图像的程序

3.5.3多线程爬取图像的程序

练习三

项目4爬取网站图书数据

4.1Scrapy框架爬虫简介

4.1.1安装Scrapy框架

4.1.2建立Scrapy项目

4.1.3入口函数与入口地址

4.1.4Python的yield语句

4.2Scrapy中查找HTML元素

4.2.1Scrapy的Xpath简介

4.2.2Xpath查找HTML元素

4.3Scrapy爬取与存储数据

4.3.1建立Web网站

4.3.2编写数据项目类

4.3.3编写爬虫程序MySpider

4.3.4编写数据管道处理类

4.3.5设置Scrapy的配置文件

4.4Scrapy爬取网站数据

4.4.1建立Web网站

4.4.2编写Scrapy爬虫程序

4.5实践项目—爬取当当网站图书数据

4.5.1网站图书数据分析

4.5.2网站图书数据提取

4.5.3网站图书数据爬取

练习四

结语

参考文献^[1]

参考资料

相关搜索relevant search

相关产品RElATED PRODUCTS