资讯:蜗牛出版之《Python爬虫开发实战教程》书籍详解!
作者:强官涛   类型:学院动态    类别:资讯   日期:2020-09-16    阅读:165 次   消耗积分:0 分

“大数据”时代,网站与用户的沟通本质不再是过去的单向展示,而是变成了双方的数据交换:

  • 头条、抖音会根据用户的阅读/观看时间和点赞来推荐后期展示内容;

  • 电商网站会根据用户的搜索来记录信息,推荐与其相关的系列产品;

  • 搜索引擎会因为用户在其他平台的操作而进行相关推荐、广告嵌入;

  • 广告商们也都可以根据甲方的产品用户画像,进行精准投放了。


这一切,都是因为大数据。


20200916_112150_019.jpg


当然,想要利用好这些数据,第一步就是先要获取数据,也就是网络爬虫。


Python爬虫是目前为止,挖掘数据、采集数据最简单、最有效的方法。大到互联网中的各种搜索引擎,小到千千万万个产品下的用户评论,都可以进行数据收集。

 

Python爬虫已经成为企业和部分岗位获取信息的一种重要手段。所以今天,涛哥给大家解读的就是咱们蜗牛出版的《Python爬虫开发实战教程》这本书。


本书作者卿淳俊、邓强。


  • 卿淳俊,蜗牛学院资深讲师,蜗牛网校校长,16年IT行业工作经验。曾就职于Nokia、Tieto等知名外企,担任项目管理、高级工程师职位,负责软件测试、软件研发等工作。
    精通各类开发及测试工具、框架设计与实现,尤其擅长电商、大数据领域的项目。曾作为行业特邀专家与四川省质量技术监督局共同起草了四川省质量标准文件《移动智能终端应用软件(APP)产品通用技术要求及测试规范》。随着数据科学领域的发展,近几年在Python爬虫、数据分析、人工智能领域也积累了丰富的实战经验。

  • 邓强,蜗牛学院创始人,独立咨询顾问,资深企业内训讲师,四川大学硕士,16年软件研发及管理经验。精通各种开发和测试技术,具有丰富的项目实施经验和研发管理经验。
    曾为深圳移动,大唐软件,华夏基金,联想集团,第九城市等20余家企业提供技术咨询、项目实施及内训服务。出版技术类图书近10本,覆盖Web前端开发、Java、PHP、Python开发,以及自动化测试开发等领域。


20200916_112215_421.png


本书一共5章,以Python语言为主介绍了爬虫的基本结构、工作流程、抓包工具、模拟网络请求、网页解析、去重策略、常见反爬措施,以及大型商业爬虫框架Scrapy的应用,最后介绍了数据分析及可视化的相关基础知识。并且所有技术的学习,都会基于项目实战,以此让每一位读者都能真正的掌握技术。

 

此书可以作为高校计算机及相关专业的教材,也适用于Python程序员及具备一定Python语言基础的读者自学使用。



 



下面,涛哥通过对本书作者之一,卿淳俊老师的问题采访,来为大家详细介绍《Python爬虫开发实战教程》这本书籍,到底如何。


蜗牛小记者:写这本书花了多长时间,写书的初衷是什么?


卿淳俊老师:2019年开始撰写本书,年底基本就完稿了,后来遇到疫情,所以直到今年5月才正式出售。


写书的初衷主要有两点:

  • 一是通过写作可以对自己以前掌握的技术和项目相关的知识点,以及技术栈进行梳理总结;

  • 二是希望可以将这16年的技术经验做一个分享,帮助更多想学习爬虫的同学掌握Python爬虫技术,少走弯路,实现从入门到入行的目标。

 

蜗牛小记者:写书的过程中遇到过什么困难呢?


卿淳俊老师:因为这是我参与的第一本书,所以很多出版的要求不是很了解,都是边写边学习,加上平时工作也忙,基本上每次撰写都是在深夜完成。

 

蜗牛小记者:本书主要内容是怎么划分的呢?


卿淳俊老师:本书一共分为五个章节。


  • 第一章:静态网页爬虫。
    本章以爬虫编写的基础知识为核心,通过一系列相关知识点的讲解和练习,让读者掌握爬虫编写的核心技术原理,并且掌握爬虫编写过程中常用工具的使用方法。最后,我们将在本章结束前完成一个能够抓取静态网页信息的基础爬虫的编写,对所学的知识进行实践和加强。

  • 第二章:常见反爬措施及解决方案。
    随着大数据技术的发展,很多平台对于数据的需求越来越高。而拥有数据的平台则不甘于自己的数据被众多的网络爬虫白白爬取,所以一场“爬虫”与“反爬虫”的战争就此展开。作为一个专业的爬虫工程师,我们可能会面对互联网上众多不同网站的“反爬”措施,针对“花样百出”的反爬措施采取“反反爬”方案,最终突破“反爬”限制拿到我们需要的数据。这里面蕴含着各种技巧,也是编写爬虫最大的挑战之一。在本章的各个核心实验项目中,我们将针对现在常见的各种不同类型的反爬措施,给出相应的案例和解决方案,大家可以根据这些案例进行研究学习,逐步掌握常见的反爬技巧。

  • 第三章:自己动手编写一个简单的爬虫框架。
    通过前面的章节的学习,大家对爬虫已经有了一定的了解,并且对于常规普通的网站编写爬虫爬取数据已经不存在什么问题了。本章会带大家一起去完成一个简单的爬虫框架,通过对爬虫框架的编写,一方面可以帮助大家对爬虫的整个工作流程更加清晰,理解更加透彻;另一方面,其实所有框架的原理都是相通的,自己能够编写结构完整的简单框架后,也可以为后面学习成熟的商业爬虫框架打下比较扎实的基础,利于快速理解和掌握各种爬虫框架的使用和原理。



20200916_112318_782.jpg

20200916_112331_962.jpg



  • 第四章:Scrapy框架应用。
    通过前三章的学习,大家已经具备独立编写简单爬虫框架的能力。本章我们开始研究行业内使用率最高的爬虫框架之一——Scrapy。

  • 第五章:爬虫数据分析及可视化。
    通过爬虫拿到数据并不是我们爬取数据的最终目的。对于数据分析工作来说,拿到数据只是第一步。数据真正的价值在于数据内部包含的信息,这些信息通常是零散的、隐藏的,所以需要我们根据一定的规则,借助相关工具进行进一步的挖掘、分析、处理,才能将其内在的信息整理出来,并借助各种数据报表、文件等方式展现出来,最终实现数据的价值。
    在本章的内容中,我们将通过对常用数据分析工具的学习,了解数据分析和可视化的基本方法,完成数据处理工作。

 

蜗牛小记者:咱们这本书籍和市面上同类书籍相比有哪些技术优势呢?


卿淳俊老师:优势主要有三个方面:

  • 第一,实战驱动,条理清晰。
    全程都是以项目实战驱动,从第一章开始,每个知识点都围绕着实际的案例代码来进行编写。每章结束后,大家都可以利用本章学到的知识点完成一个实际的项目。
    比如第一章结束后,大家就可以写一个最基础的爬虫来爬取任意网站的数据了。但如果遇到一些有反爬措施的网站,就会束手无策。此时我们就需要学习一些反爬的措施,那正好第二阶段我们就会讲解一些基本的反反爬措施,帮助大家来绕过反爬。第三章则围绕着爬虫框架的编写过程,教大家编写结构更健壮的爬虫。第四章,有了之前编写框架的基础,那么如何进行效率提升,此时我们就引入了scrapy这个大型的商用爬虫框架,帮助大家进行工程化的爬虫编写。最后一章则围绕可视化给大家介绍了更多的可视化方面的内容,为大家处理分析工作打下基础。


20200916_112416_762.jpg


  • 第二,讲解通俗易懂,深入浅出。
    全书基于零基础同学的知识储备为条件进行讲解,所有新知识点都有前置知识点进行讲解,确保大家能够看得懂,学得会。

  • 第三,为了保障大家的学习效果,本书配套提供了视频录播、源码和相关PPT,这些都可以直接下载。

 

蜗牛小记者:本书学完之后,能够帮助大家在哪些技能上有所提升?


卿淳俊老师:大幅度的提升可能会体现在以下几个方面:

  • 一是对于Web网络通信方面的理解会得到提升,因为爬虫本身就是基于网络协议,在爬取内容的过程中必须对网络协议非常熟悉和了解。

  • 二是对Python编程的提升,爬虫为了提升爬取效率,实际上会综合运用到Python中的很多技术,比如多线程、异步IO、数据库等。

  • 三是对框架的理解。爬虫基本都会用到Scrapy这种大型的框架,在使用过程中我们可以学习到很多大型框架的设计思路,提升对框架设计的理解。

 

通过作者对以上几个问题的回答,我相信大家对本书已经有一个比较全面的了解啦~

 



现在送福利




想要书籍源码的小伙伴,可以在蜗牛IT教育公众号后台回复“Python爬虫源码”即可获得本书源代码。






为了答谢大家对蜗牛学院的支持,蜗牛学院将会定期对大家免费发放干货,敬请关注蜗牛学院的官方微信。

20190320_095757_834.jpg


版权所有,转载本站文章请注明出处:蜗牛学院在线课堂, http://www.woniuxy.com/note/603
上一篇: 实验:核心实验:Selenium WebDriver->其他应用(一)
下一篇: 访谈:西安校区28期Java班全员就业,平均薪资7550元!
提示:登录后添加有效评论可享受积分哦!