从信息泄密谈到爬虫

04-07　网络安全来源: 未知　　

2016年8月，一位自称“Peace”的黑客声称盗取了2亿雅虎用户账户和密码，并寻求在暗网(dark web)上进行售卖。黑客所声称的2亿条信息的泄露似乎盗取自2012年，同时发生的还有MySpace（3.6亿条）和Linkedln（1亿条）两家网站的信息泄露。

有趣的是 Linkedln 的泄露事件还间接导致了扎克伯格的推特账号被黑。因为扎克伯格在两个网站都使用了同一个密码：“dadada”……

在信息化时代，数据泄露无处不在，这种风险可能来自于我们上网的每一个步骤。下面笔者将介绍一种批量获取信息的方式——爬虫。编程语言基于Python，如果对这门语言不是很熟悉可以先了解下它的语法结构。本文将对于爬虫做一个简单入门介绍。

关于爬虫

我们一直在说的爬虫究竟是个什么鬼？

网络爬虫（web crawler），是一个自动提取网页的程序，它为搜索引擎从网路上下载网页。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索。

（摘自百度百科）

简单来讲，爬虫是通过程序或者脚本获取网页上的一些文本、图片、音频的数据。

从笔者的经验来看，做一个简单的爬虫程序有以下几个步骤：确立需求、网页下载、网页分析与解析、保存。接下来大家可以跟随笔者的流程，我们来写个抓取豆瓣书籍信息的爬虫。

1、需求

以豆瓣读书为例，我们爬取豆瓣的书籍信息，需要获取的信息包括：图书名称，出版社，作者，年份，评分。

2、网页下载

页面下载分为静态和动态两种下载方式。

静态主要是纯 html 页面，动态是网页会使用 javascript 处理，并通过Ajax 异步获取的页面。在这里，我们下载的是静态页面。

在下载网页的过程中我们需要用到网络库。在 Python 中有自带的 urllib、urllib2 网络库，但是我们一般采用基于 urllib3 的第三方库Requests ，这是一个深受 Pythoner 喜爱的更为高效简洁的网络库，能满足我们目前的 web 需求。

3、网页分析与解析

1）网页分析：

选好网络库后我们需要做的是：分析我们要爬取的路径——也就是逻辑。

这个过程中我们要找到爬取的每一个入口，例如豆瓣读书的页面。已知图书标签的 url，点击每个 url 能得到图书列表，在图书列表中存放需要的图书信息，求解如何获得图书信息。

所以很简单！我们的爬取路径就是：图书标签 url —> 图书列表—>图书信息。

2）网页解析：

网页解析主要就是通过解析网页源代码获取我们需要的数据，网页解析的方式有很多种，如：正则表达式， BeautifulSoup， XPath 等等，在这里我们采用的是 XPath。Xpath 的语法很简单，是根据路径来进行定位。

举个栗子：上海的位置是地球—中国—上海，语法表达为 //地球/中国[@城市名=上海]

接下来我们需要解析网页获取到图书的 tag 标签的url。打开网页，右击选择审查元素，然后就会出现调试工具，左上角点击获取我们需要的数据，下面的调试窗口就会直接定位到其所在代码。

根据其位置，写出其 Xpath 解析式：//table[@class='tagCol']//a

这里我们看到小说在一个< table >标签下的< td >标签的< a >标签里。< table > 标签可以用 class 属性进行定位。

以下是获取 tag 的 url 的代码：

获取完了 tag ，我们还需要获取到图书的信息，下面我们对图书列表页进行解析：

解析之后代码如下：

爬取的信息内容如下：

4、数据保存

获取到了数据之后，我们可以选择把数据保存在数据库中，或者直接写在文件中。这里我们把数据保存到了 mongodb。接下来做一些统计，例如使用图表插件 echarts，将我们的统计结果展示出来。

5、爬虫相关问题

1）网站限制：

爬虫过程中可能会遇到爬不到数据了的问题，这是因为相应网站做了一些反爬的处理来进行爬取限制，比如在爬取豆瓣的时候，就遇到了 403forbidden 。怎么办？这时候可以通过一些相应的方法来解决，比如使用代理服务器，降低爬取速度等，在这里我们采用每次请求 sleep2秒。

2）URL 去重：

URL 去重是爬虫运行中一项关键的步骤，由于运行中的爬虫主要阻塞在网络交互中，因此避免重复的网络交互至关重要。爬虫一般会将待抓取的 URL 放在一个队列中，从抓取后的网页中提取到新的 URL，在他们被放入队列之前，首先要确定这些新的 URL 没有被抓取过，如果之前已经抓取过了，就不再放入队列了。

3）并发操作：

Python 中的并发操作主要涉及的模型有：多线程模型、多进程模型、协程模型。在 Python 中可以通过：threading 模块、multiprocessing 模块、gevent 库来实现多线程、多进程、或协程的并发操作。

scrapy —— 强大的爬虫框架

谈到爬虫，不得不提的是 Scrapy。Scrapy 是 Python 开发的一个快速，高层次的爬虫框架，用于抓取 web 站点并从页面中提取结构化的数据。Scrapy 用途广泛，可以用于数据挖掘、监测和自动化测试。

Scrapy 吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类，如 BaseSpider、sitemap 爬虫等。

scrapy 的架构：请点击此处输入图片描述

其中绿线是数据流向，首先从初始 URL 开始，Scheduler 会将其交给 Downloader 进行下载，下载之后会交给 Spider 进行分析，需要保存的数据则会被送到 Item Pipeline，对数据进行后期处理。

另外，在数据流动的通道里还可以安装各种中间件，进行必要的处理。因此在开发爬虫的时候，最好也先规划好各种模块。

注：

Xpath 教程：www.w3school.com.cn/xpath/index.asp

Requests官方文档：docs.python-requests.org/en/master/

更多的 Scrapy 请参考：scrapy-chs.readthedocs.io/zh_CN/latest/intro/tutorial.html

本文作者：胡宇涵（点融黑帮），就职于点融网工程部infra团队运维开发工程师。爱自然，爱生活。

本文由@点融黑帮（ID：DianrongMafia）原创发布于今日头条，未经许可，禁止转载。

上一篇：谷歌Chrome封杀赛门铁克：废止所有HTTPS凭证！

下一篇：360夺得世界黑客大赛冠军破解史上最难项目获外媒盛赞

从信息泄密谈到爬虫

相关阅读

图文最新资讯

亮黑色iPhone 7 Plus有奇怪的磨损 你见过吗

网络安全包括哪些内容

互联网时代选择更加难？

这小东西将我家所有平面变成智能界面！

要对付“勒索”病毒，国内网络公司有三个难

勒索病毒全球蔓延，“背锅侠”比特币两周涨

亮黑色iPhone 7 Plus有奇怪的磨损 你见过吗

电脑不能浏览网页怎么解决?

谷歌工程师：微软家的 Defender 表现得最像

全球ATM机将进入Windows 10时代

这小东西将我家所有平面变成智能界面！

网络安全包括哪些内容

勒索病毒全球蔓延，“背锅侠”比特币两周涨

要对付“勒索”病毒，国内网络公司有三个难

网络安全包括哪些内容

谷歌工程师：微软家的 Defender 表现得最像

2021通用大学生入党申请书

离婚纠纷强制执行申请书

国家奖学金申请报告范本

大学生预备党员转正申请书2021

初一学生入团申请书600字精选

2021事业单位辞职申请书精选

招弟们改名申请有多难

腾讯自曝员工“死亡福利”：家属可领半薪十

广电总局点名Papi酱 网红靠“大尺度”取胜

多部委发起国家级创业基金 支持行业不受限

iPhone 7最新谍照 摒弃金属的玻璃外壳

老板总拿阿里巴巴员工来比较 员工吐槽: 你

360搜索:承诺不做医疗商业推广“不是暂时的

听说当乞丐一月挣47万 16岁巴中少年偷渡迪

Google Play卸载管理器：腾出新应用安装空

七位二次创业的企业家们

伽利略的成才故事

做什么赚钱最快？农村小伙成功创业当老板

王微讲创业：愤怒的源动力与创业的时机

心态是命运的控制塔，心态决定我们人生的成

黄光裕家族新力量现身 国美系电商有点乱

马化腾 6年创业身家9亿

养成创业习性,能改变一生的6个秘密

明英宗朱祁镇

明世宗朱厚熜

明仁宗朱高炽

明穆宗朱载坖

明武宗朱厚照

明孝宗朱佑樘

明光宗朱常洛

热点推荐

新闻资讯

本周阅读排行榜

热门图文推荐

要对付“勒索”病毒，国内网络公司有三

谷歌工程师：微软家的 Defender 表现得

勒索病毒全球蔓延，“背锅侠”比特币两

网络安全包括哪些内容

图文资讯

亮黑色iPhone 7 Plus有奇怪的磨损你见过吗

亮黑色iPhone 7 Plus有奇怪的磨损你见过吗

广电总局点名Papi酱网红靠“大尺度”取胜

多部委发起国家级创业基金支持行业不受限

iPhone 7最新谍照摒弃金属的玻璃外壳

老板总拿阿里巴巴员工来比较员工吐槽: 你

黄光裕家族新力量现身国美系电商有点乱