图文介绍Python文章采集工具使用

启明SEO python 2021-01-10 16:25:36 2676 0 文章采集

这里用卢松松博客与我自己的博客作为例子，给大家介绍使用Python写的文章采集工具。

一、卢松松博客文章的采集

1、打开设置shezhi.xls，按照下面步骤设置

a、主域名下面填写https://lusongsong.com，记住域名后面的/不能要，否则会出错。

b、是否有翻页，但凡你要抓取的内容超过了一页，我们这里都选择Y，反之则选择N。

c、输入页码前面的部分

https://lusongsong.com/default_

d、输入页码后面的部分

.html

e、从哪一页开始抓

因为卢松松博客第一页是https://lusongsong.com/default，与后面的翻页页面规律不一样，所以这里我们从第二页开始抓，填写2就可以了

f、结束于哪一页

这里我们随便写，只要不是超过其原有的总页数就可以了，这里我就写抓取到第五页，填写5就可以了

g、输入标签

这里是需要找到文章列表在页面的什么地方，通常都会是一个div包含起来的，卢松松博客也确实是div包含起来的。所以这里填写div

图文介绍Python文章采集工具使用

怎么找这个div

鼠标选中当前文章列表页中的某一篇文章，右键网页，点击审查元素，就会出现对应的文章被包含在什么html元素下，我们沿着这个往上找，一层一层的点，就能找到，整个文章列表页的位置。

h、标签属性有ID与class两种，卢松松博客里是class，所以这里我们填写class

图文介绍Python文章采集工具使用

i、属性值也就是id或者class后面的值，这里是nbcontent，所以填写nbcontent

j、起始位置与结束位置，这里是要找到每一篇文章的URL

这里沿用g步骤，找到某一篇文章，右键点击审查元素，就可以找到，这里是<div class="post"> <h2><a href="，结束位置就很简单了没什么规律，我们只要看URL在哪里结束就可以了。这里这里就写"就可以了。

k、标题的起始位置与结束位置

打开某一篇文章的链接，进入文章页，同样鼠标选中标题，右键网页，审查元素

这里看到最靠近标题位置的是这一块代码rel="bookmark">，结束位置这里是一个a标签的结束标志</a>，为了正确，我们要看看是不是唯一的，右键网页，查看源代码，查找rel="bookmark">，这里只有一个，所以这样写没问题，如果有好几个，我们后面结束位置就要从新选择，要保证唯一性，这样才能准确找到标题。

l、内容起始位置设置

打开文章页的网页源代码，看文章第一句话前面的标志与文章最后一句话的标志。由于每篇文章有所不同，我们要多打开几篇文章看看，以保证，起始位置的包含所有页面的文章内容，防止有些网页文章内容抓不全。

m、缓冲时间，卢松松博客貌似有简单的反爬虫设置，这里我们需要设置下缓冲时间，这里我设置的是3，能够全部爬完，你可以设置小一点，如果不能爬完，再往大的设置。

全部设置完成后，如下图

接下来就是启动程序了，点击ads.exe,执行哪一行数据，这里因为我们写1，记住你在2下面设置的，就写1，在3下面设置的就写2，以此类推。

二、我自己的博客

爬取SEO基础的文章，由于第一URL是https://liaojinhua.com/seojichu/，第二页是https://liaojinhua.com/seojichu/2/，所以第一页数据暂时不爬。

重复以上步骤，设置完成后如下图；

图文介绍Python文章采集工具使用

关注下面公众号，回复采集工具，获取下载链接

启明seo公众号

下一篇：关键词快速分词工具Python版上一篇：做好seo是坚持重要，还是取巧重要

好文推荐

实时访客入口页面出现bd_vid=标识是什么原因
最近查看百度实时访客，总是会看到入口页面会多......

有了微信视频号，但是没有发布权限，怎么开通
视频号是微信在2020年1月19号开始内测的......

如何用python抓取爱企查企业信息
前段时间，经理让我去找一些企业的信息，我平常......

网站始终只收录一个首页，为什么
新做了两个网站，但是一直只是收录一个首页，快......

服务器配置低，宝塔面板安装IIS总是安装不上怎么办
对于一般企业网站或者博客来说，对服务器的配置......

网站权重上不去应该怎么解决
要提高网站的权重，可以考虑以下几个方面：......

图文介绍Python文章采集工具使用

评论

Python好学公众号

好文推荐

实时访客入口页面出现bd_vid=标识是什么原因

有了微信视频号，但是没有发布权限，怎么开通

如何用python抓取爱企查企业信息

网站始终只收录一个首页，为什么

服务器配置低，宝塔面板安装IIS总是安装不上怎么办

网站权重上不去应该怎么解决

标签列表

随机推荐

最近发表

图文介绍Python文章采集工具使用

相关文章

评论

Python好学公众号

好文推荐

实时访客入口页面出现bd_vid=标识是什么原因

有了微信视频号，但是没有发布权限，怎么开通

如何用python抓取爱企查企业信息

网站始终只收录一个首页，为什么

服务器配置低，宝塔面板安装IIS总是安装不上怎么办

网站权重上不去应该怎么解决

标签列表

随机推荐

最近发表