首先声明一下wordpress采集插件是需要有一定的采集规则基础,如果你之前没有接触过正则和xpath可能看着稍微有一点吃力,不过不用担心!博主本次分享的wordpress采集内容分为二种,一种是0基础小白也可以直接使用wordpress采集,另一种则是根据采集规则采集的内容。
一、 wordpress采集插件工具
无需学习更多专业技术,只需简单几步就可以轻松采集内容数据,精准发布站点、用户只需在软件上进行简单的设置,完成后软件会根据用户设置的关键词高准确度匹配内容及图片并自动执行文章采集伪原创发布,提供了方便快捷内容填充服务!!
相对自己写规则采集门槛较低无需花费大量时间学习正则表达或html标签,一分钟即可上手只需要输入关键词即可实现采集。全程挂机!设定任务自动执行采集发布任务。
几百上千个不同的cms网站都能实现统一管理。一个人维护成百上千网站文章更新也不是问题。
这类工具还是为小白配置了强大的seo功能,完全可以通过软件采集实现自动采集和发布文章,设置自动下载图片保存本地或第三方。自动内链、内容或标题前后插入以及网站内容插入或随机作者、随机阅读等,形成“伪原创”。通过这些seo小功能提高网站页面原创度从而增加网站收录排名。软件工具上还有监控功能可以直接通过软件查看文章采集发布情况。目前博主亲测软件是免费的,可以直接下载使用!
二、wordpress插件常见采集规则
下面是每个任务的设置:
1 、任务名称:每个任务的别名,方便好记而已,没有其他作用。
2、 入口网址:每个任务爬虫开始的地址。这个网址一般是首页或者列表页。然后爬虫会从这个页面开始采集。
3 、爬取间隔时间:每隔任务(爬虫)运行的间隔时间。
4 、列表页面url正则/内容页面url正则:爬虫进入第一个网址(入口网址)后需要区分哪些是需要采集的内容页面。所以需要设置匹配的内容页面url正则表达式。
爬取还需要知道如何进行翻页,寻找更多的内容页面,所以需要设置列表页面url的正则表达式。
所以正则表达式如下:
列表页面url正则:/page/[1-9]d*$
内容页面url正则:/[1-9]d*.html$
如果只需要采集前三页更新的内容,只需要把列表页面的正则表达式改为/page/[1-3]$。
配置这两个参数时可以打开《正则表达式在线测试》页面进行测试。
5、 文章标题(xpath)/文章内容(xpath):进入内容页面后,爬虫要选择抓取的内容,比如文章的标题和文章的正文。所以需要设置xpath来告诉爬虫。
6 、内容起始字符串/内容结束字符串:一般的网站都会有广告,或者一些其他的东西混在内容里面,所以我们需要过滤掉这些内容,只保存我们需要的部分。而这部分无用的东西(广告、分享按钮、标签等)大部分都是在文章的开头或者结束部分,并且内容是固定的。所以我们可以通过简单的字符串过滤掉。
7 、文章图片:采集插件可以自动将文章内出现的图片保存到本地,默认按年月分文件夹保存,并会将图片的标签设置为文章的标题。如果不需要保存到本地可以选择“不做处理”。
8、 文章分类:选择要保存到的分类,和wordpress一样,可以选择多个分类。
9 、文章标签:每个任务可以单独设置标签,多个标签用|分隔。
10 、发布方式:可以选择“立即发布”或者“放入草稿箱”。
爬取线程数:这个选项根据自己的主机配置来设置。如果是在独立主机上,可以设置成多线程采集,比如同时开10个线程。如果是在虚拟主机上,不要设的太大,不然cpu占用太高被封站。
抓取延时:每个页面采集过后的延时,防止采集过快。这个参数也是为了防止网站虚拟主机和被采集的网站因为采集太快而禁止访问。
博主目前在用以上这款软件维护自己的网站。收录目前90多万左右,权重要低一点,只有权重4,好在方便快捷。看完这篇文章,觉得不错的话,不妨收藏或者发给身边有所需要的朋友同事!关注博主每天带你了解不一样的seo知识。你们的一举一动将是小编源源不断的动力!