wordpress爬虫

作者: 90后农民工工头
来源: 51数据库
2020-06-05

1. 如何使用爬虫做一个网站

做法：传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。

聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。

另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索；对于聚焦爬虫来说，这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常被称为网页追逐者），是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本，已被广泛应用于互联网领域。

搜索引擎使用网络爬虫抓取Web网页、文档甚至图片、音频、视频等资源，通过相应的索引技术组织这些信息，提供给搜索用户进行查询。

2. 如何使用爬虫做一个网站

“入门”是良好的动机，但是可能作用缓慢。如果你手里或者脑子里有一个项目，那么实践起来你会被目标驱动，而不会像学习模块一样慢慢学习。

另外如果说知识体系里的每一个知识点是图里的点，依赖关系是边的话，那么这个图一定不是一个有向无环图。因为学习a的经验可以帮助你学习b。因此，你不需要学习怎么样“入门”，因为这样的“入门”点根本不存在！你需要学习的是怎么样做一个比较大的东西，在这个过程中，你会很快地学会需要学会的东西的。当然，你可以争论说需要先懂python，不然怎么学会python做爬虫呢？但是事实上，你完全可以在做这个爬虫的过程中学习python :d

看到前面很多答案都讲的“术”——用什么软件怎么爬，那我就讲讲“道”和“术”吧——爬虫怎么工作以及怎么在python实现。

先长话短说summarize一下：

你需要学习

基本的爬虫工作原理

基本的/nvie/rq

rq和scrapy的结合：darkrho/scrapy-redis · github

后续处理，网页析取（grangier/python-goose · github），存储（mongodb）

3. 为什么百度不收录wordpress页面

笔者是wordpress的忠实用户，之前也做过针对google和yahoo的seo，这些国外主流搜索引擎对wordpress貌似都相当友好。

但是笔者做秀萌网博客的时候发现了问题：百度为什么无论如何都不会收录我在wordpress里发表的文章呢？难道是因为外链发的不够多？如果不收录我的文章，那何谈转载。在笔者经过网上查阅资料，分析得出经验和结论，总结了本篇文章。

百度不收录wordpress页面的原因百度不收录wordpress的页面其实并不是绝对的，国内有很多做的相当不错的wordpress站，比如笔者很喜欢的谷奥。这些站本身和其他wordpress到底有什么样的区别？仔细观察过一些被收录很好的网站，发现它们本身的标签云并没有被很好的收录，文章归档页也大多没有收录。

再去看这些站点的sitemap，其实并没有什么特别之处。起初笔者也是越来越迷茫，到底是什么原因导致了它们可以被顺利收录？经过多番试验，答案终于水出石面。

总结下来有以下几条原因：经常改变主题wordpress丰富的主题会让不少站长挑花了眼，但是两三天一换主题却是一个致命伤。不同主题大多文档结构是不一样的，如果经常改变主题，也就相当于网站经常改版。

这样一定会影响收录情况的，最坏可能会被k站。所以使用wordpress做blog的站长一定要注意，切忌勤换主题。

解决方法也很简单，选择主题一定一步到位，之后修改主题只需要二次开发就好了，没必要大动干戈的时候就尽量少修改。复杂的标签云也许有人会问，标签云不是有利于搜索引擎的吗？的确，好的标签云是增加网站内部链接的很好的选择。

但是过度使用标签会造成不好的影响。尤其wordpress的标签功能十分强大，同时也十分复杂，这就给搜索引擎爬取页面带来了难度：爬虫无法权衡标签的权重。

其实标签并不是分类，如果把标签当作文档归类去使用，那注定你网站的结构不会太好。通常情况，一篇文章打1到3个标签是正常的，如果标签太多，反而会让爬虫绕晕，不利于收录。

如果掌握不好度，可以将“标签云”的小插件删除掉。过慢的反应速度和动态页面过慢的反应速度通常也是网站的硬伤。

如果开启了缓存还好，没有开启缓存功能的wordpress站可能需要很高的主机配置。开启很多插件的wordpress同时会对相应速度产生影响。

最好的方法，当然是静态化url。

4. 如何让各大搜索引擎搜索收录到刚建的wordpress网站

对于seo小白，千万别一下子塞给他太多东西。

其实你先弄明白收录的基本原理或者解决当前不收录这个眼前问题再说。关于收录我简单讲几点，搜索引擎大致都差不多。

1. 发现搜索引擎需要发现你的网站。对于新站，你得暴露给搜索引擎。

比如做友链，也是最常规的方法。在其他对搜索引擎开放的平台上适当的发一些链接（微博等不适合）。

这个跟宣传推广一个道理，把搜索引擎当普通用户来看。没有任何链接，搜索引擎就不知道世界上存在你的网站，何来收录。

2. 爬取链接搜索引擎发现了你的站一般都会来爬。除非网站被k（就是关小黑屋了），不是说你是新站就不会这样，因为也有可能这个域名之前被人用过，被k了。

网站的大小、内容质量好坏多少更新频繁、服务器稳定都会影响爬虫爬取的频率、范围、路线。这时你需要观察它有没有在爬，以及爬的具体情况。

如果你是技术菜，可以通过前面同学回答的装个插件来看情况。如果你略懂技术，直接看web访问日志，筛选百度或者google的爬虫特征来观察（具体自己摸索），量少直接看全部，量多用tail -f看看实时的情况。

日志挖掘等也是一个大坑，值得你越陷越深。3. 收录（能查询到）被爬取不代表被收录。

你可以这么看，爬虫爬了某些网页（注意是网页），就像你把这些网页送给搜索引擎检测，搜索引擎看了。看了检测了不一定代表审核通过。

如果网站是新站一般也要过个审查期，另外还得综合判定网页内容是否原创，是否足够稳定。重复抄袭的内容、隔三岔五宕机的网站用户不喜欢，搜索引擎自然也不会收录，它要为它的用户负责。

不过这个审核通过的标准是搜索引擎自己定的，具体的细节是个黑箱，一般人都不知道，而且这个算法一直在改进。总结前人经验，我们研究seo其实也是去摸索实验得出它大概的底线以及表征规律。

收录不收录直接在搜索引擎中查（site查是按站点纬度，直接查url也可以查具体网页），也可以通过站长工具去看。注意索引量和收录数其实也不对等。

4. 排名有了收录才有可能有排名。但别一厢情愿地以为收录了就会有排名。

排名的算法更复杂，也更难以捉摸。黑箱理论一样适用。

不过搜索引擎的大主旨永远不会变，就是用户体验。它需要为它的内容负责，希望用户搜到的是最匹配的、相对新的、相对更多人关注的的原创内容。

seo本身可以讲的太多，上面只是给从来没接触过的你讲讲一点思路，起个头，好让你来解决眼前问题。如果发现对这个玩意感兴趣，说不定会这么幸福地陷进去了。

5. 如何阻止搜索引擎抓取WordPress站点

有一种方法是通过WordPress自带的功能来阻止网站被抓去。打开主菜单“设置”目录下的“阅读”选项，会出现以下界面，你会发现在最下方有一个对搜索引擎可见性的选项，需要我们做的就是点击“建议搜索引擎不索引本站点”选项旁边的方框进行勾选。最后保存更改。

这时WordPress将自动地把下面的代码加到网站源代码的header中：

同时还会创建网站的robots.TXT文件，将以下代码写入该文件。1 User-agent: *

2 Disallow: /

这个代码的作用是阻止网络爬虫对你的网页进行索引。但是还取决于搜索引擎是否接受这个指令。所以，虽然大多数搜索引擎会尊重这个请求，但还是不能确保一些网页或随机图片不被索引。

转载请注明出处51数据库 » wordpress爬虫