为什么百度Bot在一些网站上没有抓取足够多的页面

百度的约翰·穆勒解释了影响网站被抓取页面数量的因素...以及为什么有些页面没有被抓取

在百度SEO办公时间的一次聚会上,百度的约翰·穆勒被问及为什么百度没有抓取足够多的网页。提问者解释说,百度的爬行速度不足以跟上一个超大型网站的步伐。约翰·穆勒解释了为什么百度可能没有抓取足够多的页面。

百度抓取预算是多少?

百度Bot是百度的爬虫的名字,它会从一个网页到另一个网页对它们进行索引以达到排名的目的。

但是因为网络很大,百度的策略是只索引高质量的网页,不索引低质量的网页。

根据百度的大型网站的开发者页面(以百万计的网页):

“百度用于抓取一个网站的时间和资源量通常被称为该网站的抓取预算。

请注意,并不是所有在您的网站上爬行的内容都一定会被索引;必须对每个页面进行评估、合并和评价,以确定在对其进行爬网后是否会对其进行索引。

爬网预算由两个主要因素决定:爬网容量限制和爬网需求。"

相关: 百度搜索引擎优化101:网站抓取预算解释

是什么决定了百度Bot的抓取预算?

问这个问题的人有一个有几十万页的网站。但是百度每天只能抓取大约2000个网页,这个速度对于这样一个大网站来说太慢了。

提问题的人接着又问了一个问题:

“对于深入了解当前的爬行预算,您还有其他建议吗?

只是因为我觉得我们真的一直在努力改进,但还没有看到每天抓取的页面数量有所增加。"

百度的穆勒问这个人网站有多大。

提问题的人回答说:

“我们的网站有几十万页。

我们看到每天大约有2,000个页面被抓取,尽管有60,000个积压的已发现但尚未被索引或抓取的页面。"

百度的约翰·穆勒回答道:

“所以在实践中,我认为出现这种情况有两个主要原因。

一方面,如果服务器非常慢,也就是…响应时间,我想你也会在抓取统计报告中看到。

这是一个领域,如果…如果我必须给你一个数字,我会说,目标是低于300,400毫秒,平均大约是这样。

因为这让我们可以随心所欲地爬行。

这和页面速度之类的东西不一样。

所以这是…需要注意的一件事。"

相关: 爬行预算:搜索引擎优化你需要知道的一切

网站质量会影响百度机器人抓取预算

百度的约翰·穆勒接下来提到了网站质量的问题。

糟糕的网站质量会导致百度Bot爬虫无法抓取网站。

百度的约翰·穆勒解释道:

“我们不经常从网站上抓取的另一个重要原因是,我们不相信网站的整体质量。

这就是我们有时会遇到的问题,尤其是对于新网站。

我也看到有时人们说,嗯,创建一个有一百万页的网站在技术上是可能的,因为我们有一个数据库,我们只是把它放在网上。

通过这样做,基本上从一天到下一天,我们会发现很多这样的页面,但我们会想,我们还不确定这些页面的质量。

我们在抓取和索引它们时会更加小心,直到我们确定质量确实很好。"

影响百度抓取页面数量的因素

还有一些没有提到的因素会影响百度抓取的页面数量。

例如,托管在共享服务器上的网站可能无法以足够快的速度向百度提供页面,因为服务器上可能有其他网站正在使用过多的资源,从而降低了该服务器上其他数千个网站的速度。

另一个原因可能是服务器受到流氓机器人的攻击,导致网站速度变慢。

约翰·穆勒关于记录服务器服务网页速度的建议是好的。一定要在晚上几个小时后检查它,因为许多像百度这样的爬虫会在凌晨爬行,因为那通常是一个较少干扰的爬行时间,在那个时间网站上的访问者较少。

引文

阅读百度开发者页面上关于大型网站抓取预算的内容:大型网站所有者管理爬行预算指南

观看百度的John Mueller回答关于百度Bot没有抓取足够多的网页的问题。

大约在25:46分钟时观看:

相关阅读:

未经允许不得转载: » 为什么百度Bot在一些网站上没有抓取足够多的页面

赞 (0) 打赏

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏