搜索引擎会抓取您的网站以将内容放入其索引中。你的网站越大,抓取的时间就越长。抓取您的网站所花费的时间非常重要。如果您的网站有1,000页或更少,那么这不是您需要考虑的主题。如果您打算扩大您的网站,在本文中,我们将介绍爬行效率和您可以采取的措施。所有搜索引擎都以相同的方式爬行。
百度蜘蛛爬行规则,如何让蜘蛛常来
1.爬虫如何抓取你的网站?
百度会在网络上找到指向您网站的链接。
此时,URL是虚拟堆的开始。之后,这个过程非常简单: 百度蜘蛛从该1堆中获取1页; 它抓取页面并索引所有在百度中使用的内容; 然后它将该页面上的所有链接添加到堆中。在爬行的过程中,百度蜘蛛可能会遇到重定向。它被重定向到堆上的url。
你的主要目标是确保百度蜘蛛可以访问网站上的所有页面。第二个目标是确保快速抓取和更新新内容。一个好的网站将帮助您实现这1个目标。尽管如此,你仍然可以很好地维护你的网站。
百度蜘蛛爬行规则,如何让蜘蛛常来
2.爬行深度
在谈论爬行时,一个重要的概念是爬行深度的概念。假设您的网站上有1个从1个网站到1个网页的链接。此页面链接到另一个,另一个,另一个等。百度蜘蛛还会继续爬行一段时间。但是在某个时候,它将决定不再需要继续爬行。何时这取决于第一页链接的重要性。
这似乎是理论上的,所以让我们看一个实际的例子。如果您有10,000个帖子,则所有帖子都属于同一类别,并且每个页面显示10篇文章。这些页面仅链接到下一个和上一个 “。百度需要深入1,000页面才能获得这些10,000帖子中的第一个。在大多数网站上,它不会这样做。
这就是为什么它是重要的: 使用类类别/标签和其他分类法,用于更细粒度的分割。不要过度使用它们。根据经验,标签仅在连接3个以上内容时才有用。另外,请确保优化这些类别文件。
链接到带有数字的更深的页面,因此百度蜘蛛可以更快地到达目的地。假设您将第1页链接到第1页的第10页,然后继续这样做。在上面的示例中,最深的页面距离主页只有100次点击。
保持你的网站快速。你的网站越慢,爬行所需的时间就越长。
3. XML站点地图和抓取效率
您的网站应该有一个或多个XML站点地图。这些XML站点地图告诉百度您的网站上存在哪些url。一个好的XML站点地图还指示您上次更新特定URL的时间。大多数搜索引擎比其他搜索引擎更频繁地抓取XML站点地图中的url。
在百度搜索控制台中,XML站点地图为您提供了额外的好处。对于每个站点地图,百度都会向您显示错误和警告。您可以通过为不同类型的url创建不同的XML站点地图来做到这一点。这意味着你可以看到你的网站上哪些类型的网址有最多的问题。
4.导致爬行效率低的问题
许多404和其他错误
当它抓取你的网站时,百度会遇到错误。它通常只是从堆中挑选下一页。如果您在爬行过程中网站上出现大量错误,则百度蜘蛛会变慢。它这样做是因为它害怕爬得太快会出错。为了防止百度蜘蛛变慢,您需要修复尽可能多的bug。
百度在其网站管理员工具中向您报告所有这些错误,360和搜狗也是如此。我们之前已经介绍了百度搜索控制台和360网站管理员工具中的错误。
您不会是我们看到的第一个客户端,它在百度搜索控制台中有3,000实际的url和20,000错误。不要让你的网站变成那个网站。至少每月定期修复这些错误。
2.301重定向太多
我最近在一个刚刚完成域迁移的网站上进行了咨询。该网站很大,因此我使用了我们的一种工具来运行该网站的完整爬网,以查看我们应该修复的内容。显然我们有一个大问题。该站点上的大量url始终链接到而没有斜杠。如果您使用这样的URL而没有斜杠,则该301将被重定向。您将被重定向到使用斜线的版本。你的网站上有一两个网址有问题也没关系。这通常是主页的问题。如果这是您网站上250,000 url的问题,那么这将成为一个更大的问题。百度蜘蛛不是抓取250,000的url,而是抓取500,000的url。效率不是很高。
这就是为什么当您更改URL时,您应该始终尝试更新站点中的链接。如果你不这样做,随着时间的推移,你会得到越来越多的301重定向。这会减慢你的爬行速度和用户速度。大多数系统需要一秒钟才能使服务器重定向。这为页面加载时间增加了一秒钟。
3.蜘蛛陷阱
如果你的网站在百度眼中更权威,那么有趣的事情就会发生。即使很明显链接没有意义,百度也会抢到。给百度虚拟的相当于一个无限的螺旋楼梯,它将继续向前发展。