谷歌的附加发现方法:RSS和原子供稿

作者:饶句

<p>多年来,Google发现的网页完全基于链接</p><p>如果页面没有链接,Googlebot无法知道它,因此永远不会将其编入索引</p><p>在此过程中,Google提供了一个提交单个页面的选项,但对于拥有大型网站的网站所有者来说,这实际上并不是一个可行的选择</p><p> 2005年,Google推出了XML Sitemaps,这是一种更具扩展性的方式,让网站所有者可以让Google了解Googlebot可能无法通过链接发现的网站页面</p><p>今天,Google网站管理员中心博客文章讨论了Googlebot可能会发现网页的另一种方式:Feed</p><p>他们说使用RSS和Atom提要来发现页面可以帮助他们快速了解新内容</p><p>新内容是Google的关键,因为新鲜度是某些查询相关的重要组成部分</p><p>公约的观点是,如果Google没有链接,那么确保Google了解您网站的网页并不是一件有用的事情,因为如果没有链接,Google就不会认为它们很有价值</p><p>但目前的排名要比原来的PageRank公式描述复杂得多</p><p>如果对查询有意义的话,没有链接的新内容可以很好地用丰富的链接来胜过内容</p><p>当然,网站所有者始终能够以站点地图的形式提交RSS和Atom供稿,但是这篇文章描述了使用这些供稿,即使网站所有者尚未通过站点地图系统提交这些供稿</p><p>相反,他们正在扫描其他Feed提交系统,例如Google阅读器和Feed的ping服务</p><p>从帖子中不清楚这些Feed是否仅用于发现,或者来自Feed的内容是否也用于代替爬行</p><p>帖子的标题引用了“发现”,但帖子本身指出他们能够“比传统的抓取方法更快地将这些新页面放入我们的索引”并直接抓取提要</p><p>如果Google使用Feed代替抓取,这将是支持完整而非部分Feed的另一个论点 - 您可以更快地将页面的内容编入索引</p><p> Google Blogsearch最初抓取了Feed内容而非实际网页,这导致了Blogsearch中的部分索引,但这种情况在去年年底发生了变化</p><p>该帖子指出,为了让Google使用Feed作为发现方法,robots.txt不得阻止Feed</p><p>本文中表达的观点是客座作者的观点,....