Google让您告诉他们要忽略哪些URL参数

作者:商闰纡

<p>Google网站站长工具的网站配置设置部分中出现了一项新功能此设置称为参数处理,可让网站所有者指定最多15个参数,Google在抓取网站并将其编入索引时应忽略这些参数Google列出了他们在网站中找到的参数您网站上的网址,并指出他们是否认为这些参数是无关的(建议使用“忽略”或“不要忽略”您可以确认或拒绝这些建议,并可以添加未列出的参数那么什么这对网站所有者意味着什么</p><p>该功能的主要价值在于改善由于重复内容导致的Google索引中网站的规范化当多个网址加载相同内容时会出现规范化问题由于多种原因,这种情况可能会出现问题(对于例如,它可以扭曲分析数据)但从搜索的角度来看,规范化问题可能导致:存在许多规范化解决方案,包括seve特定于谷歌的ral,为什么他们推出这个新功能</p><p>雅虎已经包含了类似功能作为其Site Explorer网站管理员产品的一部分已有一段时间了,网站所有者已经要求Google提供类似的功能一段时间(当然至少自从我在网站管理员中心工作以来)下面是各种规范化的概述选项以及这一选项与Google网站管理员工具的不同之处参数处理:当URL可以包含可选参数时此新选项仅对标准键值对格式和您指定的可选参数引起的规范化问题有帮助</p><p>换句话说,它只能是一个排除列表(不要抓取参数x,y和z)而不是包含(只有抓取参数a和b)你不会总是知道潜在参数的完整列表吗</p><p>希望但是一些规范化问题的发生是因为URL可以完全接受任何参数理想情况下,您希望确保您的服务器不是以这种方式设置的,但是如果您需要这种配置(例如,另一个团队或外部机构需要能够使用任何自定义跟踪代码,无需等待将该参数代码添加到服务器设置中),那么您最好使用元规范标记可选参数的两个最常见原因以及此功能将适用于:为什么使用这个规范化选项而不是其他选项</p><p>最大的好处可能是抓取效率的提高当Google发现新的网址时,他们可以针对参数处理列表检查所包含的参数,并在抓取之前删除任何可选的参数(但仍然可以将任何找到的链接归功于该网页)大大减少网站上的爬行开销,并释放大量带宽,以便抓取网站的其他页面使用起来也相当简单只需扫描建议参数列表并单击可选参数在某些组织中,这可能很困难将源代码添加到网页中,使规范标记的实现变得困难和耗时使用此选项,如果您已经验证了网站管理员工具的访问权限,则根本不需要IT涉及此选项有哪些缺点</p><p>这个选项最明显的问题是它只适用于Google过去,您可以使用此设置和Yahoo!中的相应设置</p><p> Site Explorer并不担心其他引擎但是随着微软Bing即将(可能)取代雅虎的搜索索引,雅虎的功能很可能会成为其索引的方式,如果微软不提供相似的东西,那么搜索索引拥有25%以上的市场份额可能会让你的网址出错你可能也会陷入困境,比喻说你可能会不小心告诉谷歌忽略重要参数,如果从索引中删除这些参数,可能会消灭你网站的大部分内容</p><p>为网站管理员工具添加了更多这些类型的功能,确保有权访问他们的人知道他们正在做什么变得更加重要实际上,Google可能有保护措施,至少部分防止这种意外破坏毫无疑问为什么他们会说“虽然谷歌考虑了建议,但我们不保证我们会在每种情况下都遵循它们”他们不想要大他们的索引的一部分消失,或者与机器人意外阻挡不同txt,搜索引擎遵循指令,这个功能(以及许多其他功能)只是一个信号如果已经存在的其他信号强烈反对它(例如,内容似乎有很大不同),它很可能赢得'但是,尽管谷歌有这样的保护措施,但如果你不确定哪些参数真的是可选的(因为这是一个站点范围的设置),你可能不想冒险</p><p>这个选项如果规范化问题与参数无关或参数不是标准键值对格式,那么也将无效Meta规范属性规范属性是页面级元标记,用于指定页面的规范版本这可能很有用,因为无论将哪些可选参数添加到呈现页面的URL版本,搜索引擎总是可以知道规范版本您可以在我的文章中找到有关此标记的详细信息</p><p>这个规范化选项超过其他选项</p><p>您只需指定一次页面的规范版本,无论将哪些参数添加到URL,搜索引擎始终都会提供规范版本因为此元数据位于页面本身,所以任何搜索引擎都可以读取它,并且事实上,谷歌,雅虎和微软都宣布支持它</p><p>尽管如此,只有谷歌似乎正在积极使用它这个选项的缺点是什么</p><p>与参数处理功能不同,搜索引擎必须先抓取页面才能读取标记,因此一些爬网效率会丢失</p><p>此标记应该可以提高长期效率,但理论上,一旦机器人抓取了非规范性URL的版本和读取标记,它不应该再次抓取该版本的URL如前所述,实现需要修改页面源代码,这在一些组织中并不总是很容易</p><p>与参数处理一样,它是可能不正确地实现这个标签例如,已经发现一些网站不小心将每个页面的规范版本设置为主页与参数处理功能一样,搜索引擎认为标签是“强烈提示”作为对这些标准的预防措施错误的类型,并且当它与其他信号强烈矛盾时不会使用数据在谷歌的情况下,迄今为止唯一积极使用该标签的搜索引擎,他已被证明是301重定向的情况它普遍认为(除了根本没有多个版本的URL)规范化URL的最佳方法是使用301重定向将所有版本重定向到规范版本此实现发送所有用户和搜索引擎到规范版本,并有效地整合所有链接到页面,并确保只有规范的索引和排名为什么使用这个规范化选项而不是其他</p><p>所有主要搜索引擎都能理解并遵循它,它提供了最佳的用户体验(访问者有一个URL可以访问,收藏和共享)在大多数情况下,搜索引擎会整合所有指向重定向目标的链接,并对规范的目标进行排名</p><p>此选项是移动内容时的最佳选择(例如,更改URL结构或更改域名)以及指示您希望内容是否在域名的www或非www版本下编制索引还要记住,如果您重定向到规范版本你更有可能获得正确版本的链接,因为大多数访问者只需复制和粘贴他们在地址栏中看到的内容这个选项的缺点是什么</p><p>当您使用参数进行排序或跟踪时,重定向可能会否定这些参数您通常可以配置您的分析程序以正确处理这些参数,但它可能无法开箱即用重定向并不总是正确实现例如,它们可能无意中被实现为302(或更糟糕的是,JavaScript重定向或元刷新)或者它们可能生成重定向循环或无限重定向链在这些情况下,搜索引擎机器人最终放弃了爬行尝试(并且与Google和Microsoft,您可以在其网站管理员工具产品中获取这些网址的列表)重定向也会降低抓取效率,特别是由于重定向链 理想情况下,搜索引擎抓取重定向然后最终停止爬行始发URL,但如果机器人遇到指向原始URL,它会继续爬两个版本(或更多,如果页面已经移动多次)谷歌网站管理员工具更改地址功能此功能可让您在更改域时告知Google您必须验证旧域和新域的所有权,然后您可以指定从一个域移动到另一个域您可以找到有关此功能的更多信息xx为什么使用这个规范化选项超过其他选项</p><p>此功能的最佳用途是当您更改域并且无法实现从旧域到新域的301重定向时(例如,使用blogspotcom站点就是这种情况)即使您能够实现重定向,让谷歌知道也不会有害!这个选项有什么缺点</p><p>您只能使用此选项从一个域移动到另一个域与其他Google网站管理员工具功能一样,它仅适用于Google Google网站管理员工具首选域功能首选域功能可让您告诉Google您是否希望将您的域编入索引使用www子域或没有它因为大多数网站都解决了这种方式,如果你没有设置www / non-www canonicalization,你的网站内容的完整重复集将存在为什么这是一个问题</p><p>理想情况下它不是和搜索引擎正确合并内容但通常,搜索引擎找到两个版本的链接,最终爬行两者,索引两者,并分别记录版本的链接为什么使用这个规范化选项而不是其他</p><p>你也可以一直使用这个选项,虽然你也应该实现301重定向,如果你可以谷歌最初为那些无法做到这一点的网站实现这个功能有什么缺点</p><p>同样,此选项仅适用于Google并且它不提供与301重定向一样多的保证使用机器人指令阻止重复内容避免重复内容的传统建议是使用robotstxt(或机器人元素)阻止重复内容确保正确的版本被编入索引正确版本的索引与用于打印的版本相比非常重要,例如为什么使用这个规范化选项而不是其他版本</p><p>一般来说,您现在不应该使用规范元标记</p><p>您可以使用规范标记和您所关注的方案更轻松地解决您不想重定向的方案(例如打印版本示例)</p><p>再次担心爬行效率问题会导致大部分网站未被抓取(例如大型可选参数)现在可以通过Google的参数处理功能更轻松地解决这个选项有哪些缺点</p><p>此选项的主要缺点是丢失链接信用任何被阻止页面的链接都会陷入黑洞,无法记入页面的规范版本,与其他选项一样</p><p>参数处理功能也可以提供洞察力在谷歌如何看待您的网站一段时间以来,谷歌一直试图规范化的URL,并显示在结果的规范版本,即使网站所有者尚未实施这些标准化的选项,例如,他们可以确定几页包含相同的内容和算法合并它们并将它们与Google确定的标准相关联它们没有准确描述它们如何确定规范版本,但它们可能会选择参数最少或最短版本的URL的URL去年,他们开始让网站管理员知道他们何时遇到他们认为无关的网址并导致爬行问题我谷歌可能正在使用类似的来源生成它建议应该忽略的参数列表这样,参数处理功能可以让您深入了解Google如何看待网站如果您看到列出的许多参数不是可选的,请参加查看使用这些参数的URL上的内容这可能意味着更大的问题可能是Google没有看到足够的独特内容(例如,这可能发生在列出部件号的页面上,主要包含图像和商品代码,或列出登录外的少量信息) 您可能想要寻找区分页面的方法更有趣的是,Google网站管理员中心博客有一篇关于重复内容的新帖子,但没有提及这个新功能感谢Brian Ussery指出它!本文中表达的观点是客座作者的观点,....