Robots Meta 指令 - Robots Meta Directives

作者:码迷 阅读:290 点赞:53

Robots Meta 指令 - Robots Meta Directives/

Robots Meta 指令 - Robots Meta Directives

Meta 指令 - Robots Meta Directives

Robots Meta 指令(有时也称为“Meta标签”)是一些程序语法,它们提供网页爬虫如何抓取或索引网页内容的抓取指令,虽然robots.txt文档指令也可以帮网络爬虫提供了如何抓取网站的建议,但Robots Meta指令提供了更为严格的,指导网页爬虫如何抓取和索引页面的内容。

有两种类型的Robots Meta 指令:属于HTML页面(如meta robots tag)的部分,以及Web服务器作为HTTP头部(如 x-robots-tag)发送的指令。meta robots tag和x-robots-tag都可以使用相同的参数(即Meta提供的抓取或索引指令,例如上述示例中的“noindex”和“nofollow”),不同的是这些参数如何传递给网页爬虫。

Meta指令提供抓取工具并解释,如何抓取和索引特定网页上的内容,如果这些指令是被机器人搜索到,那么参数就成为了规范爬虫行为的强有力的建议,但是与robots.txt文档相同,抓取工具不必遵循meta指令,所以可以肯定的是,一些恶意的web机器人可以忽略你的指令。

以下是搜索引擎抓取工具在robots meta指令中使用的参数,这些参数不区分大小写,但请注意,有些搜索引擎可能只遵循这些参数的子集,或者可能会略微不同地处理某些指令。

参数设置:

  • Noindex: 告诉搜索引擎不要索引该网页。

  • Index: 告诉搜索引擎索引该网页,不必特意加入此标签,因为这是缺省的。

  • Follow:即使网页没有被索引,网页爬虫也应该追踪网页上的所有链接,并将权限传递给链接的网页。

  • Nofollow: 告诉网页爬虫也不要追踪网页上的所有链接,并将不可以将权限传递给链接的网页。

  • Noimageindex: 告诉网页爬虫不要索引该网页上的任何图像。

  • None:相当于同时使用noindex和nofollow标签。

  • Noarchive:搜索引擎不应该在SERP(搜索结果页面)上显示暂存的链接到这个网页。

  • Nocache:与noarchive相同,但只用于Internet Explorer和Firefox浏览器。

  • Nosnippet:告诉搜索引擎不要在SERP(搜索结果页面)上显示该网页的一个片段(即Meta描述)。

  • Noodyp/noydir [OBSOLETE]:阻止搜索引擎使用DMOZ的网页描述作为此页面的SERP(搜索结果页面)片段说明。但是,DMOZ在2017年初关站,这个标签已经过时了。

  • Unavailable_after: 搜索引擎不应该在特定的日期之后索引该网页。

机器人Meta指令的类型

有两种主要类型的机器人Meta指令: meta robots tag和 x-robots-tag。任何可以在meta robots tag中使用的参数也可以在x-robots-tag中指定。

我们将在下面讨论meta robots tag和 x-robots-tag指令。

Meta robots tag

Meta robots tag(俗称“Meta标签”或“robots 标签”)是网页HTML代码的一部分,在网页的

部分以代码显示:

代码范例

<meta name="robots" content="[PARAMETER]" >

标签是标准的设置方式,也可以使用特定用户代理的名称来替换“robots”做为特定的搜索。 例如,要专门针对Googlebot指定某个指令,您需要使用以下代码:

<meta name="googlebot" content="[DIRECTIVE]" >

想要在网页上使用多个Meta指令?只要他们是相同的“机器人”(用户代理),多个指令可以包含在一个meta指令中 - 只需用逗号分隔即可。这是一个例子:

<meta name="robots" content="noimageindex," "nofollow," "nosnippet" >

这个标签会告诉机器人不要索引网页上的任何图像、任何链接,或者当网页出现在SERP(搜索结果页面)上时显示网页哦明片段。

如果您针对不同的搜索用户代理使用不同的元机器人标签指令,则需要为每个机器人使用不同的标签。

X-robots-tag

meta robots tag允许您在网页层级控制索引行为,但是x-robots-tag可以作为HTTP表头的一部分并包含在内,以控制全部网页的索引,以及网页的特定元素。

尽管您可以使用x-robots-tag来运行与meta robots相同的索引指令,但是x-robots-tag指令提供了更多的灵活性和X-robots-tag所不具备的功能。 具体而言,x-robots-tag允许使用正规表达式,在非HTML文档上运行爬行网页指令,并在全局层级使用参数。

要使用x-robots-tag,您需要访问您网站的header .php,.htamless或服务器文档,从那里,添加您的特定服务器配置的x-robots-tag标记,包括任何参数,提供了一些很好的示例,解说如何使用这三种方式中的其中一种,x-robots-tag的概述。

以下是可能会使用到x-robots-tag状况的范例:

  • 控制未用HTML撰写的内容的索引(如Flash或视频)。

  • 阻止网页特定元素(如图像或影片)的索引,而不是全部网页本身

  • 如果您无法访问网页的HTML(特别是

    部分),或者您的网站使用了无法更改的全局层级标题。

  • 添加规则来判断是否应将网页编入索引(例如,如果用户留言了20多次,则将网页编入索引)

SEO与robots meta指令的最佳做法

  • 所有meta指令(robots或其他)都是在抓取URL时发现的,这意味着,如果robots.txt文档不允许抓取网址,则网页上的任何meta指令(无论是在HTML还是在HTTP header)都将不会被看到,并且将被忽略。

  • 在大多数情况下,应该使用带有参数“noindex,follow”的robots meta tag来限制抓取或索引,而不是使用robots.txt文档禁止。

  • 需要注意的是,恶意爬虫很可能会完全忽略meta指令,因此这个协议并没有形成一个好的安全机制,如果您有不想公开搜索的隐私消息,请选择更安全的方法(如密码保护),以防止浏览者查看机密网页。

  • 您不需要在同一页面上同时使用Meta robots tag和X-robots-tag - 这样做是多余的。

数据源:

本文网址: https://www.mamioo.com/seo-google/4o357w947r92

本站内容均为「码迷SEO」原创整理,未经授权严禁采集转载,违者必究。