SEO相关的robots.txt 观念总整理

作者:码迷
作者:码迷SEO
发布时间:2019-11-15 14:20:01阅读:12点赞:2

SEO相关的robots.txt 观念总整理/

有些时候,网站主并不希望某些页面被抓取,例如依不同条件排序的商品列表页面、某些无意义的页面,或是仍在测试阶段的页面等等,为避免搜索引擎因为爬取这些页面而耗费网站其他部分被抓取的时间,或是因爬取某些页面而造成服务器流量的负担,便可以利用robots.txt文档来指示这些网络爬虫(又称作网络蜘蛛、爬虫程序、网络机器人、检索器)。

以下做详细哦明:

  • robots.txt如何运作
  • 文档的基本形式
  • 可使用的指令
  • 常见的规则范例
  • 如何创建robots.txt文档
  • robots.txt的SEO最佳作法

robots.txt如何运作

搜索引擎的主要任务可以大概分成几项:

  1. 爬取(检索)网络上的各个网站并发现其中的网页内容
  2. 将这些不同的网页编成索引(将其收录)
  3. 当用户搜索时,将索引中的网页以适当的顺序呈现

在开始爬取网站的内容前,搜索引擎的网络爬虫会先到网站根目录下寻找这个robots.txt纯文本档,并根据其中所给予的指示,进行网站内容的爬取。然而,robots.txt文档中的指示并不是强制的,Googlebot等较为正派的网络爬虫会按照文档中的指示行动,但并不是所有网络爬虫都会这么做。并且应注意是否有某些指示不为特定搜爬程序采用。

当robots.txt文档不存在或是没有内容时,都代表搜索引擎可以抓取网站的所有内容。

搜索引擎的检索(crawling)跟索引(indexing)属于不同的进程,如果希望网页不被检索,应使用robots.txt;若希望网页不被索引,则应使用noindex meta 标签或其他方式。

在robots.txt中禁止爬取某个网页,对遵循指示的搜索引擎来说,该页就是没有内容的,可能因此让其排名下降或消失于搜索结果,但并无法确保页面不会出现在搜索结果中,搜索引擎仍有可能透过其他导入链接进入,使得页面被索引。

文档的基本形式

User-agent: 爬虫程序的名字 

Disallow: 不应爬取的网页网址 

由于robots.txt的主要功用是告诉网络爬虫哪些网页「不能」爬取,所以如上面所写的两行指示所形成的规则就可以当作一个最简单的robots.txt文档了。

指定网络爬虫后,针对目录或文档的指示,应分开写成独立的一行。而针对不同爬虫程序的指示间,则用空行加以间隔,如下图:

可使用的指令

User-agent

必要项目,你可以在每项规则中指定一或多个user-agent,从与中可以找到大部分的user-agent名称。此指令可以搭配 * 通配符使用,例如,User-agent: * 的范围即包括了Adsbot以外的所有爬虫程序。

注:Adsbot为Google用以评估到达网页体验的检索程序,为避免影响广告,系统会忽略全面排除的项目,所以若要防止Adsbot爬取网页,需特别针对它撰写规则

Disallow

每项规则至少要有一个Disallow或Allow的指令,Disallow用以表示禁止爬虫程序的项目。若为网页,应撰写完整的相对路径;若为目录,则必须以/作为结尾。

Allow

每项规则至少要有一个Disallow或Allow的指令,Allow用以表示允许爬虫程序的项目,可覆盖以Disallow禁止的项目。若为网页,应撰写完整的相对路径;若为目录,则必须以/作为结尾。

Crawl-delay 

非必要项目,用以告诉在开始抓取网页前延迟多久,单位为毫秒。只是Googlebot会忽略这项规则,因为在百度站长平台中已经有关于限制检索频率的设置。

Sitemap

非必要,你可以透过这个指令指出XML网站地图的位置,也可以同时提供多个网站地图,分行列出即可,此项指令应使用绝对路径。

在上面提到的Disallow与Allow指令中,可使用正规表达式里面的 * 与 $ 字符,用途如下:

  • * 可代表0或一个以上的任何有效字符。
  • $ 代表网址结束。

4.常见的规则范例

下面以www.example.com为例,列出一些常见的规则,提供参考。

禁止抓取全部网站

如下的规则会禁止所有爬虫程序抓取全部网站(但不包括Google的Adsbot检索器)。

User-agent: *

Disallow: /

允许抓取全部网站

如下的规则会允许所有爬虫程序抓取全部网站的内容,没有创建robots.txt文档或是该文档没有内容也会有一样的效果。

User-agent: *

Disallow:

允许单一爬虫程序抓取全部网站

如下的规则会禁止baiduspider以外的爬虫程序抓取全部网站的内容。

User-agent: baiduspider

Allow: /

User-agent: *

Disallow: /

禁止特定爬虫程序抓取特定目录

如下的规则会阻止Google的检索程序(Googlebot)抓取以www.example.com/folder1/为开头的所有网页内容。

User-agent: Googlebot

Disallow: /folder1/

禁止特定爬虫程序抓取特定页面

如下的规则会阻止Bing的检索程序(Bingbot)抓取www.example.com/folder1/page1.html此页面的内容

User-agent: Bingbot

Disallow: /folder1/page1.html

指定特定字符串结尾的网址

如下的规则可以封锁任何以.gif为结尾的网址,亦可以应用在特定类型文档的禁止。

User-agent: Googlebot

Disallow: /*.gif$

如何创建robots.txt文档

此纯文本档的文档名称必须为robots.txt,文档名区分大小写,且文档只能有一个,必须放置于网站主机的根目录下。

以https://www.example.com/ 为例,robots.txt的位置就必须为https://www.example.com/robots.txt。

子网域需各自创建其robots.txt文档,如https://blog.example.com/ 应创建于https://blog.example.com/robots.txt

创建后的robots.txt文档是公开的,任何人只要在根网域的后方输入/robots.txt就可以看到网站禁止爬取的网页是哪些,所以在创建文档内的指令时要特别考虑这点。

robots.txt的SEO最佳做法

(1) 确定你想要被检索的页面没有透过robots.txt阻挡。

(2) 透过robots.txt阻止检索的网页,当中的链接并不会被爬虫经过,这代表,被链接的页面如果没有来自其他网页的链接,该网页不会被检索,并且可能不会被收录。

(3) 如果想避免较敏感的数据出现在搜索结果,不要使用robots.txt,应该使用其他方式如密码保护或robots meta directives。

(4) 搜索引擎会缓存robots.txt的内容,但通常会在一天内更新,如果你改变了该文档的内容,并希望其尽快生效,你可以将其。

(5) 针对搜索引擎爬虫的指示好多!有robots.txt又有robots meta directives,两者间的差别在于:robots.txt给予网络爬虫关于搜爬网站目录的指示;而robots meta directives则是针对个别页面给予是否索引的指令。

cover image credit:

本文网址:https://www.mamioo.com/seo-tuiguang/9mv17ew627wa

本站内容均为「码迷SEO」原创整理,未经授权严禁采集转载,违者必究。
评论
相关文章
  • SEO图片优化怎么做? 奇宝帮你重点整理!

    SEO图片优化怎么做? 奇宝帮你重点整理!

    图片真的对SEO没有帮助吗?相信这是许多人会有的疑惑。根据奇宝工程师的经验,文本在SEO中的影响力仍然大于图片,但我们也不可忽视图片搜索的趋势。奇宝工程师常遇到客户考察排版、画面的美观,所以在网站中大量使用图片提供消息给用户,却忘了搜索引擎爬虫只看得懂「文本」(代码),对SEO来说,是非常可惜的一件事!要兼顾排版及SEO,工程师建议以图文并茂、相辅相成的方式进行,若是因为版面限制,则可以运用其他可以放文本的区块、页面,将图片中的内容转换成文本,让搜索引擎爬虫知道你的网站中也有这些内容!另外图文并茂还有这些好处:针对SEO,图片的优化又该怎么做呢?图片是我们日常在使用网站时,不可或缺的一部分。恰当的图片可以替网站增色,吸引用户的兴趣。 图片的优化可说是SEO的基础之一,但却常常被忽略。 进行图片优化有什么好处呢?主要有以下几点:以下内容主要分为两个方向:其一为如何提供搜索引擎和用户更多关于图片内容的信息,其二则是如何透过图片的优化改进网页使用体验。 提供关于图片内容的文本信息 在被问到关于Google的搜爬蜘蛛是否能够辨认jpg或gif图片中的文本时,Google的Gar继续阅读>>

    2浏览0赞2019-12-09 13:20:01
  • On-Page SEO基础站内搜索引擎优化指南

    On-Page SEO基础站内搜索引擎优化指南

    SEO网站优化基础教学-以内容营销发想,全站式优化,针对网页标题、描述、网站框架等,有效加强网站排名效果。奇宝网络-seo优化入门课程,欢迎询问!继续阅读>>

    15浏览4赞2019-11-19 11:00:01
  • 跨国网站规划、SEO必check 7要素

    跨国网站规划、SEO必check 7要素

    如果你的公司正在跨大版图想跨往世界,那你势必要经营跨国网站,在2019年6月的台北移动学苑《跨境营销之战》中,奇宝工程师有提到跨国网站的规划。首先该考察的,是网站的架构,接着是跨国SEO的操作,要如何开始着手?让我们看看工程师怎么说... 多语系和多地区有什么差别? 多语系-网站上有不同语言的内容,提供给不同语言的用户。多地区-针对不同国家地区的用户,提供不同语系、用语的内容。通常多语系国家在跨国经营上就已经很够用了,不过如果想要更细致到用语精准化,就可以配合著多地区一起。就像是中国、香港其实都使用正体字(繁体字),但用法和说法也都不一样,当然多少都能互相读懂,不过要更贴近用户的话,也许可以考虑用语系+地区去区隔用户。针对多语系(或多地区)跨国网站的经营,奇宝工程师建议在开始架设前,先要考察以下重点:各国主流搜索引擎的差别(例:日本、中国,Google并非主流搜索引擎)重复内容(多语系网站SEO最大的风险之一)是否需要国际的主机? 那要用子网域还是子目录呈现? 建议如果只是单纯一点的多语系网站,可以选择用子目录的方式维护;而若是选择以地区区分用户的多地区网站,则继续阅读>>

    22浏览7赞2019-11-07 10:20:01
  • SEO是什么?SEO该怎么做?一篇就懂SEO搜索引擎优化教学!

    SEO是什么?SEO该怎么做?一篇就懂SEO搜索引擎优化教学!

    什么是SEO?SEO该如何做?SEO(Search Engine Optimization),也就是搜索引擎最佳化,这篇教学文章详细说明SEO的基础观念以及初学者的优化入门方向!透过SEO能让你在调整网站体质的同时,提升网站曝光,增加接触意图明确的目标受众的机会。继续阅读>>

    14浏览2赞2019-12-02 13:00:01
  • 【奇宝小教室】跟着工程师学结构化数据!-什么是结构化数据?

    【奇宝小教室】跟着工程师学结构化数据!-什么是结构化数据?

    许多数据都常提到结构化数据的重要性,而2019年结构化数据的重要性更为提升,但相关的信息往往过于零碎,以致于大家对于实际应用结构化数据仍不太了解。 做为SEO专家,奇宝优化工程师将会用一系列的实际案例的分享,带大家更了解结构化数据。继续阅读>>

    28浏览3赞2019-11-04 11:00:01
  • 推荐SEO分析工具教学-Ahrefs,竞争对手、关键字轻松剖析!

    推荐SEO分析工具教学-Ahrefs,竞争对手、关键字轻松剖析!

    想到知名的Ahrefs工具(以下简称a工具),很多人第一个想到的会是它分析网站外部链接的功能,但实际上,a工具能做到的可不只这些。除了外部链接分析外,Ahrefs其实是我们分析竞争者网站及关键字词分析的SEO好帮手。继续阅读>>

    0浏览0赞2019-12-11 13:40:01
目录