如何使用robots.txt阻止搜索引擎爬(抓取)你的网站?

作者:码迷
作者:码迷SEO
发布时间:2019-12-04 09:00:01阅读:23点赞:4

如何使用robots.txt阻止搜索引擎爬(抓取)你的网站?/

如何使用robots.txt阻止搜索引擎爬(抓取)你的网站?

为了你的网站可以被别人搜索到,搜索引擎爬虫,有时也称为搜索机器人(bots)或是搜索蜘蛛(spiders),会爬取你的网站,搜索有变动的内容并且重新更新搜索引擎的搜索检索。

如何用robts.txt 这个文档去控制搜索蜘蛛

网站站长可以使用robots.txt这个文档,来指导搜索蜘蛛应该如何爬取这个网站,当搜索引擎爬取网站时,会先读取robots.tx 文档,并且依照规则爬取网站。

※ robots.txt 规则虽然是重要的,但是搜索机器人不一定会遵守 robot.txt 规则,它只是一个运行方针。

※ 以Google而言,要设置Crawl-delay,是必须在Google管理工具里设置。

※ 对于浮滥爬取你的网站的劣质搜索蜘蛛,应该研究如何凭借.htamless里的User-agent去阻挡不好的搜索蜘蛛。

编辑与创建robots.txt 文档

Robots.txt 文档是必须放在网站根目录里,如果你的网址是example.com 是可以读取到的。

网址位置:

http://example.com/robots.txt

服务器位置:

/home/userna5/public_html/robots.txt

如果没有这个文档的话,你可以使用纯文档文档创建一个新的robots.txt文档。

搜索引擎的用户代理

以搜索引擎蜘蛛的User-agent来说,使用robots.txt文档来控制,是最普通的规范方式。

当搜索蜘蛛爬取网站时,他们会以用户代理User-agent来识别、以下提供些参考范例

前三名美国最常发现的搜索引擎用户代理:

Googlebot

Yahoo! Slurp

bingbot

最常被阻挡的搜索引擎用户代理:

AhrefsBot

Baiduspider

Ezooms

MJ12bot

YandexBot

搜索引擎蜘蛛是会以robots.txt文档规则来抓取网站

robots.txt 文档有许多的规则,可以控制搜索蜘蛛如何爬取你得网站。

User-agent:可以具体指定哪一个User-agent是适用的,如*是万用搭配于全部的User-agent。

Disallow:设置文档或是文档夹,不允许被搜索蜘蛛爬取。

设置全部搜索引擎延迟爬取

如果你的网站有1000页,搜索蜘蛛可能在几分钟内检索全部的网站,然而这有可能导致系统资源使用过度,在短时间内让全部的网页非常过负荷,导致网页无法浏览。

延迟30秒的时间,将允许搜索蜘蛛在8.3小时内检索1000张网页。

延迟500秒的时间,将允许搜索蜘蛛在5.8天内检索1000张网页。

你也可以设置Crawl-delay:所有的搜索蜘蛛立即搜索。

User-agent: *

Crawl-delay: 30

允许搜索蜘蛛爬取全部网站

在缺省空白情况下,搜索引擎蜘蛛还是会爬取你的网站,不过你还是可以指定它是允许的。

User-agent: *

Disallow:

不允许搜索蜘蛛爬取全部网站

User-agent: *

Disallow: /

不允许搜索蜘蛛爬取特定一个网站

你可以运用这些规则,不允许特定的搜索引擎蜘蛛爬取你的网站。

User-agent: Baiduspider

Disallow: /

不允许全部搜索蜘蛛爬取特定的文档

如果有些文档如contactus.htm, index.htm, 或是store.htm我们不想要搜索蜘蛛爬取,我可以使用:

User-agent: *

Disallow: /contactus.htm

Disallow: /index.htm

Disallow: /store.htm

除了指定的以外,不允许全部搜索蜘蛛爬取

如果我们只想让Googlebot爬取我们的/private/目录,但是不允许其他搜索蜘蛛爬取,我们可以这样使用:

User-agent: *

Disallow: /

User-agent: Googlebot

Disallow: /private/

当Googlebot读取我的robots.txt文档时,会去理解文档内容,不会禁止全部目录的爬取。

如果想只想要一网页部被抓取检索请参考(使用标签来阻挡搜索蜘蛛检索网页)

本文网址:https://www.mamioo.com/seo-google/9mv18eam8wa5

本站内容均为「码迷SEO」原创整理,未经授权严禁采集转载,违者必究。
评论
相关文章
  • Google Medic Update做了那些改变? YMYL是什么?

    Google Medic Update做了那些改变? YMYL是什么?

    他所代表的意思很简单,就是“Your Money or Your Life.”,中文来就就是,生活与财产相关的网页,将来GOOGLE对于YMYL相关的内容将更为重视。继续阅读>>

    17浏览3赞2020-01-02 11:00:01
  • SEO重大更新Google 添加 Rel=sponsored, Rel=ugc 二种属性

    SEO重大更新Google 添加 Rel=sponsored, Rel=ugc 二种属性

    Google更新nofollow属性添加spons与ugc二种属性,分别针对赞助商与平台与监测检查网站外部链接做区分,使GOOGLE可以更容易判断是否为自然链接。继续阅读>>

    46浏览7赞2019-11-21 12:20:01
  • SEO的初学者教学,搞懂SEO搜索引擎优化,让你网站订单接不完

    SEO的初学者教学,搞懂SEO搜索引擎优化,让你网站订单接不完

    SEO是一种透过自然排序(无付费)的方式增加网页能见度的营销规律。SEO包含技术与创意,用以提高网页排名、流量,以及增加网页在搜索引擎的曝光度。SEO有很多方式,可从您网页上的文本,或着从其他网站链接到您的网页。有时SEO只是一种简单的方式确保您的网页架构可让搜索引擎了解。继续阅读>>

    0浏览0赞2020-01-19 11:00:02
  • 第一章:搜索引擎的运作方式

    第一章:搜索引擎的运作方式

    搜索引擎有两个主要的功能:抓取与创建索引,以及提供用户最具关联的搜索结果列表。全球的信息网络如同是大城市的地铁系统。 每个车站都是一份文档(通常是网页,但有时是PDF,JPEG,或是其它文档)。而搜索引擎需要一种方法去“检索”全部城市以及寻找各个站点的方法,最好的方法就是使用网页设计上的”链接”方式(Link)。继续阅读>>

    50浏览11赞2019-11-12 12:20:01
  • 第二章:与搜索引擎的交互

    第二章:与搜索引擎的交互

    “SEO搜索引擎最佳化”的市场策略,最重要是让您的客户有认同感。一旦掌握目标市场的需求,就更容易营销并且保留您的客户。(在网页设计时必须了解商品性质进行市场策略)继续阅读>>

    33浏览8赞2019-12-03 13:00:02
  • 第三章:为何SEO搜索引擎营销是必要的?

    第三章:为何SEO搜索引擎营销是必要的?

    “SEO搜索引擎最佳化”最重要的一个任务是让您的网站容易被用户和网络蜘蛛了解,虽然搜索引擎已经变得越来越精密,但仍然无法用人类的角度来看网页,制作”SEO搜索引擎最佳化”用意是帮助搜索引擎更容易解读每个网页,与分析网页是否能够带给用户所需要的内容。继续阅读>>

    27浏览7赞2019-12-19 13:20:01