使用.htamless 来阻止不想要的访客来你的网页

作者:码迷
作者:码迷SEO
发布时间:2019-12-20 13:20:01阅读:22点赞:2

使用.htamless 来阻止不想要的访客来你的网页/

使用.htamless 来阻止不想要的访客来你的网页

在这个文章中,我们将会讨论「如何借由.htamless阻止不想要的访客或是机器人访问你的网页」

.htamless是在服务器中的隐藏文档,它可以控制网页与其他工具之间访问的权限。

按照下面步骤,我们可以通过几种不同的方法,可以阻挡不需要的访客进入你的网页。

编辑你的.htamless文档

使用IP位址阻挡

阻挡单一IP位址

deny from 123.123.123.123

阻挡多个IP位址

阻挡一个范围的IP,例如123.123.123.1 - 123.123.123.255,你也可以把最后一组比特删除。

deny from 123.123.123

你也可以使用CIDR(Classless Inter-Domain Routing) 无类别区隔路由标记方式来阻挡IP。

阻挡范围123.123.123.1 - 123.123.123.255, 使用 123.123.123.0/24

阻挡范围123.123.64.1 - 123.123.127.255, 使用 123.123.123.0/18

deny from 123.123.123.0/24

依据User-Agent string 来阻挡不良用户

一些恶意的用户会使用不同的IP发送请求,但是在这些全部请求之中,只使用相同的User-Agent,在这种情况下,你可以只阻挡用户的User-Agent字符串。

阻挡单个不良User-Agent

如果你只想阻挡一个特殊的User-Agent字符串,你可以使用RewriteRule。

RewriteEngine On RewriteCond %{HTTP_USER_AGENT} Baiduspider [NC] RewriteRule .* - [F,L]

BrowserMatchNoCase "Baiduspider" bots

Order Allow,Deny Allow from ALL Deny from env=bots

阻挡多个不良User-Agent

BrowserMatchNoCase "Baiduspider" bots BrowserMatchNoCase "HTTrack" bots BrowserMatchNoCase "Yandex" bots

Order Allow,Deny Allow from ALL Deny from env=bots

阻挡不良参照链接(盗连)

Block a single bad referer

阻挡单个参照链接

RewriteEngine On RewriteCond %{HTTP_REFERER} example.com [NC] RewriteRule .* - [F]

Order Allow,Deny Allow from ALL Deny from env=bad_referer Block multiple bad referers

阻挡多个参照链接

RewriteEngine On RewriteCond %{HTTP_REFERER} example.com [NC,OR] RewriteCond %{HTTP_REFERER} example.net [NC] RewriteRule .* - [F]

SetEnvIfNoCase Referer "example.com" bad_referer SetEnvIfNoCase Referer "example.net" bad_referer

Order Allow,Deny Allow from ALL Deny from env=bad_referer

暂时阻止不良搜索机器人

在某些情况下,你或许不想要直接发送403消息网页给访客,因为那是个(长时间)拒绝他进入网页的消息。

举个例子来说,例如当天有个营销活动,网页将会产生大量的的网络流量,在这期间,你不想要让一些好的搜索引擎机器人像是GOOGLE或是雅虎,进入你的网页并检索网页,因为有可能会使用额外的流量来增加服务器的负担

以下代码,将可以用503回应的方式来设置基本的错误网页消息,这是用缺省的方式去告诉搜索引擎,这个请求只是暂时性的被阻挡并且一段时间后可以再尝试。503回应与403回应是不同的,503是通过430回应来暂时性的拒绝进入权限,像是GOOGLE将会确认为503回应后,他们将会再来尝试检索网页,并非删除他的检索。

当你注意到一些新的搜索机器人在爬(抓取)你的网页太频过频繁,并且你想要阻挡他们或是让他们不要那么频繁抓取,可以使用robots.txt文档来处理,是一个很好的方式。

以下代码会抓取User-Agent的任何请求,其中包含搜索机器人、搜索爬虫、搜索蜘蛛,大多数主要的搜索引擎都是符合的,第二个RewriteCond是允许这些机器人仍然可以请求robots.txt文档来核对最新的规则,但是任何其他的请求都很单纯的得到503网页回应或是"Site temporarily disabled for crawling"。

常态来说,你在开始使用两天后,还不想删除503回应的话,GOOGLE可能会开始去理解成长时间的服务器中断,并且会开始从GOOGLE的索引删除你的网页链接。

本文网址:https://www.mamioo.com/seo-google/4eaw813a8m62

本站内容均为「码迷SEO」原创整理,未经授权严禁采集转载,违者必究。
评论
相关文章
  • Google Medic Update做了那些改变? YMYL是什么?

    Google Medic Update做了那些改变? YMYL是什么?

    他所代表的意思很简单,就是“Your Money or Your Life.”,中文来就就是,生活与财产相关的网页,将来GOOGLE对于YMYL相关的内容将更为重视。继续阅读>>

    17浏览3赞2020-01-02 11:00:01
  • SEO重大更新Google 添加 Rel=sponsored, Rel=ugc 二种属性

    SEO重大更新Google 添加 Rel=sponsored, Rel=ugc 二种属性

    Google更新nofollow属性添加spons与ugc二种属性,分别针对赞助商与平台与监测检查网站外部链接做区分,使GOOGLE可以更容易判断是否为自然链接。继续阅读>>

    46浏览7赞2019-11-21 12:20:01
  • SEO的初学者教学,搞懂SEO搜索引擎优化,让你网站订单接不完

    SEO的初学者教学,搞懂SEO搜索引擎优化,让你网站订单接不完

    SEO是一种透过自然排序(无付费)的方式增加网页能见度的营销规律。SEO包含技术与创意,用以提高网页排名、流量,以及增加网页在搜索引擎的曝光度。SEO有很多方式,可从您网页上的文本,或着从其他网站链接到您的网页。有时SEO只是一种简单的方式确保您的网页架构可让搜索引擎了解。继续阅读>>

    0浏览0赞2020-01-19 11:00:02
  • 第一章:搜索引擎的运作方式

    第一章:搜索引擎的运作方式

    搜索引擎有两个主要的功能:抓取与创建索引,以及提供用户最具关联的搜索结果列表。全球的信息网络如同是大城市的地铁系统。 每个车站都是一份文档(通常是网页,但有时是PDF,JPEG,或是其它文档)。而搜索引擎需要一种方法去“检索”全部城市以及寻找各个站点的方法,最好的方法就是使用网页设计上的”链接”方式(Link)。继续阅读>>

    50浏览11赞2019-11-12 12:20:01
  • 第二章:与搜索引擎的交互

    第二章:与搜索引擎的交互

    “SEO搜索引擎最佳化”的市场策略,最重要是让您的客户有认同感。一旦掌握目标市场的需求,就更容易营销并且保留您的客户。(在网页设计时必须了解商品性质进行市场策略)继续阅读>>

    33浏览8赞2019-12-03 13:00:02
  • 第三章:为何SEO搜索引擎营销是必要的?

    第三章:为何SEO搜索引擎营销是必要的?

    “SEO搜索引擎最佳化”最重要的一个任务是让您的网站容易被用户和网络蜘蛛了解,虽然搜索引擎已经变得越来越精密,但仍然无法用人类的角度来看网页,制作”SEO搜索引擎最佳化”用意是帮助搜索引擎更容易解读每个网页,与分析网页是否能够带给用户所需要的内容。继续阅读>>

    26浏览7赞2019-12-19 13:20:01