做SEO要处里的第一个问题,就是让搜索引擎收录网站,大多数的时候我们比较担心搜索引擎不能够正确爬取网站,例如:使用javascript、flash…等等技术,会不会造成收录造成困难,导致连竞争排名的机会都没有。
不过其实在某些情况下,不要让搜索引擎收录网页,反而是有好处的。将会分别介绍甚么情况下会想要限制搜索引擎收录网站,并且如何能做到这件事。更进一步,这么做对SEO的助益在哪。
收录基本概念:
最开始,让我们简述一下在这篇文章反复出现的字眼—收录,在SEO中到底扮演甚么样的脚色。一般来说,搜索引擎的机器人(google bot)会根据网页之间的链接进行移动,借以爬取全部网络,这个过程称为检索(crawl),爬完网页数据后会把有用的数据放进数据库,这个过程称为索引(index)同时也就是本篇的主题 – 收录。
没有被收录,就不可能出现在搜索结果中,更不用谈排名了。对SEO来说,网站能够被正确收录是非常重要的,不过收录并不是单纯的越多越好,如果一个网站收录了很多对搜索结果没有帮助的网页,反而会让搜索引擎认为网站的内容空洞,可能会让网站的权重下降。所以排除这些不重要页面也是SEO中一个有用的方向。
额外补充:有的人以为网站完全没有外部链接进入,也没有对搜索引擎进行提交,就不会被收录,这是不正确的! 以google目前的技术来说,这样的网站还是有很高的机会进行收录,尤其是当网站使用比较主流的CMS系统(例如:wordpress),在建置期间就被收录的可能性是很高的,而过早的收录其实会对后续SEO优化造成困扰,建议一定要进行正确的设置,避免后续的麻烦。
不需要收录的状况:
甚么时候不要被搜索引擎收录比较好? 以下举出几种常见的状况:
未完成、测试中的网站:
未完成的页面中的数据通常都是不完整、甚至是不正确的,如果在这个阶段被搜索引擎收录,可能会导致两个坏处:一、让用户产生困惑。二、让搜索引擎误会网站拥有的内容品质不好。
而测试中与正在创建的网站如果被收录,很可能会造成未来的正式网站与测试空间的内容重复,处理的不好还可能被搜索引擎当成是重复内容,甚至是抄袭。对SEO无疑是很大的扣分,建议要避免发生这样的状况。
隐密数据、不想公开的内容:
不少网站中存有用户数据、公司的内部数据、后台环境、数据库…等等,如果服务器设置不正确,没有确实的阻挡搜索引擎的爬取与收录,这些内容也是有可能会被收录并直接公开到网络上的,过去也确实发生过类似的案例。
这些数据被收录面临的问题可能就不只是SEO了,如果是涉及敏感的合约书、合同书…等等,可能还会有法律上的责任。
不重要页面
另外,用wordpress建置的网站除了上述的情况外,还会出现更多不重要页面的问题,由于wordpress缺省下只要上传图档或者是附件的时候,就会自动生成一个页面(例如:https://www.awoo.com.tw/blog/9/ )这个页面就是上传文档时自动生成的页面,由于这样的机制,wordpress建置的网站在缺省的情况下会产生大量的多余页面,如果没有进行相关的处理,就可能会伤害到SEO。要解决这个问题可以利用简单的wordpress插件:
如何查找网站是否收录了多余页面?
我们已经知道在甚么情况下可能会需要排除网页收录,在这里顺便分享一下如何去查找是否有收录奇怪页面的方式:
1. 利用site查找:
site是搜索引擎中的高端指令,在google的搜索框中打入:site:要查找的网域名称 ,就可以找到google收录的部分网址,在这里的搜索结果中很容易可以看到收录的多余页面。
2. 查看search console中收录数与实际页面做对比:
search console是察看google收录最准确数目的工具,查看里面的 Google索引 > 索引状态 就可以找到google的收录数目,把这个数目与网站中实际有效的页面做对比,也可以看出google有没有收录过多的情况。
排除收录的方法:
我们已经知道什么状况需要排除这些页面,接下来让我们看看如何做到这件事:
利用 robots.txt 文档:
robots.txt 文档位于网站根目录,能够向搜索引擎检索器表明您不希望检索器访问的网站内容。在大多数的情况下都可以解决不想被收录的问题,不过 robots.txt 本身还是有一些限制的,在中就有表明几种状况下 robots.txt 可能会失效:
a. robots.txt 不是强制的指令,因此不是每个搜索引擎都会完全遵守 robots.txt 内的指令
b. 不同引擎解读 robots.txt 的方式可能会有差异,导致没有文档生效
c. 以google来说,如果有足够外部链接指向网页可能也会让网页被收录,既使在 robots.txt 中是禁止的。
优点:robots.txt 设置方便,能够一次解决同一频道下的所有页面,绝大多数的情况下能解决问题。
缺点:在某些情况不会有效,并且由于设置是针对全部文档夹,如果设置错误可能会导致全部网站的收录都出问题,这样就会影响到旧有的排名。
服务器设置解决:
优点:能够根本性的隐藏不想被找到的内容。
缺点:设置隐藏的内容一般用户无法浏览。
利用网站管理员平台设置:
有些网站管理员有这方面的设置可以用来对所属的搜索引擎提出声明,例如:google 的 search console就有这个设置(移除网址),不过利用这个方法的缺点也很明显,就是只能针对单一的搜索引擎生效,对其他搜索引擎是无效的。
优点:设置方便,不需要涉及到代码
缺点:只能针对单一搜索引擎,移除得不彻底,同时不同的网站管理员平台可能对这个指令有不同的用途,不一定能达成我们希望的SEO目的。
(search console中设置移除网址)
最后总结:
当我们利用以上的方式去设置、排除掉一些不需要被收录的网站,让搜索引擎收录的页面品质提高,对SEO是有一定帮助的,不过在实际操作中,一定要特别注意不要设置错误,如果因为不小心或者搞错网页,让原本有重要排名的页面被移除收录,对网站的SEO是有致命性的伤害的! 因此一定要非常确定运行下会影响到的页面。
评论列表 (0)