重复内容是一个SEO优化上非常常见的议题,几乎每个网站都会遇到,但很多刚学习SEO的人并不知道SEO上有所谓的『重复内容』问题,因此我特别写了这篇来介绍重复内容。
重复内容(Duplicate Content)在SEO上是被存在的议题,也是学SEO一定要知道的优化项目之一,但重复内容的类型非常多种,每一种重复内容的解决方法也不一样,在这一篇文章我希望可以帮助你很完整的学习这个优化项目,了解重复内容产生的原因、原理,并了解该如何诊断自己的网站是否有重复内容、以及你遇到时,该选择哪一种解决方案。
备注:重复内容类型跟情境太多,这篇文章我先介绍几种常见的,后续我会再写其他篇文章介绍其他的重复内容类型。
为什么重复内容会影响SEO?
Google是一个非常重视用户体验的公司,当然,搜索引擎的用户体验也绝对是Google最重视的事情之一。相信正在读文章的你也是Google的高频率用户之一,有用过Google就知道,在搜索结果上我们会看到非常丰富的搜索结果来帮搜索者解决问题,试想,如果有五个网页有着一模一样的内容(比方说Harris老公的文章被转载到五个不同的网站上去,就会有五个网页有一样的内容),Google会在搜索结果上都给这五个网页好的排名吗?
不,并不会。
Google基本上不会给搜索者看到5篇一样的文章(即便在不同网页上),我们所看到的每一个搜索结果一定都有着不同的内容,因为不同的文章撰写者所提出的解决方案、观点、角度、信息,知识、产品都不一样,看到这些多元的、不同的内容有助于帮助搜索者解决问题。你应该没看过搜索某某关键字后,搜索结果前10个网页,里面内容都一样吧?Google并不会这样做,因为这样做没办法真正的帮助搜索者解决问题,Google希望搜索者看到多元丰富的搜索结果。
("如果"搜索结果会给你一样的内容,你就会看到以下的画面,这样的内容对用户是没有帮助的,搜索者需要多元的、不同的内容)
因此,如果今天在五个网页上存在着一模一样的内容,通常Google只会选择给其中一个网页好的排名。如果你的网站内容在多个网页都有着一样的内容,那么你就会遇到重复内容的问题,可能就会对你的SEO有所伤害。
为什么重复内容会影响SEO?再举例来说,"若你跟你同学的作文作业完全互抄,那老师没办法判断哪个人写的比较好 ,因为两个人写一模一样的作文。Google就像老师一样,判定哪个同学的作文内容写得好,并给予搜索排名 ",重复内容可能发生在不同网域、或是同网域,但只要不同的网页、有一样的内容,Google就会无法判断到底哪个网页的内容能得到好的排名。
实务上并不是所有的重复内容都会对SEO有负面的影响。每一种重复内容的成因以及解决方式都不同。
在SEO上,重复内容有几种类型?
实务上重复内容有非常多种,每一种的成因不同,对你的SEO产生的影响以及解决方案也不一样,在剩下的文章我会详细进行解说(下图可以点开来放大看)。
就广泛定义来说,只要你有多个不同的网址,网址内的内容一样或是非常相似,在SEO上就是所谓的『重复内容』,根据官方哦法,只有上图最左侧的『抄袭、剽窃』别人的内容会对你的 SEO有很直接的负面影响,这个我想我就不多说了,,他们会对抄袭别人内容的网站进行惩处,为了保护网站主的知识产权,因此,如果你的网站内容都是抄袭别人的并且有被检举,Google会采取行动降低你的搜索可见度以及排名。经营网站的我们,不管是产品描述、文章、文案,都尽可能不要抄袭其他网站的内容,除了会有法律问题外,抄袭并不是经营SEO的长久之道。
除了抄袭、剽窃之外,SEO的重复内容我们还可以再分为两大类,分别是『同网域重复内容』以及『跨网域重复内容』,同网域又可以分为"网址版本变化"以及"产品变化"两种,以下我先解释重复内容的成因,文章后段我会解释为什么这些状况会影响你的SEO以及该怎么解决,各重复内容的成因如下:
重复内容#1『同网域重复内容』- 网址版本变化:HTTPS与WWW
每一个网页可能都会有很多不同版本的网址,对于Google来说,只要网址稍微不同,就是完全不同的网页,以我这篇文章的网址为例,举例来说,我可能会有四种网址版本:
https ://www.mamioo.com/content-duplicate-issue/ (HTTPS 、有www版本的网址)
http://www.mamioo.com/content-duplicate-issue/(HTTP、有www版本的网址)
http://mamioo.com/content-duplicate-issue/(HTTP、没有www版本的网址)
https ://mamioo.com/content-duplicate-issue/(HTTPS 、没有www版本的网址)
有些网站虽然有安装HTTPS,但却没有做好转址,导致HTTP版本的网址也可以进到你的网站、HTTPS版本的网址也可以进到你的网站,这就会造成Google爬取你网页时,发现https ://www.mamioo.com/ 以及 http://www.mamioo.com/这两页都存在,共有两组网址都可以进到你的网站,而就会衍生出重复内容问题。(另外,关于HTTPS与SEO的影响,可以看这篇:电商网站的重要 SEO排名因素:谈 HTTPS对 SEO的影响 )
另外,你的网页是否有 www都可以进到你的网站,也会产生重复内容问题,像是 mamioo.com 以及 www.mamioo.com 。实务上如果你的网页共有1000页,但每一页的HTTPS以及HTTP都可以进到你的网站时,等于Google爬取你的网页时共会爬到2000页(因为每一页都有两种版本的网址),不论是HTTPS 以及HTTP,还是 www以及non-www,都是一样的道理,会导致你的页面膨胀,并且每一篇文章/产品都有两种网址。
这类型的重复内容对于网站的访客来说是完全没有影响的,有很多访客根本不会发现你的网页上有重复内容,但这会对SEO造成影响,在文章的后段我会针对每一种重复内容列出解决方案。
重复内容#2『同网域重复内容』- 网址版本变化:网址参数
不管是内容网站还是电商网站,根据网站架构的不同,可能会产生额外的网址参数,举例来说:
www.mamioo.com/content-duplicate-issue
www.mamioo.com/content-duplicate-issue?cid=21
www.mamioo.com/content-duplicate-issue?cid=52
www.mamioo.com/content-duplicate-issue?cid=34&pid=2
这些参数的成因有可能是工程师在架构前台与后台的架构时会产生,或是公司需要追踪成效时会产生,这种状况非常常见,但很多营销人可能没有认知到原来公司网页有这么多种网址参数,我也有很多的客户过去都没有意识到自己网站有这样的重复内容问题在影响他的SEO,因此我会建议你可以针对自己的网站检查一下,是否有这样的状况,也许有,但是被忽略掉。
实务上要怎么检查呢?
最简单的方法就是去观察Search Console的到达网页报表以及Google Analytics的"所有网页"报表,看看你的网页是否有各种不同的参数。(在文章最后我会介绍更多检查重复内容的手段)
重复内容#3『同网域重复内容』- 产品变化/内容变化:
第三种重复内容在电商网站上比较常见,电商网站的商品可能会有很多不同的规格,比方说毛衣有分不同颜色、不同Size,洗发精可以分不同容量,从300ml、500ml、1000ml。
假设今天你的毛衣产品页分为:
Harris牌 – 冬季防寒毛衣(黑)
Harris牌 – 冬季防寒毛衣(红)
Harris牌 – 冬季防寒毛衣(黄)
试想一下,如果你有这么多不同规格的产品页,他们事实上是同一支产品,只是产品的规格不同,那么想当然这些产品的页面除了产品的图片以及产品名称之外,网页上的内容几乎会完全一样(毕竟是同一支产品),当有人搜索"冬季防寒毛衣"时,Google只会给其中一页排名,你也会遇到重复内容的问题。
备注:如果你有很多不同产品规格,有不同颜色、不同Size,但没有分成不同网址,那就没有重复内容问题,可以不用处理,我们在定义重复内容时,定义是:不同的网址上,有着一样的内容,才会有重复内容问题。
重复内容#4『跨网域重复内容』- 商业合作、投稿:
如果你有与其他网站进行商业合作,比方说给其他媒体转载你的文章,或是你去转载别人的文章,就会有重复内容的问题,不过因为转载跟商业合作一定是受过对方的授权,对方并不会来检举你,因此也不会被认定为抄袭、剽窃,但仍然会有些SEO的问题产生,关于商业合作以及投稿的部分,我已经有另外写一篇文章:谈《文章投稿》对 SEO的影响,文章投稿会伤害 SEO吗?
不过我建议你看完这一篇之后,再去读另外一篇投稿与SEO的关系。
不是抄袭就不会被惩罚,那重复内容怎么影响你的SEO?
上面介绍完了常见的几种重复内容类型,接下来我会说明重复内容为什么会影响你的SEO、再接着解释该怎么解决这些重复内容问题。
由于重复内容是官方承认的SEO存在议题之一,也是业界SEO专家认同会影响 SEO的现象之一,因此Google曾多次出面解释重复内容对于网站SEO的影响(Google甚至有说明在谈论重复内容),根据官方哦法,只要网站主不是恶意要抄袭、剽窃别人的内容,基本上网站主不会被Google惩处。
重复内容有很多形式跟成因,可能发生在任何网域、任何网站,Google如果爬到你的网站上有五个网页有着一样的内容,对于Google来说,搜索引擎会进行判断,并且只会给这五个网页的其中一页好的排名,虽然Google不会对你的网站进行惩处,但实务上,这会造成两个 SEO问题。
问题#1:权重分散
如果今天你有网页A、B、C三页都有着一样的内容,内容会一样的成因并不是抄袭、剽窃造成的,可能是网址版本不同、或是网站的参数问题,Google并不会对你惩处,并且只给其中一页排名(为了给搜索者多元的搜索结果)。官方虽然不会对你惩处,但实务上会造成的SEO问题是:你的权重会被分散。
我们都知道SEO有所谓的"网页权重"存在,你的网页权重越高,对你的SEO越有帮助,而在网页权重上Google最重视的就是反向链接 ,假设我今天有三个版本的网址都可以进到我的某篇文章:
https ://www.mamioo.com/example (HTTPS版本的网址)
http://www.mamioo.com/example (HTTP版本的网址)
http://mamioo.com/example (没有www的版本网址)
获得反向链接的主要方法之一就是你的内容被"传播、分享",如果你有好的内容/产品,消费者/网友/其他网站主会分享、传播你的网页,并进而获得反向链接而提高网页的权重,当你的网页有三种版本的网址时,你没办法控制别人分享、传播你的文章时,他使用的是哪一种网址,有的人会转载/分享A网址、有的人则是转载/分享B,这就会导致你的网页权重被分散,权重被分散对SEO当然就会产生影响。
问题#2:影响Google爬取你的网页
假设你有五万个网页,并且有HTTPS以及HTTP两种版本的网页,那么Google在爬你的网页时其实就有十万页要爬,这会让Google爬你的网页时更没有效率、也要花更多时间,试想,如果爬虫爬你的网页很吃力、很没效率,是否会对你的SEO有影响呢?这答案应该是显而易见的吧 : )
我曾经在这篇文章 中提过,Google有所谓的 Crawl Budget,当Google爬你的网页没有足够的效率时,就会影响你的SEO(在未来我会针对Crawl Budget来专门写一篇文章)。
谈SEO与重复内容的解决方案
针对不同的重复内容,你需要采取不同的解决方案,基本上解决方案有几种:
解决方案#1:301转址
网页在进行转址时有许多种转址的方法,有301转址、302转址、Javascript转址等,而使用301转址可以把网页的权重集中(这是被官方论证过的作法,官方文档如下图)。
如果你遇到的是同网域重复内容,301转址通常会是最佳解决方案,举例来说,如果你有以下不同版本的网址,权重会被分散:
https ://www.mamioo.com/example (HTTPS版本的网址)
http://www.mamioo.com/example (HTTP版本的网址)
http://mamioo.com/example (没有www的版本网址)
遇到这样的重复内容时,你必须要先定义自己的标准网址是哪一个,假设我的标准网址定义为"https ://www.mamioo.com/example",那么我应该把其他两种版本的网址转址到标准网址上,实务上会是:
http://www.mamioo.com/example – > 301转址到 – > https ://www.mamioo.com/example
http://mamioo.com/example- > 301转址到 – > https ://www.mamioo.com/example
解 决方案#2:Canonical标记
Canonical标记是由Google所提出,你可以特别写在HTML原代码上的标记,这个标记会帮助Google认识你的重复内容问题,并且把权重集中,实务上比较适合用在产品版本的变化。假设我有黄、红、蓝、绿四个颜色的毛衣款式,因此我建了四个产品页面除了产品的图片以外,内容完全一样,这将会造成重复内容的问题,影响你的SEO
这时候我不可能用301转址,因为这些不同产品规格的网页都需要给网站的访客进行浏览,因此,在不能301转址的情况下,你的替代方案就是官方所提出的<canonical>标记,同样的,你需要先选定一个标准网址,假设我标准网址定义为绿色的毛衣,那么做法很简单,只要在黄、红、蓝三个毛衣的页面底下加入 <link rel=“canonical” href=“绿毛衣的URL” />,<canonical>标记就已经正确的标示完成(如上图)。
接着搜索引擎便会知道这四个页面之间的关系为同样的产品页面:绿色为标准网址,在黄、红、蓝三个毛衣的页面为重复内容,同时这也会引导Google只索引绿色毛衣的页面,并且在搜索结果中 Google只会显示绿色毛衣的页面。(黄、红、蓝的页面有较多的反向链接跟权重,Google同样能抓取到,并且将这四个页面视为同一页,把权重进行集中)
( canonical语法范例:<link rel=“canonical” href=“https:www.mamioo.com” /> )
注:Google官方不保证他采用你所写的canonical元素会被采用,但我们没得选择,这确实Google官方提出的解决方案,能告诉Google你有重复内容的问题,并且Google会尽可能处理。
同时,使用上你要注意,避免有两个网址互相用canonical指向,举例来说,如果你在绿色毛衣的网页上用canonical指向红色毛衣,在红色毛衣上canonical指向绿色毛衣,这样Google不会知道你的标准网址到底是哪一个。正确做法应该如上方的图片所示,在黄、红、蓝三个毛衣的页面底下加入<canonical>标记,而绿色毛衣的网页不使用canonical 标记(因为绿色毛衣自己就是标准网址,而黄、红、蓝三个毛衣的页面才是重复内容)。
解决方案#3:关于商业合作以及投稿
解决『重复内容』时的注意事项
除了上述两种解决方案之外,在解决的同时,有一些注意事项你要注意:
注意事项#1:尽可能不要发生『重复内容』
最好的状况就是根本没有重复内容产生,权重不会被分散,也不需要特别用上述的解决方式,实务上如果重复内容的状况很多,其实光转址的处理就会非常花时间。
有很多案例是客户的网站同时有上述所有的重复内容状况,有www与non-www版本的网址,又有HTTPS与HTTP的重复内容、网址还有很多种不同的参数,光处理这些重复内容问题可能就要好几个礼拜的时间,因为你要检测重复内容发生的位置、整理出清单、请工程师转址,转址后还要花时间检查是否有确实转址,如果公司网站规模很大、有几十万页的网站规模,甚至需要几个月的时间来处理。
注意事项#2:谨慎使用301转址
301转址在SEO上是不能胡乱使用的,否则会对你的SEO造成很大的伤害(同样的我会花时间写一篇专注讨论转址跟SEO之间的问题),以本篇文章提到的状况来说,你必须要确保有重复内容的状况才能使用。
注意事项#3:其实每个网站难免会有重复内容问题,是否处理要看比例
每个网站难免都会有一些重复内容问题,经常我们可能也会引用其他网站的内容(像是我的博客,我经常会引用部分Google官方的段落帮助你学习),引用其他网站的文章段落也会导致你有部分内容跟别人一样。
实务上我们在定义重复内容时会看"重复内容的比例是多少",如果你是引用别人一小个文章段落,但该段落只占你整篇文章的20%,那基本上你不用太担心,因为你有80%的内容是独特的,不会对SEO产生太多影响,但如果你的网页有80%的内容跟其他网站/网页的内容一样,那么就会有重复内容问题。
Bonus:检测重复内容的工具
在文章的尾段,我想分享一些额外的重要知识,因为重复内容有非常多种,有『抄袭、剽窃』、『同网域重复内容』、以及『跨网域重复内容』。
基本上如果你复制、甚至是抄袭别人的内容,你一定会知道,因为你是网站主或网站的营销人。
如果你有很多不同产品规格变化,且每一种规格的网址都不一样,你也会知道。
如果你有跟别的品牌有投稿、转载的商业合作,你也会知道。
最麻烦的就是怕你的网站上有不同的网址版本或是参数(像是上述提到的HTTPS与HTTP,或是?cid=234这样的参数),有时候营销人不会察觉到网站上有这些参数,所以你需要透过一些工具来进行检测,实务上我们常见的检测方法有几种:
检测方法#1:Search Console的『改善HTML』报表
在Search Console的『改善HTML』报表内,Google会把爬到『重复Title』或是『没有设置Title 』的网页列出来给你,基本上如果你有多个网址版本的内容一样,那么这些内容一样的页面他的Title、Description一定也一样,在Search Console你可以检测到。(注:因为我不可能截屏客户的网站数据到博客上,故只能放上我的截屏,但我的网站没有重复内容问题,所以下图的Search Console没有显示侦测到的问题,如果你的网站有被侦测到问题,在这张报表中会看到数据,而不会像下图这样显示【我们并未在您的网站上侦测到任何内容问题。】。)
检测方法#2:Search Console到达网页报表以及GA的所有网页报表
如果你有很多不同版本网址的网页,基本上GA的所有网页里面会看到,你可以打开GA的网页报表,去找出那些流量比较少的网页,看看你的网页是否有很多不同版本的网址。
检测方法#3:爬虫工具:Ahrefs、Screaming Frog
上述的两种方法其实会有它的问题,举例来说,如果你有重复内容问题但Google还没爬到,那么『检测方法#1』的Search Console的报表就不会显示出来,但Google现在没爬到不代表未来不会爬到,因此只看Search Console的报表未必可以完美的检测出所有的重复内容问题,以GA的报表来说,如果你有重复内容的问题,但那些重复内容的页面并没有产生流量,GA里面也不会有数据(有流量的网页才会在GA里面有数据)。
因此,上述的方法其实是不够的,以SEO顾问的角色来说,为了更有效的检测客户的网站SEO问题,通常身为顾问,我们会购买其他的SEO工具,并配合Search Console、Google Analytics来进行更完整的检测,以我来说,我是使用我曾经推荐过的 SEO工具:Ahrefs 。Ahrefs里面有爬虫的功能,原理上他们会派一只爬虫去爬你网站上的数据,并且把侦测到的SEO问题列出来给你(如下图)。
Bonus:转址检测工具 – Redirect Path
在文章的前段我们有提到重复内容有时是网址版本造成的(像是HTTPS以及HTTP),实务上检查的方法就是你同时试着使用HTTP以及HTTPS两种版本的网址造访你的网页,看是否能够成功造访,如果可以的话,就会有重复内容的问题,并且必须要用301转址进行处理。
你有可能会发现你的网站确实有网址版本的重复内容问题,或是网站现在已经有做好转址了,因此你会需要检查网站的转址状况,在检查网址的转址状况时可以使用 这个免费的Chrome工具,Redirect Path可以帮助你检查网站的转址状况,以下图来说,我试着用https ://www.mamioo.com 进到我的网站,然后Redirect Path帮我侦测到https ://www.mamioo.com会自动301转址到http://www.mamioo.com (没有HTTP版本的标准网址)。
今天的文章先到这边哦,希望透过这篇文章先给你一些『重复内容』的基本知识,在未来我会针对『重复内容』提供更多的分享以及教学,我们下一篇文章见 : )
评论列表 (0)