码迷SEO内参(15) 百度快排原理及百度第三代点击排名统计系统简析

作者: 用户投稿 阅读:660 点赞:885

今天讲百度第三代点击排名统计系统,顺带把百度快排深度原理也刨析一下,自从19年10月份以来,百度对快排打击丝毫没有手软的迹象,码迷发现凡是采集+快排模式的网站至今无一幸免,70多天了也没有起色的现象。可以说百度这次对快排不是让你的快排失效,而是升级到惩罚性质了。

为了验证码迷的猜想,码迷特地搞了一套快排的源码,深入研究了一番。

无论是百度还是谷歌,算法一直在变,所以思路套路总有失效的时候。没有任何算法是一成不变的,也没有任何算法是绝对停滞的。但是百度在变与不变之间,它的理念、路线、战略,都依循用户体验这个原则上不断加以调适和修正

百度与谷歌的不同

在了解点击统计排序系统之前,码迷还是那句老话,通过线上案例现象总结SEO规律,通过SEO规律探讨百度搜索算法本质,通过百度算法本质探讨正确有效的SEO策略。

我们以“SEO优化”、“SEO 优化” 两个搜索词(仅有一个空格之差)为例,看一下百度结果的差异。如下图,虽然仅有一个空格之差,但是一半以上的搜索结果是不同的。

百度搜索结果差异

按照道理来讲,这两个词应该结果是一致的才对,码迷对此也询问了百度的同学,百度猿也觉得自己算法垃圾的一批,码迷认为这是百度的BUG也不为过。

咱们再看看谷歌吧,如下图,可以看到谷歌给出的“SEO优化”、“SEO 优化” 两个搜索词的搜索结果,仅仅是广告而已,其他几乎完全一致哦。

“SEO优化”、“SEO 优化” 两个搜索词,刷“SEO优化”点击的非常多,但是刷“SEO 优化” 相对很少,这就导致了百度两个页面巨大的差异。

相对应谷歌,因为谷歌并不会把点击数据直接应用于排名计算,所以导致谷歌排序结果更加稳健一些,很难收到点击排名的影响。在相同语义之下,百度与谷歌结果的差异,也说明了背后算法原理差异。这个算法差异,就是点击,就是百度的点击统计系统。

一、百度点击排名系统的构成

百度点击系统,码迷认为更标准的说法为百度点击统计排序系统,主要有4部分组成,点击收集+点击统计+点击排序+点击,是一套非常完善的流水化作业系统。

首先,点击收集模块

百度点击收集,主要搜集搜索结果的点击次数,所述鼠标点击次数等于鼠标点击统一资源定位符URL次数加上鼠标点击文本次数。也就是说,点击标题、点击描述摘要,都算点击

其次,点击统计模块

百度点击统计什么,就是百度从数据库获取一段时间内的鼠标点击日志,鼠标点击日志中包括用户标识、 点击的URL以及点击URL的时间,依据搜索结果的URL以及鼠标点击日志, 统计搜索结果的鼠标点击URL次数;

其中,一段时间可以依据需求进行配置, 如一天、一周或一个月等。这里3个点非常重要。

重点1:用户标识

某高层论坛上,也说了:“中国人更开放呀,愿意用隐私换效率呢”。

什么是用户标识,简单说就是用户类型、IP类型、终端类型。百度对用户、IP、终端划分是非常细致的,不管你是临时用户还是注册用户,有时候单凭一个IP就知道你是谁了。百度真的是这么干的。

现在市面上的快排系统,可以说99%的都是通过随机cookie生成的用户,在百度看来都是临时短期用户。一个网站的用户全都是临时短期用户来的,百度信你个鬼啊。

重点2:周期性统计

另外一个重要的点是周期性统计,不知道大家注意到没有,之前1天刷100个点击,跟5天刷100个点击效果是一样的。

重点3:每次点击均有日志

你今天刷快排没有被百度识别,不代表明天百度就看不出来,因为你网站每一个点击都会硬邦邦的保存在百度日志系统中,而且日志只会归档,很少清空。

什么时候百度觉得你网站行为可疑,拿出历史旧账日志分析一番就可以了。

其次,点击模

这块这一章节码迷在《码迷:谈谈百度对快速排名的打击手段》里面都已经详细说过了,核心专利是《CN201910352770.5 用于处理点击行为数据的方法和装置》,大家可以到码迷SEO的QQ群里面下载,码迷在这里不多描述。

码迷要说的是,快排系统是最近2019年年中刚上的系统,百度算法工程师确确实实下了一番功夫才研究出来的反快排点击系统。

但是,百度这个系统没有从根本上杜绝点击作弊,他本质是个后续二审算法而已。主要有以下2个流程

流程1:点击数据聚类

网站刷快排点击之后,并不会被百度立马识别,而是在一定时间后(码迷认为一周左右),随着访问你网站的设备标识、用户访问路径与你网站URL通过机器学习,形成聚类之后。

流程2:作弊识别判定

你网站的用户行为形成的聚类,与百度已经训练好的多个“无作弊样本聚类”、“作弊样本聚类”做对比,如果命中了某个作弊聚类,你就玩完了。

最后:点击排序模块

点击排序,就是算各个搜索结果的权重值,百度也给出了公式哦。不过一些人说看不懂就不想看了。其实我还是建议大家认真看这个公式,我们只看因子就行了,内部算法细节不是最重要的哦。

你可以发现,点击得分与你鼠标的点击次数成正比,与全网整个关键词的点击次数成反比。也就是你比竞争对手点的次数多,你的关键词点击率更高,那你的得分点击就更高。

那么现在如何做快速排名,有些同学刷快排得不偿失,主要有三个层面的原因。

【本文为SVIP专享文章,仅显示部分内容,请老师到SVIP群获取全文】

2019年12月28之前SVIP 5重福利

福利1:免费领试用券

福利2:阅读内参全文权限

福利3:码迷整理66个百度精选专利

福利4:码迷SEO内参订阅折扣

福利5:提供案例送3个月

11月初,也就是码迷上线3个月左右,几乎每两天就有1个案例,至今截止已有50名SVIP会员获得了分享案例的额外福利,上首页周期在1~3个月左右。

SVIP/SSVIP下单链接:https://www.mamioo.com/prices

-----隐藏域-----

二、点击矩阵集权原理

矩阵集权的历史背景

所以百度点击系统看起来蛮简单的吗,不就是统计点击后,给你排名,看看你有没有作弊就行了。

还真不是怎么简单。想想我们前面提到的,搜索“SEO优化” 跟 “SEO 优化”,中间只是加了个空格而已,词义也没有发生变化,所以搜索结果应该是几乎一样的,但是百度的两个结果却大不相同。

起初,搜索词之间并没有点击权重的传递,所以在2016年之前,查看一个词是否被快排干涉,只需要在搜索词后面带个“~”号就行了。

比如我想看“SEO优化”的前几位排名是不是刷快排,我再对比一下“SEO优化~”的结果就行了。

但是百度工程师还是努力让“SEO优化”与“SEO优化~”的搜索结果尽可能一致,那怎么办?

那就让点击权重在相关词之间传递吧。

比如搜索语句是“A行信用卡”,样本搜索点击行为集合中不存在搜索点击行为“A行信用卡”,但存在搜索点击行为“A银行信用卡”,此时可以获取“A银行信用卡”的词向量作为搜索语句“A行信用卡”的词向量。

这就导致了很长一段时间刷快排是一本万利的事情,我刷一个词,相关词也上去了,我擦我多么幸福。百度工程师于是觉得不能让扩展词之间这么简单的传递点击权重呀,要不搜索结果真的是垃圾了。

所以今年7月份左右,点击矩阵算法上线了。简单来说,一个搜索词的点击得分,不仅依赖于自己的点击,更依赖于扩展词的点击了。所以今年下半年几乎所有的快排均失效了,而整站提权还能有作用而已

那么点击矩阵权重传递到底怎么个传递法?这里就引出了另外一个问题,叫点击作用域。

点击作用域

说到百度点击统计系统,这里不得说一下点击作用域,什么点击作用域?点击作用域是指某个搜索词的点击波及其他搜索词的排名影响范围。

比如码迷有个案例的标题是“生日礼物”,它在“生日礼物”这个词的点击率很高,所以排名现在上升到第一了。但是“生日礼物”这个词的点击率再高,不会影响到“生日”和“礼物”这两个词的百度排名,更不会影响到“节日礼物”等其他搜索词的百度排名。

也就是说:某搜索词的点击排名因素是只作用于该“搜索词”级别的,而不会作用于“搜索词的子词”。

另一方面,在实际中,“生日礼物”这个词的点击率高,却会带动“实用的生日礼物”、“生日礼物网站”、“创意生日礼物”的排名上升。那么,某搜索词的点击排名因素是不仅作用域在“搜索词”级别的,还会作用域在“查询词的扩展词”。

所以百度工程师在做点击算法的时候,要严格按照点击作用域的规范来,否则搜索结果就乱套了。但是百度工程师随后遇到了另外一个问题,就是带有地域性质的搜索词,更倾向于地区性排名。

什么是地区性排名

比如“热水器维修”这个词因为有地域性需求,青岛的搜索结果会把“青岛热水器维修”排名靠前。也就是说,带有地域性质的搜索词,会根据用户的地区的点击次数计算点击权重。同时,青岛地区“热水器维修”这个词的点击率再高,不会影响到“热水器”和“维修”这两个词的百度排名。

也就是即使是地区性排名,点击率这个排名因素是也只作用于“搜索词”级别的,不会作用于“搜索词的子词”,地区性排名也是“搜索词的子词”的一种特殊场景

码迷这里为什么讲点击作用域,因为这实打实的涉及到快排系统的刷法套路,码迷在这里点到为止。

三、那么现在如何做快速排名

有些同学刷快排得不偿失,主要有三个层面的原因。

一个是被标示为作弊,其次刷词方法不对,最后没有过点击预估模型。

首先,过坎儿。

码迷简单说一下用户点击行为日志的结构:

用户标识(userid):用户标识(cookie,是否注册,客户端);

检索关键词(query):刷点击的那个词;

题目(title):网页名称;

日期(date):例如,2013年6月3日,其格式一般可以为“20120603”;

时间(time):例如,12点34分02秒,其格式一般可以为12:34:02;

ip:IP地址;动作标识(actid):网页动作的标识;

动作名称(actname):网页动作的名称;

动作属性(actattr):网页动作的属性;

归一化URL(unifyUrl):URL的归一化结果;

一共就10个字段,而且所有的市面上的点击系统都是在使劲的造这10个字段里面的内容,而百度正是根据这10个字段训练出反面作弊特征训练集以及正面特征训练集。

既然99%的快排软件都是随机生成的临时短期用户cookie,那么单单一个用户标识(userid)都不能过百度,那就别提其他字段了。码迷在 《谈谈百度对快速排名的打击手段 https://www.mamioo.com/seojishu/section-7》 中, 已经针对百度最新的专利《CN201910352770.5 用于处理点击行为数据的方法和装置》,解说的很明白了,那时候很多快排商家都把这篇文章当笑话看的。

其次,用正确的刷词方法。

多词少刷是最基本的,比如“SEO优化”这个词,排名第一页的决定不是光刷这一个词就行了,在他背后,是海量扩展词的点击权重传递。

这里不多讲,其他套路码迷已经在文章中点到为止了。

最后,符合点击预估模型。

什么是点击预估模型?就是在你网站内容质量以及目标搜索词的基础之上,点击次数要符合预期。这里有两个层面的意思,举个例子。

“SEO优化”每天的真实搜索次数为500次,而某人做“北京SEO优化”你每天刷10000个点击,而相关词“北京网站优化”、“北京SEO公司”的每天搜索次数也就100左右,所以不要以为百度傻。

再比如,某人的网站内容字数不到500字,需求相关度总得分也不在全网TOP50之内,而某人的点击率都超过20%了,所有现在很多刷快排的前一两周形势喜人,第三周就一头栽下去再也起不来了。百度不回头二审下某人的内容,那审别人的干啥,百度闲得慌吗?

四、网站刷快排被降权了怎么恢复?

有好几个同学问码迷,刷快排被百度降权怎么办?你先看看你的网站,内容质量不行怎么过点击模型,内容都是采集怎么过飓风3算法,刷点击又被机器学习锁定了特征。你现在网站的权重其实是你本来该有的权重而已。

码迷认为,做快排被K的,该吃吃该喝喝,吃饱喝饱一定要做好内容,增加百度信任度才是王道。

五、百度快速排名的未来

基于内容质量的点击率预估模型补丁、基于相关性的权值传递矩阵模型补丁、基于用户行为路径的训练模型等等,这些踉踉跄跄的补丁包们,在今年下半年百度陆续上线。码迷称之为百度第三代点击统计系统,但是这些仅仅是打大补丁而已。

快排还是能做的,只是不再是网站排名的扛把子了。

首先,快排成本会大幅上升

百度最近的算法,都是基于大量样本的机器学习模型算法,对那些习惯“采集+快排”SEO佬们真的是降维打击。所以要让百度检测不出来,刷点击就要降低用户、IP随机性特征、改变刷点击模式多词少刷。另外百度既然上了新算法,根据能量守恒定律,快排商也要迎接新算法,那些必然带来成本的上升。

其次,投入不一定有收入

就像老铁说的,刷少了,没啥用,刷多了成本高,而且又不是让你刷刷就上去的。如果不懂刷法(其实刷法在码迷之前的文章以及本文已经点题了),肯定被百度杠的连都不剩了。

最后,百度最终会抛弃点击算法

因为百度点击统计系统,不仅导致了相同语义下的搜索结果差异性问题,也终究无法解决相同语义下的搜索结果差异性问题,还让百度程序猿们一直缝缝补补活得好痛苦。所以尽管最近1年百度不会抛弃点击算法,但是终究会向谷歌算法靠拢

本站内容均为「码迷SEO」网友免费分享整理,仅用于学习交流,如有疑问,请联系我们48小时处理!!!!

标签: 百度 排名 SEO seo 系统

  • 评论列表 (0