码迷SEO内参(七) 从百度专利看百度对网页质量的评估方法(中)

作者:码迷
作者:码迷SEO
发布时间:2019-09-12 14:08:00阅读:2055点赞:421

对不起各位老师,最近一直忙于摩天楼内容助手的功能升级,没有时间写文章了。

上上一节码迷在《从收录现象看百度对网页质量的判定级别(上)》中提到,百度索引库分为低级索引、普通索引、重要索引三种类型,今天我从百度相关专利上一块探讨百度对网页质量的判定方法。

先说问题,最近群里有些老师开始反馈,自从2019年8月底后,之前的流量站套路有点不稳定。有同学说,一天几万个内容就收录50个,收录量越来越少了。

这里面很大一部分网站是采集的问题,这一部分在后续的章节中再说,因为本节只探讨采集之外的问题。

问题是:如何增加收录率?

今天的思路是这样,我们先分析百度专利,下一节搜集流量站的数据,再做一下结论。

百度网页质量判定

码迷大约找到了5个百度网页质量相关的专利,我们一个一个来看。

《CN104615705B-网页质量检测方法及装置-授权》

这个是2015年左右的专利,比较早,百度说了对网页质量的判定主要是2个方面,看下图

而在另外一个专利《CN104462284B-判定网页质量的方法及系统-授权》提及到的网页质量判定主要是对恶意广告的识别。

可以看到,百度对网页质量的初步判定的方法主要有5个维度

维度1:域名

根据网页的入链数量以及入链质量来确定网页的质量,入链数量越多,入链质量越好,一般其网页质量也就越高,即跟其他网页关联度越大,其重要度也越大。

SEO对策:老域名

维度2:内容稀缺性

用于对当前网页所包含的长文本中的分句进行语法语义分析,得到所述分句的句法结构;据所构成的当前网页的知识网络,以及当前网页的标题和/或子标题,生成当前网页的摘要。根据摘要上与所述目标网页的摘要之间的相似度,达到设定阈值的其他网页的数量和/或对应的相似度;根据统计结果,确定所述目标网页的质量。

SEO对策:保证网页中长文本原创性,尽量在最长文本中加入核心词

维度3:体验维度

网页上面不要有影响用户正常阅读的广告。这里不再多说。

SEO对策:无论是移动端还是PC端,杜绝漂浮类、固定浮动类的菜单、客服框。

维度4:图文丰富度

而在另外一篇百度专利《CN110162797A-文章质量检测方法和装置-公开》中,百度提及影响网页质量的因子有:

文章的字数,图片数量,中英文字数占比,文章的话题分布,段落数

而且,不同类型网页的质量判定方式不一样。

比如图片类的网页当然以判定图片丰富度为主。

SEO对策:一定要关注自己网站行业的优质网站图文比例,该加图加图,该加文字加文字。

维度5:相关性

在2018年11月的百度专利《CN109271580A-搜索方法、装置、客户端和搜索引擎-公开》中,百度提到码迷常常举的例子:

搜索信息为“刘德华老婆”时,对搜索信息进行语义特征提取后,可以确定搜索信息的语义特征可以为“刘德华老婆”、“朱丽倩”等等,若内容页中无“刘德华老婆”、“朱丽倩”时,则该内容页与搜索信息的相关程度较低,页面质量较差。

当搜索信息为“拔丝地瓜”时,若内容页中无“拔丝地瓜”、“地瓜”等关键字,则该内容页与搜索信息的相关程度较低,页面质量较差。

你内容好,不是因为你核心词密度屌,而是你相关性牛逼,这也是摩天楼内容助手在处理的问题。

SEO对策:做网页不仅要做核心词布局,相关词也要有所涉及,有能力的可以布局更多的相关词。


至于其他的维度码迷没有统计太多,因为百度的专利太多太多了!

其实上面的维度大家多多少少都知道,做流量站无非是选好的域名,做好的内容。

说起来简单,但是执行起来很难的。

毕竟任何网站都做不到网页100%被百度收录、100%被百度判定为优质网页。

码迷在《码迷SEO内参(四) 从附子SEO流量站套路到百度资源分配策略解析》中反复强调了百度资源分配策略,你可以给百度好的一面,也可以给百度坏的一面,但是一定要保证好坏平衡。

一看字数已经奔2000了,今天先到这里,搜索专利有点费劲~下节拿案例开讲。

本文网址:https://www.mamioo.com/seojishu/section-8

本站内容均为「码迷SEO」原创整理,未经授权严禁采集转载,违者必究。
评论
相关文章
  • 码迷SEO内参(15) 百度快排原理及百度第三代点击排名统计系统简析

    码迷SEO内参(15) 百度快排原理及百度第三代点击排名统计系统简析

    今天讲百度第三代点击排名统计系统,顺带把百度快排深度原理也刨析一下,自从19年10月份以来,百度对快排打击丝毫没有手软的迹象,码迷发现凡是采集+快排模式的网站至今无一幸免,70多天了也没有起色的现象。可以说百度这次对快排不是让你的快排失效,而是升级到惩罚性质了。为了验证码迷的猜想,码迷特地搞了一套快排的源码,深入研究了一番。继续阅读>>

    150浏览33赞2019-10-30 16:14:53
  • 码迷SEO内参(13) 快速排名系统野史,快排战度娘折腾3年之后又3年

    码迷SEO内参(13) 快速排名系统野史,快排战度娘折腾3年之后又3年

    今天码迷SEO内参开始讲快排,百度内部并没有快速排名系统,快排只是对应了搜索引擎内部的一套工序,这套工具叫 用户点击行为统计系统。针对的百度算法岗位叫CTR(点击通过率)算法。最早的CTR算法系统百度2010年左右有所涉及、2012~2013年开始完善布局。之前百度谷歌因为在中文系统算法上互相较劲借鉴,但是在谷歌退出中国之后(2012年),CTR技术上开始分道扬镳了。 今天的题目叫快速排名系统野史,快排战度娘折腾3年之后又3年,大家看着笑笑就好,别当真。继续阅读>>

    291浏览55赞2019-11-13 10:46:00
  • 码迷SEO内参(14) 快排整站优化提权与百度资源平衡性策略

    码迷SEO内参(14) 快排整站优化提权与百度资源平衡性策略

    今天码迷开始与大家分享快排整站优化提权的原理,其实快排并没有大家所想的那么神秘,因为即使是快排大佬们也没有足够的办法让排名一直维持在首页。更何况纯白帽的网站也一直跌跌撞撞被百度程序猿们折腾个不停。快排整站提权目前有效的,而且码迷预测在相当长的一段时间内一直有效,因为这与百度资源平衡性策略息息相关。继续阅读>>

    221浏览43赞2019-11-26 16:04:00
  • 码迷SEO内参(12) 如何做采集站:百度飓风3弱点&案例解析

    码迷SEO内参(12) 如何做采集站:百度飓风3弱点&案例解析

    经过上一节 码迷对《百度飓风3原创检测算法讲解》之后,很多小伙伴咨询码迷怎么做采集站,用什么样的方法才能过百度原创。今天主要讲解百度飓风3的一些弱点。百度算法不是百分百完美的,市面上已经有很多的采集的案例过了百度飓风3的检测了。继续阅读>>

    261浏览47赞2019-11-08 09:55:00
  • 码迷SEO内参(11) 百度飓风3原创检测算法讲解以及伪原创检测工具

    码迷SEO内参(11) 百度飓风3原创检测算法讲解以及伪原创检测工具

    上一节码迷跟大家探讨了单纯的同义词伪原创、AI伪原创都会被百度识别。这节咱就探讨百度飓风3原创检测算法的内部讲解,并且跟大家一块分析伪原创检测工具的好坏。码迷把摩天楼内容助手使用指南放到网上之后,百度收录了。网址是然后我通过在百度里面搜网页内容里面的句子,发现有的句子能飘红,有的句子不能飘红。这是为什么,如果你跟着码迷了解这些,你将会明白百度度飓风3原创算法的原理,以及伪原创检测工具哪个好了。继续阅读>>

    730浏览142赞2019-10-21 10:33:05
  • 码迷SEO内参(十) 独家相关性提权法原理以及SEO文章质量提升方法[小白必读]

    码迷SEO内参(十) 独家相关性提权法原理以及SEO文章质量提升方法[小白必读]

    大家好,我是码迷,我是摩天楼内容助手的作者,今天跟大家分享如何写SEO文章打造优质内容质量,如何打造一个秒排布局的方法,这个方法就是“相关性提权法”。这也是摩天楼内容助手的核心所在。 我们知道,网站内容是SEO基础,百度判断网页内容的好坏,衡量的标准是看搜索结果有没有满足用户的需求,这里百度官方文档里面也说了2个层次来判断网页内容质量。继续阅读>>

    2457浏览498赞2019-09-29 16:17:00