码迷SEO内参(一):百度搜索引擎的工作原理及流程

作者:码迷
作者:码迷SEO
发布时间:2019-08-13 19:27:16阅读:2531点赞:510

众所周知,百度的搜索引擎系统分为:抓取系统、快照存储系统、页面分析系统、索引系统、检索召回系统等几个重要系统。关于百度搜索引擎的基本原理和流程,大家可以参考痞子瑞的《SEO深度解析》一书中的“搜索引擎原理”部分。码迷这一部分与痞子瑞老师的略有不同,对百度搜索引擎的基本原理和流程做了更深入的拆解分析

关于码迷

7年SEOer,摩天楼内容助手作者,专注SEO算法研究,精益科学SEO鉴定倡导者。QQ号码2027725943 ,欢迎志同道合的朋友加我交流。

碎碎念

很多同行说做百度SEO越来越难了,说百度等搜索引擎的份额被如今的自媒体抢占了很多流量,SEO没法做了云云。

但是很多公司反馈,百度的流量转化率还是要高于抖音之类的自媒体。

我觉得SEO并不是越来越难,只是你没有改变而已。

经过十几年的发展,百度搜索引擎已经发生了很多很多的变化,而你还是原地踏步而已。我从12左右开始接触SEO,优化的手段也不断的升级迭代,但是很多同行的手段却一直停留在16年之前了。

做SEO没有长久的“秘笈”,重要的是主动跟上搜索引擎算法步伐,然后做实验找规律,再用合理的手段把优化做到极致就行了。

基本概述

很多书籍对搜索引擎原理仅仅提到了倒排索引,而更多的书籍只是将内容处理、链接处理、用户体验稍微说了一下。其实百度搜索引擎是一项十分复杂的工程,搜索引擎除了做正向好事儿,如防作弊、提拔优质内容等等、还有些不乖乖的处理流程,如人工干预、圈流量策略也是很重要的一块。

码迷认为搜索引擎的大体架构如图:

大致分为百度爬取、百度查询2个部分。

百度爬取部分

步骤01

百度爬虫发现网页,爬取网页html内容

步骤02

百度对爬回来的网页进行初步的页面分析。先进行分词,去除停止词。

步骤03

这一步主要做初步网页评定。

对分词后的网页通过向量空间模型初步做分类判定;

通过相关性算法提取相关词,判定主题集中程度;

通过结构相似性、文本相似性算法判定原创度;

通过信息熵等手段判定是否有恶意广告;

最后进入反*黄*赌*毒*系统等等。

步骤04

如果内容过关,百度将该网页分词结果存取到有效索引倒排中,并抽取网页内容结构化数据(标题、摘要、内容等等),快照存档。

百度查询部分

步骤01

首先对用户输入的查询词分词处理,通过用户地理位置、个性化信息、机器学习预测查询词的实体类型,预测第2需求词,第3需求词等。

比如搜“火车票”,那么“火车票查询”、“火车票12306”、“火车票改签”这些需求词也将会纳入用户需求中。第N需求词,也叫后续词,通过对后续词做文章,也可以优化排名。

如何用后续词获取排名,码迷稍微在之前的博文《黑帽SEO案例分析:配合「摩天楼SEO工具」浅析黑帽大神的SEO手段》做了提及,如果你功夫到家,自然也会明白逆冬的手段。如果看不出来也没关系,码迷会在以后的章节中会详细给大家讲。

步骤02 粗排环节

“粗排”这个概念,码迷最先见于Zero的公众号文章《我是如何把「SEO」这词排名到百度首页的》。

粗排是百度通过布尔模型,在海量信息中查找符合需求词组的N个文档。再通过与训练好的结果模型做向量距离比较,过滤出M个文档,再通过结果距离算法获取前O个文档集合,再通过BM25相关性得分取出TOP760文档集合

比如百度专利《201610214064.0信息搜索方法和装置》中举了,刘德华老婆的例子。你搜“刘德华老婆”的时候,如果你的页面里面没有“朱丽倩”,说明网页内容很差,很大程度上进不了粗排队列。

打个广告:摩天轮内容助手这款工具,可以精准预测到相关词,推荐大家使用

095478.jpg

步骤03 细排环节

综合每个文档对应的链接权重得分、点击日志得分、网页加载速度、相关性得分、查询结果类别策略等,再塞入人工干预的内容,结合用户日志分析(快排)将最终的排序结果呈现给用户。

大家喜闻乐见的、经久不衰的快速排名手段,如“7天上首页”,就是干预精排中的点击策略,影响了百度预测的正向结果模型,促使短期上首页

总结

其实我们做SEO啊,应该知道,人最宝贵的东西是生命。生命属于我们只有一次。

SEOer的一生应当这样度过:

当回忆往事的时候,他不为网站降权而痛悔,也不为被K站而羞愧;

在临死的时候,他能够说:"我的整个生命和全部精力,都已经献给世界上最壮丽的事业!为跟百度争SEO流量而斗争。

百度李老板的终极目的都是为了赚钱,我们做SEO也是为了圈住部分流量来赚钱。

现在的搜索引擎已经不再单纯很久了,如何在李老板眼皮底下获取更多的流量,我们从下一节开始正式开始探讨了。

文末福利

今天就这些, 下一节我们将科学探讨“百度蜘蛛抓取规律以及蜘蛛类型”方面的秘密,码迷期待你的关注 。微信公众号优质评论前10名将会获得码迷整理的66个百度专利,先到先得。

本系列首发于www.mamioo.com,同步发布于公众号”码迷SEO“,未经允许不可转载。

本文网址:https://www.mamioo.com/seojishu/section-2

本站内容均为「码迷SEO」原创整理,未经授权严禁采集转载,违者必究。
评论
相关文章
  • 码迷SEO内参(16)2020年百万流量站项目优化破局之路

    码迷SEO内参(16)2020年百万流量站项目优化破局之路

    从2019年下半年开始,不知道大家有没有觉得,百度对新流量站的要求越来越严格了。本来要上百万级别的流量项目,很多新站即使坚持发布了3个月的原创文章也没有排名。而使用老域名做站也是九死一生,100个站里面,有四分之一能能有较好的趋势已经相当不容易。这种情况如何破局,请看本期码迷为大家讲解2020年流量站破局之路。继续阅读>>

    278浏览53赞2020-02-09 18:35:00
  • 码迷SEO内参(15) 百度快排原理及百度第三代点击排名统计系统简析

    码迷SEO内参(15) 百度快排原理及百度第三代点击排名统计系统简析

    今天讲百度第三代点击排名统计系统,顺带把百度快排深度原理也刨析一下,自从19年10月份以来,百度对快排打击丝毫没有手软的迹象,码迷发现凡是采集+快排模式的网站至今无一幸免,70多天了也没有起色的现象。可以说百度这次对快排不是让你的快排失效,而是升级到惩罚性质了。为了验证码迷的猜想,码迷特地搞了一套快排的源码,深入研究了一番。继续阅读>>

    337浏览62赞2019-10-30 16:14:53
  • 码迷SEO内参(13) 快速排名系统野史,快排战度娘折腾3年之后又3年

    码迷SEO内参(13) 快速排名系统野史,快排战度娘折腾3年之后又3年

    今天码迷SEO内参开始讲快排,百度内部并没有快速排名系统,快排只是对应了搜索引擎内部的一套工序,这套工具叫 用户点击行为统计系统。针对的百度算法岗位叫CTR(点击通过率)算法。最早的CTR算法系统百度2010年左右有所涉及、2012~2013年开始完善布局。之前百度谷歌因为在中文系统算法上互相较劲借鉴,但是在谷歌退出中国之后(2012年),CTR技术上开始分道扬镳了。 今天的题目叫快速排名系统野史,快排战度娘折腾3年之后又3年,大家看着笑笑就好,别当真。继续阅读>>

    404浏览85赞2019-11-13 10:46:00
  • 码迷SEO内参(14) 快排整站优化提权与百度资源平衡性策略

    码迷SEO内参(14) 快排整站优化提权与百度资源平衡性策略

    今天码迷开始与大家分享快排整站优化提权的原理,其实快排并没有大家所想的那么神秘,因为即使是快排大佬们也没有足够的办法让排名一直维持在首页。更何况纯白帽的网站也一直跌跌撞撞被百度程序猿们折腾个不停。快排整站提权目前有效的,而且码迷预测在相当长的一段时间内一直有效,因为这与百度资源平衡性策略息息相关。继续阅读>>

    365浏览72赞2019-11-26 16:04:00
  • 码迷SEO内参(12) 如何做采集站:百度飓风3弱点&案例解析

    码迷SEO内参(12) 如何做采集站:百度飓风3弱点&案例解析

    经过上一节 码迷对《百度飓风3原创检测算法讲解》之后,很多小伙伴咨询码迷怎么做采集站,用什么样的方法才能过百度原创。今天主要讲解百度飓风3的一些弱点。百度算法不是百分百完美的,市面上已经有很多的采集的案例过了百度飓风3的检测了。继续阅读>>

    390浏览81赞2019-11-08 09:55:00
  • 码迷SEO内参(11) 百度飓风3原创检测算法讲解以及伪原创检测工具

    码迷SEO内参(11) 百度飓风3原创检测算法讲解以及伪原创检测工具

    上一节码迷跟大家探讨了单纯的同义词伪原创、AI伪原创都会被百度识别。这节咱就探讨百度飓风3原创检测算法的内部讲解,并且跟大家一块分析伪原创检测工具的好坏。码迷把摩天楼内容助手使用指南放到网上之后,百度收录了。网址是然后我通过在百度里面搜网页内容里面的句子,发现有的句子能飘红,有的句子不能飘红。这是为什么,如果你跟着码迷了解这些,你将会明白百度度飓风3原创算法的原理,以及伪原创检测工具哪个好了。继续阅读>>

    900浏览169赞2019-10-21 10:33:05