码迷杂谈:智能AI内容生成现状大揭秘大盘点

作者:码迷 阅读:455 点赞:86

SEO行业的投资回报率已经越来越低,码迷一直认为批量化自动化SEO是大势所趋,所以最近大家也能看到在内容生成方面,涌现了大批的AI内容生成工具、伪原创工具。码迷摩天楼1群2群3群4群5群的小伙伴们经常问这些工具能不能搞定SEO收录、能不能有排名等等,这里稍微对市面上的AI内容生成类工具做了技术层面的分析,分享一下码迷评测的这些工具优缺点,不吹不黑。

特别声明:

1、搜索引擎是混沌复杂的,很多人都有一套自己的SEO看家本领,所以事物不是非黑即白的。

2、本文所阐述的观点只是码迷在以往实践中的总结以及个人对SEO手段的理解参悟,切勿对号入座。

3、本文中会提及到的几款优秀的程序,无任何广告之意利益交换。

正文开始

内容生成技术,码迷总结市面上共有三种形态,分别是采集组合、模板替换、AI生成

A罩杯:采集组合

采集组合目前是主流SEO内容生成方式,程序上实现相对简单,所以也涌现了一大批优秀的程序,包括某数采集、某8的内容神器等等。

比如下面这款强调自己是AI文章生成器的工具:

那么通过百度搜索一下划红线的句子(呵呵哒!):

市面上出现的绝大多数AI内容生成工具也是类似的,都是基于采集,区别是采集源略有不同。反爬能力牛逼、资本雄厚的可以把公众号、头条、知乎、小红书都聚合起来,原创性会略高;小打小闹的就聚合百度知道、360问答拼凑组合。反正码迷睁大眼睛也从来没有从这玩意里面看到一点AI的成分。

优点:行业链相当完善,小白操作成本低,割韭菜极爽

上到火车头,下到某数采集,无缝对接10多种CMS或接口,都可以定时采集+定时定量自动发布。

缺点:原创性极差或者略差

码迷认为缺少原创度的内容玩转SEO真心不容易,小白们通常忙活一大顿,最后效果往往不尽如人意~~底层的原理在我的百度内参《飓风算法3.0的前世今生及AI伪原创工具评测》也说的很详尽,并深度剖析过,大家可以再看看。

小结一下:

1、非时效性的采集组合,起站的概率极低,慎用

关于原创度的评测标准大家一直是盯着搜索结果的飘红率来辨别,有一定道理,而且百度更有飓风3算法,原创度直接精确到了句子级别。

2、类似产品烂大街,玩法很多

虽然说采集组合这套东西有现成的轮子,而且已经烂大街了,但是当某些人打着AI的旗号,把采集组合包装成另外一套程序的时候,韭菜们又开始狂欢了

B罩杯:模板替换

没想到之前用来做批量标题生成的程序,被一帮人用到了内容生成上。

不过这个就有点内容生成的味道了。通过自己编辑模板、批量拓展内容、导入关键词3步即可轻松生成数以万计的“高质量”SEO标准的文章,原创度还完全自控!

典型的程序比如某某某内容生成、某某原创文章生成、某某某某伪原创工具,主要原理是同义词替换OR海量语句组合。这类的程序就稍微要一点技术水平了,也多少需要点AI的东西(分词),所以市面上比较少哦。

优点:飘红率低、海量生成文章、特别爽!

码迷观点:

1、原创性并无保证

从 搜索结果的飘红率 的情况来讲,这类方法确实有所改善,火车头+伪原创插件 组合的模式,有些人也玩得飞起。

但是,判定原创与否,并非是按照飘红率来的,搜索引擎更多的是通过simhash、余弦相似度来判定文章的重复概率。这个码迷在《百度飓风3原创检测算法讲解以及伪原创检测工具》以及《如何做采集站:百度飓风3弱点&案例解析》这两篇文章都有提及,喜欢烧脑的可以去参考下。

2、语句通顺度不佳

原理由于篇幅不解释了,记住码迷这句话:现阶段市场上一切同义词替换都会导致自然通顺度极差,而搜索引擎对于通顺度检测的成本极低。

3、主题过度聚簇,造成过度优化痕迹明显

这个估计是SEO行业里面,我第一个提到这个算法,不过这个在百度谷歌都是确确实实存在的,码迷也被这个算法坑过两次。

比如,我做一批文章,“价格”相关的1000篇,多少钱相关的文章1000篇,厂家相关的1000篇,施工相关的1000篇,这个用某某原创文章生成工具很好解决,做4个文章模板就可以。如图:

然后我拿着这些标题,批量去做文章。

百度在爬取这些文章之后,根据余弦相似度可以判断出整个站点的主题分布,假设如下图所示:

绿色小点为某篇文章在主题分布图上的位置。

灰色圆形区域为全网文章平均的覆盖范围。

你会非常容易发现这类生成的文章,主题分布完全就聚簇在一块儿。而且90%的情况是,你发了10000篇这类的文章,只有1%的有排名就不错了(一定要重视这个 搜索引擎存在的算法),容易被百度判定为优化过度。

3、基于第2点,句子模板、同义词替换 可以用在部分场景,但并非全部。

这个留给大家自己思考吧。

C罩杯:AI生成

SEO行业市面上已经有基于AI训练的文章生成工具,可以写诗、写散文,也可以提交自己的语料文章,来训练生成自己的文章模型。

比如写个 “码迷的快乐你不懂”的小散文。

乍一看语句还通顺,不过腻,近期市面上各类AI生成工具陆续出现,很多小伙伴反馈并没有想象中的那么完美。

一方面是因为,好多小伙伴以为CPU可以搞定这玩意。不要认为8核16G的志强服务器,就能训练出好内容来。

另一方面,目前主流技术还有几个核心问题做的不好。一个是小规模语料造成的主题过度聚簇问题,其次是单向模型造成的相关性缺失问题。

比如刚才生成的“把妹的快乐你不懂”,拜读了AI生成的内容后,也没见把妹多么快乐啊。


总结:

码迷最近一直在研究人工智能方向的批量化SEO内容生产,致力于生产通顺度佳、原创性高、相关性好、逻辑性强的网站内容,研发出科学好用的工具。

但是还是要征集各位老师的意见,填写问卷前15名的优先对接、按成本对接、只图赚个口碑。

问卷调查传送门:https://www.wenjuan.com/s/UZBZJv8fsik/

本次问卷调研的目的有3点:

1、搜集大家对现有生成工具产品的评价

2、搜集大家对未来内容生成工具的功能点

3、搜集小伙伴们从事的行业,码迷团队优选高需求行业先行训练生成模型。

最后,咱们只有真正搞定了那些问题,才能小波变大波,感受大幂幂的快落吼~

本文网址: https://www.mamioo.com/seojishu/section-32

本站内容均为「码迷SEO」原创整理,未经授权严禁采集转载,违者必究。