SEO私馆
问题咨询、疑难诊断、代工优化、培训教学

百度搜索是缺乏识别内容的准确度

有不少网友要我写篇关于百度搜索引擎的文章,主要是指有哪些问题。

其实我对百度搜索已经没有太多兴趣,因为他太有失平衡性,以本站博客"SEO私馆"举例,我连百度搜索的时间因子都不想去添加,侧重的是谷歌和微软的搜索引擎。

但是我对百度的搜索引擎还是保持低频的研究,顺从网友们的要求写一篇百度的文章,仅供大家共同交流。

首先,百度搜索的官方信息只是通告而已。

百度搜索是缺乏识别内容的准确度

其实告诉我们的是正规操作和执行的步骤流程,但是实际上漏洞百出,我们不能否认正规,但是让人挺烦恼,因为知道漏洞的可以原地弹射起飞,不知道的就只能老老实实的冒着各种不确定性去赌一把。

有时候觉得百度搜索的官方信息只是在告诉外界还在活跃,充其量就是给刚加入的新人有学习、了解、参考的意义,但这也是很好的,起码这个态度就值得我们认可和支持。

百度搜索最大的问题是对外部内容的识别能力较低。

虽然百度的自家平台对内容识别是比较准确的,比如百度云的CDN可以比较准确的鉴黄、百家号可以比较精准的识别内容的营销信息,但是这些都归属于内部范畴的内容。

如果说百度的搜索引擎这种对外公共性质的网络服务平台,也就是我们常说的通用型网络搜索引擎,内容来源主要是第三方的网站,那么对内容的识别就有很高的能力要求。

但是直到如今的百度搜索还是以内容的关键词汇、排序结构、布局排版、特征信号等其他比较传统的技术逻辑去识别内容的原创水平、违法违规、语义语句、价值程度,至于自然语言处理技术也只是识别内容匹配给用户需求的搜索结果。

所以这就有我们常见的问题,就是百度搜索对原创内容的来源站点没有优先保护的举措,导致一篇文章会被很多网站翻来覆去的发布,以至于采集抄袭成为了常态的内容生态环境,因为百度搜索有个致命的缺陷就是只认内容和站权,这导致域名年龄+大量采集就成了百度SEO的必做事项,另外百度搜索50%以上的问题来源都是因为对外部内容识别的能力不足以解决达到平衡的作用。

站权的优先级远高于对内容识别。

本文说的站权指的就是网站的权重,也是我们常说的域名权重,大家都知道百度的搜索引擎滋养了庞大的站群数量,他们的玩法其实很简单,就是批量养站培育出站权,然后出售,这套把戏利用的就是百度搜索对站权的优先级。

但是问题在于存在很严重的失真现象,而且有技术缺陷和机制漏洞,由于站权的优先级是远高于对内容的识别,那么只要让网站采集大量的内容就能获取百度搜索的SEO效果,所以站权可以让任何的不正当等其他违规行为获利。

其实原理的逻辑很简单,就是内容数量博取排名效果,只要百度搜索还是继续是站权远高于对内容的识别,那么难度就只是采集多少内容、网站要养多长时间,所谓的算法更新、规则改动,只是增加难度的系数程度。

很多人臭骂百度的根本原因就是对内容识别能力的低下。

搜索的都是广告?

搜索的都是平台?

搜索的都是乱七八糟?

说好听点就是缺乏有价值的内容,实质上是对内容的识别能力还是比较低下,只能优先级的选择哪些网站提供的内容,尤其是有意把流量导向自家平台、投资平台、合作平台,甚至无视内容的发布是抄袭行为。

所以百度对待内容是很倾向于认领、而不是识别,也就是内容是哪家发布的、而不是内容出自哪家,这种策略甚至是一刀切的阶梯模式,顺序就是平台>站权>原站,以至于原创的网站成为别人投机钻空子和违法违规的内容来源,用户沦为被欺诈和诱骗的对象。

从百度搜索的VIP服务审核就能知晓盲目的决策。

百度搜索是缺乏识别内容的准确度如上图所示,最主要的指标是移动搜索及PC搜索的点击量之和要达到30天的日均1万,乍看没有什么问题,但是稍微了解国内网站的实情就能感知到这就是可笑之举,因为在垂直领域中达到日均大于1万的搜索点击量,大多数只有三种网站可以做到。

1、半死半活的老旧网站。

2、公司运营的平台网站。

3、采集抄袭的内容网站。

国内95%的博客网站的日均点击量不超过500,而博客又是垂直领域主要的网站阵营,也是国内目前为止300多万ICP备案网站的主力军之一。

其实百度不是无知、是盲目,习惯性的绕开问题和麻烦,而是直接选择轻松的一刀切,也就是直接把门槛拉高,以为能提高对内容的收录质量,其实又一次跑偏了。

无法保障原创内容的权益,而且标准又不切实际。

我们发现百度搜索每一项对外的合作或者邀请,都有个固定的硬性标准就是具有行业的知名度、口碑和声望,问题是这个如何正确定义呢,如果全网营销自己那种套路也算是知名度,那很多人都可以。

所谓的口碑和声望,也只不过是营销的结果而已,我们去看看大多数的网红是专业的吗,他们全凭一张嘴和无耻,明眼人都知道百度这种标准就是自欺欺人,而且真正的行业里面有影响力的人物,是不会在网络搜索流量封闭的生态环境中费时费力的去单独架设运营自己的网站,首先搜索引擎就无法保障原创内容的权益,说简单点就是不能准确识别外部的内容,并且也很难获取流量转化为收益的价值。

其次就是过于要求必须是企业ICP备案性质的网站,而且还有严苛的附加条件,以前我思索过百度这个决策,然后笑了,因为想到连个人建站这种轻资产都难以从百度搜索引擎中获取流量,公司会投入人力和财力去建设运营网站吗,最起码的连原创内容的保障权益都没有,难道要左手输出原创、右手申诉维权,你就坐享内容变现?不是大家不愿意,是你太不切实际。

不可否认识别原创内容的出处站点是有较高的难度。

这点在任何语种文字都是个难题,因为可以二次加工成伪原创或者拼凑伪装,但在如今互联网技术已经是AI科技了,难道还不能较好的识别原创内容的出处站点吗,那各行业和领域的AI大模型又如何发展呢。

所以很大原因还是缺乏对外部网站内容的识别能力,或者是没有投入更多的资金去解决和完善这个问题,起码在平衡方面就太不足了,不能让采集抄袭成为百度搜索引擎的主流意识形态,实际上吃大亏的还是百度。

因为现在说起做百度搜索的SEO,大多数人想到的和执行的就是采集,甚至定点去抄袭那些产出原创内容的网站,久而久之就越少有网站会发布原创内容,那百度的搜索引擎就长期陷入内容的恶性死循环,等待被取代。

必须承认百度对内部的内容识别还是比较准确的。

文心一言、CDN服务、自然语言技术是能体现出百度对内容的识别能力是不错的,而且也能从百度的贴吧和知道也能发现对内容的自动审核也比较严格,但都是以内部为主。

所以百度只是对外部的网站内容没有比较好的识别能力,毕竟需要投入很多的资源去不断的重复巡查外部的内容是否变更、删除、异常,这又涉及到庞大的技术、算法、存储、缓存、记录等其他多种能力。

实际上百度搜索引擎轻视了SEO的存在价值。

为什么谷歌的搜索引擎要把SEM和SEO区分的比较合理,说简单点就是取之平衡的利害关系,或者说是扩展SEM容量的利润空间、保持SEO存在的价值意义,因为网络搜索引擎是基于搜索逻辑开展的内容排序,这就涉及到也离不开SEO的元素属性。

但是网络搜索引擎想要正确合理的控制SEO,首先就要对内容有较高的识别能力,也就是鉴定、筛选、校准、巡查、监测,整个过程是不断的执行,这对于搜索引擎公司有很高的投入,而且收入的回报不是即时的或者是短期内的,所以很有可能是百度不愿意而轻视SEO的存在价值。

"SEO私馆"结语:我们要客观的实事求是的看待百度,不要带有索取的心态去要求百度,因为百度不欠我们的,而且百度面临的事情是很复杂的,面对的困局不是说几句话就能解决的,甚至本文我说的也不是完全的准确,我就不过多的细说了,满足网友们私信的要求,而且以前也简单写过一篇关于百度搜索的问题,有兴趣的可以去看看(百度搜索引擎的一些问题)。