
现在有很多的网站都暴涨了直链接的流量,这在以前都会大多数认为是垃圾流量,但是现在要注意是否就是机器人流量,而且数据时间很短暂,常见的就是几秒,像似蜘蛛。所以有有些网站的安防就禁止访问了,从而导致错失了GEO的效果。
其实现在很多AI机器人流量都是AI蜘蛛抓取造成出来的数据,这两者很容易混淆,甚至伪装起来就分辨不清了,以至于现在我们都认为AI蜘蛛就是AI机器人,反之也是一样,但是对于我们分析流量数据就比较麻烦了。
AI机器人流量是个必须要整理清楚的事情。
如果直链流量是确实垃圾性质,但是不破坏或消耗网站的资源,那么不需要额外的增加防护措施,甚至也不需要禁止IP访问,因为防不住、只能清洗,但是清洗IP流量的防护又需要投入资金成本,所以日常关注就可以了。
重点是要整理清楚是否确实是AI机器人的流量,这很有可能就是生成引擎的流量来源,因为不同于SEO是数据缓存、这是记录式的展示,而GEO是数据引用、这是读取式的展览,那么区别就在于生成引擎给用户提供的是实时验效的页面。
举例:获知用户需求之后,模型进行筛选和匹配,随后读取对应的URL网页,然后验效是否存在、符合、真实,这整个过程中会有类似于访问了网页,那么就产生了流量数据,但是没有特征性的UA码,甚至也没有关键字或是长尾词的来源,因为没有传递参数,而是直接访问了。
所以这也有个问题,我们要识别出哪些是AI机器人流量、哪些是人为点击进入的流量,这两个是很重要的数据分析,如果是AI机器人的流量、我们可以分析出是来源哪个AI平台(生成引擎),如果是认为点击的流量,那么我们就可以侧重去分享用户需要看什么,然后继续加强补充。
机器人和AI的流量是有信号特征的区别。
我们简单的看机器人和AI的流量,两者比较模糊,不太容易分辨,所以才有AI机器人流量的定义,如果要追究机器人和AI的流量问题,那么机器人通常认定是蜘蛛、而AI会被认定是平台,但是结合起来就不能认定是平台蜘蛛,为了规避这个冲突矛盾的问题,现在很多互联网服务商会有特征码性质的识别和屏蔽。
举例:ChatGPT的蜘蛛是GPTBot、但是ChatGPT跳转来源是chat.openai.com,这就可以单独分开用于识别的信号特征,而且现在的CDN服务商也都采取这个模式,比如说腾讯云的EdgeOne就是通过UA特征识别AI蜘蛛进行防护,甚至说明是机器人,从这也能知道专业厂家也是有明确的划分,避免混淆了AI。
实际上现在技术层面还是行为方面,已经普遍的开始认定按照来源方的信号特征,虽然蜘蛛类的特征码可以伪装,但是跳转来源可不容易虚构、而且伪装的必要性也比较低,所以我们可以根据机器人蜘蛛的UA特征码进行针对性的封禁,同时不需要担忧会阻拦AI平台的流量进入,要明白的是他们的区别。
AI机器人和AI蜘蛛是有本质的区别。
事实上我们大多数要防范的是AI蜘蛛,相比AI机器人,他们有本质性的区别和用途是完全不相同,我们在分析直链数据的时候,就要把过滤AI蜘蛛,不要纳入流量数据的分析范畴,而且还要警视AI蜘蛛有可能会冒充AI机器人,为的是规避网站设置的封禁。
Microsoft Clarity有AI及机器人的仪表板。
这个应该大家都知道,可以通过Microsoft Clarity了解网站的机器人流量,甚至专门有AI流量数据的统计分析,而且可以单独设置屏蔽,这其实已经说明了AI机器人的重要性和价值性,所以不要错误的把A机器人的流量视为垃圾,很有可能就是我们需要的AEO和GEO的流量。
而且微软的Bing后台已经有人工智能的数据表(AI Performance),甚至把URL检查功能整合为了SEO/GEO标准,所以我们要重视AI机器人的流量来源,而且要区分看待AI蜘蛛,尤其是现在还获知不到完整的AEO和GEO的流量参数,这意味着目前很大程度是要预判流量的真实性。
如何验证网站流量是不是AI机器人?
通常情况,任何来访者都会有明确的入站日志,通俗的说就是自动递交进入的身份证标识,含有:来源IP地址--访问日期--请求行为--HTTP请求头--状态码--来源网址--客户端环境,以下是百度GEO示例:
127.0.0.1 - - [02/Mar/2026:13:17:22 +0800] "https://www.seosiguan.com/""(跳转来源)https://chat.baidu.com/" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/132.0.0.0 Safari/537.36"
你可以很清晰的分段就能看出明确的身份证信息源,其实就是UA特征标识,如果出现伪造的现象,如:采集、爬取,那就直接查验几个最前段的来源IP地址,只要确定有真实的生成引擎的流量来源就可以了,不需要去纠结采集和爬取的问题,因为你防不了。
"SEO私馆"结语:其实这是个有点麻烦的事情,如果你的网站被AI蜘蛛爬取消耗了大量宽带及资源,那么可以用CDN服务开启禁止AI和人机识别的功能,但是这就又涉及到得失与取舍的问题,所以还是根据网站的情况进行操控。