{
    "version": "https://jsonfeed.org/version/1.1",
    "title": "SEO私馆",
    "home_page_url": "https://www.seosiguan.com/",
    "feed_url": "https://www.seosiguan.com/post/2356.json",
    "language": "zh-Hans",
    "items": [
        {
            "id": "https://www.seosiguan.com/post/2356.html",
            "url": "https://www.seosiguan.com/post/2356.html",
            "title": "注意：网站的直链数据是否就是AI机器人流量",
            "content_html": "<p>现在有很多的网站都暴涨了直链接的流量，这在以前都会大多数认为是垃圾流量，但是现在要注意是否就是机器人流量，而且数据时间很短暂，常见的就是几秒，像似蜘蛛。所以有有些网站的安防就禁止访问了，从而导致错失了GEO的效果。</p><p>其实现在很多AI机器人流量都是AI蜘蛛抓取造成出来的数据，这两者很容易混淆，甚至伪装起来就分辨不清了，以至于现在我们都认为AI蜘蛛就是AI机器人，反之也是一样，但是对于我们分析流量数据就比较麻烦了。</p><p><strong>AI机器人流量是个必须要整理清楚的事情。</strong></p><p>如果直链流量是确实垃圾性质，但是不破坏或消耗网站的资源，那么不需要额外的增加防护措施，甚至也不需要禁止IP访问，因为防不住、只能清洗，但是清洗IP流量的防护又需要投入资金成本，所以日常关注就可以了。</p><p>重点是要整理清楚是否确实是AI机器人的流量，这很有可能就是生成引擎的流量来源，因为不同于SEO是数据缓存、这是记录式的展示，而GEO是数据引用、这是读取式的展览，那么区别就在于生成引擎给用户提供的是实时验效的页面。</p><p>举例：获知用户需求之后，模型进行筛选和匹配，随后读取对应的URL网页，然后验效是否存在、符合、真实，这整个过程中会有类似于访问了网页，那么就产生了流量数据，但是没有特征性的UA码，甚至也没有关键字或是长尾词的来源，因为没有传递参数，而是直接访问了。</p><p>所以这也有个问题，我们要识别出哪些是AI机器人流量、哪些是人为点击进入的流量，这两个是很重要的数据分析，如果是AI机器人的流量、我们可以分析出是来源哪个AI平台（生成引擎），如果是认为点击的流量，那么我们就可以侧重去分享用户需要看什么，然后继续加强补充。</p><p><strong>机器人和AI的流量是有信号特征的区别。</strong></p><p>我们简单的看机器人和AI的流量，两者比较模糊，不太容易分辨，所以才有AI机器人流量的定义，如果要追究机器人和AI的流量问题，那么机器人通常认定是蜘蛛、而AI会被认定是平台，但是结合起来就不能认定是平台蜘蛛，为了规避这个冲突矛盾的问题，现在很多互联网服务商会有特征码性质的识别和屏蔽。</p><p>举例：ChatGPT的蜘蛛是GPTBot、但是ChatGPT跳转来源是chat.openai.com，这就可以单独分开用于识别的信号特征，而且现在的CDN服务商也都采取这个模式，比如说腾讯云的EdgeOne就是通过UA特征识别AI蜘蛛进行防护，甚至说明是机器人，从这也能知道专业厂家也是有明确的划分，避免混淆了AI。</p><p>实际上现在技术层面还是行为方面，已经普遍的开始认定按照来源方的信号特征，虽然蜘蛛类的特征码和跳转来源都可以伪装，但是跳转来源的必要性比较低，所以我们可以根据机器人蜘蛛的UA特征码进行针对性的封禁，同时不需要担忧会阻拦AI平台的流量进入，要明白的是他们的区别，避免误封。</p><p><strong>AI机器人和AI蜘蛛是有本质的区别。</strong></p><p>事实上我们大多数要防范的是AI蜘蛛，相比AI机器人，他们有本质性的区别和用途是完全不相同，我们在分析直链数据的时候，就要把过滤AI蜘蛛，不要纳入流量数据的分析范畴，而且还要警视AI蜘蛛有可能会冒充AI机器人，为的是规避网站设置的封禁。</p><p><strong>Microsoft Clarity有AI及机器人的仪表板。</strong></p><p>这个应该大家都知道，可以通过Microsoft Clarity了解网站的机器人流量，甚至专门有AI流量数据的统计分析，而且可以单独设置屏蔽，这其实已经说明了AI机器人的重要性和价值性，所以不要错误的把A机器人的流量视为垃圾，很有可能就是我们需要的AEO和GEO的流量。</p><p>而且微软的Bing后台已经有人工智能的数据表（AI Performance），甚至把URL检查功能整合为了SEO/GEO标准，所以我们要重视AI机器人的流量来源，而且要区分看待AI蜘蛛，尤其是现在还获知不到完整的AEO和GEO的流量参数，这意味着目前很大程度是要预判流量的真实性。</p><p><strong>如何验证网站流量是不是AI机器人？</strong></p><p>通常情况，任何来访者都会有明确的入站日志，通俗的说就是自动递交进入的身份证标识，含有：来源IP地址--访问日期--请求行为--HTTP请求头--状态码--来源网址--客户端环境，以下是百度GEO示例：</p><p>127.0.0.1 - - [02/Mar/2026:13:17:22 +0800] ＂https://www.seosiguan.com/＂＂（跳转来源）https://chat.baidu.com/＂ ＂Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/132.0.0.0 Safari/537.36＂</p><p>你可以很清晰的分段就能看出明确的身份证信息源，其实就是UA特征标识，如果出现伪造的现象，如：采集、爬取，那就直接查验几个最前段的来源IP地址，只要确定有真实的生成引擎的流量来源就可以了，不需要去纠结采集和爬取的问题，因为你防不了。</p><p><strong>结语：</strong>其实这是个有点麻烦的事情，如果你的网站被AI蜘蛛爬取消耗了大量宽带及资源，那么可以用CDN服务开启禁止AI和人机识别的功能，但是这就又涉及到得失与取舍的问题，所以还是根据网站的情况进行操控。</p>",
            "content_text": "现在有很多的网站都暴涨了直链接的流量，这在以前都会大多数认为是垃圾流量，但是现在要注意是否就是机器人流量，而且数据时间很短暂，常见的就是几秒，像似蜘蛛。所以有有些网站的安防就禁止访问了，从而导致错失了GEO的效果。其实现在很多AI机器人流量都是AI蜘蛛抓取造成出来的数据，这两者很容易混淆，甚至伪装起来就分辨不清了，以至于现在我们都认为AI蜘蛛就是AI机器人，反之也是一样，但是对于我们分析流量数据就比较麻烦了。AI机器人流量是个必须要整理清楚的事情。如果直链流量是确实垃圾性质，但是不破坏或消耗网站的资源，那么不需要额外的增加防护措施，甚至也不需要禁止IP访问，因为防不住、只能清洗，但是清洗IP流量的防护又需要投入资金成本，所以日常关注就可以了。重点是要整理清楚是否确实是AI机器人的流量，这很有可能就是生成引擎的流量来源，因为不同于SEO是数据缓存、这是记录式的展示，而GEO是数据引用、这是读取式的展览，那么区别就在于生成引擎给用户提供的是实时验效的页面。举例：获知用户需求之后，模型进行筛选和匹配，随后读取对应的URL网页，然后验效是否存在、符合、真实，这整个过程中会有类似于访问了网页，那么就产生了流量数据，但是没有特征性的UA码，甚至也没有关键字或是长尾词的来源，因为没有传递参数，而是直接访问了。所以这也有个问题，我们要识别出哪些是AI机器人流量、哪些是人为点击进入的流量，这两个是很重要的数据分析，如果是AI机器人的流量、我们可以分析出是来源哪个AI平台（生成引擎），如果是认为点击的流量，那么我们就可以侧重去分享用户需要看什么，然后继续加强补充。机器人和AI的流量是有信号特征的区别。我们简单的看机器人和AI的流量，两者比较模糊，不太容易分辨，所以才有AI机器人流量的定义，如果要追究机器人和AI的流量问题，那么机器人通常认定是蜘蛛、而AI会被认定是平台，但是结合起来就不能认定是平台蜘蛛，为了规避这个冲突矛盾的问题，现在很多互联网服务商会有特征码性质的识别和屏蔽。举例：ChatGPT的蜘蛛是GPTBot、但是ChatGPT跳转来源是chat.openai.com，这就可以单独分开用于识别的信号特征，而且现在的CDN服务商也都采取这个模式，比如说腾讯云的EdgeOne就是通过UA特征识别AI蜘蛛进行防护，甚至说明是机器人，从这也能知道专业厂家也是有明确的划分，避免混淆了AI。实际上现在技术层面还是行为方面，已经普遍的开始认定按照来源方的信号特征，虽然蜘蛛类的特征码和跳转来源都可以伪装，但是跳转来源的必要性比较低，所以我们可以根据机器人蜘蛛的UA特征码进行针对性的封禁，同时不需要担忧会阻拦AI平台的流量进入，要明白的是他们的区别，避免误封。AI机器人和AI蜘蛛是有本质的区别。事实上我们大多数要防范的是AI蜘蛛，相比AI机器人，他们有本质性的区别和用途是完全不相同，我们在分析直链数据的时候，就要把过滤AI蜘蛛，不要纳入流量数据的分析范畴，而且还要警视AI蜘蛛有可能会冒充AI机器人，为的是规避网站设置的封禁。Microsoft Clarity有AI及机器人的仪表板。这个应该大家都知道，可以通过Microsoft Clarity了解网站的机器人流量，甚至专门有AI流量数据的统计分析，而且可以单独设置屏蔽，这其实已经说明了AI机器人的重要性和价值性，所以不要错误的把A机器人的流量视为垃圾，很有可能就是我们需要的AEO和GEO的流量。而且微软的Bing后台已经有人工智能的数据表（AI Performance），甚至把URL检查功能整合为了SEO/GEO标准，所以我们要重视AI机器人的流量来源，而且要区分看待AI蜘蛛，尤其是现在还获知不到完整的AEO和GEO的流量参数，这意味着目前很大程度是要预判流量的真实性。如何验证网站流量是不是AI机器人？通常情况，任何来访者都会有明确的入站日志，通俗的说就是自动递交进入的身份证标识，含有：来源IP地址--访问日期--请求行为--HTTP请求头--状态码--来源网址--客户端环境，以下是百度GEO示例：127.0.0.1 - - [02/Mar/2026:13:17:22 +0800] ＂https://www.seosiguan.com/＂＂（跳转来源）https://chat.baidu.com/＂ ＂Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/132.0.0.0 Safari/537.36＂你可以很清晰的分段就能看出明确的身份证信息源，其实就是UA特征标识，如果出现伪造的现象，如：采集、爬取，那就直接查验几个最前段的来源IP地址，只要确定有真实的生成引擎的流量来源就可以了，不需要去纠结采集和爬取的问题，因为你防不了。结语：其实这是个有点麻烦的事情，如果你的网站被AI蜘蛛爬取消耗了大量宽带及资源，那么可以用CDN服务开启禁止AI和人机识别的功能，但是这就又涉及到得失与取舍的问题，所以还是根据网站的情况进行操控。",
            "date_published": "2026-03-04T16:37:54+00:00",
            "date_modified": "2026-03-05T08:51:49+00:00",
            "summary": "现在有很多的网站都暴涨了直链接的流量，这在以前都会大多数认为是垃圾流量，但是现在要注意是否就是机器人流量，而且数据时间很短暂，常见的就是几秒，像似蜘蛛。所以有有些网站的安防就禁止访问了，从而导致错失了GEO的效果。其实现在很多AI机器人流量都是AI蜘蛛抓取造成出来的数据，这两者很容易混淆，甚至伪装起来就分辨不清了，以至于现在我们都认为AI蜘蛛就是AI机器人，反之也是一样，但是对于我们分析流量数据就比较麻烦了。AI机器人流量是个必须要整理清楚的事情。"
        }
    ]
}