现在已经是AI互联网的时代,那么网站如何保护并防范禁止原创内容被AI抓取就迫在眉睫了,因为涉及到版权利益的问题,本文提供个简单有效的解决AI蜘蛛抓取的方法。
使用meta元素设置robots属性。
方法一:网页头部添加<meta name="GPTBot" content="noindex,nofollow">。
这是用传统常规的noindex(禁止索引)和nofollow(禁止抓取)进行限制,而GPTBot就是AI蜘蛛的UA特征码名称。
方法二:网页头部添加<meta name="robots" content="指令值">。
示例:
<禁止AI抓取文本+图片>
<meta name="robots" content="noai, noimageai">
<禁止文本抓取>
<meta name="robots" content="noai">
<禁止图片抓取>
<meta name="robots" content="noimageai">
以上方法已经有OpenAI认可并支持,目前类似于通用的指令值,后续其他的AI平台的蜘蛛有可能也会默认支持这套指令。
但是要注意这是君子协议头,也就是不保证100%绝对的有效防范AI抓取,而是要看各家AI平台是否遵循这套指令的限制。
另外提醒一下,robots是通用的意思,如果其他AI蜘蛛有自己的特征码,举例:ClaudeBot、那么就是name="ClaudeBot"。
"SEO私馆"结语:虽然这不能完全杜绝AI抓取,但是相比完全用访问权限禁止就更符合SEO,所以还算是不错的方法吧。