SEO私馆
问题咨询、疑难诊断、代工优化、培训教学

冒充搜素引擎的假蜘蛛IP对网站爬取的迹象原因

冒充搜素引擎的假蜘蛛IP对网站爬取的迹象原因

假蜘蛛也就是冒充搜索引擎蜘蛛爬取网站,可以通过网站日志分析出来,国内最常见的就是冒充百度蜘蛛,大部分网站都存在假蜘蛛爬取的行为,而且是每天频繁来访爬取,这就给我们带来一些困惑,尤其是新人站长更是搞不清楚状况,如果网站处于较高频率的原创文章发布,这就需要我们警惕了。

我们可以通过以下这几点判断出假蜘蛛和爬取路径。

一、检测蜘蛛的IP真伪来访目的

通过分析IP地址和UA标识判断哪些是假蜘蛛,爬取是否正常,是否喜欢去一些现在权限的文件和一些不存在的文件路径,尤其是直接爬取其他常见的网站隐私文件(比如你的网站没有ABC文件,但就是爬取ABC文件),真蜘蛛是不会这样爬取的。

二、检查蜘蛛爬取的路径

搜索引擎蜘蛛会比较遵守robots协议文件,偶尔会超过屏蔽限制,但是假蜘蛛会无视robots协议文件胡乱爬取,最明显的特征是经常爬取网站程序路径、非本站程序路径文件、压缩文件、文档、等其他比较敏感的文件和路径。

三、诊断蜘蛛抓取的特征

假蜘蛛很明显有个特征就是很喜欢隐私和机密文件,以文件后缀和常规压缩名称为准,这种行为就是想盗取下载网站的资源,有的甚至喜欢往数据相关的文件里面爬,这也是想获知网站信息进行后续的攻击行为,同时还要注意一些符合和加密解密的抓取特征。

冒充搜索引擎蜘蛛对网站的爬取都不是好事,轻者想盗取网站有价值的内容,比如原创文章,重者就是想获取网站的信息和数据进行攻击和篡改。

如果你的网站和服务器没有比较大的安全问题和漏洞,可以无视假蜘蛛的爬取,不建议凭个人感觉去屏蔽假蜘蛛IP,因为搜索引擎的蜘蛛IP从安全层面考虑有些是检测不到的,存在新IP使用和临时IP使用的情况,所以要避免误判把真蜘蛛屏蔽了。

如何解决网站被假蜘蛛爬取的危害风险

1、设置好网站权限和安全,加固服务器配置和参数,整理净化网站文件,不要留存不必要的文件,关闭下载属性,限制网络速率和峰值,在保障搜索引擎蜘蛛和访客正常来访的情况下,对不正常的访问现象进行合理的防范措施,这样可以降低假蜘蛛对网站造成的伤害。

2、也可以检测假蜘蛛IP是哪个地区的,如果是国内IP冒充百度搜索,可以直接向百度提交咨询工单确认,如果不是就直接屏蔽,如果是国外IP,就要考虑网站是否运营国外市场,否则就屏蔽IP。(这条不建议优先采用,除非假蜘蛛太多, 影响到网站正常运营。)

如果想彻底完全的解决假蜘蛛的爬取是很难的,需要很强的技术和资源,而且也无法避免的,尤其是国内奉行的是伸手即拿的风气更是猖狂,所以做好基础的安全防范措施,心态放好,保护好网站资源和信息,不用太纠结和担忧假蜘蛛的问题。