---
title: "冒充搜素引擎的假蜘蛛IP对网站爬取的迹象原因"
url: "https://www.seosiguan.com/post/292.html"
id: "https://www.seosiguan.com/post/292.html"
language: "zh-Hans"
---

假蜘蛛也就是冒充搜索引擎蜘蛛爬取网站，可以通过网站日志分析出来，国内最常见的就是冒充百度蜘蛛，大部分网站都存在假蜘蛛爬取的行为，而且是每天频繁来访爬取，这就给我们带来一些困惑，尤其是新人站长更是搞不清楚状况，如果网站处于较高频率的原创文章发布，这就需要我们警惕了。

我们可以通过以下这几点判断出假蜘蛛和爬取路径。

**一、检测蜘蛛的IP真伪来访目的**

通过分析IP地址和UA标识判断哪些是假蜘蛛，爬取是否正常，是否喜欢去一些现在权限的文件和一些不存在的文件路径，尤其是直接爬取其他常见的网站隐私文件（比如你的网站没有ABC文件，但就是爬取ABC文件），真蜘蛛是不会这样爬取的。

**二、检查蜘蛛爬取的路径**

搜索引擎蜘蛛会比较遵守robots协议文件，偶尔会超过屏蔽限制，但是假蜘蛛会无视robots协议文件胡乱爬取，最明显的特征是经常爬取网站程序路径、非本站程序路径文件、压缩文件、文档、等其他比较敏感的文件和路径。

**三、诊断蜘蛛抓取的特征**

假蜘蛛很明显有个特征就是很喜欢隐私和机密文件，以文件后缀和常规压缩名称为准，这种行为就是想盗取下载网站的资源，有的甚至喜欢往数据相关的文件里面爬，这也是想获知网站信息进行后续的攻击行为，同时还要注意一些符合和加密解密的抓取特征。

冒充搜索引擎蜘蛛对网站的爬取都不是好事，轻者想盗取网站有价值的内容，比如原创文章，重者就是想获取网站的信息和数据进行攻击和篡改。

如果你的网站和服务器没有比较大的安全问题和漏洞，可以无视假蜘蛛的爬取，不建议凭个人感觉去屏蔽假蜘蛛IP，因为搜索引擎的蜘蛛IP从安全层面考虑有些是检测不到的，存在新IP使用和临时IP使用的情况，所以要避免误判把真蜘蛛屏蔽了。

**如何解决网站被假蜘蛛爬取的危害风险**

1、设置好网站权限和安全，加固服务器配置和参数，整理净化网站文件，不要留存不必要的文件，关闭下载属性，限制网络速率和峰值，在保障搜索引擎蜘蛛和访客正常来访的情况下，对不正常的访问现象进行合理的防范措施，这样可以降低假蜘蛛对网站造成的伤害。

2、也可以检测假蜘蛛IP是哪个地区的，如果是国内IP冒充百度搜索，可以直接向百度提交咨询工单确认，如果不是就直接屏蔽，如果是国外IP，就要考虑网站是否运营国外市场，否则就屏蔽IP。（这条不建议优先采用，除非假蜘蛛太多， 影响到网站正常运营。）

如果想彻底完全的解决假蜘蛛的爬取是很难的，需要很强的技术和资源，而且也无法避免的，尤其是国内奉行的是伸手即拿的风气更是猖狂，所以做好基础的安全防范措施，心态放好，保护好网站资源和信息，不用太纠结和担忧假蜘蛛的问题。