{
    "version": "https://jsonfeed.org/version/1.1",
    "title": "SEO私馆",
    "home_page_url": "https://www.seosiguan.com/",
    "feed_url": "https://www.seosiguan.com/post/292.json",
    "language": "zh-Hans",
    "items": [
        {
            "id": "https://www.seosiguan.com/post/292.html",
            "url": "https://www.seosiguan.com/post/292.html",
            "title": "冒充搜素引擎的假蜘蛛IP对网站爬取的迹象原因",
            "content_html": "<p>假蜘蛛也就是冒充搜索引擎蜘蛛爬取网站，可以通过网站日志分析出来，国内最常见的就是冒充百度蜘蛛，大部分网站都存在假蜘蛛爬取的行为，而且是每天频繁来访爬取，这就给我们带来一些困惑，尤其是新人站长更是搞不清楚状况，如果网站处于较高频率的原创文章发布，这就需要我们警惕了。<br/></p><p>我们可以通过以下这几点判断出假蜘蛛和爬取路径。</p><p><strong>一、检测蜘蛛的IP真伪来访目的</strong></p><p>通过分析IP地址和UA标识判断哪些是假蜘蛛，爬取是否正常，是否喜欢去一些现在权限的文件和一些不存在的文件路径，尤其是直接爬取其他常见的网站隐私文件（比如你的网站没有ABC文件，但就是爬取ABC文件），真蜘蛛是不会这样爬取的。</p><p><strong>二、检查蜘蛛爬取的路径</strong></p><p>搜索引擎蜘蛛会比较遵守robots协议文件，偶尔会超过屏蔽限制，但是假蜘蛛会无视robots协议文件胡乱爬取，最明显的特征是经常爬取网站程序路径、非本站程序路径文件、压缩文件、文档、等其他比较敏感的文件和路径。</p><p><strong>三、诊断蜘蛛抓取的特征</strong></p><p>假蜘蛛很明显有个特征就是很喜欢隐私和机密文件，以文件后缀和常规压缩名称为准，这种行为就是想盗取下载网站的资源，有的甚至喜欢往数据相关的文件里面爬，这也是想获知网站信息进行后续的攻击行为，同时还要注意一些符合和加密解密的抓取特征。</p><p>冒充搜索引擎蜘蛛对网站的爬取都不是好事，轻者想盗取网站有价值的内容，比如原创文章，重者就是想获取网站的信息和数据进行攻击和篡改。</p><p>如果你的网站和服务器没有比较大的安全问题和漏洞，可以无视假蜘蛛的爬取，不建议凭个人感觉去屏蔽假蜘蛛IP，因为搜索引擎的蜘蛛IP从安全层面考虑有些是检测不到的，存在新IP使用和临时IP使用的情况，所以要避免误判把真蜘蛛屏蔽了。</p><p><strong>如何解决网站被假蜘蛛爬取的危害风险</strong></p><p>1、设置好网站权限和安全，加固服务器配置和参数，整理净化网站文件，不要留存不必要的文件，关闭下载属性，限制网络速率和峰值，在保障搜索引擎蜘蛛和访客正常来访的情况下，对不正常的访问现象进行合理的防范措施，这样可以降低假蜘蛛对网站造成的伤害。</p><p>2、也可以检测假蜘蛛IP是哪个地区的，如果是国内IP冒充百度搜索，可以直接向百度提交咨询工单确认，如果不是就直接屏蔽，如果是国外IP，就要考虑网站是否运营国外市场，否则就屏蔽IP。（这条不建议优先采用，除非假蜘蛛太多， 影响到网站正常运营。）</p><p>如果想彻底完全的解决假蜘蛛的爬取是很难的，需要很强的技术和资源，而且也无法避免的，尤其是国内奉行的是伸手即拿的风气更是猖狂，所以做好基础的安全防范措施，心态放好，保护好网站资源和信息，不用太纠结和担忧假蜘蛛的问题。</p>",
            "content_text": "假蜘蛛也就是冒充搜索引擎蜘蛛爬取网站，可以通过网站日志分析出来，国内最常见的就是冒充百度蜘蛛，大部分网站都存在假蜘蛛爬取的行为，而且是每天频繁来访爬取，这就给我们带来一些困惑，尤其是新人站长更是搞不清楚状况，如果网站处于较高频率的原创文章发布，这就需要我们警惕了。我们可以通过以下这几点判断出假蜘蛛和爬取路径。一、检测蜘蛛的IP真伪来访目的通过分析IP地址和UA标识判断哪些是假蜘蛛，爬取是否正常，是否喜欢去一些现在权限的文件和一些不存在的文件路径，尤其是直接爬取其他常见的网站隐私文件（比如你的网站没有ABC文件，但就是爬取ABC文件），真蜘蛛是不会这样爬取的。二、检查蜘蛛爬取的路径搜索引擎蜘蛛会比较遵守robots协议文件，偶尔会超过屏蔽限制，但是假蜘蛛会无视robots协议文件胡乱爬取，最明显的特征是经常爬取网站程序路径、非本站程序路径文件、压缩文件、文档、等其他比较敏感的文件和路径。三、诊断蜘蛛抓取的特征假蜘蛛很明显有个特征就是很喜欢隐私和机密文件，以文件后缀和常规压缩名称为准，这种行为就是想盗取下载网站的资源，有的甚至喜欢往数据相关的文件里面爬，这也是想获知网站信息进行后续的攻击行为，同时还要注意一些符合和加密解密的抓取特征。冒充搜索引擎蜘蛛对网站的爬取都不是好事，轻者想盗取网站有价值的内容，比如原创文章，重者就是想获取网站的信息和数据进行攻击和篡改。如果你的网站和服务器没有比较大的安全问题和漏洞，可以无视假蜘蛛的爬取，不建议凭个人感觉去屏蔽假蜘蛛IP，因为搜索引擎的蜘蛛IP从安全层面考虑有些是检测不到的，存在新IP使用和临时IP使用的情况，所以要避免误判把真蜘蛛屏蔽了。如何解决网站被假蜘蛛爬取的危害风险1、设置好网站权限和安全，加固服务器配置和参数，整理净化网站文件，不要留存不必要的文件，关闭下载属性，限制网络速率和峰值，在保障搜索引擎蜘蛛和访客正常来访的情况下，对不正常的访问现象进行合理的防范措施，这样可以降低假蜘蛛对网站造成的伤害。2、也可以检测假蜘蛛IP是哪个地区的，如果是国内IP冒充百度搜索，可以直接向百度提交咨询工单确认，如果不是就直接屏蔽，如果是国外IP，就要考虑网站是否运营国外市场，否则就屏蔽IP。（这条不建议优先采用，除非假蜘蛛太多， 影响到网站正常运营。）如果想彻底完全的解决假蜘蛛的爬取是很难的，需要很强的技术和资源，而且也无法避免的，尤其是国内奉行的是伸手即拿的风气更是猖狂，所以做好基础的安全防范措施，心态放好，保护好网站资源和信息，不用太纠结和担忧假蜘蛛的问题。",
            "date_published": "2021-10-10T00:00:27+00:00",
            "date_modified": "2021-10-10T00:00:31+00:00",
            "summary": "假蜘蛛也就是冒充搜素引擎蜘蛛爬取网站，可以通过网站日志分析出来，国内最常见的就是冒充百度蜘蛛，大部分网站都存在假蜘蛛爬取的行为，而且是每天频繁来访爬取，这就给我们带来一些困惑，尤其是新人站长更是搞不清楚状况，如果网站处于较高频率的原创文章发布，这就需要我们警惕了。我们可以通过以下这几点判断出假蜘蛛和爬取路径。一、检测蜘蛛的IP真伪来访目的通过分析IP地址和UA标识判断哪些是假蜘蛛，爬取是否正常，是否喜欢去一些现在权限的文件和一些不存在的文件路径，尤其是直接爬取其他常见的网站隐私文件（比如你的网站"
        }
    ]
}