{
    "version": "https://jsonfeed.org/version/1.1",
    "title": "SEO私馆",
    "home_page_url": "https://www.seosiguan.com/",
    "feed_url": "https://www.seosiguan.com/post/270.json",
    "language": "zh-Hans",
    "items": [
        {
            "id": "https://www.seosiguan.com/post/270.html",
            "url": "https://www.seosiguan.com/post/270.html",
            "title": "搜索引擎蜘蛛不抓取网站页面的原因",
            "content_html": "<p>我们分析网站日志时会发现搜索引擎的蜘蛛有时候来访很频繁，但是就不抓取内容页面，如果没有经验的SEO人员会一头雾水，甚至会觉得是搜索引擎的问题。</p><p>其实有一大半还是网站自身存在问题，如果蜘蛛来访频率不低，那肯定就是内容页面有以下这八点问题。</p><p><strong>一、网站结构混乱堵塞。</strong></p><p>网站结构如果是比较混乱，会造成搜索引擎的蜘蛛爬取消耗过大而放弃，尤其是内容页面中有动态URL调用就会制造网络堵塞的现象。</p><p>比如：网站层级过深、页面重复率高、网站需要重复调用多级文件、动态读取太频繁且过深，等等。</p><p><strong>二、内容文章太口水话。</strong></p><p>不要为了原创而口水原创，这是没有意义的，如果文章大多数都是没有丝毫价值的内容，很容易造成搜索引擎负面印象，不去碰指定的URL特征链接。</p><p>比如：小几百字的原创文章，从头到尾就是个类似简单的介绍，甚至题不对文，有的甚至连图片都是盗取的。</p><p><strong>三、网站没有ICP备案。</strong></p><p>如果网站没有备案，那在国内所有搜索引擎当中都很难被抓取收录，百度好点，这是国内政策原因，也是网络生态的趋势。</p><p>比如：企业网站就算是正规的，有实体公司地址，也每天保持原创更新，那也是照样很难抓取。</p><p><strong>四、网站访问速度比较慢。</strong></p><p>网站的打开访问速度如果不理想，蜘蛛是无法完全分析页面内容的，而且也会直接影响爬取频率和准确性。</p><p>比如：网站打开速度需要3秒以上，页面打开了但是资源读取缓慢。</p><p><strong>五、网站存在多级域名使用。</strong></p><p>如果网站不是大品牌，而用了多个二级域名使用，这会较大的稀释掉权重，也很容易给搜索引擎一种不靠谱和不稳定的感觉。</p><p>比如：不同静态文件用不同的二级域名区分读取，动态页面又是单独一个二级域名等等。</p><p><strong>六、被假蜘蛛误导和消耗资源。</strong></p><p>现在有很多冒充搜索引擎的假蜘蛛会频繁爬取网站页面，轻则文章被采集，重着消耗光了服务器资源让真蜘蛛不想来了。</p><p>比如：网站权重不是很高，又没有主动提交URL地址，但是文章发布后能在1小时内就有蜘蛛来爬取，而且停留时间较长。</p><p><strong>七、网站用了CDN缓存设置不对。</strong></p><p>CDN缓存是一把双刃剑，很多新人不知道如何调控CDN配置，导致因为CDN广泛的IP地址让网站在搜索引擎那处于频繁更新IP的问题。</p><p>比如：CDN缓存时间不合理，缓存文件丢失和异常，回源设置错误，等等。</p><p><strong>八、网站存在不合格的问题。</strong></p><p>搜索引擎对网站的考核是比较严格的，随着技术的革新会越来越严谨。</p><p>比如：网站采集文章、不正当手法运营和优化、作弊SEO操作、网站排版差、广告过多，等等。</p><p>如果网站出现有蜘蛛比较频繁的来访，但是就不抓取收录，就先从以上八点开始自查解决。</p>",
            "content_text": "我们分析网站日志时会发现搜索引擎的蜘蛛有时候来访很频繁，但是就不抓取内容页面，如果没有经验的SEO人员会一头雾水，甚至会觉得是搜索引擎的问题。其实有一大半还是网站自身存在问题，如果蜘蛛来访频率不低，那肯定就是内容页面有以下这八点问题。一、网站结构混乱堵塞。网站结构如果是比较混乱，会造成搜索引擎的蜘蛛爬取消耗过大而放弃，尤其是内容页面中有动态URL调用就会制造网络堵塞的现象。比如：网站层级过深、页面重复率高、网站需要重复调用多级文件、动态读取太频繁且过深，等等。二、内容文章太口水话。不要为了原创而口水原创，这是没有意义的，如果文章大多数都是没有丝毫价值的内容，很容易造成搜索引擎负面印象，不去碰指定的URL特征链接。比如：小几百字的原创文章，从头到尾就是个类似简单的介绍，甚至题不对文，有的甚至连图片都是盗取的。三、网站没有ICP备案。如果网站没有备案，那在国内所有搜索引擎当中都很难被抓取收录，百度好点，这是国内政策原因，也是网络生态的趋势。比如：企业网站就算是正规的，有实体公司地址，也每天保持原创更新，那也是照样很难抓取。四、网站访问速度比较慢。网站的打开访问速度如果不理想，蜘蛛是无法完全分析页面内容的，而且也会直接影响爬取频率和准确性。比如：网站打开速度需要3秒以上，页面打开了但是资源读取缓慢。五、网站存在多级域名使用。如果网站不是大品牌，而用了多个二级域名使用，这会较大的稀释掉权重，也很容易给搜索引擎一种不靠谱和不稳定的感觉。比如：不同静态文件用不同的二级域名区分读取，动态页面又是单独一个二级域名等等。六、被假蜘蛛误导和消耗资源。现在有很多冒充搜索引擎的假蜘蛛会频繁爬取网站页面，轻则文章被采集，重着消耗光了服务器资源让真蜘蛛不想来了。比如：网站权重不是很高，又没有主动提交URL地址，但是文章发布后能在1小时内就有蜘蛛来爬取，而且停留时间较长。七、网站用了CDN缓存设置不对。CDN缓存是一把双刃剑，很多新人不知道如何调控CDN配置，导致因为CDN广泛的IP地址让网站在搜索引擎那处于频繁更新IP的问题。比如：CDN缓存时间不合理，缓存文件丢失和异常，回源设置错误，等等。八、网站存在不合格的问题。搜索引擎对网站的考核是比较严格的，随着技术的革新会越来越严谨。比如：网站采集文章、不正当手法运营和优化、作弊SEO操作、网站排版差、广告过多，等等。如果网站出现有蜘蛛比较频繁的来访，但是就不抓取收录，就先从以上八点开始自查解决。",
            "date_published": "2021-09-28T16:02:33+00:00",
            "date_modified": "2024-10-07T12:27:38+00:00",
            "summary": "我们分析网站日志时会发现搜索引擎的蜘蛛有时候来访很频繁，但是就不抓取内容页面，如果没有经验的SEO人员会一头雾水，甚至会觉得是搜索引擎的问题。其实有一大半还是网站自身存在问题，如果蜘蛛来访频率不低，那肯定就是内容页面有以下这八点问题。一、网站结构混乱堵塞。网站结构如果是比较混乱，会造成搜索引擎的蜘蛛爬取消耗过大而放弃，尤其是内容页面中有动态URL调用就会制造网络堵塞的现象。比如：网站层级过深、页面重复率高、网站需要重复调用多级文件、动态读取太频繁且过深，等等。"
        }
    ]
}