SEO私馆
问题咨询、疑难诊断、代工优化、培训教学

搜索引擎蜘蛛抓取不到网站内容页面的原因总结

 搜索引擎蜘蛛抓取不到网站内容页面的原因总结

我们分析网站日志时会发现搜索引擎的蜘蛛有时候来访很频繁,但是就不抓取内容页面,如果没有经验的SEO人员会一头雾水,甚至会觉得是搜索引擎的问题。

其实有一大半还是网站自身存在问题,如果蜘蛛来访频率不低,那肯定就是内容页面有以下这八点问题。

一、网站结构混乱堵塞。

网站结构如果是比较混乱,会造成搜索引擎的蜘蛛爬取消耗过大而放弃,尤其是内容页面中有动态URL调用就会制造网络堵塞的现象。

比如:网站层级过深、页面重复率高、网站需要重复调用多级文件、动态读取太频繁且过深,等等。

二、内容文章太口水话。

不要为了原创而口水原创,这是没有意义的,如果文章大多数都是没有丝毫价值的内容,很容易造成搜索引擎负面印象,不去碰指定的URL特征链接。

比如:小几百字的原创文章,从头到尾就是个类似简单的介绍,甚至题不对文,有的甚至连图片都是盗取的。

三、网站没有ICP备案。

如果网站没有备案,那在国内所有搜索引擎当中都很难被抓取收录,百度好点,这是国内政策原因,也是网络生态的趋势。

比如:企业网站就算是正规的,有实体公司地址,也每天保持原创更新,那也是照样很难抓取。

四、网站访问速度比较慢。

网站的打开访问速度如果不理想,蜘蛛是无法完全分析页面内容的,而且也会直接影响爬取频率和准确性。

比如:网站打开速度需要3秒以上,页面打开了但是资源读取缓慢。

五、网站存在多级域名使用。

如果网站不是大品牌,而用了多个二级域名使用,这会较大的稀释掉权重,也很容易给搜索引擎一种不靠谱和不稳定的感觉。

比如:不同静态文件用不同的二级域名区分读取,动态页面又是单独一个二级域名等等。

六、被假蜘蛛误导和消耗资源。

现在有很多冒充搜索引擎的假蜘蛛会频繁爬取网站页面,轻则文章被采集,重着消耗光了服务器资源让真蜘蛛不想来了。

比如:网站权重不是很高,又没有主动提交URL地址,但是文章发布后能在1小时内就有蜘蛛来爬取,而且停留时间较长。

七、网站用了CDN缓存设置不对。

CDN缓存是一把双刃剑,很多新人不知道如何调控CDN配置,导致因为CDN广泛的IP地址让网站在搜索引擎那处于频繁更新IP的问题。

比如:CDN缓存时间不合理,缓存文件丢失和异常,回源设置错误,等等。

八、网站存在不合格的问题。

搜索引擎对网站的考核是比较严格的,随着技术的革新会越来越严谨。

比如:网站采集文章、不正当手法运营和优化、作弊SEO操作、网站排版差、广告过多,等等。

如果网站出现有蜘蛛比较频繁的来访,但是就不抓取收录,就先从以上八点开始自查解决。