{
    "version": "https://jsonfeed.org/version/1.1",
    "title": "SEO私馆",
    "home_page_url": "https://www.seosiguan.com/",
    "feed_url": "https://www.seosiguan.com/post/301.json",
    "language": "zh-Hans",
    "items": [
        {
            "id": "https://www.seosiguan.com/post/301.html",
            "url": "https://www.seosiguan.com/post/301.html",
            "title": "搜索引擎蜘蛛的抓取和访问的区别",
            "content_html": "<p>我们习惯把搜索引擎的蜘蛛抓取和访问视为一个意思，但是如果从严谨的定义去看的话，两者是有区别的，但是作用系数又是相互形成的协同结果。</p><p>1、抓取指的是蜘蛛获取页面的信息、参数和属性，包括内容和代码的结构情况。</p><p>2、访问指的是蜘蛛以用户的身份角度对网站进行正常访问，包括浏览体验度和阅读流畅性。</p><p>以百度搜索举例，大多数都会同时有2个IP蜘蛛同时进入网站，目前常见是116和220开头的IP，有些人当作是权重蜘蛛和抓取蜘蛛，这样理解也是可以的。</p><p>但是其他搜索引擎大多数只有一个IP的蜘蛛，所以就很难分辨是抓取还是访问，也是因为这点原因，很多人是不认可搜索引擎的蜘蛛是分有抓取和访问的。</p><p><strong>如果从技术逻辑层面去思考的话，蜘蛛应该是有访问和抓取的区别。</strong></p><p>我们看不到的、不表达没有，尤其是技术层面的东西就更是无法认定有还是没有，如果从技术逻辑的层面去细心的思考这个问题，那很大的可能性是分有访问和抓取的工作区别。</p><p>国内大部分搜索引擎普遍存在蜘蛛过来了，但是网站内容页面不收录，这是算什么呢，很大可能性只是来访问，发现了网站内容页面，为什么不抓取呢，因为收录是肯定先要抓取的。</p><p>还有一种普遍的情况就是网站内容页面被蜘蛛访问了，但是过段时间就会被收录，但是这中间时段并没有蜘蛛过来了，那这如何解释访问和抓取的区别，目前能解释的是先前蜘蛛就是抓取，然后执行的是内部的模拟访问+页面分析+内容判断+预存评估。</p><p><strong>其实只要是搜索引擎的蜘蛛过来就行，不用太在意是抓取还是访问。</strong></p><p>不同的搜索引擎技术的蜘蛛工作方式是有区别的，不是说谁的差谁的强，只是从已经公开知道的事实就是搜索引擎会模拟用户进行正常的浏览访问，可以理解为页面检测诊断，否则搜索引擎如何知道已经收录的页面是否存在某些问题呢，用最节省资源的蜘蛛行为进行不定时的复访。</p><p>但是SEO黑帽技术中有一项就是针对搜索引擎的蜘蛛访问的手段，用户访问的是真实的广告落地页(A)，而蜘蛛访问的是伪造的干净落地页(B)，简称“蜘蛛访问页”，他的难度在于要收集没有蜘蛛标识的IP地址进行识别区分访问AB页。</p><p><strong>结语：</strong>我们不要去纠结蜘蛛是抓取还是访问的区别，这是个长篇大论的事情，本文只是简单介绍最基础的对蜘蛛的看法，仅供额外的研究参考。</p><p><a href=\"https://www.seosiguan.com/post/53.html\" target=\"_blank\" title=\"搜索引擎对网站内容页面的收录和释放（索引）问题\">搜索引擎对网站内容页面的收录和释放（索引）问题</a><br/></p>",
            "content_text": "我们习惯把搜索引擎的蜘蛛抓取和访问视为一个意思，但是如果从严谨的定义去看的话，两者是有区别的，但是作用系数又是相互形成的协同结果。1、抓取指的是蜘蛛获取页面的信息、参数和属性，包括内容和代码的结构情况。2、访问指的是蜘蛛以用户的身份角度对网站进行正常访问，包括浏览体验度和阅读流畅性。以百度搜索举例，大多数都会同时有2个IP蜘蛛同时进入网站，目前常见是116和220开头的IP，有些人当作是权重蜘蛛和抓取蜘蛛，这样理解也是可以的。但是其他搜索引擎大多数只有一个IP的蜘蛛，所以就很难分辨是抓取还是访问，也是因为这点原因，很多人是不认可搜索引擎的蜘蛛是分有抓取和访问的。如果从技术逻辑层面去思考的话，蜘蛛应该是有访问和抓取的区别。我们看不到的、不表达没有，尤其是技术层面的东西就更是无法认定有还是没有，如果从技术逻辑的层面去细心的思考这个问题，那很大的可能性是分有访问和抓取的工作区别。国内大部分搜索引擎普遍存在蜘蛛过来了，但是网站内容页面不收录，这是算什么呢，很大可能性只是来访问，发现了网站内容页面，为什么不抓取呢，因为收录是肯定先要抓取的。还有一种普遍的情况就是网站内容页面被蜘蛛访问了，但是过段时间就会被收录，但是这中间时段并没有蜘蛛过来了，那这如何解释访问和抓取的区别，目前能解释的是先前蜘蛛就是抓取，然后执行的是内部的模拟访问+页面分析+内容判断+预存评估。其实只要是搜索引擎的蜘蛛过来就行，不用太在意是抓取还是访问。不同的搜索引擎技术的蜘蛛工作方式是有区别的，不是说谁的差谁的强，只是从已经公开知道的事实就是搜索引擎会模拟用户进行正常的浏览访问，可以理解为页面检测诊断，否则搜索引擎如何知道已经收录的页面是否存在某些问题呢，用最节省资源的蜘蛛行为进行不定时的复访。但是SEO黑帽技术中有一项就是针对搜索引擎的蜘蛛访问的手段，用户访问的是真实的广告落地页(A)，而蜘蛛访问的是伪造的干净落地页(B)，简称“蜘蛛访问页”，他的难度在于要收集没有蜘蛛标识的IP地址进行识别区分访问AB页。结语：我们不要去纠结蜘蛛是抓取还是访问的区别，这是个长篇大论的事情，本文只是简单介绍最基础的对蜘蛛的看法，仅供额外的研究参考。搜索引擎对网站内容页面的收录和释放（索引）问题",
            "date_published": "2022-10-13T04:32:17+00:00",
            "date_modified": "2022-10-15T19:11:05+00:00",
            "summary": "我们习惯把搜索引擎的蜘蛛抓取和访问视为一个意思，但是如果从严谨的定义去看的话，两者是有区别的，但是作用系数又是相互形成的协同结果。1、抓取指的是蜘蛛获取页面的信息、参数和属性，包括内容和代码的结构情况。2、访问指的是蜘蛛以用户的身份角度对网站进行正常访问，包括浏览体验度和阅读流畅性。以百度搜索举例，大多数都会同时有2个IP蜘蛛同时进入网站，目前常见是116和220开头的IP，有些人当作是权重蜘蛛和抓取蜘蛛，这样理解也是可以的。但是其他搜索引擎大多数只有一个IP的蜘蛛，所以就很难分辨是抓取还是访问，也是因为这点原因，很多人是不认可搜索引擎的蜘蛛是分有抓取和访问的。"
        }
    ]
}