{
    "version": "https://jsonfeed.org/version/1.1",
    "title": "SEO私馆",
    "home_page_url": "https://www.seosiguan.com/",
    "feed_url": "https://www.seosiguan.com/post/161.json",
    "language": "zh-Hans",
    "items": [
        {
            "id": "https://www.seosiguan.com/post/161.html",
            "url": "https://www.seosiguan.com/post/161.html",
            "title": "防止网站原创文章被采集抄袭的小方法",
            "content_html": "<p>采集抄袭和伪原创已经成为一种产业，那就必然有高手在其中投入技术解决如何从外部网站爬取文章进行采集抄袭，加工伪原创，下面我们说说一些小方法，但不能保证百分百杜绝被抄袭。</p><p><strong>一，文章进行加密</strong></p><p>文章加密需要较强的技术能力，通过对文章内容的加密形成乱码让采集方无法爬取，但是这需要完全了解搜索引擎和浏览器的解密机制，不然会导致无法抓取和显示，出现乱码。</p><p>这种方式最保险，破解成本高，对网站技术要求高。</p><p><strong>二，文章包装在JS内</strong></p><p>文章包装在JS内对搜索引擎不太友好，只限于高权重的权威站点，因为搜索引擎不会对所有网站的js包装的文章进行解析爬取。</p><p>这种方式适合闭环私域流量的网站，对搜索引擎依赖性较少的可以采用。</p><p><strong>三，网站首页和栏目更新延后</strong><br/></p><p>大部分采集都是通过网站的首页和栏目进行抓取分析是否有新URL链接，然后进行爬取采集，如果网站原创更新频率较高也会被采集方设置为优先级，所以每次网站发布新文章后不要马上在首页和栏目页进行更新，先像搜索引擎提交链接，24小时后在进行网站更新，这样是不会耽搁网站的，可以较大程度降低被采集后对网站造成SEO影响。</p><p>这种方式是最简单的，防采集影响也还行，如果是新站，目的是告知搜索引擎你的网站运营态度，如果是有权重的网站，基本上24小时内会收录。网站更新文章主要的目的还是增加权重和获取流量嘛。</p><p><strong>四，设置IP访问频率机制</strong></p><p>采集通常都是用工具或者采集，主要特征就是要爬取扫描，其中就要模拟点击翻页，这套流量下来会出现IP访问频率比较高，从用户角度是不可能出现这种情况的，所以在服务器端可以设置对IP的管控，比如高频率IP访问要进行验证码。</p><p>这种方式要对搜索引擎的爬虫IP进行放行，避免误验搜索引擎的IP导致网站不被收录。</p><p><strong>五，UA响应头限制</strong></p><p>通过UA响应头可以判断网站被访问来源等等，所以也可以使用UA响应头禁止不正常访问，过滤参数等等。</p><p>这种方式也要对搜索引擎进行放行，避免禁止搜索引擎的UA响应。</p><p><strong>六，开启HTTPS双向认证</strong></p><p>HTTPS双向认证会对客户端进行加密验证，利用这一点可以削弱采集方的能力，因为大部分采集工具为了提高效率、降低开发和运营成本，对HTTPS双向认证的网站比较慎重。</p><p>这种方式主要是提高对方采集不稳定性，扰乱对方采集时的结果。</p><p><strong>以上5中方式不能100%保证文章不会被采集，但是会加大采集者的难度，造成对方成本增加而放弃采集。</strong></p>",
            "content_text": "采集抄袭和伪原创已经成为一种产业，那就必然有高手在其中投入技术解决如何从外部网站爬取文章进行采集抄袭，加工伪原创，下面我们说说一些小方法，但不能保证百分百杜绝被抄袭。一，文章进行加密文章加密需要较强的技术能力，通过对文章内容的加密形成乱码让采集方无法爬取，但是这需要完全了解搜索引擎和浏览器的解密机制，不然会导致无法抓取和显示，出现乱码。这种方式最保险，破解成本高，对网站技术要求高。二，文章包装在JS内文章包装在JS内对搜索引擎不太友好，只限于高权重的权威站点，因为搜索引擎不会对所有网站的js包装的文章进行解析爬取。这种方式适合闭环私域流量的网站，对搜索引擎依赖性较少的可以采用。三，网站首页和栏目更新延后大部分采集都是通过网站的首页和栏目进行抓取分析是否有新URL链接，然后进行爬取采集，如果网站原创更新频率较高也会被采集方设置为优先级，所以每次网站发布新文章后不要马上在首页和栏目页进行更新，先像搜索引擎提交链接，24小时后在进行网站更新，这样是不会耽搁网站的，可以较大程度降低被采集后对网站造成SEO影响。这种方式是最简单的，防采集影响也还行，如果是新站，目的是告知搜索引擎你的网站运营态度，如果是有权重的网站，基本上24小时内会收录。网站更新文章主要的目的还是增加权重和获取流量嘛。四，设置IP访问频率机制采集通常都是用工具或者采集，主要特征就是要爬取扫描，其中就要模拟点击翻页，这套流量下来会出现IP访问频率比较高，从用户角度是不可能出现这种情况的，所以在服务器端可以设置对IP的管控，比如高频率IP访问要进行验证码。这种方式要对搜索引擎的爬虫IP进行放行，避免误验搜索引擎的IP导致网站不被收录。五，UA响应头限制通过UA响应头可以判断网站被访问来源等等，所以也可以使用UA响应头禁止不正常访问，过滤参数等等。这种方式也要对搜索引擎进行放行，避免禁止搜索引擎的UA响应。六，开启HTTPS双向认证HTTPS双向认证会对客户端进行加密验证，利用这一点可以削弱采集方的能力，因为大部分采集工具为了提高效率、降低开发和运营成本，对HTTPS双向认证的网站比较慎重。这种方式主要是提高对方采集不稳定性，扰乱对方采集时的结果。以上5中方式不能100%保证文章不会被采集，但是会加大采集者的难度，造成对方成本增加而放弃采集。",
            "date_published": "2021-07-28T17:05:48+00:00",
            "date_modified": "2021-07-28T17:16:58+00:00",
            "summary": "采集抄袭和伪原创已经成为一种产业，那就必然有高手在其中投入技术解决如何从外部网站爬取文章进行采集抄袭，加工伪原创，下面我们说说一些小方法，但不能保证百分百杜绝被抄袭。一，文章进行加密文章加密需要较强的技术能力，通过对文章内容的加密形成乱码让采集方无法爬取，但是这需要完全了解搜索引擎和浏览器的解密机制，不然会导致无法抓取和显示，出现乱码。这种方式最保险，破解成本高，对网站技术要求高。二，文章包装在JS内文章包装在JS内对搜索引擎不太友好，只限于高权重的权威站点，因为搜索引擎不会对所有网站的js包装"
        }
    ]
}