SEO私馆
问题咨询、疑难诊断、优化运营、培训教学

网站禁止垃圾蜘蛛访问抓取教程说明

网站禁止垃圾蜘蛛访问抓取教程说明

很多国外商业蜘蛛实际对网站没有什么价值,尤其国内网站的SEO优化运营更是用不上,但是如果不屏蔽就会对网站造成很大的性能宽带消耗,引起SEO优化负面影响,所以可以根据自己的需要去处理。

nginx服务端禁止Scrapy等工具的抓取

if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {

return 403;

}

nginx服务端禁止非GET|HEAD|POST方式的抓取

if ($request_method !~ ^(GET|HEAD|POST)$) {

return 403;

}

nginx服务端禁止指定蜘蛛抓取

if ($http_user_agent ~ "MegaIndex|MegaIndex.ru|BLEXBot|Qwantify|qwantify|semrush|Semrush|serpstatbot|hubspot|python|Bytespider|Go-http-client|Java|PhantomJS|SemrushBot|Scrapy|Webdup|AcoonBot|AhrefsBot|Ezooms|EdisterBot|EC2LinkFinder|jikespider|Purebot|MJ12bot|WangIDSpider|WBSearchBot|Wotbox|xbfMozilla|Yottaa|YandexBot|Jorgee|SWEBot|spbot|TurnitinBot-Agent|mail.RU|perl|Python|Wget|Xenu|ZmEu|^$" )

{

return 444;

}

IIS服务端

<?xml version="1.0" encoding="UTF-8"?>

<configuration>

<system.webServer>

<rewrite>

<rules>

<rule name="Block spider">

<match url="(^robots.txt$)" ignoreCase="false" negate="true" />

<conditions>

<add input="{HTTP_USER_AGENT}" pattern="MegaIndex|MegaIndex.ru|BLEXBot|Qwantify|qwantify|semrush|Semrush|serpstatbot|hubspot|python|Bytespider|Go-http-client|Java|PhantomJS|SemrushBot|Scrapy|Webdup|AcoonBot|AhrefsBot|Ezooms|EdisterBot|EC2LinkFinder|jikespider|Purebot|MJ12bot|WangIDSpider|WBSearchBot|Wotbox|xbfMozilla|Yottaa|YandexBot|Jorgee|SWEBot|spbot|TurnitinBot-Agent|mail.RU|perl|Python|Wget|Xenu|ZmEu|^$"

ignoreCase="true" />

</conditions>

<action type="AbortRequest" />

</rule>

</rules>

</rewrite>

</system.webServer>

</configuration>

IIS6请在isapi重写组件中添加规则

#Block spider

RewriteCond %{HTTP_USER_AGENT} (MegaIndex|MegaIndex.ru|BLEXBot|Qwantify|qwantify|semrush|Semrush|serpstatbot|hubspot|python|Bytespider|Go-http-client|Java|PhantomJS|SemrushBot|Scrapy|Webdup|AcoonBot|AhrefsBot|Ezooms|EdisterBot|EC2LinkFinder|jikespider|Purebot|MJ12bot|WangIDSpider|WBSearchBot|Wotbox|xbfMozilla|Yottaa|YandexBot|Jorgee|SWEBot|spbot|TurnitinBot-Agent|mail.RU|perl|Python|Wget|Xenu|ZmEu|^$) [NC]

RewriteRule !(^/robots.txt$) - [F]

apache服务端

<IfModule mod_rewrite.c>

RewriteEngine On

#Block spider

RewriteCond %{HTTP_USER_AGENT} "MegaIndex|MegaIndex.ru|BLEXBot|Qwantify|qwantify|semrush|Semrush|serpstatbot|hubspot|python|Bytespider|Go-http-client|Java|PhantomJS|SemrushBot|Scrapy|Webdup|AcoonBot|AhrefsBot|Ezooms|EdisterBot|EC2LinkFinder|jikespider|Purebot|MJ12bot|WangIDSpider|WBSearchBot|Wotbox|xbfMozilla|Yottaa|YandexBot|Jorgee|SWEBot|spbot|TurnitinBot-Agent|mail.RU|perl|Python|Wget|Xenu|ZmEu|^$" [NC]

RewriteRule !(^robots\.txt$) - [F]

</IfModule>

通过robots.txt禁止

对于遵循robots协议的蜘蛛,可以直接在robots禁止。上面常见的无用蜘蛛禁止方法如下,将下面的内容加入到网站根目录下面的robots.txt就可以了。常见的一些屏蔽恶意蜘蛛代码如下,也可以根据自己需要进行增减。

User-agent: SemrushBot

Disallow: /

User-agent: DotBot

Disallow: /

User-agent: MegaIndex.ru

Disallow: /

User-agent: MauiBot

Disallow: /

User-agent: AhrefsBot

Disallow: /

User-agent: MJ12bot

Disallow: /

User-agent: BLEXBot

Disallow: /

常见的网络恶意垃圾爬虫蜘蛛

上面说的搜索引擎爬虫能给网站带来流量,也有许多爬虫除了增加服务器负担,对网站没任何好处,应该屏蔽掉。

1、MJ12Bot

MJ12Bot 是英国著名SEO公司Majestic的网络爬虫,其抓取网页给需要做SEO的人用,不会给网站带来流量。

2、AhrefsBot

AhrefsBot 是知名SEO公司Ahrefs的网页爬虫。其同样抓取网页给SEO专业人士用,不会给网站带来流量。

3、SEMrushBot

SEMrushBot 也是SEO、营销公司的网络爬虫。

4、DotBot

DotBot 是 Moz.com 的网页爬虫,抓取数据用来支持 Moz tools 等工具。

5、MauiBot

MauiBot 不同于其他爬虫,这个爬虫连网站都没有,UA只显示一个邮箱:”MauiBot (crawler.feedback+wc@gm ail.com)“。神奇的是这个看起来是个人爬虫,竟然遵循robots协议,算得上垃圾爬虫的一股清流。

6、MegaIndex.ru

这是一个提供反向链接查询的网站的蜘蛛,因此它爬网站主要是分析链接,并没有什么作用。遵循robots协议。

7、BLEXBot

这个是webmeup下面的蜘蛛,作用是收集网站上面的链接,对我们来说并没有用处。遵循robots协议。

SEO私馆结束语:以上来源收集汇总,请根据自己实际需要进行准确设置。

警惕垃圾蜘蛛影响网站SEO收录排名

警惕垃圾蜘蛛影响网站SEO收录排名

最近给一个企业网站诊断SEO问题,看了没什么问题,前端优化的不错,代码结构也规范,标签运用也可以,但是网站就是不收录,做不了SEO,后来就看了他的网站日志和性能截图,发现好家伙,垃圾蜘蛛大部分情况在恰...

网站禁止查看源代码会影响SEO吗?

会!如果是禁止浏览器查看网站源码就不会影响SEO,但是不能禁止搜索引擎查看网站源代码,因为搜索引擎是需要通过分析源代码对网站进行全局整体的了解和判断,所以为什么网站做SEO有很大程度是前端的优化,如果...

网站提高搜索引擎蜘蛛访问频率次数的方法

我们在做网站SEO优化和运营时会经常观察搜索引擎的蜘蛛爬虫来访抓取的频率和次数,因为这可以判断出网站的权重值大概处于什么阶段,也能分析出网站内容页面收录的时长,对优化网站SEO有很重要的参考价值,所以...

搜索引擎蜘蛛访问和抓取的区别

我们在做网站SEO优化时有必要搞清楚搜索引擎的蜘蛛对网站的行为是存在访问和抓取的,而且两者是单独存在,也就是说访问不代表抓取,抓取不代表完全访问过了。什么是蜘蛛访问和抓取(爬取)。蜘蛛访问就是类似用户...

花瓣搜索引擎提交网站收录教程说明

我们做SEO优化的核心要素之一就是先到先得,作为国内潜力很大的华为搜索引擎(花瓣)也已经有了网站后台管理了,下面说教程。打开花瓣站长后台地址https://webmaster.petalsearch....

网站设计排版适合SEO运营的教程说明(含设计图)

网站设计有两个需求,一个是标准的设计排版,一个是SEO运营的设计方案,而SEO方面的设计就是为了满足网站上线后进行运营中进行SEO全局优化排名,所以在设计中就要确定版块,因为网站绝不能存在混乱的排版,...