屏蔽國外垃圾無用蜘蛛，防止大量抓取導(dǎo)致網(wǎng)站崩潰浪費(fèi)帶寬

2024-12-13 09:34 技術(shù)文檔

最近發(fā)現(xiàn)一些國外垃圾蜘蛛頻繁抓我網(wǎng)站頁面，白浪費(fèi)消耗服務(wù)器性能。所以要屏蔽他們這些垃圾蜘蛛抓取，這里介紹兩種方法一同操作進(jìn)行屏蔽：

第一種方法：直接在根目錄下robos.txt文件里面屏蔽掉相關(guān)垃圾蜘蛛：

User-agent: SemrushBot

Disallow: /

User-agent: DotBot

Disallow: /

User-agent: MJ12bot

Disallow: /

User-agent: AhrefsBot

Disallow: /

User-agent: MauiBot

Disallow: /

User-agent: MegaIndex.ru

Disallow: /

User-agent: BLEXBot

Disallow: /

User-agent: ZoominfoBot

Disallow: /

User-agent: ExtLinksBot

Disallow: /

User-agent: hubspot

Disallow: /

User-agent: leiki

Disallow: /

User-agent: webmeup

Disallow: /

User-agent: Googlebot

Disallow: /

User-agent: googlebot-image

Disallow: /

User-agent: googlebot-mobile

Disallow: /

User-agent: yahoo-mmcrawler

Disallow: /

User-agent: yahoo-blogs/v3.9

Disallow: /

User-agent: Slurp

Disallow: /

User-agent: twiceler

Disallow: /

User-agent: AhrefsBot

Disallow: /

User-agent: psbot

Disallow: /

User-agent: YandexBot

Disallow: /

第二種方法，寶塔面板網(wǎng)站設(shè)置——配置文件，將需要屏蔽的蜘蛛寫進(jìn)配置文件代碼里：

#屏蔽垃圾蜘蛛

if ($http_user_agent ~* (SemrushBot|DotBot|MJ12bot|AhrefsBot|MauiBot|MegaIndex.ru|BLEXBot|ZoominfoBot|ExtLinksBot|hubspot|leiki|webmeup)) {

return 403;

}

第三種方法防火墻里加過濾規(guī)則再來抓就送你吃403！

常見的搜索引擎爬蟲

1、Googlebot（屏蔽！沒毛用）

Googlebot是谷歌的網(wǎng)絡(luò)爬蟲，其UA標(biāo)識(shí)為“(compatible;Googlebot/2.1;+http://www.google.com/bot.html)”。對(duì)大部分網(wǎng)站，Googlebot應(yīng)該是爬取最勤快的爬蟲，能給優(yōu)質(zhì)博客帶來大量流量。

除了爬取網(wǎng)頁的Googlebot，常見的還有圖片爬蟲Googlebot-Image、移動(dòng)廣告爬蟲Mediapartners-Google等。

2、Baiduspider

Baiduspider是百度的網(wǎng)頁爬蟲，中文站很常見。其UA標(biāo)識(shí)為“(compatible;Baiduspider/2.0;+http://www.baidu.com/search/spider.html)”。

除了網(wǎng)頁爬蟲，手機(jī)百度爬蟲Baiduboxapp、渲染抓取Baiduspider-render等。

3、bingbot

bingbot是微軟bing搜索的爬蟲，其UA標(biāo)識(shí)為“(compatible;bingbot/2.0;+http://www.bing.com/bingbot.htm)”。

自微軟推廣bing搜索品牌后，微軟原來的爬蟲MSNBot越來越少見到了。

4、360Spider

360Spider是360搜索的爬蟲，其UA標(biāo)識(shí)為“Mozilla/5.0(Windows NT 10.0;Win64;x64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/71.0.3578.98 Safari/5 37.36;360Spider”。

目前360搜索份額較少，這個(gè)爬蟲不是很常見。

5、Sogou web spider

Sogou web spider是搜狗搜索的網(wǎng)頁爬蟲，其UA標(biāo)識(shí)為“Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)”。背靠騰訊，搜狗目前市場份額在上升，因此其網(wǎng)絡(luò)爬蟲比較勤快，經(jīng)常能看到。

訪問日志搜索Sogou，除了Sogou web spider，還常見SogouMSE、SogouMobileBrowser。這是搜狗手機(jī)瀏覽器的UA標(biāo)識(shí)，不是爬蟲。

6、YisouSpider

YisouSpider是神馬搜索的爬蟲，UA標(biāo)識(shí)是“Mozilla/5.0(Windows NT 6.1;Win64;x64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/69.0.3497.81 YisouSpider/5.0 Safari/537.36”。

神馬成立初期太瘋狂抓取網(wǎng)頁導(dǎo)致一些小網(wǎng)站崩潰而惹的天怒人怨。隨著市場份額提升和數(shù)據(jù)完善，目前YisouSpider還算克制，不再瘋狂抓取。

從名字上看，神馬搜索的發(fā)音類似于宜搜，但和專注小說搜索的“宜搜(http://easou.com/)”不是同一家公司。神馬搜索是UC合并到阿里后推出的移動(dòng)搜索引擎，而宜搜在2G wap時(shí)代就已經(jīng)名聲在外。

7、YandexBot（屏蔽！沒毛用）

YandexBot是俄羅斯最大搜索引擎和互聯(lián)網(wǎng)巨頭Yandex的網(wǎng)頁爬蟲，其UA標(biāo)識(shí)是“(compatible;YandexBot/3.0;+http://yandex.com/bots)”。

Yandex提供中文界面和中文搜索，也是少數(shù)目前能直接打開的國外搜索引擎。隨著越來越多中國人知道Yandex，YandexBot在中文網(wǎng)站日志里越來越常見。

8、DuckDuckGo

DuckDuckGo是DuckDuckGo的網(wǎng)頁爬蟲，其UA標(biāo)識(shí)是“Mozilla/5.0(Linux;Android 10)AppleWebK it/537.36(KHTML,like Gecko)Version/4.0 Chrome/81.0.4044.138 Mobile Safari/537.36 DuckDuckGo/5”。

DuckDuckGo主打隱私、安全、不監(jiān)控用戶記錄，界面簡潔，也提供中文搜索界面。

除了上述搜索引擎爬蟲，WordPress等提供feed訂閱的網(wǎng)站還常見newblur和feedly的訪問記錄。這兩個(gè)不是爬蟲，而是訂閱軟件，也能給網(wǎng)站帶來流量。

常見的網(wǎng)絡(luò)惡意垃圾爬蟲蜘蛛

上面說的搜索引擎爬蟲能給網(wǎng)站帶來流量，也有許多爬蟲除了增加服務(wù)器負(fù)擔(dān)，對(duì)網(wǎng)站沒任何好處，應(yīng)該屏蔽掉。

1、MJ12Bot

MJ12Bot是英國著名SEO公司Majestic的網(wǎng)絡(luò)爬蟲，其抓取網(wǎng)頁給需要做SEO的人用，不會(huì)給網(wǎng)站帶來流量。

2、AhrefsBot

AhrefsBot是知名SEO公司Ahrefs的網(wǎng)頁爬蟲。其同樣抓取網(wǎng)頁給SEO專業(yè)人士用，不會(huì)給網(wǎng)站帶來流量。

3、SEMrushBot

SEMrushBot也是SEO、營銷公司的網(wǎng)絡(luò)爬蟲。

4、DotBot

DotBot是Moz.com的網(wǎng)頁爬蟲，抓取數(shù)據(jù)用來支持Moz tools等工具。

5、MauiBot

MauiBot不同于其他爬蟲，這個(gè)爬蟲連網(wǎng)站都沒有，UA只顯示一個(gè)郵箱：”MauiBot(crawler.feedback+wc gm ail.com)“。神奇的是這個(gè)看起來是個(gè)人爬蟲，竟然遵循robots協(xié)議，算得上垃圾爬蟲的一股清流。

6、MegaIndex.ru

這是一個(gè)提供反向鏈接查詢的網(wǎng)站的蜘蛛，因此它爬網(wǎng)站主要是分析鏈接，并沒有什么作用。遵循robots協(xié)議。

7、BLEXBot

這個(gè)是webmeup下面的蜘蛛，作用是收集網(wǎng)站上面的鏈接，對(duì)我們來說并沒有用處。遵循robots協(xié)議。

SemrushBot，這是semrush下面的一個(gè)蜘蛛，是一家做搜索引擎優(yōu)化的公司，因此它抓取網(wǎng)頁的目的就很明顯了。這種蜘蛛對(duì)網(wǎng)站沒有任何用處，好在它還遵循robots協(xié)議，因此可以直接在robots屏蔽。

DotBot,這是moz旗下的，作用是提供seo服務(wù)的蜘蛛，但是對(duì)我們并沒有什么用處。好在遵循robots協(xié)議，可以使用robots屏蔽

AhrefsBot，這是ahrefs旗下的蜘蛛，作用是提供seo服務(wù)，對(duì)我們沒有任何用處，遵循robots協(xié)議。

MJ12bot，這是英國的一個(gè)搜索引擎蜘蛛，但是對(duì)中文站站點(diǎn)就沒有用處了，遵循robots協(xié)議。

MauiBot，這個(gè)不太清楚是什么，但是有時(shí)候很瘋狂，好在遵循robots協(xié)議。

MegaIndex.ru，這是一個(gè)提供反向鏈接查詢的網(wǎng)站的蜘蛛，因此它爬網(wǎng)站主要是分析鏈接，并沒有什么作用。遵循robots協(xié)議。

BLEXBot,這個(gè)是webmeup下面的蜘蛛，作用是收集網(wǎng)站上面的鏈接，對(duì)我們來說并沒有用處。遵循robots協(xié)議

等等……………

主要是將從網(wǎng)站日志中發(fā)現(xiàn)的一些異常抓取的蜘蛛屏蔽掉，我上面列舉的是一些常見的對(duì)我們網(wǎng)站沒啥用處的蜘蛛，將這些蜘蛛屏蔽掉就好了。

第二種方法屏蔽的效果：

谷歌一個(gè)ip來不了，沒毛用！一天來抓幾千次，浪費(fèi)寬帶。

幫助

屏蔽國外垃圾無用蜘蛛，防止大量抓取導(dǎo)致網(wǎng)站崩潰浪費(fèi)帶寬

相關(guān)推薦

產(chǎn)品

服務(wù)

幫助

關(guān)于