常見搜索引擎爬蟲程序整理




百度的算法一直改變,這讓很多站長在做SEO優(yōu)化的時候有點猶豫,都想弄明白一件事,如何才能把握好網(wǎng)頁更新策略?,快速的提高網(wǎng)站的知名度,現(xiàn)在我就談?wù)凷EO的基礎(chǔ)工作-網(wǎng)站頁面收錄問題,這就需要站長做好robots.txt。
這里就整理一些常見的爬蟲程序,不常見的我也不是很了解,畢竟世界上的爬蟲程序非常非常多,有好有壞。
Google爬蟲
算法優(yōu)秀,反應(yīng)速度迅速,對內(nèi)容質(zhì)量把握優(yōu)秀,中等強度爬蟲程序,對服務(wù)器負擔(dān)不大,推廣效果好。
對應(yīng)user-agent:爬蟲名稱
Googlebot:google網(wǎng)頁爬蟲
Googlebot-news:google新聞爬蟲
Googlebot-image:google圖片爬蟲
Googlebot-video:google視頻爬蟲
Googlebot-mobile:google移動爬蟲
Mediapartners-google或Mediapartners(googlebot):google廣告爬蟲
Adsbot-google:google著陸頁質(zhì)量檢測爬蟲
百度爬蟲
算法良好,反應(yīng)速度遲鈍,對內(nèi)容質(zhì)量把握一般,高強度爬蟲程序,由于算法優(yōu)化不良問題,對服務(wù)器負擔(dān)較大,本身小問題也挺多(比如:度娘又抽風(fēng)了),隱私保護惡劣,在百度面前無隱私可言,推廣效果好。(然而誰叫這貨是國內(nèi)搜索引擎老大呢)
對應(yīng)user-agent:爬蟲名稱
Baiduspider:百度網(wǎng)頁爬蟲兼移動爬蟲
Baiduspider-image:百度圖片爬蟲
Baiduspider-video:百度視頻爬蟲
Baiduspider-news:百度新聞爬蟲
Baiduspider-favo:百度搜藏爬蟲
Baiduspider-cpro:百度聯(lián)盟爬蟲
Baiduspider-ads:百度商務(wù)爬蟲
好搜(即360)爬蟲
類似百度早期算法,反應(yīng)速度遲鈍,對內(nèi)容質(zhì)量把握不足,高強度爬蟲程序,隱私保護跟百度一個尿性,需要翻墻的小伙伴千萬要避開這貨。
推廣效果好,目前好搜的客服給我的印象最好,然而以后就不知道了,畢竟有流氓歷史。
對應(yīng)user-agent:爬蟲名稱
360spider或haosouspider:好搜網(wǎng)頁爬蟲兼移動爬蟲
360spider-image:好搜圖片爬蟲
360spider-video:好搜視頻爬蟲
搜狗爬蟲
算法惡劣,反應(yīng)速度極其遲鈍,不能良好的把握內(nèi)容質(zhì)量,高強度爬蟲程序,由于算法奇差,會對頁面進行大量反復(fù)而又無實際意義的掃描,對服務(wù)器負擔(dān)很大,個人建議直接遮蔽這貨,推廣效果差!嚴重的內(nèi)部點擊,個人最討厭。搜狗本身流量就很少,并且收錄慢,抓取壓力大,綜合性價比非常低。
對應(yīng)user-agent:爬蟲名稱
Sogou spider:搜狗綜合爬蟲
新浪愛問爬蟲
基本可以當(dāng)作搜狗爬蟲,各項性能惡劣,建議遮蔽,推廣效果差。
對應(yīng)user-agent:爬蟲名稱
Iaskspider:新浪愛問爬蟲
有道爬蟲
也基本可以當(dāng)作搜狗爬蟲,各項性能惡劣,對服務(wù)器負擔(dān)較搜狗略低,建議遮蔽,推廣效果差。
對應(yīng)user-agent:爬蟲名稱
YodaoBot:網(wǎng)易有道爬蟲
Alexa爬蟲
Alexa爬蟲,用于檢測網(wǎng)站是否做了Alexa排名作弊,如果不關(guān)心Alexa排名的可以遮蔽。一般企業(yè)站看這個沒意思很難有排名的。
對應(yīng)user-agent:爬蟲名稱
ia_archiver:Alexa爬蟲
雅虎爬蟲
算法優(yōu)良,反應(yīng)速度還可以,高強度爬蟲程序,有時候會從多個ip地址啟動捉取,算是比較規(guī)范的爬蟲,推廣效果還可以。不過自從雅虎離開大陸,而且在11年11月左右雅虎關(guān)閉了站長服務(wù)并把數(shù)據(jù)轉(zhuǎn)移到必應(yīng),一般情況建議遮蔽。
對應(yīng)user-agent:爬蟲名稱
Yahoo! Slurp:雅虎爬蟲
必應(yīng)爬蟲
整體性能還不能判斷,不過根據(jù)最近世界搜索引擎市場份額占比判斷,性能應(yīng)該接近百度甚至比百度要好,國內(nèi)本土化不足。九秋網(wǎng)站來自必應(yīng)的流量不少于好搜。
對應(yīng)user-agent:爬蟲名稱
Bingbot:必應(yīng)爬蟲
總結(jié):
好了,大概我們常見的爬蟲程序就有這些,別的基本可以直接遮蔽了。