搜隨引擎爬行過程簡(jiǎn)介




1、搜索引擎程序是通過網(wǎng)頁之間的鏈接,不分晝夜的爬行來獲取信息,收錄標(biāo)準(zhǔn)主要由URL的權(quán)重、網(wǎng)站規(guī)模大小等因素決定;
2、搜索引擎進(jìn)入服務(wù)器時(shí),第一時(shí)間查看robots.txt(控制搜索引擎收錄的標(biāo)準(zhǔn))文件,如果robots.txt文件不存在,則返回404錯(cuò)誤代碼,但依然會(huì)繼續(xù)爬行,如果定義了某些規(guī)則,則遵守索引。
3、建議必須有一個(gè)robot .txt文件
搜索引擎抓取數(shù)據(jù)的方式
1、垂直抓取策略:指搜索引擎順著一條鏈接爬行,直到設(shè)定的任務(wù)完成。
思路如下:垂直抓取策略—A鏈接—A網(wǎng)頁鏈接—A網(wǎng)頁鏈接的鏈接 ,一直垂直抓取到最底。
2、平行抓取策略:指先把網(wǎng)頁山的鏈接全部抓取一次,然后接著從每條鏈接牌型。
總結(jié):在實(shí)際應(yīng)用中,這兩種策略會(huì)同時(shí)發(fā)生,抓取的深度和廣度取決于頁面的權(quán)重、結(jié)構(gòu)和網(wǎng)站規(guī)模大小以及新鮮內(nèi)容數(shù)量和頻率,當(dāng)然這里面包含了很多的seo的策略。