尤物视频在线观看|国产尤物视频在线观看|99热在线获取最新地址,久久频这里精品99香蕉久,国产色婷婷精品综合在线,亚洲欧美日韩高清在线看

爬蟲抓取方式分類說明

作者:dengying 瀏覽:2051 發(fā)布時間:2015-05-25
編輯 分享 評論 0

  

    一個網(wǎng)站想被搜索引擎(百度、谷歌等)收錄,是靠索引爬蟲抓取的。那么爬蟲是怎么抓取的呢?下面跟大家解說一下:

  爬蟲的抓取方式一般可以分為累積式抓取和增量式抓取兩種。

  累積式抓取是指從某一個時間點(diǎn)開始,通過遍歷的方式抓取系統(tǒng)所能允許存儲和處理的所有網(wǎng)頁。在理想的軟硬件環(huán)境下,經(jīng)過足夠的運(yùn)行時間,累積式抓取可以保證取到相當(dāng)規(guī)模的網(wǎng)頁集合。但由于Web數(shù)據(jù)的動態(tài)特性,已抓取的網(wǎng)頁可能出現(xiàn)更新或死鏈的情況,因此積累式抓取到的網(wǎng)頁集合事實(shí)上并無法與真實(shí)環(huán)境中網(wǎng)絡(luò)數(shù)據(jù)保持一致。

  增量式抓取是指在具有一定量規(guī)模的網(wǎng)頁集合的基礎(chǔ)上,采用更新數(shù)據(jù)的方式選取已在集合中的過時網(wǎng)頁進(jìn)行抓取,以保證所抓取的數(shù)據(jù)與真實(shí)網(wǎng)絡(luò)數(shù)據(jù)足夠接近。進(jìn)行增量式抓取的前提是,系統(tǒng)已經(jīng)抓取了足夠數(shù)量的網(wǎng)頁,并具有這些頁面被抓取的時間信息


詞條統(tǒng)計

  • 瀏覽次數(shù):2051
  • 編輯次數(shù):0次歷史版本
  • 最近更新:2015-05-25
  • 創(chuàng)建者:dengying
  • 相關(guān)詞條

    相關(guān)問答

    相關(guān)百科

    相關(guān)資訊