尤物视频在线观看|国产尤物视频在线观看|99热在线获取最新地址,久久频这里精品99香蕉久,国产色婷婷精品综合在线,亚洲欧美日韩高清在线看

百度URL參數(shù)解析

作者:紫羅蘭 瀏覽:214 發(fā)布時間:2017-12-21
分享 評論 0

    在用Python爬取百度搜索的內(nèi)容時,發(fā)現(xiàn)百度搜索的url非常的長,往往會跟一大段的參數(shù),但其實很多參數(shù)都是沒有必要的,如同樣是搜索java關(guān)鍵字,可以通過 http://www.baidu.com/s?wd=java 如此簡單的URL來獲取,而下面這個超級復(fù)雜的URL也是同樣進行了關(guān)鍵字java的搜索:


    http://www.baidu.com/s?wd=java&rsv_spt=1&rsv_iqid=0xd3c8c51900052eb3&issp=1&f=8


    &rsv_bp=1&rsv_idx=2&ie=utf-8&tn=baiduhome_pg&rsv_enter=1&oq=python%20org&inputT=801


    &rsv_t=8810tNAXi7Yc2PivScHthQ7bBz%2B4eIBHvrdmB59u%2FlLVYrhnyyTg1%2FYJzQM9EAEgSPn5


    &rsv_pq=8f0a85f900051202&rsv_sug3=15&rsv_sug2=0&rsv_sug7=000&rsv_sug4=801&rsv_sug=2


    那么后面的那么多的參數(shù)有什么用呢?


    wd


    查詢關(guān)鍵字,就是你要搜索的內(nèi)容。


    rn


    搜索結(jié)果頁每頁顯示的數(shù)目,默認為10,最大可以設(shè)置為50


    pn


    顯示結(jié)果的頁數(shù),缺省為0,其它頁面需要每頁遞增rn,如當rn為默認值時,第三頁的pn應(yīng)為20。


    ie


    查詢關(guān)鍵字的編碼格式,默認為gb2312,即為簡體中文


    tn


    提交的搜索請求的來源,我們經(jīng)??梢钥吹胶芏嗑W(wǎng)站上都有嵌入了百度的搜索框,這個參數(shù)可以確定當前的搜索是來自哪個網(wǎng)站的。如下面的URL就是通過www.hao123.com網(wǎng)站首頁的百度搜索框搜索得到的:


    https://www.baidu.com/s?word=java&tn=sitehao123&ie=utf-8


    注:我們可以看到很多參數(shù)其實都是縮寫,如wd用word也是可以的


    rsv_bp


    這是表示了是百度網(wǎng)頁上的哪一個搜索框,如通過百度首頁中間的搜索框進行搜索時,該值為0,在搜索結(jié)果頁上面的搜索框進行搜索時為1。


    rsv_spt


    這個參數(shù)具體含義不是很清楚,經(jīng)過測試可以看出來登錄了百度賬號且在首頁進行搜索時會有這個參數(shù),且值為1,如果沒有登錄或登錄后在搜索結(jié)果頁搜索時不會出現(xiàn)這個參數(shù)。網(wǎng)上查找了一些資料,感覺比較靠譜的是這表示首頁搜索類型,1表示新版百度首頁搜索(先要登錄百度帳號),2表示百度實時熱點搜索(先要登錄百度帳號),3表示傳統(tǒng)百度首頁搜索。


    cl


    這個參數(shù)是提交的搜索類型,如搜索網(wǎng)頁時為3,搜索新聞時為2


    oq


    這個關(guān)鍵詞網(wǎng)上有些帖子說是搜索下拉欄相關(guān)的,但根據(jù)我的測試,這個參數(shù)現(xiàn)在好像就僅僅代表上次的搜索關(guān)鍵字。


    還有很多參數(shù)如rsv_**這些參數(shù)的意義不是很明確,此外上面的參數(shù)測試可能也不是很全面,理解可能也有偏差,如有錯誤,歡迎交流。