尤物视频在线观看|国产尤物视频在线观看|99热在线获取最新地址,久久频这里精品99香蕉久,国产色婷婷精品综合在线,亚洲欧美日韩高清在线看

觸屏版
全國(guó)服務(wù)熱線：0571-87205688

價(jià)格查詢批量查詢一鍵轉(zhuǎn)入

或者

立即發(fā)布需求

昵稱：數(shù)風(fēng)流人物

接單：535 關(guān)注TA

達(dá)標(biāo)率 0%

博文分類

最新博文

熱門博文

揭秘搜索引擎是怎么刪除重復(fù)網(wǎng)頁(yè)的？

作者：數(shù)風(fēng)流人物 瀏覽：105次發(fā)布時(shí)間：2018-03-20

分享

評(píng)論

贊0

最近一直聽到圈里的朋友抱怨說(shuō)，自己辛辛苦苦寫的文章，發(fā)表的前2天，排名還是很好的，可是被權(quán)重高的網(wǎng)站轉(zhuǎn)載后，就排名很靠后了，甚至過(guò)段時(shí)間連文章也被百度k掉了。其實(shí)百度曾在站長(zhǎng)貼吧里做過(guò)這樣一個(gè)回復(fù)：從用戶體驗(yàn)角度來(lái)說(shuō)，有些轉(zhuǎn)載未必比原創(chuàng)差。比方一篇科技原創(chuàng)博文，被知名門戶網(wǎng)站的科技頻道轉(zhuǎn)載。如果這種轉(zhuǎn)載保留原創(chuàng)者姓名和出處鏈接，實(shí)際上對(duì)原創(chuàng)者是有利的，因?yàn)槠鸬搅烁玫膫鞑バЧ?。只是?guó)內(nèi)的轉(zhuǎn)載，很多是掐頭去尾，使原創(chuàng)者比較受傷。

據(jù)資料表明近似重復(fù)網(wǎng)頁(yè)的數(shù)量占網(wǎng)頁(yè)總數(shù)的的比較高達(dá)全部頁(yè)面的29%，而完全相同的頁(yè)面大約占全部頁(yè)面的22%。很多站長(zhǎng)都會(huì)抱怨，自己寫的文章被轉(zhuǎn)載后要么排名消失、要么轉(zhuǎn)載站排在前面。

在解決這個(gè)問題之前，我認(rèn)為有必要了解下搜索引擎的去重算法框架，換個(gè)角度看看搜索引擎是怎么給網(wǎng)頁(yè)去重的。

你的網(wǎng)頁(yè)什么時(shí)候會(huì)被刪除?

因?yàn)榛ヂ?lián)網(wǎng)上有大約22%的內(nèi)容是相同的，一旦你的文章發(fā)表在網(wǎng)上，就有可能會(huì)被轉(zhuǎn)載，而一般判斷幫你的網(wǎng)頁(yè)為轉(zhuǎn)載，那么搜索引擎一般會(huì)從三個(gè)時(shí)間段來(lái)刪除你的網(wǎng)頁(yè)：

(1)、抓取頁(yè)面的時(shí)候刪除，這樣可以減少搜索引擎帶寬以及減少存儲(chǔ)數(shù)量;

(2)、收錄之后刪除重復(fù)網(wǎng)頁(yè);

(3)、用戶檢索時(shí)候進(jìn)行再次刪除;增加準(zhǔn)確性，耗費(fèi)時(shí)間;

內(nèi)容重復(fù)的4種類型：

1、如果2篇文章內(nèi)容和格式上毫無(wú)差別，則這種重復(fù)叫做完全重復(fù)頁(yè)面

2、如果2篇文章內(nèi)容相同，但是格式不同，則叫做內(nèi)容重復(fù)頁(yè)面

3、如果2篇文章有部分重要的內(nèi)容相同，并且格式相同，則稱為布局重復(fù)頁(yè)面

4、如果2篇文章有部分重要的內(nèi)容相同，但是格式不同，則稱為部分重復(fù)頁(yè)面

刪除重復(fù)網(wǎng)頁(yè)對(duì)于搜索引擎有很多好處:

1、如果這些重復(fù)網(wǎng)頁(yè)并從搜索引擎數(shù)據(jù)庫(kù)中去掉，就能節(jié)省一部分存儲(chǔ)空間，提高檢索的質(zhì)量。

2、為了提高網(wǎng)頁(yè)的搜集速度，搜索引擎會(huì)對(duì)以往搜集信息的分析，預(yù)先發(fā)現(xiàn)重復(fù)網(wǎng)頁(yè)，在今后的網(wǎng)頁(yè)搜集過(guò)程中就可以避開這些網(wǎng)頁(yè)，這就是為什么總轉(zhuǎn)載的網(wǎng)站排名不高的原因了。

3、對(duì)某個(gè)鏡像度較高的網(wǎng)頁(yè)，搜索引擎會(huì)賦予它較高的優(yōu)先級(jí)，當(dāng)用戶搜索時(shí)就會(huì)賦予它較高的權(quán)重。

4、近似鏡像網(wǎng)頁(yè)的及時(shí)發(fā)現(xiàn)有利于改善搜索引擎系統(tǒng)的服務(wù)質(zhì)量，也就是說(shuō)如果用戶點(diǎn)擊了一個(gè)死鏈接,那么可以將用戶引導(dǎo)到一個(gè)相同頁(yè)面,這樣可以有效的增加用戶的檢索體驗(yàn)。

通用去重算法框架

對(duì)于網(wǎng)頁(yè)去重任務(wù)，具體可以采取的技術(shù)手段五花八門，各有創(chuàng)新和特色，但是如果仔細(xì)研究，其實(shí)大致都差不多。

上圖給出了通用算法框架的流程圖，對(duì)于給定的文檔，首先要通過(guò)一定特抽取手段，從文檔中抽取出一系列能夠表征文檔主題內(nèi)容的特征集合。這一步驟往往有其內(nèi)在要求，即盡可能保留文檔重要信息，刪除無(wú)關(guān)信息。之所以要?jiǎng)h除部分信息，主要是從計(jì)算速度的角度考慮，一般來(lái)說(shuō)，刪除的信息越多，計(jì)算速度會(huì)越快。

這就是為什么你想做的關(guān)鍵字總沒有排名，反而不想做的關(guān)鍵詞卻能排名靠前的原因之一，搜索引擎把它認(rèn)為不重要的詞語(yǔ)刪除了?？傊?，我個(gè)人認(rèn)為要想做好一個(gè)站，最終還是要從訪客的角度來(lái)，真正能提供訪客想要的資訊，才能有更長(zhǎng)遠(yuǎn)的發(fā)展。

上一篇：如何對(duì)網(wǎng)站進(jìn)行全面改版而不被降權(quán) 下一篇：深度解讀百度索引量和收錄量的區(qū)別和聯(lián)系

猜你喜歡

評(píng)論(0人參與，0條評(píng)論)

發(fā)布評(píng)論

最新評(píng)論

copyright 2016(c)yuntask.com版權(quán)所有杭州志卓科技股份有限公司浙ICP備09021221號(hào)