robots.txt是什么?




有沒有想過,如果我們某個(gè)站點(diǎn)不讓百度和google收錄,那怎么辦?
搜索引擎已經(jīng)和我們達(dá)成一個(gè)約定,如果我們按約定那樣做了,它們就不要收錄。
這個(gè)寫約定的的文件命名為:robots.txt。
robots.txt是一個(gè)最簡單的.txt文件,用以告訴搜索引擎哪些網(wǎng)頁可以收錄,哪些不允許收錄。
關(guān)于robots.txt一般站長需要注意以下幾點(diǎn):
1.如果你的站點(diǎn)對所有搜索引擎公開,則不用做這個(gè)文件或者robots.txt為空就行。
2.必須命名為:robots.txt,都是小寫,robot后面加"s"。
3.robots.txt必須放置在一個(gè)站點(diǎn)的根目錄下。如:通過http://faq.seowhy.com/robots.txt 可以成功訪問到,則說明本站的放置正確。
4.一般情況下,robots.txt里只寫著兩個(gè)函數(shù):User-agent和 Disallow。
5.觀察這個(gè)頁面并修改為自己的:http://faq.seowhy.com/robots.txt
6.有幾個(gè)禁止,就得有幾個(gè)Disallow函數(shù),并分行描述。
7.至少要有一個(gè)Disallow函數(shù),如果都允許收錄,則寫: Disallow: ,如果都不允許收錄,則寫:Disallow: / (注:只是差一個(gè)斜桿)。
補(bǔ)充說明:
User-agent: * 星號(hào)說明允許所有搜索引擎收錄
Disallow: /search.html 說明 http://faq.seowhy.com/search.html 這個(gè)頁面禁止搜索引擎抓取。
Disallow: /index.php? 說明類似這樣的頁面http://www.seowhy.com/index.php?search=%E5%A5%BD&action=search&searchcategory=%25 禁止搜索引擎抓取。