怎樣寫(xiě)robots文件_robots文件寫(xiě)法技巧_robot.txt的例子
資料一
1.robots.txt文件是什么
robots.txt是一個(gè)純文本文件,是搜索引擎中訪(fǎng)問(wèn)網(wǎng)站的時(shí)候要查看的第一個(gè)文件。robots.txt文件告訴蜘蛛程序在服務(wù)器上什么文件是可以被查看的。每個(gè)站點(diǎn)最好建立一個(gè)robots.txt文件,對seo更友好。每當搜索蜘蛛來(lái)尋找并不存在的robots.txt文件時(shí),服務(wù)器將在日志中記錄一條404錯誤,所以你應該在網(wǎng)站中添加一個(gè)robots.txt(即使這個(gè)robots.txt文件只是一個(gè)空文件)。
2.robots.txt的寫(xiě)法(語(yǔ)法)
1)User-agent: 該項的值用于描述搜索引擎蜘蛛的名字。如果該項的值設為*,則該協(xié)議對任何機器人均有效。
2)Disallow: 該項的值用于描述不希望被訪(fǎng)問(wèn)到的一個(gè)URL,一個(gè)目錄或者整個(gè)網(wǎng)站。以Disallow 開(kāi)頭的URL 均不會(huì )被搜索引擎蜘蛛訪(fǎng)問(wèn)到。任何一條Disallow 記錄為空,說(shuō)明該網(wǎng)站的所有部分都允許被訪(fǎng)問(wèn)。
3)用法舉例:
網(wǎng)站目錄下所有文件均能被所有搜索引擎蜘蛛訪(fǎng)問(wèn)
User-agent: *
Disallow:
禁止所有搜索引擎蜘蛛訪(fǎng)問(wèn)網(wǎng)站的任何部分
User-agent: *
Disallow: /
禁止所有的搜索引擎蜘蛛訪(fǎng)問(wèn)網(wǎng)站的幾個(gè)目錄
User-agent: *
Disallow: /a/
Disallow: /b/
禁止搜索引擎蜘蛛訪(fǎng)問(wèn)目錄a和目錄b
只允許某個(gè)搜索引擎蜘蛛訪(fǎng)問(wèn)
User-agent: Googlebot
Disallow:
您應該限制網(wǎng)站某些文件不被蜘蛛抓取。
一般網(wǎng)站中不需要蜘蛛抓取的文件有:后臺管理文件、程序腳本、附件、數據庫文件、編碼文件、樣式表文件、模板文件、導航圖片和背景圖片等等。
3.robots.txt文件帶來(lái)的風(fēng)險以及解決
robots.txt 同時(shí)也帶來(lái)了一定的風(fēng)險:其也給攻擊者指明了網(wǎng)站的目錄結構和私密數據所在的位置。設置訪(fǎng)問(wèn)權限,對您的隱私內容實(shí)施密碼保護,這樣,攻擊者便無(wú)從進(jìn)入。陜西哪里做網(wǎng)站,西安網(wǎng)站維護推薦閱讀>>> 谷歌針對智能手機推出的新型Googlebot,
4.常見(jiàn)搜索引擎蜘蛛Robots名字
Baiduspider :http://www.baidu.com
Scooter :http://www.altavista.com
ia_archiver: http://www.alexa.com
Googlebot :http://www.google.com
Inktomi Slurp :http://www.yahoo.com
FAST-WebCrawler: http://www.alltheweb.com
Slurp :http://www.inktomi.com
MSNBOT :http://search.msn.com
5.注意事項:
1)robots.txt必須放置在站點(diǎn)的根目錄下,而且文件名必須全部小寫(xiě)。
2)不要在robots.txt文件中設置所有的文件都可以被搜索蜘蛛抓取。
3)為安全考慮,建議很重要的文件夾不要寫(xiě)在robots.txt文件中,或你只建一個(gè)空白robots.txt文件,在不要訪(fǎng)問(wèn)的目錄中加入其它的技術(shù)(目前還在探索中……)。
seo會(huì )聚網(wǎng)robot.txt文件實(shí)例:www.seohj.com/robots.txt。
我們也可以通過(guò)Robots META標簽來(lái)針對一個(gè)個(gè)具體的頁(yè)面。關(guān)于Robots META標簽的詳細介紹在Robots META標簽用法。
1.語(yǔ)法:
<meta name="robots"content="搜索方式">
2.說(shuō)明:
在該語(yǔ)法中,搜索方式的值和其對應的含義如下:
all:頁(yè)面將被檢索,且頁(yè)面上的鏈接可以被查詢(xún);
none:頁(yè)面不能被檢索,且頁(yè)面上的鏈接不可以被查詢(xún);
index:頁(yè)面將被檢索,但不設置鏈接是否可以被查詢(xún);
follow:頁(yè)面上的鏈接可以被查詢(xún);
noindex:頁(yè)面不能被檢索,但頁(yè)面上的鏈接可以被查詢(xún);
nofollow:頁(yè)面能被檢索,但頁(yè)面上的鏈接卻不可以被查詢(xún)。
3.實(shí)例:
該實(shí)例設定網(wǎng)頁(yè)能被檢索,但頁(yè)面上的鏈接卻不可以被查詢(xún),代碼如下:
<html>
<head>
<title>限制搜索方式</title>
<meta name="robots"content="index">
</head>
<body></body>
</html>
資料二
一.什么是robots.txt文件?
搜索引擎通過(guò)一種程序robot(又稱(chēng)spider),自動(dòng)訪(fǎng)問(wèn)互聯(lián)網(wǎng)上的網(wǎng)頁(yè)并獲取網(wǎng)頁(yè)信息。
您可以在您的網(wǎng)站中創(chuàng )建一個(gè)純文本文件robots.txt,在這個(gè)文件中聲明該網(wǎng)站中不想被robot訪(fǎng)問(wèn)的部分,這樣,該網(wǎng)站的部分或全部?jì)热菥涂梢圆槐凰阉饕媸珍浟?,或者指定搜索引擎只收錄指定的內容?strong>西安網(wǎng)站建設推薦閱讀>>> robots.txt文件詳細解說(shuō),禁止搜索引擎收錄的方法,
二. robots.txt文件放在哪里?
robots.txt文件應該放在網(wǎng)站根目錄下。舉例來(lái)說(shuō),當robots訪(fǎng)問(wèn)一個(gè)網(wǎng)站(比如http://www.abc.com)時(shí),首先會(huì )檢查該網(wǎng)站中是否存在http://www.abc.com/robots.txt這個(gè)文件,如果機器人找到這個(gè)文件,它就會(huì )根據這個(gè)文件的內容,來(lái)確定它訪(fǎng)問(wèn)權限的范圍。
網(wǎng)站 URL 相應的 robots.txt的 URL
http://www.w3.org/ http://www.w3.org/robots.txt
http://www.w3.org:80/ http://www.w3.org:80/robots.txt
http://www.w3.org:1234/ http://www.w3.org:1234/robots.txt
http://w3.org/??http://w3.org/robots.txt
三. robots.txt文件的格式
"robots.txt"文件包含一條或更多的記錄,這些記錄通過(guò)空行分開(kāi)(以CR,CR/NL, or NL作為結束符),每一條記錄的格式如下所示:
"<field>:<optionalspace><value><optionalspace>"。
在該文件中可以使用#進(jìn)行注解,具體使用方法和UNIX中的慣例一樣。該文件中的記錄通常以一行或多行User-agent開(kāi)始,后面加上若干Disallow行,詳細情況如下:
User-agent:
該項的值用于描述搜索引擎robot的名字,在"robots.txt"文件中,如果有多條User-agent記錄說(shuō)明有多個(gè)robot會(huì )受到該協(xié)議的限制,對該文件來(lái)說(shuō),至少要有一條User-agent記錄。如果該項的值設為*,則該協(xié)議對任何機器人均有效,在"robots.txt"文件中,"User-agent:*"這樣的記錄只能有一條。
Disallow :
該項的值用于描述不希望被訪(fǎng)問(wèn)到的一個(gè)URL,這個(gè)URL可以是一條完整的路徑,也可以是部分的,任何以Disallow 開(kāi)頭的URL均不會(huì )被robot訪(fǎng)問(wèn)到。例如"Disallow: /help"對/help.html 和/help/index.html都不允許搜索引擎訪(fǎng)問(wèn),而"Disallow: /help/"則允許robot訪(fǎng)問(wèn)/help.html,而不能訪(fǎng)問(wèn)/help/index.html。
任何一條Disallow記錄為空,說(shuō)明該網(wǎng)站的所有部分都允許被訪(fǎng)問(wèn),在"/robots.txt"文件中,至少要有一條Disallow記錄。如果"/robots.txt"是一個(gè)空文件,則對于所有的搜索引擎robot,該網(wǎng)站都是開(kāi)放的。西安做網(wǎng)站推薦閱讀>>> 使用robots.txt引導百度爬蟲(chóng)合理分配抓取資源,
四. robots.txt文件用法舉例
例1. 禁止所有搜索引擎訪(fǎng)問(wèn)網(wǎng)站的任何部分
下載該robots.txt文件
User-agent: *
Disallow: /
例2. 允許所有的robot訪(fǎng)問(wèn)
(或者也可以建一個(gè)空文件 "/robots.txt" file)
??
User-agent: *
Disallow:
例3. 禁止某個(gè)搜索引擎的訪(fǎng)問(wèn)
User-agent: BadBot
Disallow: /
例4. 允許某個(gè)搜索引擎的訪(fǎng)問(wèn)
User-agent: baiduspider
Disallow:
User-agent: *
Disallow: /
例5. 一個(gè)簡(jiǎn)單例子
在這個(gè)例子中,該網(wǎng)站有三個(gè)目錄對搜索引擎的訪(fǎng)問(wèn)做了限制,即搜索引擎不會(huì )訪(fǎng)問(wèn)這三個(gè)目錄。
需要注意的是對每一個(gè)目錄必須分開(kāi)聲明,而不要寫(xiě)成 "Disallow: /cgi-bin/ /tmp/"。
User-agent:后的* 具有特殊的含義,代表"any robot",所以在該文件中不能有"Disallow: /tmp/*" or "Disallow: *.gif"這樣的記錄出現.
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
五. robots.txt文件參考資料
robots.txt文件的更具體設置,請參看以下鏈接:
· Web Server Administrator''s Guide to the Robots Exclusion Protocol
· HTML Author''s Guide to the Robots Exclusion Protocol
· The original 1994 protocol description, as currently deployed
· The revised Internet-Draft specification, which is not yet completed or implemented
在你的主頁(yè)中為Web Robot設計路標
Internet越來(lái)越酷,WWW的知名度如日中天。在Internet上發(fā)布公司信息、進(jìn)行電子商務(wù)已經(jīng)從時(shí)髦演化成時(shí)尚。作為一個(gè)Web Master,你可能對HTML、java script、Java、 ActiveX了如指掌,但你是否知道什么是Web Robot?你是否知道Web Robot和你所設 計的主頁(yè)有什么關(guān)系?
Internet上的流浪漢--- Web Robot
有時(shí)你會(huì )莫名其妙地發(fā)現你的主頁(yè)的內容在一個(gè)搜索引擎中被索引,即使你從未與他 們有過(guò)任何聯(lián)系。其實(shí)這正是Web Robot的功勞。Web Robot其實(shí)是一些程序,它可以 穿越大量Internet網(wǎng)址的超文本結構,遞歸地檢索網(wǎng)絡(luò )站點(diǎn)所有的內容。這些程序有時(shí)被叫 “蜘蛛(Spider)” , “網(wǎng)上流浪漢(Web Wanderer)”,“網(wǎng)絡(luò )蠕蟲(chóng)(web worms)”或Web crawler。一些Internet網(wǎng)上知名的搜索引擎站點(diǎn)(Search Engines)都有專(zhuān)門(mén)的Web Robot程序來(lái)完成信息的采集,例如Lycos,Webcrawler,Altavista等,以及中文搜索引擎站點(diǎn)例如北極星,網(wǎng)易,GOYOYO等。西安網(wǎng)站建設推薦閱讀>>> 帶你玩轉robots協(xié)議,新手必備,
Web Robot就象一個(gè)不速之客,不管你是否在意,它都會(huì )忠于自己主人的職責,任勞任怨、不知疲倦地奔波于萬(wàn)維網(wǎng)的空間,當然也會(huì )光臨你的主頁(yè),檢索主頁(yè)內容并生成它所需要的記錄格式?;蛟S有的主頁(yè)內容你樂(lè )于世人皆知,但有的內容你卻不愿被洞察、索引。難道你就只能任其“橫行”于自己主頁(yè)空間,能否指揮和控制Web Robot的行蹤呢?答案當然是肯定的。只要你閱讀了本篇的下文,就可以象一個(gè)交通 警察一樣,布置下一個(gè)個(gè)路標,告訴Web Robot應該怎么去檢索你的主頁(yè),哪些可以檢索,哪些不可以訪(fǎng)問(wèn)。
其實(shí)Web Robot能聽(tīng)懂你的話(huà)
不要以為Web Robot是毫無(wú)組織,毫無(wú)管束地亂跑。很多Web Robot軟件給網(wǎng)絡(luò )站點(diǎn)的 管理員或網(wǎng)頁(yè)內容制作者提供了兩種方法來(lái)限制Web Robot的行蹤:
1、Robots Exclusion Protocol 協(xié)議
網(wǎng)絡(luò )站點(diǎn)的管理員可以在站點(diǎn)上建立一個(gè)專(zhuān)門(mén)格式的文件,來(lái)指出站點(diǎn)上的哪一部分 可以被robot訪(fǎng)問(wèn), 這個(gè)文件放在站點(diǎn)的根目錄下,即robots.txt." target="_blank">http://.../robots.txt.
2、Robots META tag
一個(gè)網(wǎng)頁(yè)作者可以使用專(zhuān)門(mén)的HTML META tag ,來(lái)指出某一個(gè)網(wǎng)頁(yè)是否可以被索 引、分析或鏈接。
這些方法適合于大多數的Web Robot,至于是否在軟件中實(shí)施了這些方法,還依賴(lài)于 Robot的開(kāi)發(fā)者,并非可以保證對任何Robot都靈驗。如果你迫切需要保護自己內容,則應考慮采用諸如增加密碼等其他保護方法。
使用Robots Exclusion Protocol協(xié)議
當Robot訪(fǎng)問(wèn)一個(gè) Web 站點(diǎn)時(shí),比如http://www.sti.net.cn/,它先去檢查文件robots.txt" target="_blank">http://www.sti.net.cn/robots.txt。如果這個(gè)文件存在,它便會(huì )按照這樣的記錄格式去分析:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
以確定它是否應該檢索站點(diǎn)的文件。這些記錄是專(zhuān)門(mén)給Web Robot看的,一般的瀏覽者大概永遠不會(huì )看到這個(gè)文件,所以千萬(wàn)不要異想天開(kāi)地在里面加入形似<img src=*> 類(lèi)的HTML語(yǔ)句或是“How do you do? where are you from?”之類(lèi)假情假意的問(wèn)候語(yǔ)。
在一個(gè)站點(diǎn)上只能有一個(gè) "/robots.txt" 文件,而且文件名的每個(gè)字母要求全部是小 寫(xiě)。在Robot的記錄格式中每一個(gè)單獨的"Disallow"行表示你不希望Robot訪(fǎng)問(wèn)的URL, 每個(gè)URL必須單獨占一行,不能出現 "Disallow: /cgi-bin/ /tmp/"這樣的病句。同時(shí)在一個(gè)記錄中不能出現空行,這是因為空行是多個(gè)記錄分割的標志。
User-agent行指出的是Robot或其他代理的名稱(chēng)。在User-agent行,''*'' 表示一個(gè)特殊的含義---所有的robot。
下面是幾個(gè)robot.txt的例子:
在整個(gè)服務(wù)器上拒絕所有的robots:
User-agent: *
Disallow: /
允許所有的robots訪(fǎng)問(wèn)整個(gè)站點(diǎn):
User-agent: *
Disallow:
或者產(chǎn)生一個(gè)空的 "/robots.txt" 文件。
服務(wù)器的部分內容允許所有的robot訪(fǎng)問(wèn)
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
拒絕某一個(gè)專(zhuān)門(mén)的robot:
User-agent: BadBot
Disallow: /
只允許某一個(gè)robot光顧:
User-agent: WebCrawler
Disallow:
User-agent: *
Disallow: /
最后我們給出 http://www.w3.org/站點(diǎn)上的robots.txt:
# For use by search.w3.org
User-agent: W3Crobot/1
Disallow:
User-agent: *
Disallow: /Member/ # This is restricted to W3C Members only
Disallow: /member/ # This is restricted to W3C Members only
Disallow: /team/ # This is restricted to W3C Team only
Disallow: /TandS/Member # This is restricted to W3C Members only
Disallow: /TandS/Team # This is restricted to W3C Team only
Disallow: /Project
Disallow: /Systems
Disallow: /Web
Disallow: /Team
使用Robots META tag方式
Robots META tag 允許HTML網(wǎng)頁(yè)作者指出某一頁(yè)是否可以被索引,或是否可以用來(lái)查找更多的鏈接文件。目前只有部分robot實(shí)施了這一功能。
Robots META tag的格式為:
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
象其他的META tag一樣,它應該放在HTML文件的HEAD區:
<html>
<head>
<meta name="robots" content="noindex,nofollow">
<meta name="description" content="This page ....">
<title>...</title>
</head>
<body>
...
Robots META tag指令使用逗號隔開(kāi),可以使用的指令包括 [NO]INDEX 和[NO]FOLLOW。INDEX 指令指出一個(gè)索引性robot是否可以對本頁(yè)進(jìn)行索引;FOLLOW 指 令指出robot是否可以跟蹤本頁(yè)的鏈接。缺省的情況是INDEX和FOLLOW。例如:
<meta name="robots" content="index,follow">
<meta name="robots" content="noindex,follow">
<meta name="robots" content="index,nofollow">
<meta name="robots" content="noindex,nofollow">
一個(gè)好的Web 站點(diǎn)管理員應該將robot的管理考慮在內,使robot為自己的主頁(yè)服務(wù), 同時(shí)又不損害自己網(wǎng)頁(yè)的安全
資料三
什么是robots.txt?
robots.txt
robots.txt是搜索引擎中訪(fǎng)問(wèn)網(wǎng)站的時(shí)候要查看的第一個(gè)文件。robots.txt文件告訴蜘蛛程序在服務(wù)器上什么文件是可以被查看的。
當一個(gè)搜索蜘蛛訪(fǎng)問(wèn)一個(gè)站點(diǎn)時(shí),它會(huì )首先檢查該站點(diǎn)根目錄下是否存在robots.txt,如果存在,搜索機器人就會(huì )按照該文件中的內容來(lái)確定訪(fǎng)問(wèn)的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪(fǎng)問(wèn)網(wǎng)站上所有沒(méi)有被口令保護的頁(yè)面。百度官方建議,僅當您的網(wǎng)站包含不希望被搜索引擎收錄的內容時(shí),才需要使用robots.txt文件。如果您希望搜索引擎收錄網(wǎng)站上所有內容,請勿建立robots.txt文件。
robots.txt必須放置在一個(gè)站點(diǎn)的根目錄下,而且文件名必須全部小寫(xiě)。
語(yǔ)法:最簡(jiǎn)單的 robots.txt 文件使用兩條規則:
• User-Agent: 適用下列規則的漫游器
• Disallow: 要攔截的網(wǎng)頁(yè)
robots.txt在SEO中作用
在進(jìn)行網(wǎng)站優(yōu)化的時(shí)候,經(jīng)常會(huì )使用robots文件把一些內容不想讓蜘蛛抓取,以前寫(xiě)過(guò)一篇網(wǎng)站優(yōu)化robots.txt文件的運用, 現在寫(xiě)這編文章在補充一點(diǎn)點(diǎn)知識!什么是robots.txt文件
搜索引擎通過(guò)一種爬蟲(chóng)spider程序(又稱(chēng)搜索蜘蛛、robot、搜索機器人等),自動(dòng)搜集互聯(lián)網(wǎng)上的網(wǎng)頁(yè)并獲取相關(guān)信息。西安做網(wǎng)站推薦閱讀>>> robots.txt文件的重要作用意義,
鑒于網(wǎng)絡(luò )安全與隱私的考慮,搜索引擎遵循robots.txt協(xié)議。通過(guò)根目錄中創(chuàng )建的純文本文件robots.txt,網(wǎng)站可以聲明不想被robots訪(fǎng)問(wèn)的部分。每個(gè)網(wǎng)站都可以自主控制網(wǎng)站是否愿意被搜索引擎收錄,或者指定搜索引擎只收錄指定的內容。當一個(gè)搜索引擎的爬蟲(chóng)訪(fǎng)問(wèn)一個(gè)站點(diǎn)時(shí),它會(huì )首先檢查該站點(diǎn)根目錄下是否存在robots.txt,如果該文件不存在,那么爬蟲(chóng)就沿著(zhù)鏈接抓取,如果存在,爬蟲(chóng)就會(huì )按照該文件中的內容來(lái)確定訪(fǎng)問(wèn)的范圍。
robots.txt必須放置在一個(gè)站點(diǎn)的根目錄下,而且文件名必須全部小寫(xiě)。robots.txt文件的格式
User-agent: 定義搜索引擎的類(lèi)型
Disallow: 定義禁止搜索引擎收錄的地址
Allow: 定義允許搜索引擎收錄的地址
我們常用的搜索引擎類(lèi)型有: (User-agent區分大小寫(xiě))
google蜘蛛:Googlebot
百度蜘蛛:Baiduspider
yahoo蜘蛛:Yahoo!slurp
alexa蜘蛛:ia_archiver
bing蜘蛛:MSNbot
altavista蜘蛛:scooter
lycos蜘蛛:lycos_spider_(t-rex)
alltheweb蜘蛛:fast-webcrawler
inktomi蜘蛛: slurp
Soso蜘蛛:Sosospider
Google Adsense蜘蛛:Mediapartners-Google
有道蜘蛛:YoudaoBot
robots.txt文件的寫(xiě)法
User-agent: * 這里的*代表的所有的搜索引擎種類(lèi),*是一個(gè)通配符
Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄
Disallow: /require/ 這里定義是禁止爬尋require目錄下面的目錄
Disallow: /ABC/ 這里定義是禁止爬尋ABC目錄下面的目錄
Disallow: /cgi-bin/*.htm 禁止訪(fǎng)問(wèn)/cgi-bin/目錄下的所有以".htm"為后綴的URL(包含子目錄)。
Disallow: /*?* 禁止訪(fǎng)問(wèn)網(wǎng)站中所有的動(dòng)態(tài)頁(yè)面
Disallow: /jpg$ 禁止抓取網(wǎng)頁(yè)所有的.jpg格式的圖片
Disallow:/ab/adc.html 禁止爬去ab文件夾下面的adc.html文件。
Allow: /cgi-bin/ 這里定義是允許爬尋cgi-bin目錄下面的目錄
Allow: /tmp 這里定義是允許爬尋tmp的整個(gè)目錄
Allow: .htm$ 僅允許訪(fǎng)問(wèn)以".htm"為后綴的URL。
Allow: .gif$ 允許抓取網(wǎng)頁(yè)和gif格式圖片
robots.txt文件用法舉例
例1. 禁止所有搜索引擎訪(fǎng)問(wèn)網(wǎng)站的任何部分
User-agent: *
Disallow: /
實(shí)例分析:淘寶網(wǎng)的 Robots.txt文件
User-agent: Baiduspider
Disallow: /
User-agent: baiduspider
Disallow: /
很顯然淘寶不允許百度的機器人訪(fǎng)問(wèn)其網(wǎng)站下其所有的目錄。
例2. 允許所有的robot訪(fǎng)問(wèn) (或者也可以建一個(gè)空文件 “/robots.txt” file)
User-agent: *
Allow:
例3. 禁止某個(gè)搜索引擎的訪(fǎng)問(wèn)
User-agent: BadBot
Disallow: /
例4. 允許某個(gè)搜索引擎的訪(fǎng)問(wèn)
User-agent: Baiduspider
allow:/
例5.一個(gè)簡(jiǎn)單例子
在這個(gè)例子中,該網(wǎng)站有三個(gè)目錄對搜索引擎的訪(fǎng)問(wèn)做了限制,即搜索引擎不會(huì )訪(fǎng)問(wèn)這三個(gè)目錄。
需要注意的是對每一個(gè)目錄必須分開(kāi)聲明,而不要寫(xiě)成 “Disallow: /cgi-bin/ /tmp/”。
User-agent:后的*具有特殊的含義,代表“any robot”,所以在該文件中不能有“Disallow: /tmp/*” or “Disallow:*.gif”這樣的記錄出現。
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
Robot特殊參數:
允許 Googlebot:
如果您要攔截除 Googlebot 以外的所有漫游器不能訪(fǎng)問(wèn)您的網(wǎng)頁(yè),可以使用下列語(yǔ)法:
User-agent:
Disallow:/
User-agent:Googlebot
Disallow:
Googlebot 跟隨指向它自己的行,而不是指向所有漫游器的行。
“Allow”擴展名:
Googlebot 可識別稱(chēng)為“Allow”的 robots.txt 標準擴展名。其他搜索引擎的漫游器可能無(wú)法識別此擴展名,因此請使用您感興趣的其他搜索引擎進(jìn)行查找。“Allow”行的作用原理完全與“Disallow”行一樣。只需列出您要允許的目錄或頁(yè)面即可。
您也可以同時(shí)使用“Disallow”和“Allow”。例如,要攔截子目錄中某個(gè)頁(yè)面之外的其他所有頁(yè)面,可以使用下列條目:
User-agent:Googlebot
Disallow:/folder1/
Allow:/folder1/myfile.html
這些條目將攔截 folder1 目錄內除 myfile.html 之外的所有頁(yè)面。
如果您要攔截 Googlebot 并允許 Google 的另一個(gè)漫游器(如 Googlebot-Mobile),可使用”Allow”規則允許該漫游器的訪(fǎng)問(wèn)。例如:
User-agent:Googlebot
Disallow:/
User-agent:Googlebot-Mobile
Allow:
使用 * 號匹配字符序列:
您可使用星號 (*) 來(lái)匹配字符序列。例如,要攔截對所有以 private 開(kāi)頭的子目錄的訪(fǎng)問(wèn),可使用下列條目:
User-Agent:Googlebot
Disallow:/private*/
要攔截對所有包含問(wèn)號 (?) 的網(wǎng)址的訪(fǎng)問(wèn),可使用下列條目:
User-agent:*
Disallow:/*?*
使用 $ 匹配網(wǎng)址的結束字符
您可使用 $ 字符指定與網(wǎng)址的結束字符進(jìn)行匹配。例如,要攔截以 .asp 結尾的網(wǎng)址,可使用下列條目:
User-agent:Googlebot
Disallow:/*.asp$
您可將此模式匹配與 Allow 指令配合使用。例如,如果 ? 表示一個(gè)會(huì )話(huà) ID,您可排除所有包含該 ID 的網(wǎng)址,確保 Googlebot 不會(huì )抓取重復的網(wǎng)頁(yè)。但是,以 ? 結尾的網(wǎng)址可能是您要包含的網(wǎng)頁(yè)版本。在此情況下,可對 robots.txt 文件進(jìn)行如下設置:
User-agent:*
Allow:/*?$
Disallow:/*?
Disallow:/ *?
一行將攔截包含 ? 的網(wǎng)址(具體而言,它將攔截所有以您的域名開(kāi)頭、后接任意字符串,然后是問(wèn)號 (?),而后又是任意字符串的網(wǎng)址)。
Allow: /*?$ 一行將允許包含任何以 ? 結尾的網(wǎng)址(具體而言,它將允許包含所有以您的域名開(kāi)頭、后接任意字符串,然后是問(wèn)號 (?),問(wèn)號之后沒(méi)有任何字符的網(wǎng)址)。西安做網(wǎng)站推薦閱讀>>> robots.txt文件的格式,
Robots Meta標簽
Robots.txt文件主要是限制整個(gè)站點(diǎn)或者目錄的搜索引擎訪(fǎng)問(wèn)情況,而Robots Meta標簽則主要是針對一個(gè)個(gè)具體的頁(yè)面。和其他的META標簽(如使用的語(yǔ)言、頁(yè)面的描述、關(guān)鍵詞等)一樣,Robots Meta標簽也是放在頁(yè)面中,專(zhuān)門(mén)用來(lái)告訴搜索引擎ROBOTS如何抓取該頁(yè)的內容。
Robots Meta標簽中沒(méi)有大小寫(xiě)之分,name=”Robots”表示所有的搜索引擎,可以針對某個(gè)具體搜索引擎寫(xiě)為name=”BaiduSpider”。content部分有四個(gè)指令選項:index、noindex、follow、nofollow,指令間以“,”分隔。
index指令告訴搜索機器人抓取該頁(yè)面;
follow指令表示搜索機器人可以沿著(zhù)該頁(yè)面上的鏈接繼續抓取下去;
Robots Meta標簽的缺省值是index和follow,只有inktomi除外,對于它,缺省值是index、nofollow。
需要注意的是:
上述的robots.txt和Robots Meta標簽限制搜索引擎機器人(ROBOTS)抓取站點(diǎn)內容的辦法只是一種規則,需要搜索引擎機器人的配合才行,并不是每個(gè)ROBOTS都遵守的。
目前看來(lái),絕大多數的搜索引擎機器人都遵守robots.txt的規則,而對于RobotsMETA標簽,目前支持的并不多,但是正在逐漸增加,如著(zhù)名搜索引擎GOOGLE就完全支持,而且GOOGLE還增加了一個(gè)指令“archive”,可以限制GOOGLE是否保留網(wǎng)頁(yè)快照。
編輯本段robots.txt使用誤區
特別提示:robots里面內容的大小寫(xiě)不可更改,Disallow后面的冒號必須為英文狀態(tài)的。
誤區一
網(wǎng)站上所有的文件都需要被蜘蛛抓取,那就沒(méi)必要添加robots.txt文件了。反正如果該文件不存在,所有的搜索蜘蛛將默認能夠訪(fǎng)問(wèn)網(wǎng)站上所有沒(méi)有被口令保護的頁(yè)面。
誤區二
在robots.txt文件中設置所有的文件都可以被搜索蜘蛛抓取,這樣可以增加網(wǎng)站的收錄率。
網(wǎng)站中的腳本程序、樣式表等文件即使被蜘蛛收錄,也不會(huì )增加網(wǎng)站的收錄率,還只會(huì )占用服務(wù)器存儲空間。因此必須在robots.txt文件里設置不要讓搜索蜘蛛索引腳本程序、樣式表等文件,具體哪些文件需要排除,在robots.txt使用技巧一文中有詳細介紹。
誤區三
搜索蜘蛛抓取網(wǎng)頁(yè)太浪費服務(wù)器資源,在robots.txt文件中設置所有的搜索蜘蛛都不能抓取全部的網(wǎng)頁(yè)。
如果這樣的話(huà),會(huì )導致整個(gè)網(wǎng)站不能被搜索引擎收錄。
編輯本段robots.txt使用技巧
文件
1. 每當用戶(hù)試圖訪(fǎng)問(wèn)某個(gè)不存在的URL時(shí),服務(wù)器都會(huì )在日志中記錄404錯誤(無(wú)法找到文件)。每當搜索蜘蛛來(lái)尋找并不存在的robots.txt文件時(shí),服務(wù)器也將在日志中記錄一條404錯誤,所以你應該在網(wǎng)站中添加一個(gè)robots.txt。
2. 網(wǎng)站管理員必須使蜘蛛程序遠離某些服務(wù)器上的目錄——保證服務(wù)器性能。比如:大多數網(wǎng)站服務(wù)器都有程序儲存在“cgi-bin”目錄下,因此在robots.txt文件中加入“Disallow: /cgi-bin/”是個(gè)好主意,這樣能夠避免將所有程序文件被蜘蛛索引,可以節省服務(wù)器資源。一般網(wǎng)站中不需要蜘蛛抓取的文件有:后臺管理文件、程序腳本、附件、數據庫文件、編碼文件、樣式表文件、模板文件、導航圖片和背景圖片等等。
下面是VeryCMS里的robots.txt文件:
User-agent: *
Disallow: /admin/ 后臺管理文件
Disallow: /require/ 程序文件
Disallow: /attachment/ 附件
Disallow: /images/ 圖片
Disallow: /data/ 數據庫文件
Disallow: /template/ 模板文件
Disallow: /css/ 樣式表文件
Disallow: /lang/ 編碼文件
Disallow: /script/ 腳本文件
3. 如果你的網(wǎng)站是動(dòng)態(tài)網(wǎng)頁(yè),并且你為這些動(dòng)態(tài)網(wǎng)頁(yè)創(chuàng )建了靜態(tài)副本,以供搜索蜘蛛更容易抓取。那么你需要在robots.txt文件里設置避免動(dòng)態(tài)網(wǎng)頁(yè)被蜘蛛索引,以保證這些網(wǎng)頁(yè)不會(huì )被視為含重復內容。
4. robots.txt文件里還可以直接包括在sitemap文件的鏈接。就像這樣:
Sitemap: http://www.***.com/sitemap.xml
(此處請填寫(xiě)XML地圖的絕對路徑,即完整URL,如果按習慣填寫(xiě)Sitemap: /sitemap.xml,提交后會(huì )提示:檢測到無(wú)效的 Sitemap 網(wǎng)址;語(yǔ)法錯誤。
XML地圖必須在網(wǎng)站根目錄下才有效。)
目前對此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。而中文搜索引擎公司,顯然不在這個(gè)圈子內。這樣做的好處是,站長(cháng)不用到每個(gè)搜索引擎的站長(cháng)工具或者相似的站長(cháng)部分,去提交自己的sitemap文件,搜索引擎的蜘蛛自己就會(huì )抓取robots.txt文件,讀取其中的sitemap路徑,接著(zhù)抓取其中相鏈接的網(wǎng)頁(yè)。
5. 合理使用robots.txt文件還能避免訪(fǎng)問(wèn)時(shí)出錯。比如,不能讓搜索者直接進(jìn)入購物車(chē)頁(yè)面。因為沒(méi)有理由使購物車(chē)被收錄,所以你可以在robots.txt文件里設置來(lái)阻止搜索者直接進(jìn)入購物車(chē)頁(yè)面。
robots.txt文件的格式
"robots.txt"文件包含一條或更多的記錄,這些記錄通過(guò)空行分開(kāi)(以CR,CR/NL, or NL作為結束符),每一條記錄的格式如下所示:
"<field>:<optionalspace><value><optionalspace>"。
在該文件中可以使用#進(jìn)行注解,具體使用方法和UNIX中的慣例一樣。該文件中的記錄通常以一行或多行User-agent開(kāi)始,后面加上若干Disallow和Allow行,詳細情況如下:
User-agent:
該項的值用于描述搜索引擎robot的名字。在"robots.txt"文件中,如果有多條User-agent記錄說(shuō)明有多個(gè)robot會(huì )受到"robots.txt"的限制,對該文件來(lái)說(shuō),至少要有一條User-agent記錄。如果該項的值設為*,則對任何robot均有效,在"robots.txt"文件中,"User-agent:*"這樣的記錄只能有一條。如果在"robots.txt"文件中,加入"User-agent:SomeBot"和若干Disallow、Allow行,那么名為"SomeBot"只受到"User-agent:SomeBot"后面的Disallow和Allow行的限制。
Disallow:
該項的值用于描述不希望被訪(fǎng)問(wèn)的一組URL,這個(gè)值可以是一條完整的路徑,也可以是路徑的非空前綴,以Disallow項的值開(kāi)頭的URL不會(huì )被robot訪(fǎng)問(wèn)。例如"Disallow:/help"禁止robot訪(fǎng)問(wèn)/help.html、/helpabc.html、/help/index.html,而"Disallow:/help/"則允許robot訪(fǎng)問(wèn)/help.html、/helpabc.html,不能訪(fǎng)問(wèn)/help/index.html。"Disallow:"說(shuō)明允許robot訪(fǎng)問(wèn)該網(wǎng)站的所有url,在"/robots.txt"文件中,至少要有一條Disallow記錄。如果"/robots.txt"不存在或者為空文件,則對于所有的搜索引擎robot,該網(wǎng)站都是開(kāi)放的。
Allow:
該項的值用于描述希望被訪(fǎng)問(wèn)的一組URL,與Disallow項相似,這個(gè)值可以是一條完整的路徑,也可以是路徑的前綴,以Allow項的值開(kāi)頭的URL是允許robot訪(fǎng)問(wèn)的。例如"Allow:/hibaidu"允許robot訪(fǎng)問(wèn)/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一個(gè)網(wǎng)站的所有URL默認是Allow的,所以Allow通常與Disallow搭配使用,實(shí)現允許訪(fǎng)問(wèn)一部分網(wǎng)頁(yè)同時(shí)禁止訪(fǎng)問(wèn)其它所有URL的功能。
需要特別注意的是Disallow與Allow行的順序是有意義的,robot會(huì )根據第一個(gè)匹配成功的Allow或Disallow行確定是否訪(fǎng)問(wèn)某個(gè)URL。
使用"*"和"$":
Baiduspider支持使用通配符"*"和"$"來(lái)模糊匹配url。
"$" 匹配行結束符。
"*" 匹配0或多個(gè)任意字符。
robots.txt文件字符編碼
robots.txt使用什么字符編碼,并沒(méi)有相關(guān)規定,都是各搜索引擎自已定義的。雖然google和其它搜索引擎建議大家使用 utf-8 字符編碼格式的robots.txt,但幾乎所有的搜索引擎都支持 ANSI 編碼格式,而google自已對 utf-8 編碼格式的robots.txt,會(huì )出現首字亂碼。所以為了達到最大的兼容性,建議大家使用 ANSI 格式編碼,或者使用 utf-8 編碼格式,但需要空出首行。西安做網(wǎng)站推薦閱讀>>> 搜索引擎統一robots文件標準,
還有一個(gè)建議就是robots.txt中最好不要出現中文,即使是注釋也要使用英文。
robots.txt文件用法舉例
例1.禁止所有搜索引擎訪(fǎng)問(wèn)網(wǎng)站的任何部分 User-agent: *
Disallow: /
例2.允許所有的robot訪(fǎng)問(wèn)
(或者也可以建一個(gè)空文件 "/robots.txt") 第1種寫(xiě)法
User-agent: *
Allow: /
第2種寫(xiě)法
User-agent: *
Allow:
第3種寫(xiě)法
User-agent: *
Disallow:
例3. 僅禁止Baiduspider訪(fǎng)問(wèn)您的網(wǎng)站 User-agent: Baiduspider
Disallow: /
例4. 僅允許Baiduspider訪(fǎng)問(wèn)您的網(wǎng)站 User-agent: Baiduspider
Allow: /
例5. 禁止spider訪(fǎng)問(wèn)特定目錄
在這個(gè)例子中,該網(wǎng)站有三個(gè)目錄對搜索引擎的訪(fǎng)問(wèn)做了限制,即robot不會(huì )訪(fǎng)問(wèn)這三個(gè)目錄。需要注意的是對每一個(gè)目錄必須分開(kāi)聲明,而不能寫(xiě)成 "Disallow: /cgi-bin/ /tmp/"。 User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
例6. 允許訪(fǎng)問(wèn)特定目錄中的部分url User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
例7. 使用"*"限制訪(fǎng)問(wèn)url
禁止訪(fǎng)問(wèn)/cgi-bin/目錄下的所有以".htm"為后綴的URL(包含子目錄)。
User-agent: *
Disallow: /cgi-bin/*.htm
例8. 使用"$"限制訪(fǎng)問(wèn)url
僅允許訪(fǎng)問(wèn)以".htm"為后綴的URL。 User-agent: *
Allow: / .htm$
例9. 禁止訪(fǎng)問(wèn)網(wǎng)站中所有的動(dòng)態(tài)頁(yè)面 User-agent: *
Disallow: /*?*
例10. 禁止Baiduspider抓取網(wǎng)站上所有圖片
僅允許抓取網(wǎng)頁(yè),禁止抓取任何圖片。 User-agent: Baiduspider
Disallow: /*.jpg$
Disallow: /* .jpeg$
Disallow: /* .gif$
Disallow: /* .png$
Disallow: /*.bmp$
例11. 僅允許Baiduspider抓取網(wǎng)頁(yè)和。gif格式圖片
允許抓取網(wǎng)頁(yè)和gif格式圖片,不允許抓取其他格式圖片 User-agent: Baiduspider
Allow: .gif$
Disallow: /.jpg$
Disallow: / .jpeg$
Disallow: / .png$
Disallow: /.bmp$
例12. 僅禁止Baiduspider抓取。jpg格式圖片 User-agent: /Baiduspider
Disallow: /.jpg$
百度各個(gè)產(chǎn)品使用不同的user-agent:
無(wú)線(xiàn)搜索 Baiduspider-mobile
圖片搜索 Baiduspider-image
視頻搜索 Baiduspider-video
新聞搜索 Baiduspider-news
百度搜藏 Baiduspider-favo
百度聯(lián)盟 Baiduspider-cpro
商務(wù)搜索 Baiduspider-ads
網(wǎng)頁(yè)以及其他搜索 Baiduspider
相關(guān)文章:
-
User-agent: * Disallow: / Allow: /complain/ Allow: /media_partners/ Allow: /about/ Allow: /user_agreement/ User-agent: ByteSpider Allow: / User-agent: ToutiaoSpider Allow: / 以上是今日頭條的robots.txt,禁止所有搜索引擎收錄,同時(shí)又...
-
有同學(xué)問(wèn)百度站長(cháng)學(xué)院一個(gè)關(guān)于robots的問(wèn)題:我們有個(gè)站點(diǎn)的目錄結構使用的是中文,這樣式兒的:www.a.com/冒險島/123.html,那在制作robots文件和sitemap文件的時(shí)候,可以直接使用中文嗎?百度能...
-
robots文件是搜索生態(tài)中很重要的一個(gè)環(huán)節,同時(shí)也是一個(gè)很細節的環(huán)節。很多站長(cháng)同學(xué)在網(wǎng)站運營(yíng)過(guò)程中,很容易忽視r(shí)obots文件的存在,進(jìn)行錯誤覆蓋或者全部封禁robots,造成不必要損失! 那...
-
目前百度圖片搜索也使用了與百度網(wǎng)頁(yè)搜索相同的spider,如果想禁止Baiduspider抓取網(wǎng)站上所有圖片、禁止或允許Baiduspider抓取網(wǎng)站上的某種特定格式的圖片文件可以通過(guò)設置robots實(shí)現:西安廣告...
-
對于百度搜索引擎來(lái)說(shuō),蜘蛛黑洞特指網(wǎng)站通過(guò)極低的成本制造出大量參數過(guò)多、內容類(lèi)同但url不同的動(dòng)態(tài)URL ,就像一個(gè)無(wú)限循環(huán)的黑洞,將spider困住。spider浪費了大量資源抓取的卻是無(wú)效網(wǎng)...
-
robots是站點(diǎn)與spider溝通的重要渠道,站點(diǎn)通過(guò)robots文件聲明該網(wǎng)站中不想被搜索引擎收錄的部分或者指定搜索引擎只收錄特定的部分。請注意,僅當您的網(wǎng)站包含不希望被搜索引擎收錄的內容...
-
親愛(ài)的網(wǎng)站管理員, 很高興的告訴大家,百度站長(cháng)平臺 robots 工具全新升級,升級后能夠實(shí)時(shí)查看網(wǎng)站在百度中已生效的的robots文件,并支持對robots進(jìn)行語(yǔ)法及邏輯校驗,有助于站長(cháng)更清晰的...
-
robots.txt文件包含一條或更多的記錄,這些記錄通過(guò)空行分開(kāi)(以CR,CR/NL, or NL作為結束符),每一條記錄的格式如下所示: field:optional spacevalueoptionalspace 在該文件中可以使用#進(jìn)行注解,具體使...
-
搜索引擎通過(guò)一種程序robot(又稱(chēng)spider),自動(dòng)訪(fǎng)問(wèn)互聯(lián)網(wǎng)上的網(wǎng)頁(yè)并獲取網(wǎng)頁(yè)信 息。您可以在您的網(wǎng)站中創(chuàng )建一個(gè)純文本文件robots.txt,在這個(gè)文件中聲明該網(wǎng)站中不想被robot 訪(fǎng)問(wèn)的部分,這...
-
Robots.txt對于任何一個(gè)從事SEO研究工作的人都是至關(guān)重要的,因為透過(guò) Robots.txt 我們可以直接與搜索引擎蜘蛛進(jìn)行對話(huà),告訴他們哪些可以抓取,哪些不可以抓取。 一、為什么設置Robots.txt? 在...