青島網站優化中robots.txt文檔要如何設置？

時間：2015-08-10 18:21 來源：inclusivevacationscheap.com 作者：admin 點擊：3747次

相信有過青島網站優化經歷的seo從業者對于robots.txt文檔并不陌生，那么您真的了解robots嗎？您會設置robots嗎？下面讓青島網站建設公司-迅優傳媒來為您分析一下：

青島網站優化中robots.txt文檔要如何設置？青島網站優化中robots

1、什么是robots.txt文件
???? 搜索引擎有自己的搜索習慣，當它對一個網站進行搜索時，哪些目錄和文件要看，哪些不用看，它有自己的算法。我們也可以自己建立一個robots.txt文件，告訴搜索引擎的機器人哪些可以被收錄，哪些不需要收錄。這樣可以節約自己網站的資源，提高被搜索引擎收錄的效率。

２、robots.txt放置位置
??? robots.txt必須放置在一個站點的根目錄下，而且文件名必須全部小寫。

３、robots相關語法
??? 1)User-agent: 適用下列規則的漫游器(搜索引擎)
　　該項的值用于描述搜索引擎robot的名字。在robots.txt文件中，如果有多條User-agent記錄，就說明有多個robot會受到 robots.txt的限制，對該文件來說，至少要有一條User-agent記錄。如果該項的值設為*，則對任何robot均有效。
????? ●　Google爬蟲名稱: Googlebot
????? ●　百度（Baidu）爬蟲名稱：Baiduspider
????? ●　雅虎（Yahoo）爬蟲名稱：Yahoo Slurp
????? ●　有道（Yodao）蜘蛛名稱：YodaoBot
????? ●　搜狗（sogou）蜘蛛名稱：sogou spider
????? ●　MSN的蜘蛛名稱(微軟最新搜索引擎Bing蜘蛛名也是這個)：Msnbot
???
??? ２）Disallow: 拒絕訪問的目錄或文件
　　該項的值用于描述不希望被訪問的一組URL，這個值可以是一條完整的路徑，也可以是路徑的非空前綴，以Disallow項的值開頭的URL不會被robot訪問。
???? 例如：
???????? Disallow:/seo.html?????? 表示禁止robot訪問文件 /seo.html
????
??? ３）Allow:允許訪問的目錄或文件
???? 該項的值用于描述希望被訪問的一組URL，與Disallow項相似，這個值可以是一條完整的路徑，也可以是路徑的前綴，以Allow項的值開頭的URL是允許robot訪問的。
????? 例如：
?????????? Allow:/hibaidu/???????? 表示允許robot訪問目錄 /hibaidu/
??
???? 4)使用通配符"*"和"$"：
???? 　　 $?? 匹配行結束符。
　　????? *?? 匹配0或多個任意字符。
????????? ??? 匹配1個任意字符

???? 5)robots.txt文件里還可以直接包括在sitemap文件的鏈接。
??????? Sitemap:http://www.lemigift.com/sitemaps.xml

4、robots.txt文件用法舉例
???? 1)、攔截所有的機器人訪問網站
?????? User-agent: *
?????? Disallow: /

???? 2)、允許所有的機器人訪問網站
?????? User-agent: *
?????? Allow: /
???? 3)、禁止所有機器人訪問特定目錄：
?????? User-agent: *
?????? Disallow: /public/
?????? Disallow: /images/
?????? Disallow: /temp/
?????? Disallow: /include/

???? 4)、禁止特定搜索引擎蜘蛛訪問特定目錄(這里我們以百度蜘蛛為例說明)
?????? User-agent: Baiduspider
?????? Disallow: /test/
???????? 上面的robots.txt語法示例的意思是禁止百度蜘蛛爬行根目錄下的test目錄

???? 5)、僅禁止Baiduspider抓取.jpg格式圖片
?????? User-agent: Baiduspider
?????? Disallow: .jpg$

　　 6)、僅允許訪問以".htm"為后綴的URL。
?????? User-agent: *
?????? Allow: .htm$
?????? Disallow: /

　　 7)、禁止訪問網站中所有的動態頁面
?????? User-agent: *
?????? Disallow: /*?*

5、常見robots.txt錯誤
　　 1)、把多個禁止命令放在一行中：
　　?? 錯誤地寫法
　　?? Disallow: /css/ /cgi-bin/ /images/
　　?? 正確的寫法
　　?? Disallow: /css/
　　?? Disallow: /cgi-bin/
　　?? Disallow: /images/
2)、表示目錄時，忘記了斜杠/
　　?? 錯誤的寫法
　　?? User-agent: Baiduspider
　　?? Disallow: css
　　?? 正確的寫法
　　?? User-agent: Baiduspider
　　?? Disallow: /css/

6、robots meta網頁標簽寫法
Robots META標簽則主要是針對一個個具體的頁面。和其他的META標簽（如使用的語言、頁面的描述、關鍵詞等）一樣，Robots META標簽也是放在頁面的＜head＞＜/head＞中，專門用來告訴搜索引擎ROBOTS如何抓取該頁的內容。
Robots META標簽的寫法：
Robots META標簽中沒有大小寫之分，name=”Robots”表示所有的搜索引擎，可以針對某個具體搜索引擎寫為name=”BaiduSpider”。 content部分有四個指令選項：index、noindex、follow、nofollow，指令間以“,”分隔。
INDEX 指令告訴搜索機器人抓取該頁面；
FOLLOW 指令表示搜索機器人可以沿著該頁面上的鏈接繼續抓取下去；
Robots Meta標簽的缺省值是INDEX和FOLLOW，只有inktomi除外，對于它，缺省值是INDEX,NOFOLLOW。
這樣，一共有四種組合：
＜META NAME="ROBOTS" CONTENT="INDEX,FOLLOW"＞
＜META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW"＞
＜META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW"＞
＜META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW"＞
其中
＜META NAME="ROBOTS" CONTENT="INDEX,FOLLOW"＞可以寫成＜META NAME="ROBOTS" CONTENT="ALL"＞；
＜META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW"＞可以寫成＜META NAME="ROBOTS" CONTENT="NONE"＞
目前看來，絕大多數的搜索引擎機器人都遵守robots.txt的規則，而對于Robots META標簽，目前支持的并不多，但是正在逐漸增加，如著名搜索引擎GOOGLE就完全支持，而且GOOGLE還增加了一個指令“archive”，可以限制GOOGLE是否保留網頁快照。例如：
＜META NAME="googlebot" CONTENT="index,follow,noarchive"＞
表示抓取該站點中頁面并沿著頁面中鏈接抓取，但是不在GOOLGE上保留該頁面的網頁快照。