對于一個網站來說,應該有一些人并不喜歡網站所有頁面都被Google抓取,因此就產出了robots.txt文件這一東西。本篇文章將詳細講解robots.txt文件是什么以及robots.txt文件的限制。
robots.txt文件是什么
robots.txt 文件規定了搜索引擎抓取工具可以無法請求抓取您網站上的哪些網頁或文件。此文件主要用于使您的網站避免收到過多請求;它并不是一種用于阻止 Google 訪問某個網頁的機制。
注意:
1.需要在禁止抓取某些內容時,robots.txt文件才有意義。robots.txt不存在或者是一個空文件意味著允許抓取網站上的所有內容。
2.有些因服務器設置的問題,robots.txt文件不存在時會返回狀態碼“200”,而不是“404”狀態碼。這可能導致搜索引擎錯誤解讀robots文件。因此為了避免此類情況的發生,即使你允許抓取網站上所有的內容,也要在網站根目錄下放一個空的robots.txt文件。
二、robots.txt文件對網站有什么優點
1、疾速增加網站權重和拜訪量;
2、制止某些文件被查找引擎索引,能夠節約服務器帶寬和網站拜訪速度;
3、為查找引擎供給一個簡潔明了的索引環境
三、robots.txt 的限制
在創建或修改 robots.txt 之前,您應了解這種網址屏蔽方法的限制。有時候,您可能需要考慮采用其他機制來確保搜索引擎無法在網絡上找到您的網址。
1.并非所有搜索引擎都支持 robots.txt 指令
robots.txt 文件中的命令并不能強制抓取工具對您的網站采取的行為;是否遵循這些命令由抓取工具自行決定。Googlebot 和其他正規的網頁抓取工具都會遵循 robots.txt 文件中的命令,但其他抓取工具未必也會如此。因此,如果您想確保自己網站上的特定信息不會被網頁抓取工具抓取,我們建議您采用其他屏蔽方法(如為您服務器上的隱私文件提供密碼保護)。
2.不同的抓取工具對語法的解析各不相同
雖然正規的網頁抓取工具會遵循 robots.txt 文件中的指令,但這些抓取工具可能會以不同的方式來解析這些指令。您應該好好了解一下適用于不同網頁抓取工具的正確語法,因為有些抓取工具可能會無法理解某些命令。
3.如果其他網站上有鏈接指向被 robots.txt 文件屏蔽的網頁,則此網頁仍可能會被編入索引
盡管 Google 不會抓取被 robots.txt 屏蔽的內容或將其編入索引,但如果網絡上的其他位置有鏈接指向被禁止訪問的網址,我們仍可能會找到該網址并將其編入索引。因此,相關網址和其他公開顯示的信息(如相關頁面鏈接中的定位文字)仍可能會出現在 Google 搜索結果中。要正確阻止您的網址出現在 Google 搜索結果中,您應為您服務器上的文件設置密碼保護,或者使用 noindex 元標記或響應標頭(或者徹底移除網頁)。