robots.txt 檔案會限制檢索網頁的搜尋引擎漫遊器存取您的網站。這些自動化的漫遊器在存取網站的網頁前,會先檢查網站是否擁有阻止它們存取特定網頁的 robots.txt 檔案 (所有正派的漫遊器都會遵照 robots.txt 檔案中的指令去做,但有些漫遊器解讀指令的方式可能有些不同。需要注意的是,robots.txt 不具強制性,有些垃圾郵件發送器和其他麻煩程式可能會逕自忽略它。因此,我們建議用密碼來保護機密資訊)。
只有在您的網站包含您不希望搜尋引擎建立索引的內容時,才會需要使用 robots.txt 檔案。如果您希望搜尋引擎為您網站的所有內容建立索引,就不需要 robots.txt 檔案 (連空白的 robots.txt 檔案都不需要)。
雖然 Google 不會對 robots.txt 所封鎖的網頁內容進行檢索或建立索引,但如果我們在網路上的其他網頁中找到這些網址,仍然會建立這些網址的索引。因此,不只是網頁網址,就連網站連結中的其他文字或開放式目錄專案 (Open Directory Project,www.dmoz.org ) 中的標題其他公開資訊,都有可能會出現在 Google 搜尋結果中。
如果要使用 robots.txt 檔案,您必須擁有網域根目錄的存取權限 (如果不確定,請向網頁代管商洽詢)。如果您無法存取網域根目錄,可以使用漫遊器中繼標記來限制存取。
robots.txt 檔案建立步驟
使用「產生 robots.txt」工具來產生 robots.txt 檔
- 在「網站管理員工具」首頁上,按一下所需網站。
- 在 [網站設定] 下,按一下 [檢索器存取]。
- 按一下 [產生 robots.txt] 標籤。
- 選擇預設漫遊器存取權。我們建議您允許所有漫遊器,並執行下一個步驟來排除您不想讓其存取您網站的特定漫遊器。這可以避免從您網站意外封鎖重要的檢索器。
- 指定任何其他規則。例如,若要封鎖 Googlebot,使其無法檢索您網站上的所有檔案和目錄:
- 在 [動作] 清單中,選取 [不允許]。
- 在 [漫遊器] 清單中,按一下 [Googlebot]。
- 在 [檔案或目錄] 方塊中,輸入 /。
- 按一下 [新增]。robots.txt 檔案的代碼將會自動產生。
- 儲存 robots.txt 檔案,方法是下載檔案或是將內容複製到文字檔並儲存為 robots.txt。將檔案儲存到您網站的最高層級目錄。robots.txt 必須存放在網域的根目錄,並命名為「robots.txt」。位於子目錄的 robots.txt 檔案是無效的,因為漫遊器僅在網域根目錄中查找此檔案。例如,http://www.example.com/robots.txt 是有效位置,但 http://www.example.com/我的網站/robots.txt 則不是。
robots.txt 檔案中指定的規則屬於要求,並非強制執行的命令。Googlebot 和所有知名的漫遊器都會遵循 robots.txt 檔案中的指示。不過,某些惡意漫遊器 (例如垃圾郵件發送器、剪輯器和其他不良的漫遊器) 可能會忽略這個檔案。因此,我們建議您將機密資訊存在伺服器上受到密碼保護的目錄中。此外,不同的漫遊器對 robots.txt 檔案的解譯也可能不同,並非所有漫遊器都支援檔案中的每一個指令。我們盡全力建立能夠適用所有漫遊器的 robots.txt 檔案,但無法保證會以什麼方式解譯檔案。
若要檢查您的 robots.txt 檔案是否如預期運作,請使用「網站管理員工具」中的「測試 robots.txt」工具。
最簡單的 robots.txt 檔案使用兩項規則:
- User-agent:遵循以下規則的漫遊器
- Disallow:您要封鎖的網址
系統會將這兩行視為檔案中的一個項目。您想包含多少項目都可以。一個項目中可以包含多個 Disallow 行和多個使用者代理程式。
robots.txt 檔案中的每個部分都是獨立的,並非根據前一個部分來建置。例如:
User-agent: *Disallow: /資料夾1/ User-Agent: Googlebot Disallow: /資料夾2/
在此範例中,只有符合 /資料夾2/ 的網址不允取 Googlebot 檢索。
使用者代理程式與漫遊器
使用者代理程式是指特定的搜尋引擎漫遊器。網頁漫遊器資料庫列有許多常見的漫遊器。您可將某個項目套用至單一個漫遊器 (列出名稱即可),或套用至所有漫遊器 (列出一個星號即可)。套用至所有漫遊器的項目應如下所示:
User-agent: *
Google 使用數個不同的漫遊器 (使用者代理程式)。我們的網頁搜尋所用的漫遊器是 Googlebot。其他像是 Googlebot-Mobile 和 Googlebot-Image 等漫遊器,會遵循您為 Googlebot 設定的規則,但您也可以個別為其設定特殊的規則。
封鎖使用者代理程式
Disallow 行用以列出您要封鎖的網頁。您可以列出特定的網址或模式。項目應以正斜線 (/) 開頭。
- 若要封鎖整個網站,請使用正斜線。
Disallow: /
- 若要封鎖目錄和目錄中的所有內容,請在目錄名稱後加上正斜線。
Disallow: /垃圾目錄/
- 若要封鎖某個網頁,請列出該網頁。
Disallow: /私人檔案.html
- 如要從「Google 圖片」移除特定圖片,請加入下列內容:
User-agent: Googlebot-Image Disallow: /圖片/狗.jpg
- 如要從「Google 圖片」移除您網站上的所有圖片:
User-agent: Googlebot-Image Disallow: /
- 若要封鎖特定檔案類型 (例如 .gif) 的檔案,請使用下列項目:
User-agent: Googlebot Disallow: /*.gif$
- 若要阻止檢索您網站上的網頁,同時仍在這些網頁上顯示 AdSense 廣告,請禁止 Mediapartners-Google 以外的所有漫遊器。這樣網頁就不會出現在搜尋結果中,但 Mediapartners-Google 漫遊器仍可以分析網頁,以決定要放送的廣告。Mediapartners-Google 漫遊器不會與其他 Google 使用者代理程式共用網頁。例如:
User-agent: *Disallow: / User-agent: Mediapartners-Google Allow: /
請注意,指令區分大小寫。例如,Disallow: /junk_file.asp 會封鎖 http://www.example.com/junk_file.asp,但會允許 http://www.example.com/Junk_file.asp。Googlebot 會忽略 robots.txt 檔案中的空白字元 (尤其是空行) 以及未知的指令。
Googlebot 支援透過 robots.txt 檔案提交 Sitemap 檔案 (英文網頁)。
模式媒合
Googlebot (但並非所有搜尋引擎) 遵循某些模式媒合。
- 您可以使用星號 (*) 來媒合一串字元。例如,若要封鎖對所有以「private」開頭的子目錄的存取,請使用下列項目:
User-agent: Googlebot Disallow: /private*/
- 若要封鎖對所有包括問號 (?) 的網址的存取 (更具體地說,這種網址以您的網域名稱開頭,後跟任意字串,再跟一個問號,然後再跟任意字串),請使用下列項目:
User-agent: Googlebot Disallow: /*?
- 若要指定媒合網址的結尾,請使用「$」。例如,若要封鎖以 .xls 結尾的網址,請使用下列項目:
User-agent: Googlebot Disallow: /*.xls$
您可以結合 Allow 指令來使用此模式媒合。例如,如果「?」只代表某工作階段 ID,則您可排除所有包含「?」的網址,以確保 Googlebot 不會檢索重複網頁。但是以「?」結尾的網址卻也可能是您希望受檢索的網頁版本。在這種情形下,您可以將 robots.txt 檔案設定如下:
User-agent: *Allow: /*?$ Disallow: /*?
Disallow: / *? 指令將封鎖所有包括「?」的網址(更具體地說,它將封鎖所有以您的網域名稱開頭,後跟任意字串,再跟一個問號,然後再跟任意字串的網址)。
Allow: /*?$ 指令將允許任何以「?」結尾的網址 (更具體的說,它所封鎖的網址以您的網域名稱開頭,後跟某個字串,再跟一個「?」,而「?」後面沒有任何字元)。
「測試 robots.txt」工具會顯示您的 robots.txt 檔案是否意外封鎖了 Googlebot,使其無法檢索您網站中的某個檔案或目錄,或 robots.txt 檔案是否允許 Googlebot 檢索不應出現在網路上的檔案。輸入建議的 robots.txt 檔案的正文後,該工具將採用與 Googlebot 相同的方式對其進行讀取,並列出該檔案的影響以及發現的所有問題。
測試網站 robots.txt 檔案的步驟:
- 在「網站管理員工具」首頁上,按一下所需網站。
- 在 [網站設定] 下,按一下 [檢索器存取]
- 如果尚未選取,請按一下 [測試 robots.txt] 標籤。
- 複製 robots.txt 檔案的內容並貼至第一個方塊。
- 在 [網址] 方塊中,列出要用於測試的網站。
- 在 [使用者代理程式] 清單中,選取所需使用者代理程式。
您在此工具中所做的任何變更均不會儲存。若要儲存所有變更,您需要複製內容並將其貼至 robots.txt 檔案。
此工具僅提供 Google 使用者代理程式 (例如 Googlebot) 的結果。其他漫遊器可能會以不同的方式解譯 robots.txt 檔案。例如,Googlebot 支援標準 robots.txt 通訊協定的延伸定義。它能夠解讀 Allow: 指令,以及某些模式媒合。因此,雖然該工具顯示包括這些延伸定義的行為已解讀,但請記住,這僅適用於 Googlebot,並不一定適用於檢索您網站的其他漫遊器。
已更新 9/2/2009