搜尋服務的資訊編排方式

早在使用者搜尋之前,網路檢索器已經收集了數兆個網頁的資訊,並建立搜尋索引。

Google 搜尋基本概念

檢索程序首先會以過去曾檢索過的網址清單和網站擁有者提供的 Sitemap 為對象。檢索器造訪這些網站時,會利用其中的連結找到其他網站。這個軟體也會特別注意新網站、現有網站的變更以及無效連結。電腦程式會決定要檢索哪些網站、檢索頻率,以及要從每個網站擷取多少網頁。

我們為網站擁有者提供了網站管理員工具,讓他們可以更精確地指定要如何讓 Google 檢索自家網站,例如:針對網頁的處理方式給予詳細指示、提出重新檢索要求,或是利用 “robots.txt” 檔案禁止搜尋引擎檢索網站內容。Google 不接受以付費方式提高任何網站的檢索頻率;我們為所有網站提供完全相同的工具,目的是確保使用者能夠獲得最實用的搜尋結果。

透過檢索尋找資訊

網路世界就像一個不斷成長的圖書館,其中收藏著數十億本書籍,卻沒有中央歸檔系統。我們使用被稱為「網頁檢索器」的軟體來找出公開的網頁。檢索器會查看網頁並追蹤其中的連結,和使用者瀏覽網路內容的行為十分相像。檢索器會逐一追蹤連結,並將這些網頁所含資料傳回 Google 的伺服器。

透過建立索引來管理資訊

檢索器找到網頁後,Google 的系統會像瀏覽器一樣顯示頁面內容。我們會特別留意重要訊號 (例如關鍵字和網站更新情形),然後將所有資料記錄在搜尋索引中。

Google 搜尋索引中有數千億個網頁,總規模超過 1 億 GB。這就像是書末的索引;我們為網頁建立索引時,會為網頁中的每個字詞建立條目,之後每次為網頁建立索引,就會依據其中包含的字詞,將該網頁加入相對應的條目中。

 

 

透過知識圖譜,我們的搜尋服務將繼續使用包括關鍵字比對在內的方法,有效瞭解使用者所關心的人物、地點和事物。為了進行這項作業,除了網頁資訊外,我們也必須彙整其他種類的資訊。目前,Google 搜尋可以協助使用者搜尋大型圖書館中上百萬冊書籍的文字、透過當地大眾運輸服務前往目的地所需的時間,或者是協助使用者瀏覽世界銀行等公開來源提供的資料。