コンピュータで Google 検索を実行すると、ウェブ全体の検索結果が瞬時に表示されます。ここでは、Google でクエリに一致するウェブページを見つけ、検索結果の順位を決定する方法について説明します。
ウェブ検索は、あらゆる情報の場所を正確に記述した優れた索引を備えた大型書籍を参照するようなものです。Google 検索を実行するときは、Google のプログラムで Google のインデックスを確認し、最も関連性の高い検索結果を特定して表示(提供)します。
検索結果の表示は主に次の 3 つのプロセスに分けられます:
| クロール: サイトを検出して、情報を取得します。 | 詳細... |
| インデックスの作成: サイトのインデックスを作成します。 | 詳細... |
| 検索結果の表示: ユーザーの検索と関連する有益なコンテンツのサイトを表示します。 | 詳細... |
| クロール |
クロールは、Googlebot が Google のインデックスに追加する、新しいページや更新されたページを検出するプロセスです。
Google では、大規模なコンピュータ群を使用して、ウェブ上の数十億のページを取得(クロール)します。取得プログラムは Googlebot と呼ばれ、ロボットやスパイダーとも呼ばれます。Googlebot はアルゴリズム化されたプロセスを使用します。クロールを実行するサイト、クロールの頻度、各サイトから取得するページ数はコンピュータ プログラムによって決定されます。
クロールを開始する際は、前回のクロールで生成され、ウェブマスターから提供されたサイトマップによって補強された、ウェブページの URL リストを使用します。Googlebot はこれらのウェブサイトすべてにアクセスし、各ページのリンクを検出してクロール対象のページ リストに追加します。また、新しいサイト、既存のサイトへの変更、無効なリンクを検出し、Google インデックスの更新情報として使用します。
Google では、有料でサイトのクロール頻度を増やすことは行っていません。収益を得る AdWords サービスと検索サービスは区別して対応しています。
| インデックス作成 |
Googlebot はクロールした各ページを処理し、検出したすべての単語とページ上の場所を登録した大規模なインデックスを作成します。さらに、title タグや alt 属性などの主要なコンテンツ タグや属性に含まれる情報も処理します。Googlebot ではさまざまなコンテンツを処理できますが、すべての種類を処理できるわけではありません。たとえば、一部のリッチ メディア ファイルや動的ページのコンテンツは処理できません。
| 検索結果の表示 |
ユーザーがクエリを入力すると、インデックスで一致するページが検索され、関連性が高いと判断された検索結果が返されます。関連性は、ページの PageRank など、200 以上の要素に基づいて決定されます。PageRank はページの重要性を示すもので、他のページからの参照リンクに基づいて決まります。つまり、別のサイトからの個々のリンクがサイトの PageRank に寄与するということです。リンクはすべて同等に扱われるわけではありません。Google では、不正なリンクや検索結果に悪影響を及ぼす行為を特定して、ユーザーの利便性を向上させるよう努めています。コンテンツの品質に基づいて作成されるリンクが最も重視されます。
検索結果ページでサイトが上位に表示されるようにするには、Google でサイトを正しくクロールし、インデックスに登録できるようにする必要があります。よくある落とし穴に注意しながらサイトのランクを上げる方法については、ウェブマスター向けガイドラインをご覧ください。
Google の他のキーワード、キーワード候補、Google サジェストの各機能は、関連するクエリ、よくあるスペルの間違い、よく検索されているクエリを表示して、ユーザーの時間を節約するために開発されました。google.co.jp の検索結果と同様に、これらの機能で使用されるキーワードは、Google のウェブ クローラと検索アルゴリズムによって自動生成されます。これらのヒントは、ユーザーの時間を節約できると思われた場合にのみ表示されます。Google の検索アルゴリズムでサイトのコンテンツがクエリに密接に関連していると判断されると、そのクエリに対し、サイトが上位にランクされます。