スパム サイトは、キーワードを何度も繰り返したり、PageRank を転送するリンクを購入したり、隠しテキストを画面に埋め込んだりするなどの手法を使って、何とか検索結果の上位に入ろうとします。これにより、関連性の高いウェブサイトの順位が下がるため、検索結果に悪影響を及ぼします。また、関連性の高い正当なウェブサイトが見つかりにくくなるため、それらのサイト所有者に不利益をもたらします。Google のアルゴリズムでは、大半のスパムを検出して自動的にそれらの順位を下げることができます。対処できないスパムについては、Google のチームが手動でサイトを確認しています。

スパムを識別する

スパムサイトは、その手法も異なれば規模も異なります。中には、自動的に作成された意味不明で人間がまったく理解できないものもあります。もちろん、一見するだけでは判断が難しいような巧妙なスパムの手法を使用しているサイトもあります。ここでは、非常に悪質なスパム手法を使用している「悪質なスパム(pure spam)」の例を挙げます。これらは、Google が手動で特定して削除したために最近では検索結果に表示されなくなった、実際のスパム サイトのスクリーンショットです。

*このデモからは性的なコンテンツや不正なソフトウェアを一部削除しましたが、その点を除き、これは検索結果から削除した英語の「悪質なスパム(pure spam)」の例をそのまま掲載しています。

スパムの種類

上記のスパムの他に、Google で検出して対策を取るスパムは他にも複数の種類があります。

クローキングまたは不正なリダイレクト

サイトはクローキングされている(検索エンジンに表示されるコンテンツとは別のコンテンツがユーザーに表示される)か、Google が確認したページとは別のページにユーザーをリダイレクトしているようです。

ハッキングされたサイト

このサイトの一部のページが第三者によってハッキングされ、スパム行為のあるコンテンツやリンクが表示されている可能性があります。ウェブサイトの所有者は、サイトのクリーンアップを行い、セキュリティ上の脆弱性を解決するための措置を直ちに取る必要があります。

隠しテキストまたはキーワードの乱用

一部のページに隠しテキストが含まれているか、ページ内でキーワードが乱用されている可能性があります。

パーク ドメイン

パーク ドメインは固有のコンテンツがほとんど含まれていないプレースホルダ サイトなので、通常 Google の検索結果には含まれません。

悪質なスパム

サイトは、意味不明なコンテンツの自動生成、クローキング、他のウェブサイトからのコンテンツのスクレイピングなどの手法を使用しているか、Google のウェブマスター向けガイドラインに繰り返しまたは著しく違反しているようです。

スパム コンテンツを含むホスティング サービスと動的 DNS プロバイダ

サイトは、大量のスパム コンテンツを含むホスティング サービスまたは動的 DNS プロバイダによってホストされています。

付加価値がほとんどまたはまったくない、実質のないコンテンツ

サイトは、ユーザーに付加価値をほとんど提供しない質の低いまたは中身の乏しいページ(実質のないアフィリエイト ページ、誘導ページ、個性のない大量生産サイト、自動生成コンテンツ、コピーされたコンテンツなど)で構成されているようです。

サイトからの不自然なリンク

サイト内から人為的または不自然で疑わしい リンク群が検出されました。原因としては、PageRank に影響を及ぼすリンクの販売やリンク プログラムへの参加などが考えられます。

サイトへの不自然なリンク

サイトへの人為的または不自然で疑わしいリンクが検出されました。原因としては、PageRank に影響を及ぼすリンクの購入やリンク プログラムへの参加などが考えられます。

ユーザー生成スパム

サイトには、ユーザーによって生成されたスパム行為のあるコンテンツが含まれているようです。問題のコンテンツは、フォーラム ページ、ゲストブック ページ、またはユーザー プロフィールに表示されている可能性があります。

対策を適用する

大半のスパムにはアルゴリズムで対処していますが、Google では自動で対処できないスパムに手動で対応することで、検索結果の品質にスパムの影響が及ばないようにしています。次のグラフは、手動によるスパム対策の影響を受けたドメインの数を、スパムの種類別に示したものです。数字だけを見ると数が多い印象を受けるかもしれませんが、ウェブの世界は非常に巨大です。最新のデータによると、手動により削除されたドメインは全体の約 0.22% でした。

手動によるスパム対策(月別)

手動によるスパム対策のマイルストーン

2005 年 2 月

手動によるスパム対策を実施するチームをハイデラバード(インド)に展開しました。

2005 年 3 月

手動によるスパム対策を実施するチームをダブリン(アイルランド)に展開しました。

2006 年 4 月

手動によるスパム対策を実施するチームを東京(日本)に展開しました。

2006 年 6 月

手動によるスパム対策を実施するチームを北京(中国)に展開しました。

2007 年 10 月 - レガシー

2007 年秋に、ウェブスパム違反の種類に応じてより構造的にデータを保持するように、分類体系を変更しました(このため、上のグラフを作成することができました)。新しい体系に適切に分類できなかったものは「レガシー」カテゴリに分類されています。この当時から、実質のないアフィリエイトやクローキングのような種類のスパムへの対策を行っていましたが、スパムの種類別の分類は、以前のデータにはまだ利用できていません。

2009 年 10 月 - サイトからの不自然なリンク

システムを改善したことで、外部への不自然なリンクがあるサイトに対し実施していた対策の件数を削減できました。

2009 年 11 月 - ハッキングされたサイト

ハッキングされているサイトが増加していることから、これらのサイトが検索結果に影響しないよう Google では取り組みを強化しました。

2011 年 2 月 - スパム性のある無料ホストと動的 DNS プロバイダ

ポリシーの強化により、かなりの割合のページがウェブマスター向けガイドラインに違反している無料のホスティングサービスや、動的 DNS プロバイダに対して、対処がとれるようになりました。スパム行為のあるアカウントに対して個別に対応することなく、効率的にユーザーをスパムから保護できるようになりました。

2011 年 10 月 - クローキングまたは不正なリダイレクト

分類体系を変更し、クローキングや不正なリダイレクト行為の大多数が「悪質なスパム」に分類されるようにしました。悪質性の低い違反に関連する行為は、引き続き別の分類となります。

2011 年 10 月 - パーク ドメイン

パーク ドメインを検出するアルゴリズムを改良したため、これらのサイトを手動で識別する作業が軽減されました。

2012 年 4 月

ウェブスパムの手法を使用しているサイトのランキングを下げる、アルゴリズムの更新プログラム(コードネーム「Penguin」)の提供を開始しました。

ウェブサイトの所有者に通知する

ウェブサイトに対して手動によるスパム対策を適用する場合、Google はサイトの所有者が問題に気づき、対処できるようサイト所有者に通知を行っています。Google は、サイトの所有者には、サイトを健全な状態にするために必要な情報を持っていただきたいと考えています。長期にわたり、Google がウェブマスターのみなさまとのコミュニケーションと情報発信に多額の投資を行ってきたのは、このためです。次のグラフに、ウェブマスター ツールを通してサイトの所有者に送信したスパムに関する通知の数を示します。

メッセージ(月別)

ウェブマスターへ向けたコミュニケーションの取り組み

2007 年 5 月

以前は通知の送信に電子メールのみを使用していたところ、2007 年に、ウェブマスター達から「ウェブマスター向けガイドライン違反の偽の通知を受け取った」という報告(英語ブログ記事)がありました。これを受けて、新しい通知システムの開発に取り組んでいる間、Google では通知を一時的に停止しました。

2007 年 7 月

2007 年 5 月にメールなりすましのために通知を一時停止した後、ウェブマスター ツールのメッセージ センター機能(英語ブログ記事)の実用化に伴って、2007 年 7 月に通知の送信を再開しました。

2010 年 3 月

新しい通知システムの使用を開始し、スパムが検出されたときにウェブマスター ツールのメッセージ センターに簡単にメッセージを送信できるようになりました。この新しいシステムを使用した最初のスパムのカテゴリはハッキングされたサイト(英語ブログ記事)です。

2010 年 7 月

ハッキングされたサイトの通知システムのバグのため、ハッキングされたサイトに送信されたメッセージの数が減少しました。

2010 年 11 月

通知システムをアップグレードしました。この更新では、ハッキングされたサイトの通知システムのバグを修正し、サイトからの不自然なリンクなど、その他のカテゴリのスパムに対するメッセージを送信できる機能を試験的に導入しました。

2011 年 2~3 月

サイトへの不自然なリンクについて新たな種類の手法にも対応するように通知を拡大しました。

2011 年 6 月

メッセージの送信に使用する言語数を大幅に拡大しました。

2011 年 9 月

スパムの分類体系を変更しました。一部のカテゴリのスパムではメッセージが送信されませんでしたが、新しいカテゴリに適した新しいメッセージを作成および翻訳しました。

2011 年 11 月

ハッキングされたサイトの通知システムのバグのため、ハッキングされたサイトに送信されたメッセージの数が減少しました。

2011 年 12 月

通知を送信する対象のスパムのカテゴリを拡大し、悪質なスパムや実質のないコンテンツが含まれるようにしました。

2012 年 2 月

ハッキングされたサイトに関する通知に影響するバグが修正されました。

ウェブサイトの所有者からのフィードバックを受け付ける

手動によるスパム対策の効果は永遠には続きません。ウェブサイトの所有者は、サイトのクリーンアップを実施してスパム行為のあるコンテンツを削除したら、再審査リクエストを送信して、再度そのサイトを審査するよう Google に依頼できます。Google では、受け取ったすべての再審査リクエストを処理し、その過程でサイトの所有者に進捗状況を連絡します。

これまでに再審査リクエストをお送り頂いたサイトを見てみると、実際に手動によるスパム対策の影響を受けていたサイトはそれほど多くはありませんでした。多くの場合は、単にオンライン トラフィックの自然な増減やアルゴリズムの変更によるものであったり、サイトやサーバー側の技術的な問題で Google がサイトのコンテンツにアクセスできなかったことが原因だったりします。次の表に、2006 年以降に寄せられた再審査リクエストの数を週ごとに示します。

週ごとの再審査リクエストの数

再審査リクエストに関する重要な出来事

2006 年 12 月

バグが発生し、約 1 週間再審査リクエストを正しく保存できなくなりました。12 月 25 日(クリスマス)に、このバグの影響を受けたサイトに代わって再審査リクエストを送信したため、年末にリクエストが集中することになりました。

2007 年 5~6 月

ウェブマスター向けガイドラインの違反に関する偽の通知(英語ブログ記事)が多くのウェブマスターに送られ、これにより通常の何倍もの再審査リクエストが寄せられました。

2007 年 12 月

毎年 12 月後半の連休は、再審査リクエストが通常より少なくなります。

2009 年 4 月

再審査リクエストのヒントを紹介する動画を公開しました。

2009 年 6 月

ウェブマスターにリクエストが処理されていることを連絡するため、再審査リクエストへの返信(英語ブログ記事)を開始しました。

2010 年 10 月

通知システムをアップグレードし、さまざまなメッセージの送信を開始しました。

2011 年 4 月

全世界に Panda アルゴリズムを公開しました。それ以前は、手動による対策に起因しないトラフィックの変化に基づいて再審査リクエストを送信するケースが多く見られました。

2011 年 4~9 月

再審査リクエストの詳しい結果を記載した再審査リクエストへの返信を開始しました。

2012 年 6 月

より幅広いウェブスパム問題に関するメッセージの送信を開始しました。現在、ウェブスパム チームによる手動による対策のうち、サイトのウェブ検索結果のランキングに直接影響する可能性のあるすべての操作について通知を送信しています。