Принципы работы алгоритмов Google Поиска

Чтобы пользователи за доли секунды получали не бесконечные списки адресов, а актуальные и релевантные результаты, системы ранжирования Google упорядочивают сотни миллиардов страниц в поисковом индексе.

Эти системы ранжирования состоят из наборов алгоритмов, которые, благодаря постоянной оптимизации Google Поиска, всё более точно определяют, что интересует пользователей и какие результаты следует показать.

Ниже перечислен ряд способов, позволяющих возвращать пользователям подходящие сведения при помощи алгоритмов Google Поиска.

  • Анализ слов и выражений

    Анализ слов и выражений

    Чтобы подобрать страницы, содержащие релевантные сведения, прежде всего необходимо проанализировать значение слов в запросе. Мы разрабатываем языковые модели, позволяющие определять, какие сочетания слов следует искать в индексе.

    Для этого выполняется ряд действий – от интерпретации орфографических ошибок до определения типа введенного запроса на основе результатов последних исследований в области понимания естественного языка. Например, даже если у введенного вами слова несколько значений, Google Поиск определит верное. Это стало возможным благодаря специальной системе синонимов, которая создавалась пять лет и позволяет существенно увеличить качество результатов по более чем 30% запросов на разных языках.

    Мы также стремимся понять, какого рода сведения ищет пользователь. Нужна ли ему особая или, наоборот, расхожая информация? Содержит ли запрос слова, позволяющие заключить, что пользователю требуются сведения определенного типа, например "обзор", "изображения" или "часы работы"? Ввел ли пользователь популярные ключевые слова, указывающие на то, что его интересуют последние новости? Хочет ли он узнать адрес магазина, заведения или отделения компании в своем городе?

  • Подбор подходящих страниц

    Подбор подходящих страниц

    Затем мы подбираем страницы, содержащие информацию, которая соответствует запросу. Обычно, когда пользователь вводит запрос, наши алгоритмы ищут в индексе подходящие страницы, а также определяют, как часто ключевые слова встречаются на странице и в каких ее разделах (например, в заголовке или основном тексте).

    Наши алгоритмы не только сопоставляют ключевые слова, но и определяют, насколько полная информация содержится в предполагаемых результатах поиска. Например, пользователя, указавшего запрос "собаки", вряд ли интересует страница, в которой сотни раз повторяется это слово. Мы стараемся убедиться в том, что та или иная страница содержит сведения по запросу, а не просто дублирует его. Так, алгоритмы Поиска определят, представлен ли на страницах нужный контент, например изображения собак, видео с их участием или список пород. Наконец, пользователю в первую очередь будут показаны страницы на том же языке, на котором введен запрос.

  • Ранжирование релевантных страниц

    Ранжирование релевантных страниц

    В большинстве случаев информацию, которая соответствует запросу, содержат тысячи или даже миллионы страниц. Мы разрабатываем алгоритмы, позволяющие оценивать релевантность страниц, чтобы наиболее подходящие из них показывались первыми.

    Чтобы предоставлять наиболее актуальную информацию, эти алгоритмы оценивают сотни самых разных факторов – от новизны контента и количества повторов запроса до удобства просмотра страницы. Для выявления источников достоверных и актуальных сведений по той или иной теме мы отслеживаем наиболее популярные ресурсы среди пользователей, указывающих похожие запросы. Если на страницу ссылаются авторитетные в своей области сайты, это означает, что на ней вероятно представлен качественный контент.

    В Интернете существует множество сайтов, содержащих спам. Их владельцы стараются обеспечить для них высокие позиции в результатах поиска, используя различные способы, такие как повтор ключевых слов и покупка ссылок, которые учитываются системой PageRank. Поскольку большинство подобных мошеннических или опасных сайтов не приносят посетителям никакой пользы, мы разрабатываем алгоритмы, позволяющие выявлять спам и исключать из результатов поиска сайты, нарушающие рекомендации для веб-мастеров.

  • Показ наиболее подходящих результатов

    Показ наиболее подходящих результатов

    Прежде чем показывать результаты поиска, мы оцениваем всю найденную информацию в комплексе. Это позволяет определить, идет ли речь об одной теме или нескольких и не относится ли большинство страниц к чрезмерно узкой трактовке поискового запроса. Мы стремимся предоставлять пользователям разнообразную информацию в наиболее удобной для них форме. По мере развития Интернета мы оптимизируем свои системы ранжирования так, чтобы результаты по максимальному числу запросов были как можно более релевантными.

  • Учет сведений о пользователях

    Учет сведений о пользователях

    Чтобы предоставлять пользователям наиболее подходящую и актуальную информацию, мы учитываем сведения об их местоположении, предыдущих запросах, настройках Google Поиска и т. д.

    Мы показываем результаты поиска, исходя из сведений о стране и местоположении пользователей. Например, если житель Чикаго вводит запрос "футбол", ему в первую очередь будут показаны сведения об американском футболе и клубе "Чикаго Беарз". Если же запрос "футбол" указывает пользователь из Москвы, на более высоких позициях окажутся результаты, связанные с обычным футболом и Российской футбольной премьер-лигой. Кроме того, при подборе наиболее подходящих результатов учитываются настройки Поиска, в частности язык и использование Безопасного поиска (этот инструмент позволяет исключать откровенные результаты).

    В некоторых случаях мы учитываем историю поиска пользователей, чтобы предоставлять им персонализированные результаты. Например, если вы ранее вводили запрос "Ростов против Спартака", а затем указали "Ростов", вероятно, вам нужны сведения не о городе, а о футбольном клубе. Чтобы указать, какие сведения из вашей истории поиска мы можем использовать и какие данные могут сохраняться в вашем аккаунте Google, перейдите на страницу myaccount.google.com.