Поисковая система Яндекс

11.jpgЯндекс, на данный момент, — самая популярная поисковая система Рунета. По данным статистики LiveInternet, доля Яндекса в разрезе всей российской аудитории составляет 53,4%, а если рассматривать только Москву и область, то еще выше — 67,9%.

Немудрено, что большинство компаний предлагают продвижение именно в этой поисковой системе. Наша компания — не исключение.

Нам кажется, что клиенты тоже должны иметь определенное представление о том, как функционирует Яндекс и в частности — особенности работы алгоритма ранжирования данной поисковой системы.

Яндекс как поисковая система

Прежде чем пускаться в алгоритмические дебри, давайте вспомним, а как вообще устроена поисковая система.

Логическую структуру поисковой системы можно представить в виде трех модулей:

11_evolution_ruzanoff.jpg

Робот (краулер, crawler) — специальная программа, которая обходит интернет-сайты и загружает их содержимое. У робота есть специальное расписание, согласно которому он осуществляет свой обход.

Страницы сайта, загруженные роботом, специальным образом обрабатываются и помещаются на хранение в базу данных. На данный момент Яндекс хранит содержимое более чем 5 миллиардов страниц в своей базе!

Самая важная часть поисковой системы — клиентская, которая отвечает за обработку запросов пользователей и выдачу им результатов поиска. Ежедневно Яндекс обрабатывает более 50 млн пользовательских запросов! Для того чтобы выдавать на каждый запрос пользователя релевантные результаты, Яндекс ищет в своей базе все документы, отвечающие на запрос пользователя и выдает те, которые лучше всего отвечают на запрос. При этом в выдаче поисковой системы все сайты отсортированы по убыванию их релевантности запросу пользователю.

Качество работы поисковой системы определятся ее умением находить наилучшие ответы на запросы пользователей. Тут мы и приходим к такому понятию как алгоритм ранжирования.

Алгоритм ранжирования — это система математических формул для оценки определенных факторов, на базе которой поисковая система присваивает сайту (странице) определенный рейтинг. В качестве факторов выступают различные показатели, характеризующие документ: наличие слов из запроса, наличие ссылок на документ, авторитетность сайта и др.

На данный момент в Яндексе используется алгоритм ранжирования, который учитывает около 250 различных факторов.

Итак, представим упрощенно, что происходит в Яндексе, когда пользователь задает запрос, например, «пластиковые окна».

2_evolution_ruzanoff.jpg

Запрос обрабатывается синтаксическим анализатором, приводится к начальной форме.

Далее по базе ищутся все документы, содержащие слова «пластиковый» и «окно». Естественно, Яндекс не производит прямой поиск информации по всем 5 млрд. документов в базе. Вся информация содержится в виде т.н. «обратного индекса» (см. рисунок ниже), т.е. для каждого слова указаны порядковые номера документов, где содержится это слово и позиции данного слова в документе.

После этого определяется релевантность каждого документа запросу, т.е. для всех 12 млн. документов, которые содержат слова «пластиковый» и «окно» считается значение релевантности. Далее документы ранжируются по убыванию релевантности, и формируется выдача.

На рисунке ниже представлена самая простая схема устройства обратного индекса. Естественно, в поисковых системах используются дополнительно различные методы оптимизации данной структуры, но я думаю, основной принцип понятен.

Аналогом обратного индекса является, например, алфавитный указатель в книге, где указано, на какой странице встречается тот или иной термин и вы можете с легкостью найти информацию, не пролистывая всю книгу.

3_evolution_ruzanoff.jpg

Как мы видим — алгоритм ранжирования — это одна из основных частей поисковой системы.

С момента своего создания, поисковая ситстема Яндекс и его алгоритмы поиска регулярно изменялись, дорабатывались и улучшались.

С лета 2007 года Яндекс начал анонсировать широкой публике изменения своего алгоритма ранжирования. Предвестником новых алгоритмов стало сообщение на Серче и в блоге Яндекса. Тогда же на блоге и было объявлено и о первом обновленном алгоритме с именем — «Магадан«.

В ближайшее время мы постараемся собрать и структурировать данные обо всех изменениях алгоритмов Яндекса, подробно проследим от начала до конца историю этих изменений и посмотрим, как это сказалось на продвижении сайтов как услуге.

h++p://www.seonews.ru/analytics/detail/120746.php

Оставьте первый комментарий

Оставить комментарий

Ваш электронный адрес не будет опубликован.


*


четыре × один =