ITrader
Современная, простая программа с неограниченными возможностями преобразования
времени, знаний и опыта в деньги! Бесплатный доступ ко всем финансовым рынкам,
к мировым торгам и профессиональному росту. Скачай и открой бесплатный Демо-счет!
Дистанционное обучение. Депозит от 1000 рублей. ФГ Калита-Финанс. Подробнее...
Дата публикации: 15 Февраля 2006
Автор: Денис Кравченко, SEO-аудитор компании NetPromoter
Приблизительно год назад на конференции
компании NetPromoter
“Кибермаркетинг.
Стратегия и тактика продвижения ресурса” автор данной заметки дискутировал о
перспективах Гугла в Рунете с представителем одной из ведущих российских поисковых
систем, и когда речь зашла о перспективах введения Google’ом поддержки морфологии
русского языка, мнения разошлись. Я настаивал на том, что это произойдет в ближайшее
же время, мой оппонент – на том, что это вряд ли случится вообще, а если и случится,
то вряд ли будет иметь какое-то значение. Как рассудило время, оба мы оказались
не правы: это все же произошло, хотя и не так быстро, как я предполагал, и, конечно
же, далеко не с тем качеством.
Новость о том, что Google начал распознавать
морфологию русского языка, прошла как-то незаметно. Пока не существует ни официальной,
ни полуофициальной, ни даже какой-либо достоверной информации об этом, безусловно,
важном событии – только несколько заметок в блогах или даже просто в комментариях
блогов. Оптимизаторские форумы в большинстве своем молчат или недоумевают, но можно
предвидеть, что намечается что-то очень серьезное. При введении запроса на русском
языке в Google.ru (не пытайтесь делать это на других серверах, например, Google.com
– там это не работает) возвращаются результаты, в которых отчетливо наблюдается
факт того, что Google распознает различные падежи, числа, формы глаголов и другие
лингвистические прелести. Так, при запросе "уехать в канада" в результатах поиска
выделяются различные словоформы как слова "канада"– "канаду", "канаде", "канады",
так и слова "уехать" – "уехал", "уехали" и т. д.
Грешным делом у нас сперва зародилось
подозрение, что это всего лишь приспособленный под русский язык стемминг – технология,
используемая для анализа английского языка. Но давайте для начала остановимся на
различии в подходах к анализу различных языков.
Как известно, русский и английский языки
принадлежат к двум различным группам, а, следовательно, и к их анализу следует подходить
по-разному. Русский язык принадлежит к группе флективных языков – различные словоформы
образовываются с помощью окончаний. Например, русское имя существительное может
принимать шесть падежей в единственном числе, и шесть – во множественном. Таким
образом, одно и то же существительное может встречаться в 12 различных формах на
одной и той же странице. Кроме того, некоторые словоформы могут образовываться с
помощью изменения основы слова, например "что – ложь; чего – лжи". Для эффективного
анализа русскоязычного текста поисковые машины должны использовать сложные лемматизирующие
алгоритмы. Такой алгоритм предусматривает, что по определенным правилам составляется
лемма слова, то есть набор всех его словоформ, и подсчитывается количество вхождений
данного слова в текст документа. По такому принципу работают ведущие российские
поисковики, тот же принцип используется при анализе страниц нашим программным обеспечением.
С английским ситуация немного проще, поскольку падежей меньше, корни слов изменяются
только в исключительных случаях, например, в неправильных глаголах. Для анализа
английских текстов поисковые машины используют стемминг, то есть анализ по основе
слова. Все основные российские поисковые машины хорошо справляются с анализом русской
морфологии, но для англоязычных поисковиков русский до сих пор был проблемой – для
того, чтобы включить поддержку русского, нужно было полностью менять систему анализа
текстов, дописывать алгоритм анализа морфологии. Следовательно, Гуглу было бы проще
«прикрутить» русский стемминг к существующему стеммингу английского и нескольких
других европейских языков, поддерживаемых Гуглом, чем разрабатывать и внедрять абсолютно
новый алгоритм.
Так что же сегодня происходит на Гугле?
Какая технология обработки русского языка используется? Давайте внимательнее присмотримся
к тому, что творится в выдаче Гугла. При запросе таких слов, как "ты", "я", Гугл
выдает результаты, в которых встречаются такие формы указанных слов, как "тебя",
"меня" и так далее. Однако при запросе по слову "лгать" начинаются проблемы. Так,
Яндекс выдает документы, которые содержат словоформы "лгут", "лжет", в то время
как Гугл – нет. Еще более странные вещи обнаруживаются при просмотре кеша Гугла
по найденным словам. Те слова, которые совпадают с заданной вами формулировкой,
выделяются, в то время, как словоформы, не совпадающие с заданной формулировкой
запроса, в кеше не выделяются. Более того, если на странице нет ни одного слова,
совпадающего с заданной формулировкой запроса, выводится стандартное сообщение о
том, что «данные слова были найдены в ссылках, ведущих на страницу». Конечно, можно
списывать такие несостыковки на то, что алгоритм является еще сырым, тестируется,
но, кажется, существующие факты свидетельствуют об одном – Google использует улучшенный
стемминг для работы с русским языком, это пока не полноценный анализ русского языка
с учетом морфологии.
Похоже, прав был мой оппонент на конференции
– с тем качеством, как реализована морфология Гугла сейчас, русским поисковикам,
действительно, опасаться пока нечего. Несомненно нововведение улучшит релевантность
обслуживания русскоязычных запросов, более-менее полноценная поддержка русского
языка сослужит хорошую службу для популяризации таких коммерческих проектов Гугла
как AdWords и AdSense, которые были представлены Рунету без малого год назад, но
работают пока через пень колода, ввиду того, что их русификация была осуществлена
в основном только по части перевода интерфейса. В любом случае, у оптимизаторов
теперь появится еще одно интересное занятие – исследование того, как работает обновленный
гугловский алгоритм. Можно предвидеть, что с точки зрения поисковой оптимизации
разница между подходом к оптимизации для «наших» поисковиков и для «буржуйских»
будет сведена к минимуму. А выиграют от этого как пользователи Гугла, так и владельцы
сайтов, не говоря уже о самом Google, который, несомненно, найдет новых пользователей
в России. Вопрос, на мой взгляд, состоит в том, что хорошая идея введения учета
русской морфологии была реализована крайне некачественно.
Знаменательно еще и то, что приблизительно
в одно время с Гуглом о поддержке морфологии русского языка заявила еще одна поисковая
машина, Exalead, которая не пользуется пока особой популярностью на западе, и еще
менее известна у нас.
Неизвестно, остановятся ли разработчики
на достигнутом, или будут совершенствовать систему, доводя ее до уровня работы Яндекса
или Рамблера, но сам факт того, что Гугл, с его огромной базой проиндексированных
документов, обширной системой сервисов, среди которых приобретающий все большую
популярность почтовый сервис Gmail, Pay-Per-Click сервисы AdWords и AdSense, делает
пусть пока не большие шаги в направлении русского рынка, говорит, как минимум, о
том, что этот рынок находится в зоне его интересов.
Стоит ли русским поисковикам опасаться
конкуренции Гугла? Мнения расходятся. Поживем-увидим. А точка в споре, зародившемся
на конференции, еще не поставлена.