вторник, 22 июля 2014 г.

Я.Робот

Яндекс.Новости

Главное российское СМИ - автоматический агрегатор «Яндекс.Новости». Сможет ли компания и дальше отбивать попытки перевести его на «ручное управление»?

Люди из администрации президента (АП) России пришли в офис «Яндекса» летом 2008 года, вскоре после войны в Южной Осетии. Первого заместителя руководителя АП Владислава Суркова и заместителя начальника управления внутренней политики президента Константина Костина в числе прочего интересовал принцип работы новостного агрегатора «Яндекса».

«Меня позвали рассказать, как устроены новости. Я вкратце объяснил, как новостные сообщения собираются в сюжеты, какие факторы влияют на ранжирование, по каким принципам выбираются сообщения для аннотации и для заголовка, - вспоминает бывший руководитель сервиса «Яндекс.Новости» Лев Гершензон. - Показал внутренний интерфейс с собранным «роботом» рейтингом СМИ: вот, смотрите, у нас в топе вполне разумные издания - «Интерфакс», «Коммерсантъ», Lenta.ru».

Участие Гершензона во встрече было коротким, минут 15-20, и лучше всего он запомнил одну фразу: «Я показывал скриншоты, связанные с войной в Грузии. Важно было объяснить, почему в сюжете про Грузию пара ссылок на грузинские СМИ из 15 -это не страшно, а нормально. Сурков с ходу сказал: «Вот этого нам не нужно, это наши враги». Сейчас Сурков заявил, что не помнит о таком эпизоде, но не исключает, что он мог иметь место.


«Дайте нам доступ»

«Мы объясняли, что есть принципы, на которых строится работа новостного «робота», мы готовы их обсуждать, разбираться, совершенствовать алгоритмы. Но вмешиваться в работу в режиме реального времени не будем, - вспоминает Гершензон, руководивший новостным сервисом с 2008 по 2012 год. - Константин Костин ответил: «Дайте нам доступ к интерфейсу». Тогда мы как-то отболтались и отшутились».

Но у руководителей «Яндекса» были и другие встречи с представителями АП, на которых им настоятельно советовали в случае воины все новости переводить в ручной режим или выбирать в топ-5 заголовки только от государственных агентств. «Илья Сегалович помог отбиться от этих предложений: «А как мы узнаем, что это война? Нужно, чтобы президент официально объявил? Или кто-то должен позвонить? Сурков? Воложу? А надо писать пользователям, что началась война и мы перешли на ручной режим?» - рассказывает Гершензон. - В результате решили: лучше тогда совсем новости с «морды» уберем. После того в АП идею ручного управления оставили».

Константин Костин, сменивший должность в администрации президента на пост главы Фонда развития гражданского общества, отказался комментировать претензии к «Яндексу» по освещению событий лета 2008 года, но признал, что «эта тема обсуждалась». По мнению Костина, «Яндекс» давно мог снять вопросы к агрегатору: надо, чтобы он обрабатывал только те средства массовой информации, которые зарегистрированы в России. «Тогда к агрегаторам никаких вопросов предъявить нельзя и можно переправить к СМИ любые претензии государственных органов к опубликованной в новостях информации», - говорит он.

Но такой вариант в «Яндекс.Новостях» отметают. «Мы потеряем не только иноязычные и иностранные СМИ, но и лишимся большой части российских партнеров: очень часто региональные порталы не регистрируются как СМИ. Упадет качество продукта - полнота, информативность будут сильно хуже», - рассуждает нынешний руководитель новостного сервиса «Яндекса» Татьяна Исаева. А не обращать внимания на «Яндекс.Но-вости» власть просто не может: фактически агрегатор давно стал главным российским средством массовой информации, по многим формальным признакам не являясь СМИ.

Последние новости

64% жителей России пользовались Интернетом в июне 2014 года, подсчитала аналитическая компания «Левада-Центр». 30% россиян (более 40 млн человек) узнают последние новости в Сети. Месячная аудитория «Яндекс.Новостей» в мае 2014 года, по данным TNS. Web Index, составила 23 млн человек, то есть сервисом пользуется каждый второй житель страны, следящий за новостями в Интернете. Ежедневная аудитория «Яндекс.Новостей» -5 млн человек, это в 4 раза больше, чем у ria.ru, и в несколько раз больше, чем у других крупнейших онлайн-СМИ.

При этом штат «Яндекс.Новостей» сегодня насчитывает 28 человек: разработчики, аналитики сервиса, системные администраторы, сотрудники тестирования и службы поддержки, непосредственные руководители сервиса. С 2008 года действуют русскоязычные сервисы в странах бывшего СНГ - на Украине, в Белоруссии, Казахстане. У агрегатора 6 тыс. партнеров, но так было не всегда.

Новостной сервис запустили в 2000 году. «Первое время новости шли сплошным потоком на главной странице, и это было не очень удобно: пока поисковой «робот» обежит сайты изданий, пока все сольется в общую базу, пройдет какое-то время, - рассказывает сооснователь и бывший главный редактор «Яндекса» Елена Колмановская. - Обновлять новости каждые пять минут наш «робот» еще не умел. В 2003 году у нас возникла идея договориться со СМИ, чтобы они выкладывали для нас новости в специальные экспортные файлы - RSS-потоки, которые наша программа могла очень быстро индексировать и «раскладывать» по сюжетам». Брать пример было не с кого. «В начале 2000 годов стартовал новостной сервис Google, но их «робот» обходит сайты изданий без всяких предварительных договоренностей и экспортных файлов. Мы многое придумали сами», - вспоминает Колмановская.

В 2000 году у «Яндекс.Новостей» не было своей страницы. «Была «пятерка» на «морде» и выдача в поиске. Топ-5 - это такое дизайнерское решение: три - мало, больше пяти - не влезет», - рассказывает Колмановская. Когда возникла идея с RSS-потоками, компания пыталась договориться с производителями новостей, и большинство отказались. «Вы наши конкуренты, берете у нас эксклюзивный продукт, так все ходят к нам, а иначе на «Яндекс» ходить будут», - вспоминает бывший главред «Яндекса». Из крупных «поставщиков» первыми уговорили РИА «Новости», затем «Интерфакс». Елена Колмановская смеется: «Я до сих пор помню, как в том же 2003 году нам позвонили менеджеры этих агентств и сказали: «Ура, начальство «наркоманит» на счетчики трафика!» Они поняли, что человек, зашедший на главную страницу «Яндекса», чтобы узнать прогноз погоды, «залип» на топ-5 и по ссылке вышел на «Интерфакс». Мы, конечно, тогда еще не были такими масштабными, как сейчас, но трафик раздавали прилично». Сейчас «Яндекс» обеспечивает до половины суточного трафика «Интерфакса» и около трети трафика «России сегодня» (ria.ru).

Самому «Яндексу», уверяет Колмановская, новостной агрегатор особого трафика не приносит, как не приносит и значительных для компании денег. По словам источника, близкого к руководству «Яндекса», ежегодный заработок «Новостей» не превышает 10 млн долларов - это менее 1% общей выручки компании, которая в 2013 году составила 1,21 млрд долларов. Деньги приносит реклама в этом сервисе: СМИ работают с поисковиком бесплатно, по принципу «контент в обмен на трафик».

Фактор «мордизма»

В 2003 году руководителем новостного сервиса стал Дмитрий Иванов. Сейчас он занимает в «Яндексе» должность директора по проектам, а больше 10 лет назад вместе с программистом Михаилом Масловым ломал голову над тем, как лучше показать информационную картину дня.

«Сначала мы придумали, что картина дня - это то, о чем пишут все СМИ, так что новости должны быть похожи на то, что пользователь слышит по радио или видит по телевизору. Потом пришли к пониманию, что есть СМИ более заметные, есть -менее. Стало понятно, что нужно делать информационную картину дня, используя цитируемые СМИ. После этого нужно было в одном месте дать точки зрения разных изданий в каждом новостном сюжете», - рассказывает Иванов.

Особые сложности возникали с освещением спортивных событий. «Алгоритм тормозил, и было, например, такое: весь футбольный матч на «морде» висел счет 1:0, а следующее обновление - «После матча задержаны дерущиеся болельщики». Договорились со спортивными изданиями о том, что будем получать от них сообщения не в виде общих текстов, а как отдельный RSS-поток, который «робот» склеивает», - вспоминает Дмитрий Иванов.

Алгоритм «Яндекс.Новостей» писал Михаил Маслов, один из старейших сотрудников «Яндекса». Работа велась практически с нуля и заняла полгода: «Алгоритмом кластеризации раньше занимался папа одного из наших разработчиков, Димы Тейблюма, - говорит Михаил. - Была готовая программа, небольшая, строчек 100. Дальше я допиливал сам». Суть алгоритма в упрощенном виде выглядит так: берутся новостные сообщения, объединенные общими числами, названиями мест, событиями. Например: «два», «пингвина», «утомились», или «теракт», «метро», «Рижская».

В какой-то момент, продолжает Маслов, возникло понятие рейтинга источников. «Я построил рейтинг, в котором было три показателя: уникальность, цитируемость и полнота. Перед самым запуском Илья Сегалович дал мне алгоритм определения дублей новостных сообщений, я прикрутил его к «роботу», - рассказывает он.

Именно Маслову впоследствии пришла в голову идея добавить в программу фактор «мордизма» (сам Михаил, впрочем, предпочитает термин «полнота»). «Робот» автоматически понижал рейтинг изданий, старавшихся писать исключительно про главные события, чтобы попадать в топ-5 на «морде» «Яндекса». На основании трех факторов - оперативности, цитируемости и «мордизма» - раз в неделю рассчитывался индекс, присваиваемый тому или иному СМИ. Эта цифра (в «Яндексе» ее называют «весом») постоянно меняется. Сейчас «мордизм» не учитывается, а «вес» источника формируют только оперативность и цитируемость.

До 2008 года «робот» умел отсеивать обсценную лексику по специальному списку, но путался в словах, безобидных на первый взгляд: в 2007 году в новости попало сообщение Lenta.ru о том, что на должность премьер-министра назначен Виктор Пиписькин. Заметка провисела на Lenta.ru и на «Яндексе» всю ночь - до следующей итерации. Автор, редактор Lenta.ru Федор Пономарев, объяснил промах тем, что сходу не смог вспомнить фамилию свеженазначенного премьер-министра Виктора Зубкова и для скорости написал в черновом файле «рыбу» - первую фамилию, которая пришла ему в голову, чтобы позже ее заменить. Но забыл.

После этого, вспоминает Лев Гершензон, кроме простой фильтрации обсценных слов в программу добавили принцип «ядерности», или «немаргинальности» лексики заголовка. Что это значит? Если большинство изданий пишет «ополченцы», то у заголовка со словом «сепаратисты» меньше шансов возглавить сюжет.

Недавно в новостной алгоритм внесли очередное изменение. «После проведения референдума в Крыму позиция зарубежных и российских СМИ стала диаметрально противоположной. Началась пропагандистская война, и мы решили ставить в выдачу отдельно российские источники, отдельно-иностранные, отдельно-иноязычные. Сейчас «робот» разделяет их по формальному признаку, по адресу редакции», - рассказывает Татьяна Исаева.

Сборки и разборки

«У меня ощущение, что этот агрегатор был всегда, - говорит Галина Тимченко, экс-редактор издания Lenta.ru. - В какой-то момент мы поняли, что он, в отличие от нашей материнской компании, «Рамблер», поступает с нами честно. Если «Рамблер» забирал у нас «полнотекст» новости, а в обмен ставил крошечную ссылку в конце текста, то «Яндекс» давал наш анонс, ничего не требуя взамен. Естественно, мы заведомо его любили».

В самые плохие времена, вспоминает Тимченко, «Яндекс» приносил Lenta.ru до 7% дневного трафика, в лучшие - 18% (в среднем на Lenta.ru заходят порядка 1,3 млн пользователей). В «Яндексе» никогда не скрывали принцип попадания в топы, говорит Тимченко, напротив, регулярно проводили семинары, на которых объясняли, как работать с источниками новостей.

Периодически в «Яндексе» проходили встречи главных редакторов СМИ: первая, в 2009 году, состоялась по инициативе Тимченко и Гершензона и закончилась скандалом. «Главные редакторы переругались и мерялись, у кого более лучшие новости, - рассказывает участвовавший в ней исполнительный директор службы финансово-экономической информации «Интерфакса» Юрий Погорелый. - Вообще, в Интернете есть такой момент: ты передал что-то эксклюзивное, а это берут к себе и получают отличную аудиторию. Как я помню, это и была суть дискуссии: чье право первой ночи». Но после той встречи редакции стали аккуратнее давать ссылки на первоисточник, говорит Погорелый.

Агрегат и агрегатор

Основными конкурентами «Яндекса» на российском рынке являются «Рамблер» и Mail.Ru. Первым ресурсом на паритетных началах владеют Владимир Потанин и Александр Мамут, основные акционеры второго - Алишер Усманов и его партнеры. У обеих компаний есть свои новостные агрегаторы.

По словам руководителя новостного сегмента «Рамблера» Максима Токарева, под его началом трудится 13 человек, а новости, попадающие на главную страницу и в топ, собирает тоже «робот». Но, в отличие от «Яндекса», есть ручное управление: редакторы исправляют ошибки, опечатки и переписывают заголовки, приводя их «в нормальный глагольный вид».

Новости Rambler.ru созданы 14 лет назад, и сначала работали по жесткой схеме. «40-50 источников, со всеми - твердые соглашения на публикацию «полнотекста». Редакторы сами распределяли новости по рубрикам - это в спорт, это в светскую хронику, это на главную страницу», - разъясняет Токарев. Первого «робота» в редакции запустили в 2008 году, и с этого момента полностью в ручной режим переходили лишь однажды - в 2013 году, когда в Челябинске упал метеорит. «Метеоритные» новости ставили руками, чтобы обогнать «Яндекс», признается Токарев. Пока Rambler.ru отстает: по данным TNS. Web Index, ежедневная аудитория его «Рамблер-Новостей» в мае 2014 года составляла 1,4 млн человек.

Новости на Mail.Ru выстроены по двум схемам - платной и бесплатной. Стоимость графически-текстового блока (фотография и заголовок) в новостном разделе - от 15 до 20 рублей за 1 тыс. показов. Можно выкупить статичный блок под новости конкретного ресурса - от 4,5 млн до 5,1 млн рублей за месяц.

По словам руководителя сервиса «Новости@Mail.Ru» Евгения Виноградова, у компании есть пул из 250 поставщиков контента - информационных агентств, электронных СМИ, сайтов радиостанций, газет, телеканалов. Решение о бесплатной републикации принимает редакция, в штате которой 30 человек. 99% содержимого обрабатывается вручную: Виноградов уверен, что новостная картина должна быть представлена «в едином стиле».

Бесплатная модель работает по бартеру. «С каждым источником заключаем договор на использование неисключительных прав, с одной стороны, и предоставление информационного блока с заголовками, с другой», - поясняет Евгений Виноградов. По данным TNS. Web Index, аудитория «HОBOCTИ@Mail.Ru» в мае 2014 года насчитывала 4,3 млн человек. Крупные поставщики новостей, например «Россия сегодня», получают от новостного агрегатора до 100 тыс. переходов в сутки. Содержимое новостного раздела составляют преимущественно СМИ, зарегистрированные в России, говорит Виноградов.

Признавать или не признавать?

На первых этапах своей работы «Яндекс» «подвергся западному влиянию», заявил Владимир Путин на медиафоруме в Санкт-Петербурге в апреле 2014 года: по нынешним временам это почти черная метка. На вопрос «блогера», не стоит ли признать «Яндекс» СМИ, президент ответил: «Сейчас и в правительстве, и в администрации президента рассматривается вопрос, обсуждается и общественностью, что признавать средством массовой информации, что не признавать».

И уже в середине мая депутат Госдумы Андрей Луговой направил в Генпрокуратуру РФ заявление «на предмет проверки «Яндекса» в качестве СМИ». В печати появились заметки о готовящемся законопроекте, по которому новостные агрегаторы поисковиков обяжут регистрироваться в качестве СМИ. В конце июня депутат от ЛДПР Вадим Деньгин приехал с визитом в «Рамблер» - чтобы «понять принцип работы новостного агрегатора».

В офис Rambler & Со. Деньгин пришел с рожком мороженого в руке. Заявил, что государство должно знать, «кому предъявлять претензии, если про него гадости пишут». Предположил, что регистрация агрегаторов как СМИ облегчит процедуру контроля. На вопрос, дает ли это возможность закрытия ресурса после вынесения двух предупреждений Роскомнадзора, ответил: «Вроде этого». Ну, может, «не после двух предупреждений, а после четырех».

На прощание депутат заявил, что «сходными законами регулируется деятельность Интернета на Западе». Представитель Google ответил, что США деятельность его новостного агрегатора не регулируют как СМИ. «Новости - это алгоритмический механизм, выдача формируется автоматически, по этим причинам сервис не может быть объектом того же регулирования, что и СМИ», - уточнили в Google. В пресс-службе отказались ответить на вопрос, входит ли кто-то из руководителей компании в группу по подготовке нового законопроекта.

Спутник государства

Зато в подобные рабочие группы входит Алексей Басов, вице-президент компании «Ростелеком», ответственный за разработку национальной поисковой системы «Спутник». Агрегатор «Спутника» работает с 2,5 тыс. источников, получая материал по RSS; чтобы отфильтровать «противоправный контент», в выдаче используются только зарегистрированные в России СМИ и официальные источники информации. Пока штат редакции новостей - пять человек, но он должен вырасти: у «Спутника» «большие планы по расширению возможностей сервиса».

Источники в СМИ обходит «робот», он же объединяет их в сюжеты и выводит на страницы агрегатора. «Наша задача состоит не в том, чтобы отразить все разнообразие мнений о новостных поводах. Важнее дать общее представление о событиях, ядро. В этом плане мы отдаем предпочтение крупным информационным агентствам», -рассказывает Басов.

По его мнению, «у агрегаторов может быть довольно большая аудитория, даже больше, чем у источников, с которыми они работают, государство имеет право разобраться, чем они руководствуются». Пока «Спутник» функционирует в тестовом режиме: на момент подготовки материала его посещаемость составляла порядка 100 тыс. заходов в сутки, однако в первый день работы нового поисковика на сайт зашли более 500 тыс. человек. «Спутник» обещает отфильтровывать обсценную лексику, так как намерен устанавливать систему в образовательных учреждениях.

По данным источника «РБК» в IT-отрасли, слухи о разработке «Спутника» пошли с 2008 года, с момента первого визита людей из АП в «Яндекс». Басов не может вспомнить точную дату, но признает, что разговоры о создании национального поисковика действительно велись несколько лет.

Эта музыка будет вечной

Через месяц нервотрепки с проектом закона под условным названием «Заставим новостные агрегаторы регистрироваться как СМИ» Госдума включила обратный ход. Источники говорят, что Генпрокуратура «не усмотрела в «Яндексе» признаков СМИ». «Тема новостных агрегаторов поставлена на паузу», как прокомментировал это событие депутат Деньгин.

«Яндекс» продолжает настаивать: новостной агрегатор работал, работает и будет работать без «ручной сборки». Тем, кто в это не верит, Елена Колмановская предлагает полевой эксперимент: «Мы выведем весь коллектив на улицу, все пять с лишним тысяч человек. Проведем час во дворе, а новости, как раньше, будут периодически обновляться без всяческого человеческого участия».

«Эту часть истории трудно понять, пока ты не поработал в «Яндексе». Там верят только в одну вещь - объективность, возведенную в абсолют», - утверждает Александр Ларьяновский, на протяжении четырех с лишним лет работавший директором «Яндекса» по региональному развитию. «Яндекс» - это система, которая ищет быстрее, чем ты можешь вспомнить, система, которая ищет черт те знает где в компьютере, при этом значение слов меняется на ходу, у тебя есть миллиарды документов, которые дышат, то есть меняются. Этим можно смело гордиться, это на уровне запуска человека в космос», - уверен Ларьяновский. Но когда весь масштаб «Яндекса» осознает государство, это может иметь побочные последствия.

В 2008 году «Яндекс» планировал провести IPO и привлек к себе внимание не только из-за новостей про войну в Грузии. Чиновники говорили на встречах с основателями «Яндекса», что компания очень хорошая и стратегически важная для страны, а вот акционеры у нее «неправильные», западные. Вскоре появился и кандидат в «правильные» акционеры - миллиардер Алишер Усманов, который хотел начать свой путь в Интернет с покупки доли в «Яндексе».

«Регулировщиком» тогда стал Александр Волошин, бывший руководитель АП и знакомый Аркадия Воложа, сумевший убедить людей в Кремле поверить «Яндексу». В качестве гарантии лояльности компании пришлось выпустить и передать в залог Сбербанку «золотую» акцию, среди прочего дающую право вето на скупку более 25% акций поисковика. Алишер Усманов отступил от «Яндекса» и вложился в Mail.Ru, затем - в Facebook и прочие проекты международного уровня. А «Яндексу» не напоминали о «врагах», прокрадывающихся в новостной агрегатор, вплоть до появления этих врагов - на этот раз на Украине.

«Берем бритву Оккама и отрезаем лишнее: в каких случаях чиновники интересуются «Яндексом»? Когда он показывает новости, неугодные власти, - говорит Александр Ларьяновский. - Ты пойми, они от «Яндекса» никогда не отступятся». Шаг вперед, два шага назад.

(с) Светлана Рейтер