Интервью · Общество

Когда Иннокентий Смоктуновский «снимется» в «Игре престолов»

Интервью руководителя лаборатории машинного интеллекта «Яндекса» Александра Крайнова

В мире не утихают споры об опасности искусственного интеллекта. Алгоритмы лишают людей рабочих мест, без спроса собирают персональные данные и наводняют интернет фальшивым контентом. В то же время умение анализировать информацию и искать в ней неочевидные закономерности уже стало одним из ключевых навыков XXI века. Россия в этой сфере пытается не отставать от мировых трендов. Несмотря на часто неуклюжие попытки властей регулировать новые технологии, здесь есть сильные разработчики и крупные IT-компании. Яркий пример — «Яндекс», который давно перестал быть «просто поисковиком» и превратился в сложную цифровую экосистему. «Новая» обсудила с руководителем Лаборатории машинного интеллекта «Яндекса» Александром Крайновым основные вызовы, связанные с нейросетями нового поколения.

Александр Крайнов и автономный робот-консультант для бизнеса Промобот. Фото: РИА Новости

— В последние годы IT-компании захватывают одну отрасль экономики за другой. «Яндекс», например, выстроил целую экосистему из самых разнообразных сервисов: финансы, доставка еды, транспорт, музыка, «умный дом», голосовой помощник, новостные агрегаторы... Не закончится ли эта экспансия полным доминированием технологических компаний?

— Все сферы IT-компании точно не заполнят. Я не представляю, например, как мы бы пошли добывать нефть. Просто есть ряд индустрий, в которых меняется место, где можно создавать добавленную стоимость. Например, мы собрали большое количество музыки и дали людям доступ к ней. Выигрывать конкуренцию в такой ситуации начинает тот, кто делает самые эффективные рекомендательные системы, построенные на базе машинного обучения. Или взять беспилотный автомобиль: он поездит, а потом приезжает и заливает собранные данные на серверы.

Один автомобиль собирает примерно 1 гигабайт в минуту — представляете, какие это объемы данных? Надо уметь их хранить, обрабатывать, анализировать — это сложное умение, которое не берется из ниоткуда.

Получается, что лидерство здесь у тех, кто разрабатывает наиболее функциональные системы управления беспилотниками. При этом «Яндекс» не делает собственные автомобили, мы создаем только программное обеспечение и предлагаем его производителям, как в случае с Hyundai.

Если поговорить с банками, то все они сейчас говорят: «Мы не финансовые, а IT-компании». Я общался с людьми, которые делают пиццу, и они говорят то же самое: наш основной навык — это алгоритмы доставок, кулинарная часть здесь не столь важна. Но все равно остается граница, которую IT-компании не переходят. И определяется она очень просто: там, где конкурентное преимущество — это умение работать с данными, побеждают IT-компании, а там, где надо что-то производить — закручивать гайки, сверлить, бурить, побеждают все остальные.

— Вам не кажется, что эта тенденция увеличивает риски монополизации? Все сервисные услуги по факту могут оказывать несколько крупных интернет-компаний.

— Скажем так, наша позиция состоит в том, что мы за конкуренцию и равные возможности для всех. Правильно и здорово, если государство следит за тем, чтобы никто не злоупотреблял своим положением на рынке. Это означает, что никакие административные запреты не нужны, конкуренция прекрасно развивает качество сервиса. Если сравнить качество поиска в России и в некоторых других странах, можно заметить, что у нас оно сильно выше. Когда у компании 99 % рынка, она не заинтересована в улучшении. В России совсем не так. Сейчас ситуация хорошая, надеюсь, она такой и останется.

— В мире ведь достаточно мало стран, в которых до сих пор существует свой национальный поисковик?

— Россия, Китай, Южная Корея, США — все, больше нигде в мире нет своих поисковиков.

— А с чем это связано?

— В каждой конкретной стране это связано с наличием в ней конкурентоспособной компании. В России есть «Яндекс» и его замечательные разработчики, которые поддерживают качество сервиса на высоком уровне. Если говорить про Южную Корею, то там есть очень высокотехнологичная компания Naver, ориентированная на локальный рынок. Мы смотрим на китайский поисковик Baidu и видим, что там высочайшее качество поиска, это абсолютно конкурентоспособный сервис, даже если убрать все административные препятствия для иностранных сервисов.

В Китае вообще очень сильна локальная конкуренция: чуть расслабишься — тут же придут другие, даже если у тебя сейчас 90 % рынка. В США идет давняя битва между Bing от Microsoft и Google, качество сервиса тоже очень высокое. А вот в других местах локальные игроки проигрывают. Я с грустью смотрю, как в Чехии постоянно деградирует местный поисковик, у которого раньше была высокая доля рынка, а сейчас меньше 10 %. Хотя чехи любят свой поисковик, они все больше пользуются Google.

Фото: РИА Новости

— Сейчас много говорят о фрагментации интернета, его дроблении на отдельные сегменты. Из опросов видно, что новые поколения пользователей часто воспринимают платформы (Facebook, Google, Wikipedia) обособленно, а не как часть Всемирной сети. Нет ли здесь угрозы, что мы окажемся заперты в герметичных экосистемах нескольких крупных корпораций?

— Мне кажется, что об этих тенденциях говорят с момента появления интернета. Я такой проблемы не вижу: информационная связность постоянно повышается. Да, вспухают локальные сервисы и сообщества, живут какое-то время, но быстро растворяются. Если говорить про ощущения людей, то они иногда думают, что интернет — это браузер или поисковая система. Эти понятия часто путаются, поскольку базовая грамотность не очень высокая. Но нет такого, что одна среда никак не пересекается с другой. Может быть, в случае соцсетей это в какой-то степени так, но у людей часто бывают аккаунты в разных соцсетях. А если какие-то сервисы начинают разделяться слишком сильно, то появится третий сервис, который объединит первые два. Другое дело, что иногда случается, что на рынке появляется монополист и начинает диктовать свои условия, но в этой ситуации должны брать слово антимонопольные комитеты.

«Отличить настоящее видео от созданного нейросетью будет невозможно»

— В последние месяцы самые громкие новости вокруг искусственного интеллекта связаны с технологией DeepFake, которая позволяет создавать фейковые фото и видео. В Китае существует целый теневой рынок таких услуг: можно, например, вставить лицо любого человека в ролик эротического содержания. Даже российское приложение FaceApp с состаривающим фильтром для фотографий, внешне довольно безобидное, привлекло внимание американского конгресса. Что это за технология и почему она вызывает столько шума?

— Одно из самых ярких открытий в обучении нейросетей за последние пять лет — это так называемые генеративно-состязательные нейросети. Идея такая: есть две нейросети, одна из который контент создает, а другая пытается отличить настоящий контент от созданного нейросетью. Если создающая контент нейросеть не смогла обмануть проверяющую нейросеть, то ей дается обратная связь о том, что нужно делать как-то по-другому, потому что так ее легко раскусить. Если проверяющая нейросеть ошибается, то ей тоже дается обратная связь. Так, соревнуясь и обучая друг друга, нейросети доходят до очень приличного уровня.

И вот в результате нейросети научились создавать изображения, неотличимые от настоящих. Здесь важно дать определение термину «настоящее». Если мы говорим про живопись, это значит то, что мог бы создать настоящий художник. Если про фотографию, то она должна быть неотличима от реальной фотографии, то есть достигается максимальный фотореализм. Что происходит дальше? С одной стороны, нейросеть начинает работать все лучше и лучше, с другой стороны, процесс происходит все быстрее: контент создается не за полчаса на сервере, а мгновенно и прямо на вашем телефоне. И, разумеется, спектр применения этой технологии самый широкий.

Есть игровые и развлекательные истории, как с FaceApp. История с фотожабами довольно давняя, просто раньше для этого нужен был Photoshop. А теперь ты берешь лицо, и нейросеть вставляет его куда угодно. Надо понимать, что эти картинки — это не то, как человек будет выглядеть в старости, это лишь один из вариантов, которых существует бесконечное множество. Но при этом довольно реалистичный вариант.

Эта технология будет стремительно расти, развиваться, что приведет к значительным изменениям в кино. Например, мы увидим синтезированных актеров, которых никогда не существовало в реальности. Это особенно критично для продюсеров, ведь сейчас бывает так, что актер может отказаться от дальнейшей съемки и тем создать большие проблемы, а с нейросетью такой проблемы не будет.

В какой-то момент времени пользователь сможет сам решать, кто должен играть в фильме. Можно будет собрать свой актерский состав. Например, интересно, как бы Иннокентий Смоктуновский сыграл в «Игре престолов».

Конечно, встает вопрос, насколько можно будет доверять видео с доказательной точки зрения. Наверное, уровень доверия сильно пострадает, потому что качество синтеза будет обгонять технологии, позволяющие отличать подделки. Все это дойдет до такого уровня, что отличить настоящее видео будет невозможно, и мы перестанем доверять фотографиям и видео как чему-то авторитетному. В течение переходного периода общество, скорее всего, будут сотрясать скандалы, потому что не все люди еще поняли, что происходит. Но со временем к новой реальности мы привыкнем.

Что говорить о менее этичных сервисах для взрослых. В этот сегмент тоже приходят высокие технологии, но чуть медленнее, потому что ни одна большая компания высокотехнологичная не захочет портить свою репутацию и идти в эту область. Но, как ни крути, технология появилась и становится все доступнее, и области ее применения растут.

Фото: РИА Новости

— Это происходит и с другими формами информации. Есть нейросети, которые умеют генерировать связный текст практически на любую тему, и они считаются идеальным инструментом для создания fake news.

— К текстам доверия нет уже давно, с созданием fake news неплохо справляются и люди. Умение нейросетей осознанно вести диалог существует: у нас есть Алиса, которая общается с пользователями. Это выглядит абсолютно естественно, даже если пользователь знает, что это бот. Что касается генерации текстов машиной, это тоже проблема не новая. Например, в поисковой выдаче важно показывать контент, который создан именно людьми, а не роботами. Есть большое количество вебсайтов, даже, наверное, большинство, которые генерируются автоматически, хотя выглядят как настоящие. И есть отзывы, которые пишут роботы. Такие отзывы мы стараемся детектировать и не учитывать. Появляются все более совершенные методы машинного обучения, которые позволяют это обнаруживать. Но и те, кто создает такие сайты, тоже на месте не стоят. У них тоже развиваются алгоритмы. Эта борьба идет уже больше 10 лет и будет продолжаться и дальше.

— Кроме проблемы фейков, есть страх того, что приложения вроде FaceApp недобросовестно используют пользовательские данные. Что чисто теоретически можно сделать с миллионами загруженных фотографий пользователей — тренировать на них нейросети, продавать другим компаниям?

— Есть бесстрашные люди, которые везде все выкладывают, а есть те, кто сразу начинает подозревать, что все их данные собирают. Как происходит на самом деле? Если где-то в Сети есть ваше фото и рядом подписано имя — это значит, что есть потенциальная возможность по имени найти ваше фото, и наоборот. Страшно ли это? Лично я так не думаю, но для кого-то эта проблема, и она вполне реальна.

А если где-то есть ваше фото без какой-либо информации, то использовать ее никак нельзя (по заднему плану в редких случаях можно определить локацию, но не более того).

FaceApp собирает только фотографии и больше ничего. Это не создает никакой проблемы для безопасности. Вот если приложение запрашивает геопозицию, номер паспорта или кредитки, и вы не понимаете, зачем это нужно, тогда стоит волноваться. Если это банк или, например, каршеринг, то понятно. А если это приложение-калькулятор — то это, мягко говоря, подозрительно.

Более того, с базой пользовательских лиц ничего нельзя сделать. Тренировать нейросети на этих фотографиях невозможно — это просто случайный набор лиц, которых навалом в интернете. Если бы вас просили прислать серию фотографий, как вы выглядели в молодости и как выглядите сейчас, это было бы интересно. Но если это просто точка в текущем моменте, то на ней учиться нельзя.

Александр Крайнов. Фото из архива

«Вся идея машинного обучения — находить в данных неочевидные закономерности»

— В России прямо сейчас обсуждаются поправки в закон о персональных данных, позволяющие компаниям использовать данные граждан без спроса, если они приведены в обезличенный вид. Предполагается, что это поможет создать здоровый рынок данных. Вы поддерживаете эту инициативу?

— Здесь всегда есть борьба между двумя факторами. Возьмем чувствительную область — медицину. Хочет ли человек, чтобы его история болезни была известна всем? Конечно, нет. Но при этом все хотят, чтобы появились новые методы лечения. Медицина очень сильно зависит от статистики, а современные методы обучения позволяют анализировать огромное количество данных. И если бы была накоплена общая база с историей болезни, методами лечения и результатами, то медицина могла бы сделать огромный шаг вперед. Получается, что мы, с одной стороны, должны обезопасить пользовательские данные, а с другой, понимаем, что они необходимы для прогресса.

Существует разумный компромисс: брать данные и агрегировать их таким образом, чтобы нельзя было ничего узнать о конкретном пользователе. Обезличенные данные не содержат ФИО или чего-то еще, позволяющего идентифицировать человека. Имя меняется на случайную цифру, плюс добавляется некий дополнительный шум в виде диапазонов. В итоге в базе будет указано что-то вроде: «№ 123 в возрасте 32–33 года ростом 175–185 см перенес такое-то заболевание». Это затрудняет идентификацию конкретного человека, потому что получится, что таких людей может быть 1 млн. При этом обезличенные данные можно группировать, кластеризовать и находить в них различные закономерности.

— Иногда способность нейросетей находить неожиданные закономерности в огромных массивах данных создает пугающее впечатление, что алгоритмы видят человека насквозь.

— Такая способность, безусловно, существует. В этом и есть вся идея машинного обучения — находить в данных неочевидные закономерности. Но фраза о том, что алгоритмы видят нас насквозь, не совсем верна. Не всегда эти закономерности можно как-то интерпретировать, обосновать. Этого при машинном обучении как раз чаще всего не делается. Можно только сделать предположение с какой-то долей вероятности, какой вклад в финальное решение дает тот или иной фактор. Но, вообще, такое умение машины находить закономерности весьма полезно. Например для рекомендательных систем. Скажем, «Яндекс.Музыка» рекомендует мне малоизвестных исполнителей, которых я сам или мои друзья никогда не нашли бы. Если алгоритм будет рекомендовать мне ресторан на основе моих вкусов, и это будет работать, то мне по большому счету будет совершенно неважно, на каких нюансах моего поведения построена эта система.

Я также хотел бы, чтобы алгоритмы рекомендовали людям пойти к врачу, потому что диагностика на ранней стадии — это очень важная вещь.

Многие люди не ходят к врачу, пока совсем не разболится. А если система будет настойчиво говорить, что есть такой-то существенный персональный риск, это будет здорово. При этом совсем необязательно, чтобы про этот риск знали все.

— Но если вы знаете скрытые особенности поведения человека, то можете более эффективно воздействовать на него, в том числе в политических целях.

— К счастью, система работает таким образом, что понять вклад и комбинацию различных факторов, из-за которых получается именно такая рекомендация, невероятно тяжело. Поэтому сделать обратную систему, которая говорила бы, что человеку нужно рекомендовать, чтобы он повел себя тем или иным образом, намного сложнее. Наверное, в какой-то степени это возможно, но сильно сложнее. При этом это делается и так безо всякого искусственного интеллекта. Понятно, что если вы хотите привить людям любовь к родине, то будете показывать им патриотические фильмы. Во всех странах так делают. Говорить, что искусственный интеллект создает возможности для каких-то супертонких манипуляций, я бы не стал.

Фото: РИА Новости

— Вы привели в пример медицинские открытия, но ведь в большинстве случаев машинное обучение используется для более прозаичных целей, таких как продажа таргетированной рекламы. Нужно ли разделять чисто коммерческое использование «больших данных» и инициативы, которые можно считать общественно значимыми?

— Я бы не сказал, что коммерческие цели не являются общественно важными, потому что таргетирование рекламы — это возможность наиболее эффективно связать потребителя и производителя услуги. Идеальный вариант — это когда рекламируется то, что человеку действительно нужно. Другой пример — это банковский скоринг, системы, которые определяют, выдавать кредит человеку или нет. Все мы знаем, что часть людей кредиты не возвращают. В результате банк должен эти риски закладывать в процентную ставку, в том числе для добропорядочных заемщиков, которые оплачивают потери банков от невозвратов.

Если скоринг становится точнее, то деньги распределяются более эффективно, и общество становится здоровее в целом. Это не значит, что кто-то на ком-то наживается.

— Скоринговые системы не могут определить причины, по которым некоторые заемщики не возвращают долги. Более того, они могут отказать человеку по формальным критериям — например, из-за цвета кожи или потому, что он из бедного района. Не приведет ли это к закреплению существующего в обществе неравенства?

— Я согласен, но здесь есть два момента. Во-первых, мы должны давать алгоритмам больше данных, и тогда они смогут обращать внимание на остальные факторы. Во-вторых, мы, безусловно, не всегда максимизируем только эффективность. Увы, возможно, предоставление людям неравных прав от рождения — это в короткой перспективе может оказаться более экономически эффективной моделью. Но я думаю, что большинство из нас проголосует за мир, который чуть менее эффективен, но более справедлив по канонам морали и нравственности. Мы много где сталкиваемся с этой проблемой. Например, есть квоты для людей с ограниченными возможностями — такую же механику мы можем перенести в программу. Этические нормы довольно легко закладываются в алгоритмы, это вполне контролируемый процесс.

«Ни в одной серьезной компании термин «искусственный интеллект» не используют»

— Технологии компьютерного зрения активно применяются в беспилотниках, причем «Яндекс» является одним из лидеров на этом рынке. Как именно беспилотный автомобиль «видит» и оценивает ситуацию на дороге?

— В беспилотнике работает не только компьютерное зрение в чистом понимании. Помимо камер, там установлены еще и лидары — устройства, которые измеряют дистанцию до объекта. Плюс работает определение геопозиции по спутнику и строится специальная карта местности — не такая, как для человека, — чтобы машина хорошо понимала, где она находится. В результате получения сигналов первое, что делает беспилотник, — это создает трехмерную картину окружающего мира. И дальше с помощью специальных алгоритмов происходит разметка: что значит каждый объект, где пешеход, где автомобиль и так далее. Кроме того, алгоритм анализирует, как эти объекты перемещаются, и строит предположения для каждого объекта, где он окажется в следующий момент времени. Непрерывно происходит пересчет того, как себя нужно повести, по какой траектории проехать, какие манипуляции с органами управления произвести. Самое сложное, пожалуй, именно в этом: предсказывать поведение объектов, особенно людей. Машина учится на основе каких-то реальных историй, ездит по городу, накапливает большое количество информации и уточняет свое поведение. Поэтому, кстати, так важно количество часов, которые наездил беспилотник: алгоритм учится только в реальных условиях.

Фото: РИА Новости

— Когда полноценные беспилотники появятся на российских дорогах?

— Сейчас наши беспилотники ездят по улицам с водителем. Он не вмешивается в ситуацию, но должен сидеть за рулем. К сожалению, пока по закону иначе нельзя. Сложно загадывать, когда появятся полностью автономные машины, потому что здесь должно сойтись несколько вещей. Технологическая готовность здесь не самое узкое место, беспилотники в принципе готовы ездить. Но есть несколько очевидных моментов в законодательной базе, которые должны быть проработаны. Сначала появятся тестовые зоны, которые будут расширяться, и постепенно мы придем к правильному регулированию. В мире такие места уже есть, в Лас-Вегасе, например, наш беспилотник ездил по лицензии без водителя за рулем.

Осторожно предположу, что оптимистичный прогноз появления на наших улицах беспилотников в рабочем режиме эксплуатации случится года через четыре.

— Критики термина «искусственный интеллект» часто обращают внимание на то, что реальные алгоритмы настроены на крайне ограниченное число задач. Нейросеть, обыгрывающая чемпиона мира в го, не смогла бы справиться с простейшими действиями в физической среде.

В Кембриджском университете разработчики пытаются решить эту проблему, заставляя нейросети учиться «выживать» в виртуальной среде (по аналогии с живыми организмами, которые ищут пищу и прячутся от хищников). Могут ли такие эксперименты приблизить нас к появлению универсального ИИ?

— Думаю, что не могут, либо это приближение будет пренебрежительно малым. Ни в одной компании, которая серьезно занимается тем, что мы называем ИИ, внутри себя этот термин не употребляет. Специалисты в общении друг с другом говорят о машинном обучении. А искусственный интеллект — это такой публичный пиар-термин.

То, как работают алгоритмы, в чем-то напоминает работу мозга, а в чем-то кардинально отличается. Задачи воспроизвести мозг в подавляющем большинстве случаев не стоит (есть люди, которые этой задачей специально занимаются, но на текущий момент она лишена практического результата). Все главные достижения основаны не на воспроизведении мозга, а на том, чтобы сделать максимально эффективную систему, исходя из аппаратных возможностей компьютера.

И универсальные системы тоже никто не делает, они неэффективны и лишены смысла. Даже если есть черный ящик с большим количеством функций, внутри он все равно будет устроен как швейцарский нож. То есть внутри есть классификатор: для одной задачи используется нож, для другой — плоскогубцы и так далее. Это разные инструменты, которые собраны под одной крышей и никак не связаны друг с другом.

Мозг работает по-другому — весь наш предыдущий жизненный опыт влияет на ту задачу, которую мы решаем сейчас. С одной стороны, в этом наше преимущество: мы быстрее адаптируемся к новым задачам. Но и недостаток: если надо решить очень узкую задачу в области с ограниченным набором данных, то лишние ассоциации только мешают. Машина лучше решает задачи в четкой среде, а везде, где что-то непонятно и меняются условия, человек эффективнее. Например, го — это невероятно сложная игра, но с ограниченным количеством вариантов и очень четкими условиями. Начиная с определенного уровня мастерства, весь остальной опыт начинает мешать человеку, и здесь машина начинает выигрывать.

Если говорить об экспериментальной задаче, когда алгоритм помещается в виртуальную среду, то этот подход давно используется. Виртуальная среда — это тоже упрощенная модель, в которой нет огромного количества случайных факторов, как в жизни. Есть такой метод — обучение с подкреплением, когда алгоритм помещается в среду, делает что-то и получает от системы обратную связь. Роботы так учатся ходить — на моделях, где физика как в настоящем мире. Это не полное обучение, выпусти такого робота — и он тут же упадет. Но в виртуальной среде он учится хоть чему-то, получает предварительные навыки.

Также с беспилотниками, которые тренируются на игровых движках. Это не значит, что после такой тренировки машина может сразу выехать на дорогу, но учить с нуля ее тоже не нужно.

Любое обучение, которое получает система в замкнутой среде, возможно и работает именно потому, что это замкнутая система. Из этого не следует, что таким образом появится супермозг, который начнет реагировать на события, которых в этой маленькой среде нет. Даже в эксперименте, о котором вы говорите, цели выживания наверняка сформулированы на строгом математическом языке.

— Говорят, что следующий рубеж, где ИИ окончательно обойдет человека, — это киберспорт: Dota 2 и Starcraft. Чем компьютерные игры сложнее остальных задач, где человек уже проиграл алгоритмам?

— Новизна этого рубежа в том, что в компьютерных играх больше набор вводных сигналов: есть сложная визуальная картинка, многое меняется. Нам жизненный опыт помогает определять, где персонаж, где оружие, где дерево — мы понимаем это сразу. А машине надо это выучить. Компьютерные игры, которые эмулируют реальную жизнь, намного сложнее на начальном этапе, потому что для алгоритма это чистая абстракция. Те же шахматы и го для них проще, потому что изначальная формулировка задачи гораздо более математична. Но как только машина в Dota 2 начнет правильно переводить ситуацию и задачу на язык формул, то дальше проблем не будет — выбор наилучшей стратегии она найдет моментально.

Когда Иннокентий Смоктуновский «снимется» в «Игре престолов»

Интервью руководителя лаборатории машинного интеллекта «Яндекса» Александра Крайнова

{{title}}

{{{title}}}