Трудности перевода

Искусство интеллекта

Искусственный интеллект — это зонтичное понятие, которое включает в себя набор математических методов: формул, алгоритмов и разных других математических моделей. Я занимаюсь компьютерными языковыми технологиями. Еще мою область называют «автоматическая обработка текстов». В обычной жизни вы сталкиваетесь с результатами нашей работы, когда используете сервисы проверки правописания, спам-фильтры, подсказки, как правильно написать то или иное слово, поиск в Google, обращаетесь к Алисе и другим голосовым помощникам.

70 лет машинному разуму

Первые попытки что-то делать с текстами с помощью математических или компьютерных методов были предприняты в 1950-х годах. Вот уже 70 лет люди пытаются применять статистику и другие компьютерные технологии для того, чтобы работать с текстами. В этой научной области, как и в большинстве других, предела совершенству нет. Например, сейчас хорошо зарекомендовала себя проверка правописания и другие инструменты работы для 150 языков, включая русский. Но языков гораздо больше. Более 7 тысяч. Современные ученые активно занимаются созданием базовых инструментов для них. Например, на территории России малым языком можно считать язык карелов. Для работы с ним и подобными ему, скорее всего, нет никаких инструментов. Их еще предстоит создать. А те инструменты, что уже созданы и используются, нужно развивать и развивать. На это уйдет не одно десятилетие. Тот же Google translate работает неплохо для очень ограниченного набора ситуаций. Он может хорошо переводить новости, но, когда нам нужно перевести художественное произведение или посты из Twitter, в которых предложения строятся нестандартно, часто присутствует сленг или те же эмодзи, переводчик не справляется.

Гонка на опережение

Если говорить о будущем в той области, которой занимаюсь я, здесь идет своего рода гонка на опережение. Одни люди делают системы, которые умеют хорошо писать какие-то тексты (например, генерировать новости), причем делают их максимально близкими к тому, что мог бы написать живой человек. Мы все знаем, что такое боты и фейк-ньюс. Или есть еще такая вещь, как фальсифицированные научные статьи. Все это может быть использовано во вред обществу. Соответственно, один из моих проектов — создание инструментов, которые могут прочесть текст и определить, был он написан человеком или сгенерирован какой-то моделью. Наша цель — сделать что-то, что позволит выявлять тексты, написанные не людьми. Более долгосрочная цель наших исследований — создать инструмент, который будет проверять любой текст на наличие фактических «неточностей» и на то, как он соотносится с общеконвенциональным пониманием правды. Я имею в виду не случайные ошибки, а осознанную манипуляцию датами и фактами. Если все это получится сделать, то в будущем у нас появятся системы верификации текстов, и когда вы будете что-то читать, ваш браузер вас предупредит «Осторожно! Возможно, этот текст содержит специальное искажение фактов» или «Все написанное здесь подтверждается несколькими независимыми источниками».

Наука на практике

Моя область науки будет любопытна тем, кому интересны разные технологические решения (можно сказать, что обработка текстов — это высокотехнологичная область), тем, кто хочет делать что-то реальное и смотреть, как технологии работают на практике. И помимо того, что заниматься анализом текстов интересно, это еще и прибыльно. Количество компаний-работодателей на рынке, которые занимаются обработкой текста, растет с огромной скоростью.

Вот уже 70 лет люди пытаются применять статистику и другие компьютерные технологии для того, чтобы работать с текстами.

Оборотная сторона технологий

На мой взгляд, прежде чем говорить о каком-то светлом будущем, в котором компьютер станет для человека относительно интересным собеседником и многое из того, что мы сейчас делаем с помощью компьютерной мышки, мы сможем делать с помощью голоса, нам, как ученым, предстоит долго работать над безопасностью пользователя при внедрении этих умных технологий. Мы должны предусмотреть социальные и этические риски. Например, одна из опасностей автоматизации быта — возможность полного отказа от выхода из дома и общения с другими людьми и, соответственно, рост количества депрессивных случаев. Конечно, забота о безопасности будет тормозить запуск любых, даже самых перспективных разработок, но они все равно будут внедряться — постепенно, после оценки всех рисков и испытания на фокус-группах.