Когда машина научится переводить Шекспира?

Компьютерная лингвистика: перевод без личности

Пока одни учат иностранные языки, другие надеются на компьютеры и ждут, когда они начнут делать все за человека. Редактор раздела образования W→O→S Мария Долгополова сходила на первую лекцию из цикла «Компьютерная лингвистика» в Политехническом музее, записала все сказанное, сверила полученные данные с мыслями молодого специалиста в этой области и проверила теорию на практике.

В теории

Компьютерная лингвистика — использование математических методов при решении языковых задач. Самые частые: автоматический перевод текста, создание электронных словарей, извлечение информации, распознавание и синтез речи. Инженер разрабатывает математическую модель, которая поможет решить задачу либо совсем без помощи лингвиста, либо только при помощи «базы» (например, размеченного корпуса текста), составленной ранее.

Цикл «Компьютерная лингвистика» был начат лекцией Владимира Селегея, специалиста в области компьютерного моделирования, сотрудника РГГУ и компании ABBYY, который прежде всего выделил два вида компьютерной лингвистики.

Первый — компьютерная лингвистика с точки зрения лингвиста, второй — компьютерная лингвистика с точки зрения инженера. Оба специалиста тесно сотрудничают друг с другом, но, как показывает практика, инженер все-таки зависит от лингвиста. И если при решении определенной задачи инженер сталкивается с неописанным свойством языка, ему придется ждать столько времени, сколько потребуется для фундаментального освоения этого «слепого пятна» лингвистами. А описание языков — дело небыстрое.

Лектор рассказал о «неудобных» свойствах языка, мешающих дальнейшему развитию компьютерной лингвистики. К ним относятся:

*

Ни одной картинки, кроме портрета Пастернака, в этой статье вы не найдете.

*

неоднозначность
одно и то же выражение, форма, конструкция может означать разное. Для понимания могут потребоваться знания о мире, контексте. Например: «Его семью хлебами не прокормишь». Машина не в состоянии различить, имеется ли в виду количество продукта (семь) или ненасытная семья;

несимметричность
разные языки часто имеют принципиально разные способы «кодирования» смыслов. Например, в русском языке значение приблизительности может быть передано порядком слов — «человек пять» (с другой стороны, «пять человек» — точное определение). То есть вместо лексического способа может быть использован синтаксический;

непрозрачность
язык активно использует сложные средства референции (указания на объекты в описываемом мире). Получается, что инженеры должны не только учить компьютеры узнавать и, например, склонять глаголы, но и загрузить все знания об окружающем мире, чтобы компьютер мог вычленять смысл из контекста.

конвенциональность
часто правильным и даже единственно возможным способом выражения некоторого смысла является лишь один из теоретически возможных. Причиной служат терминология («железная дорога» в значении вид транспорта, а не некая абстрактная дорога, сделанная из материала «железо») и культурные ритуалы («Идет суд, просьба к присутствующим встать» — устоявшееся выражение, которое не может быть заменено ни на какое другое). Компьютер может и не знать о сложившихся нормах или считать вариант не единственно возможным, а просто наиболее употребимым;

избыточность (вариативность)
в языке, как правило, имеется множество способов выразить некоторый смысл. Мы можем сказать: «Вы отвечаете за успех мероприятия / На вас лежит ответственность / Вы несете ответственность / Вы ответственны», плюс все возможные варианты линейного порядка. Для компьютера это все разные слова, которые по-разному размечаются, и по большому счету имеют мало общего между собой;

Константин Ольшанников

«Проблемы, описанные лектором, действительно являются серьезными и сложными. Но их можно представить в виде одной, общей, которую и так все понимают: как научить машину понимать человеческий язык? Очевидно, надо сформировать некоторый набор правил, словарей и прочего, которыми машина будет руководствоваться при анализе текстов на естественном языке. Но стоит только представить объем работ, которые нужно проделать для этого (составление, если таких еще нет, и поддержание в актуальном виде орфографических, грамматических и прочих словарей, словарей фразеологизмов, списка описаний правил образования синтаксических связей и их значений и многое другое), и можно засомневаться в вообще возможности решения этой задачи.

Но сейчас ученые идут другим путем: они не учат машину понимать человеческий язык, а пытаются научить машину учиться понимать его.

Для этого широко используются методы теории нейронных сетей, то есть вычислительных систем, способных обучаться. Задача, конечно, все равно остается сложной: при построении такой системы архитектору нужно постараться учесть все возможные особенности языка (в некоторых языках есть падежи, в некоторых — нет; где-то порядок слов в предложении будет кардинально менять его смысл, где-то вообще плевать на то, как говорящий ставит слова — идеальный язык для мастера Йоды). При этом в идеальном случае нужно учесть также особенности различных наречий, если они, конечно, не очень сильно отличаются. И все это только для одного языка.

Есть один большой плюс. Если такую хорошо спроектированную систему как следует обучить, то после этого можно легко ее совершенствовать: просто давать ″читать″ ей различные тексты (главное — как можно более широкой тематики: современную художественную литературу, газеты, научные статьи, официальные документы), и она сама (так как ее уже ″научили″ и она кое-что знает) будет понимать, что там к чему, ″запоминать″ это и использовать дальше для решения задач, а также для последующего обучения. Если в языке будут появляться новые слова, обороты (а это неизбежно и постоянно происходит), такая система сама будет распознавать их и записывать в свой маленький словарик. Это, конечно, утопия. Но это то, к чему стремятся ученые, занимающиеся компьютерной лингвистикой».

выпускник факультета кибернетики МИФИ, защитил дипломную работу по теме «Разработка и исследование морфологического классификатора, обучаемого при помощи малого неразмеченного корпуса текстов»

В интернет-энциклопедиях хранится огромный массив курьезов машинного перевода, однако наиболее показательный случай произошел с пиратским переводом фильма Стивена Содерберга «Девушка по вызову» 2009 года. Тогда команда актеров демонстративно озвучила его строго по ужасному переводу (сделанному, предположительно, в программе «Промт»), которым снабдила их недобросовестная студия. Оказавшись в торрентах без всякого пояснения, фильм сначала вызвал бурю возмущения, а потом превратился в юмористический суперхит: расслабленная производственная драма о жизни дорогой проститутки (порнозвезда Саша Грей в главной роли) с фразами вроде «Кубик с кубом: они вызывали меня во влагалище» превратилась в шедевр современного абсурдизма.

На практике

Один из самых востребованных детищ компьютерной лингвистики у простых смертных — машинный перевод. Чтобы получить наглядный пример широты возможностей компьютерной лингвистики на сегодняшний день, с помощью Google Translate мы перевели вступление «Ромео и Джульетты» Шекспира на русский, а потом сравнили его с классическим переводом.

Оригинал

Two households, both alike in dignity,
In fair Verona, where we lay our scene,
From ancient grudge break to new mutiny,
Where civil blood makes civil hands unclean.
From forth the fatal loins of these two foes
A pair of star-cross''d lovers take their life;
Whose misadventur''d piteous overthrows
Doth with their death bury their parents'' strife.
The fearful passage of their death-mark''d love,
And the continuance of their parents'' rage,
Which, but their children''s end, naught could remove,
Is now the two hours'' traffic of our stage;
The which if you with patient ears attend,
What here shall miss, our toil shall strive to mend.

Версия Google Translate

Два домашних хозяйств, так как в достоинстве,
В хорошую Вероне, где мы лежали нашей сцене,
С древних перерыв недовольство новым мятеж,
Где гражданского крови делает гражданского руки нечисты.
Из вперед роковой чресла этих двух врагов
Пара звезды cross''d любителей взять их жизни;
Чья misadventur''d жалобно свергает
Течет с их смертью похоронить борьбу их родителей.
Страшно прохождение их смерти mark''d любви,
И продолжение гнева своих родителей,
Который, но конца своих детей, ничем можете удалить,
В настоящее время движение два часа нашей сцене;
Которая, если вы с пациентом уши присутствовать,
Что здесь будет не хватать, наш труд будет стремиться исправить.

Две равно уважаемых семьи
В Вероне, где встречают нас событья,
Ведут междоусобные бои
И не хотят унять кровопролитья.
Друг друга любят дети главарей,
Но им судьба подстраивает козни,
И гибель их у гробовых дверей
Кладет конец непримиримой розни.
Их жизнь, любовь и смерть и, сверх того,
Мир их родителей на их могиле
На два часа составят существо
Разыгрываемой пред вами были.
Помилостивей к слабостям пера -
Их сгладить постарается игра.

Прогноз

Какими бы наглядными и критическими ни получились результаты этого экспресс-тестирования, компьютерная лингвистика уже совершила то, что принято называть статистической революцией. По словам Владимира Селегея, объем текстовых ресурсов в интернете для нескольких ведущих мировых языков увеличился на два-три порядка. На таких текстовых объемах оказываются относительно эффективными методы решения отдельных лингвистических задач с помощью чисто статистических методов. Эти методы позволяют обходиться без дорогостоящих языковых описаний, сделанных профессиональными лингвистами. То есть ученые, занимающиеся компьютерной лингвистикой, открыли путь к реальному многоязычию сейчас, пусть и с невысоким качеством решений. Все-таки перевод одной и той же фразы на десять языков — потребность экзотическая.

Расписание цикла лекций «Компьютерная лингвистика» на сайте Политехнического музея

Когда машина научится переводить Шекспира?

В теории

Константин Ольшанников

На практике

Прогноз

Черный ВОС

Как попасть на «Черный ВОС»?