Машинный перевод – увлекательное путешествие от правил к нейросетям
26.11.2019
Развитие массовых коммуникаций, гиперглобализация и свободное распространение знаний толкают развитие информационных технологий вперед сильнее и сильнее с каждым днем, в том числе и в области лингвистики. Рост торговли, в особенности электронной, ставит перед собой закономерный вопрос – как и кому можно продавать еще больше, еще дальше, еще дороже? Интернационализация бизнеса, обучения, общения ставит вопрос - как общаться 24/7, невзирая на расстояния и разные языки? В конце концов нужно же понять, как общаться с мультиваркой с голосовым управлением, которую поставляют в десятки стран? Лингвистическая адаптация и локализация сегодня становится одним из ключевых вопросов в работе международных брендов.
Перевод сайтов на иностранные языки, рост технического документооборота и социального контента требуют новых подходов к переводу и новых технологий. Одним из значимых явлений в области компьютерной лингвистики стал машинный перевод, зарождение которого началось в 40е годы прошлого столетия.
Почти 90 лет прошло с того момента, как в СССР были сделаны первые робкие шаги в сторону автоматизированного перевода. В прошлой статье мы кратко описали историю его развития, сегодня попробуем заглянуть глубже и пройти путь от чудо-машины с карточками и фотографиями советского ученого Пётра Троянского до…нейросетей и Яндекс.Переводчика. Данный путь показал, что перевод автоматическими средствами возможен, хотя и требует многих усилий, времени и знаний.
За всю историю своего становления машинный перевод и в целом лингвистические технологии развивались своим сложным путем, с недоверием, с прорывами, с борьбой оптимистов и скептиков. Подходы к разработке машинного перевода менялись от простого пословного перевода до нейронного.
Первые шаги
Запатентованная в 1934 году машина Смирнова-Троянского была достаточно проста, «переводила» на 4 языка, использовала морфологические характеристики слов и состояла из печатной машинки, фотоаппарата, оператора и труда лингвиста, который превращал результат ее работы в связный перевод.
Петр Петрович, к сожалению, не увидел дальнейшего применения своих идей, а следующий прорыв в этой области произошел в 1954 году был произведен первый эксперимент по машинному переводу предложений с русского языка на английский благодаря совместным усилиям Джоджтаунского университета и компании IBM, в результате чего многие ведущие страны вернулись к идеям разработок в области автоматизированного перевода. Многие современные технологии в телекоммуникациях и сфере интернета вышли именно из этих изысканий в области работы с языком.
Первые системы дословного перевода (Direct Machine Translation, DMT) просто подыскивали перевод слова на целевой язык точно в том порядке, в котором они шли в оригинале.
Системы, основанные на правилах
Системы дословного перевода стали основой для развития систем, написанных на основе правил с подключением словаря (Rule-based machine translation, RBMT). Системы работали по принципу преобразования (трансферные) или с использованием так называемой интерлингвы - метаязыка, понятного всем.
При трансферной системе (Transfer-based Machine Translation, TBMT) преобразование шло в несколько этапов: анализ входного предложения (морфологический и синтаксический) – преобразование в единицы целевого языка – синтез выходного предложения. Такие системы давали предсказуемый результат, были разработаны под конкретную пару языков и для создания требовали много ресурсов и времени.
Подход на основе интерлингвы (Interlingual Machine Translation, IMT) предполагал использование метаязыка – промежуточного языка, который бы описывал как структуры входного, так и выходного языков. Но определиться с тем, что брать за интерлингву, оказалось сложнее, нежели прописывать правила. К истории с интерлингвой люди вернулись уже в 21 веке, но это будет уже совсем другая история.
Статистические системы
Указанные выше методы быстро перестали удовлетворять потребности по качеству перевода, особенно в сложных языках, таких как японский, где применение правил крайне затруднено, и поэтому уже в 1984 году в Японии был предложен революционный метод, названный Машинный перевод на примерах (Example-based Machine Translation, EBMT). Именно он имел в своей основе прорывной подход о том, что можно использовать ранее выполненные переводы для создание новых, из которых позже появились методы статистические.
Накопление большого количества электронных текстов сделало возможным использование статистических методов обработки данных в переводческих целях, которое началось уже в 90-х годах 20-го века. Подключение параллельных корпусов текстов, построение языковой модели и выбор алгоритма позволяют вычислить вероятность появления того или иного слова/фразы в целевом переводе. Статистический машинный перевод (Statistical Machine Translation, SMT) легче настроить на необходимую языковую пару и получить более содержательный перевод (за счет большого количества корпусной лексики).
Машина сама посредством анализа массива данных исходник-перевод училась определять, какое слово соответствует какому в целевом языке просто на основе того, что чаще встречало. И чем больше примеров переводов «скормить» машине, тем точнее будет перевод.
Статистический машинный перевод прошел несколько этапов развития - Статистический перевод по словам (Word-based SMT), Статистический перевод по фразам (Phrase-based SMT) и Статистический перевод на основе синтаксиса (Syntax-based SMT).
Качество таких переводов было гораздо лучше всех предыдущих вариантов, и поэтому статистический подход занял главенствующее положение в 2000х годах.
Нейросети
Новой волной, захлестнувшей область компьютерной лингвистики, обработки естественного языка и искусственного интеллекта, явилась нейронная сеть. Созданная по образу и подобию естественно функционирующей органической системы, искусственная нейронная сеть призвана решать нелинейные задачи при извлечении, классификации, кластеризации знаний и предсказании результата.
Нейронные сети начинают активно использоваться и в системах машинного перевода и появляется нейронный машинный перевод (Neural Machine Translation, NMT). И тут мы вновь встречаемся с неким прообразом подхода интерлингвы, т.к. по сути нейросеть преобразует слово в набор понятных ей характеристик, а вторая независимая декодирует это в текст на целевом языке. Существует целый ряд различных по сложности и видам нейросетей, дающих разные результаты.
Ожидается, что нейронный машинный перевод сможет снять при переводе омонимию, разрешить анафору, понять контекст и тематику перевода. За два года развития нейросети превзошли всё, что было придумано в переводе за последние 20 лет. Нейронный перевод делал на 50% меньше ошибок в порядке слов, на 17% меньше лексических и на 19% грамматических ошибок. Нейросети даже научались сами согласовывать род и падежи в разных языках, никто их этому не учил.
Однако, стоит понимать, что построение систем нейронного машинного перевода требует больших компьютерных мощностей, а также интеллектуальных ресурсов.
В 2017 году компания Яндекс продвинулась еще чуть дальше и стала использовать гибридный вид машинного перевода, совместив статистический и нейросетевой, который позволил использовать лучшие стороны каждого метода.
Говоря о центрах разработки машинного перевода, прежде всего стоит отметить Европу и США. На сегодняшний день такие именитые компании, как Lionbridge, SDL, Transperfect, Kantan MT, составляют друг другу достойную конкуренцию и вкладываются в развитие своих технологий. Российский «машинный» рынок пока представлен тремя компаниями – Yandex, PROMT, ABBYY, многие переводческие бюро открыто не позиционируют машинный перевод как услугу.
Так или иначе, на сегодняшний день нет идеальной системы машинного перевода. Все тестируемые системы выдают аналогичные ошибки на всех уровнях языка – при выражении причинно-следственных отношений, в терминологии, синтаксической структуре предложения. Каждый из подходов хорош для определенных целей, каждый имеет свои достоинства и недостатки. Использование машинного перевода уже доказало право на свое существование, став частью повседневной жизни общества.