EGOTECH | Blog

Малая база и качество СМП

06.12.2021

Объем обучающего датасета для настройки системы машинного перевода (СМП) – параметр неоднозначный. Во-первых, объем данных не является единственным влияющим на качество работы СМП фактором. Во-вторых, необходимо обращать внимание на качество самого датасета, потому что оно в данном случае напрямую влияет на конечный объем: чем выше качество, тем меньший объем будет считаться достаточным. В-третьих, информационная насыщенность, от которой также зависит финальный объем обучающего корпуса, варьируется от текста к тексту и не может иметь фиксированный показатель.

Давайте разбираться постепенно. Начнем с самого начала.

При кастомизации первым делом обращается внимание на выбранную для настройки СМП: какой у системы вид, какая архитектура. Подходы к построению систем разные, поэтому и результат работы тоже разный.

Почему еще качество работы любых СМП разное? Потому что объемы и состояние тренировочных данных, на которых обучалась система с нуля, тоже разные. Например, у компании Google возможности получить новый источник корпусов для обучения больше, чем у любого другого разработчика, у которого основной продукт не будет представлять собой поисковую систему.

Отсюда следует, что важными исходными параметрами в выбранной для кастомизации системы можно считать объем и качество данных, на которых ее изначально настроили.

Что дальше? Принцип кастомизации, то есть приоритезация информации датасета для кастомизации перед уже существующей основой. Как система определяет, какие данные правильнее, важнее? Насколько эти данные правильнее по сравнению с предыдущими? В каких случаях эта новая информация должна иметь приоритет, а в каких будет приоритетна ранее предоставленные информационные данные? В каких ситуациях сочетание этих слов переводить так, а не иначе? Разработчики СМП не просто так тратят достаточно времени на тестирование и доработку систем. Перечисленные выше вопросы нетривиальны и вызывают дискуссии среди лингвистов.

Дальше можно говорить о самой базе данных, на которой будет происходить настройка системы машинного перевода. Вопрос объема на этом этапе с одной стороны первостепенен, с другой – нет. Тематика и тип документации, которые составляет обучающий корпус, влияют на количество информации, которую этот корпус несет. Неправильно говорить, что датасет объемом в 20 000 сегментов по тематике атомной энергетики принесет тот же результат при обучении, что и такого же объема датасет, но по тематике медицина. Результаты подобных настроек редко сопоставимы по итоговому качеству работы системы.

Несомненно, важным фактором является состояние обучающего датасета: он, как правило, требует чистки, но разной степени глубины. Глубина очистки, то есть количество пунктов, которые нужно проверить и исправить, зависит от исходного состояния датасета.

Реальность переводческого мира такова, что порой не все могут себе позволить «нужный» уровень чистки, поэтому люди пытаются компенсировать этот параметр объемами, что приводит к спорным результатам.

Однако стоит понимать, что очищать данные нужно не только при кастомизации. Многочисленные исследования показывают, что работы с очисткой данных очень важны и на начальном этапе настройки или создания системы, и, если эти работы проигнорировать, то стоимость некачественных данных возрастает экспоненциально в соответствии с принципом качества 1-10-100[1].

Итак, как можно почистить датасет?

Первый и самый «ходовой» уровень чистки – это техническая очистка. Сюда входит устранение формальных ошибок, всего того, что называют «шумом». «Шум» – незначительная или мало весомая информация, которая может сопровождаться ошибками на уровне орфографии. С более подробным списком параметров, которые считают «шумом», можно познакомиться, работая с инструментами для технической очистки текстовых данных. На сегодняшний день понятие «шум» стало более сформированным и единым. В итоге техническая очистка «убирает» все то, что «мешает» алгоритмам системы машинного перевода правильно воспринимать и классифицировать информацию.

Далее – корректорская очистка. Этот шаг, как правило, игнорируется в силу разных причин, но такой этап тоже есть. Самым распространенным поводом пропустить корректорскую очистку является тот факт, что обучающий датасет в большинстве случаев представляет собой память переводов, которая уже прошла этап корректорской работы.

Следующий этап чистки – это «глубокая очистка», которая в свою очередь делится на два этапа: терминологическая очистка и стилистическая. Последняя на сегодняшний день является недостижимым идеалом, поэтому, как правило, терминологическая очистка считается завершающим шагом глубокой очистки датасета.

К чему говорить об очистке, когда речь идет об объемах? Проблема в том, что итоговый объем датасета должен определяться после очистки, а не до нее. Определение объема датасета на этапе подбора данных – ключевая ошибка.

Нормализация датасета, этапом которой является очистка, существенно сокращает объемы. А когда планка объема снижается до определенного уровня, обучающий датасет перестает приносить пользу вне зависимости от того, какой уровень приоритезации обучающего датасета стоит.

Несмотря на все подводные камни и большое количество условностей, нижнюю планку объема можно установить примерно. Компания ЭГО Транслейтинг проводит исследования и эксперименты, связанные с машинным переводом, уже не первый год. Практически все они так или иначе связаны с глубиной чистки данных, а также объемами обучающих датасетов. Последнее наше исследование было посвящено минимальным объемам датасета, способным оказать влияние на итоговое качество работы кастомизированной СМП.

Наши изыскания показали, что унифицировать планки объема крайне сложно, но объем данных в 20 000 сегментов уже вычищенной базы является тем самым порогом минимального объема, ниже которого ни чистота данных, ни тематическая насыщенность качественного влияния иметь не будут[2].

Исходя из сложившегося уклада работы с машинным переводом в сфере переводов на территории РФ, можно сделать вывод, что сопоставить такие факторы, как качество, время и деньги возможно только в том случае, если вы понимаете предельность качества на разных этапах работы с датасетами. Следующим вашим шагом является выбор вида и типа пути кастомизации: экстенсивный (добиваетесь качества объемами данных) или интенсивный (достигаете цели вариациями очистки данных). А еще не забывайте, что кастомизация – это настройки системы под ваши нужды. Это значит, что систему можно адаптировать тематически (доменно), или сделать проектную (корпоративную) настройку. Интересны подробности? Обращайтесь к нам в компанию ЭГО Транслейтинг, мы поможем разобраться.

Что стоит отметить напоследок? При любом раскладе, важно понимать, что порой идеальный способ решать задачи роста качества машинного перевода, когда кастомизация становится затрудненной или неоправданной, это применять постредактирование. Процесс работы постредактора в своей основе заключает приложение человеческого труда к обработки финального результата работы системы. Такой процесс обходится дешевле и является наиболее корректным по сути, потому что машинный перевод – лишь инструмент помощи переводчику, а не замещающая человека технология.

[1] Validity, How Clean Is Your Salesforce Data?

https://www.validity.com/resources/white-papers/Validity-White-Paper-Overcoming-the-Challenge-of-Bad-Data.pdf

[2] Меняйлова Маргарита, Ладушина Мария, UTICamp 2021, Преодоление лимита качества кастомных систем МТ с помощью терминологического менеджмента