О BLEU
05.08.21
05.08.21
Одной из самых распространённых метрик для оценки качества машинного перевода является BLEU. Эта метрика была разработана группой учёных из IBM в 2002 году, и с тех пор она является наиболее распространённой для оценки качества машинного перевода.
Принцип работы довольно прост: происходит сравнение перевода с эталоном, то есть переводом того же текста, который переводила машина, но выполненным человеком. Для сравнения можно (и это даже лучше) взять несколько эталонов. Сравнение происходит по заданным параметрам, т.е. токенам - n-граммам, в которые входят слова, числа и знаки препинания. Чем больше похож перевод машины на перевод человека, то есть, чем больше совпадений по токенам, тем выше оценка. Довольно просто, однако, если заглянуть в формулу, то она чуть сложнее, чем просто процент совпадений. В BLEU также учитывается штраф за длину, если предложение в переводе сильно короче, чем предложение в эталоне, и ограничение на количество повторов совпадающих токенов.
При расчете каждой n-грамме соответствует вес. Авторы метрики рекомендуют использовать вес, равный 1/n.
Базово метрика рассчитывается от 0 до 1, однако иногда расчет ведется в единицах на 2 порядка выше, т.е. до 100.
Какие же сложности возникают при расчете и использовании метрики BLEU?
1. Принцип оценки по данной метрике никак не учитывает порядок расположения n-грамм (или слов, если n=1). Можно лишь ограничить его рамками предложения, если сравнение перевода машины и эталона будет проходить последовательно по сегментам или предложениям.
2. Выбор параметра расчета – n. Если взять 1, то будет наивысшая оценка, так как будет просто проверено наличие в переводе машины слов из эталона, отдельных слов или знаков препинания вне зависимости от их порядка. Можно отчасти учесть порядок слов, если поставить значение n выше - 3 или 4. Но оценка, скорее всего, будет ниже. Авторы метрики пишут , что при сравнении оценки по 3-, 4- и 5-граммам с оценкой человека носителя языка, не знающего исходного языка, наибольшую корреляцию даёт оценка по 4-граммам. Компания ЭГО Транслейтинг для расчета в основном берёт 2- и 3-граммы, что ниже будет пояснено.
3. Вариативность и сложность подсчета для отдельных сегментов. Изначально BLEU предполагалось использовать для всего текста целиком, но позднее учеными из Национального исследовательского совета Канады были разработаны 7 техник для сглаживания результата BLEU для оценки предложений. И действительно, без использования этих техник при подсчёте BLEU можно получать некорректные результаты. В итоге даже при вариативности по n в пределах до 4, получается, что возможны более 20 вариантов расчета метрики.
4. Вариативность веса n-грамм. Помимо значения n для n-грамм перед началом работы нужно указать веса для n-грамм. Здесь полная свобода, но есть рекомендации от авторов, как рассчитывать вес в зависимости от значения n. Когда Компания ЭГО Транслейтинг начинала экспериментировать с метрикой BLEU, мы указывали для всех n-грамм вес 0,25 (в соответствии с рекомендацией разработчиков брать n = 4).
Приведем любопытный пример. В одном из экспериментов мы получили такой результат:
BLEU | ||||
n=2 | n=3 | n=3 | ||
Эталон | МП | техника сглаживания 1 | техника сглаживания 2 | техника сглаживания 3 |
Линн Корам. | Линн Корум. | 0,47 | 0,59 | 0,5 |
Взяв вес для каждой n-граммы вес 0,25, n=3 и технику сглаживания 3, мы получили оценку 0,5, которая интуитивно понятна и логична, так как предложение из двух слов отличается переводом одного слова, то есть наполовину переведено верно.
5. Выбор количества эталонов и относительность оценки. BLEU заявлена как более быстрый и дешёвый способ оценить машинный перевод и динамику его развития. И действительно, проще прогнать перевод через программу оценки, чем брать переводчика или постредактора, который будет оценивать текст перевода после каждой итерации обучения машины. Но BLEU тем лучше работает и тем выше показывает оценку, чем больше эталонов будет взято для анализа, авторы метрики брали 4 эталона. То есть всё равно нужно выполнить 4 варианта перевода человеком, желательно разными людьми, чтобы получить вариативность формулировок.
Важно понимать, что BLEU показывает не абсолютную оценку, а относительную, относительно человеческого перевода, относительно эталона. Но любой естественный язык допускает разные варианты перевода слова, фразы, предложения, в русском языке, например, добавляется морфологическое богатство форм и относительная свобода порядка слов. Да, можно брать только один эталон, но тогда оценка будет показывать не общее качество перевода, а степень похожести перевода на эталон. А что, если переводчик допустил ошибку?
В итоге получается все не так просто и дёшево: много вариантов параметров расчета, много вариантов результата, неоднозначность использования одного эталона. Но не всё так плохо. Важно помнить, что метрики автоматической оценки не являются абсолютными, они показывают относительную оценку, относительно эталона, и, имея этот эталон, ориентировочную оценку сделать можно. Однако, учитывая выше сказанное, важно смотреть даже не саму единичную оценку, а динамику оценок, их изменения по ходу обучения систем МП. Тенденция будет явно прослеживаться, и об этом много было сказано экспертами Компании ЭГО Транслейтинг на форуме UTIC-2021. Мы использовали разные метрики для оценки машинного перевода и разные варианты BLEU, но динамика сохранялась и была соответствующей вне зависимости от варианта подсчёта BLEU.
Удачи в работе с метриками!