Анализ точности перевода системы Google

Не смотря на то, что машинный перевод не всегда подходящий, сейчас он используется многими переводчиками для помощи в  работе. Многие используют систему машинного перевода для того, чтоб как можно быстрее уловить суть текста на иностранном языке, полученного по электронной почте, взятого с веб-страницы, или другого материала, основанного на использовании компьютерных систем, который является им непонятным. Открыты для всеобщего доступа, услуги машинного перевода на базе Интернет-технологий подходят для того, чтоб способствовать выполнению этих задач, но относительно немного исследований  проанализировали точность работы данных систем. В частности, насколько известно, не было проведено исчерпывающего анализа, который бы показал насколько хорошо выполняет работу Google Translate (GT), который, возможно, является наиболее распространенной системой перевода. Сейчас, ми исследуем точность перевода 2 550 комбинаций языковых пар, предоставленных нам этой программой. Результаты показали, что большинство этих комбинаций обеспечивают адекватный перевод, и переводы среди западных языков,  как правило, являются наилучшими, в то время как среди  азиатских — с наихудшим качеством.

Background (Предварительные данные)

Не смотря на то, что Google Translate предоставляет переводы среди большого количества языков, правильность переводов значительно отличается.

Использование машинного перевода для подготовки черновых набросков является общепринятой практикой среди многих профессиональных переводчиков (Champollion, 2003; Lagoudaki, 2008; O’Hagan & Ashworth, 2002), а также, многие другие используют данную технологию для получения общего смысла иностранных текстов, благодаря доступности и относительно низкой стоимости систем перевода (Altay, 2002). К примеру, сложно найти человека, который быстро бы перевел веб-страницу с финского на хинди,  да и, возможно, читателя интересует общий смысл. Некоторые профессиональные переводчики могут запрашивать $0.05 за слово, и таким образом, стоимость перевода за всего лишь 520 слов , производимого человеком, может обойтись в $26, что является больше, чем читатель готов потратить на материал, с которым возникли трудности.

Даже если возможен вариант перевода человеком, результаты можно получить гораздо быстрее благодаря системе машинного перевода. Исследование (Ablanedo, и др., 2007) показало, что производительность системы машинного перевода на основе Интернет-технологий  была в 195 быстрее, чем человеческая. Более того, машинный и человеческий перевод не являются взаимоисключающими. Как только читатель бегло просмотрит результаты перевода, предоставляемыми программами, он или она, возможно, заплатит профессионалу, если требуется более точный перевод.

Несколько бесплатных систем машинного перевода на основе Интернет-технологий  доступны, включая:

  • Applied Language
  • Google Translate
  • SDL Automated Translation Solutions
  • Windows Live Translator
  • Yahoo! Babel Fish SYSTRAN

Однако, несколько исследований всесторонне оценили точность перевода данных систем. Одно из исследований (Bezhanova, и др., 2005) сравнило три системы и пришло к выводу, что LogoMedia является наилучшей, за которой следует PROMT, и SYSTRAN. Другое исследование (Aiken, и др., 2009a) сравнило 4 системы и признало Google Translate лучшей, а далее мы видим Yahoo, X10, и Applied Language. В конечном счете, сравнение 22 систем машинного перевода(many not free or Web-based), проведенное Национальным институтом стандартов и технологий США в 2005 г. показало, что GT часто занимало первую (или же не ниже третьей) позицию в рейтинге текстов, переведенных с арабского на английский и с китайского на английский языки. Более детальные исследования  проводились над отдельными системами, такими как Yahoo-SYSTRAN (Aiken, и др., 2006), но мы полагаем, что Google Translate употребляется чаще, предоставляет больше комбинаций языковых пар, и, возможно, является более точной. Следовательно, данная система будет объектом нашего иследования (Aiken & Ghosh, 2009; Och, 2009).

Автоматическая оценка GT

Несколько исследований пробовали оценить точность перевода GT (напр., Aiken, и др., 2009b), но к нашему сведению, не имеется опубликованной,  общей оценки, то есть, анализа всех языковых пар.  Автоматическая оценка необходима, потому что непрактичной является процедура применения переводчиков (людей) для 51 языка чтоб проанализировать 50 отрывков из текста.

Не смотря на то, что существует несколько методов, BLEU (Bilingual Evaluation Understudy) является, скорее всего, наиболее употребляемым (Papineni, и др., 2002). Также, некоторые исследования показали то, что данная оценка достигает высокого соответствия с человеческими мнениями о качестве.  Используя данный метод, подсчитываются цифры от 0 до 100 за пример переведенного текста путем сравнения с рекомендованным переводом. Также метод берет во внимание количество одинаковых слов в двух отрывках и порядок слов.

Для того чтобы посодействовать оценке адекватности использования метода BLEU проанализировать 2 550 (51 на 50) языковых пар, у нас есть 2 оценщика, которые определяют понятность 50 примеров неанглийских текстов, переведенных на английский с помощью GT. (Примечание: В момент оценивания система GT поддерживала всего лишь 51 язык. С того времени были добавлены армянский, азербайджанский, баскский, грузинский, гаитянский, латинский и язык урду, и количество поддерживаемых языков составило 58. Эквивалентный текст для каждого из следующих предложений (читабельность Флеша — 81, 6 по шкале  от 0 (высокий уровень сложности) до 100  (низкий уровень сложности), Flesch-Kincaid получил 3,6 по шкале от 1 до 14) был получен для всех  неанглийских текстов, взятых с  Omniglot.

  1. Рад с Вами познакомиться.
  2. Мое судно на воздушной подушке наполнено угрями.
  3. Одного языка всегда недостаточно.
  4. Я не понимаю.
  5. Я тебя люблю.
  6. Все люди рождены свободными и равными в достоинстве и правах. У них есть интеллект и сознание. Они должны действовать в духе братства по отношению к друг другу.

Результаты, полученные от Оценщика 1 и Оценщика 2 оказались значительно похожими (R = 0.527, p < 0.001), а также, наблюдается значительная схожесть результатов каждого оценщика с  результатами BLEU, подсчитанных благодаря  азиатской онлайн программе   Language Studio Lite.
(Оценщик 1:
R = 0.789, p < 0.001; Оценщик 2: R = 0.506, p < 0.001). К тому же, результаты BLEU были достаточно схожими  (R = 0.499, p = 0.003) с мерами понимания, которые были предложены Эйкеном и Ваньяни (2009) (R = 0.447, p = 0.010).  Таким образом, мы надеемся на то, что результаты BLEU показывают насколько хорошо люди понимают переведенный текст.

Мы использовали Language Studio Lite для того, чтоб подсчитать результаты для каждого из 2550 вышеупомянутых переводов, полученных благодаря GT. Например, эквивалентный текст для 6 пунктов, был взят на французском, переведен с помощью GT на немецкий, и потом, результаты BLEU были подсчитаны для того, чтоб проверить насколько хорошо перевод соответствовал эквивалентным немецким фразам. Таблицу 2550 результатов  BLEU  можно найти здесь. В этой таблице, исходные языки видим как строка заголовков, а языки перевода — столбцы заголовков. Например, текст на арабском языке (оригинал) был переведен на африкаанс (язык перевода), и этот перевод был сравнен с эквивалентным текстом на африкаанс, в результате чего был оценен BLEU  в 46 баллов.

Далее, мы проверили переводы для каждой языковой пары для того, чтобы получить общую меру того, насколько могут быть понимаемыми переводы между двумя языками.  Например, перевод с исландского на болгарский BLEU оценил в 42 балла, в то время как с болгарского на исландский в 49, и таким образом вышло среднее значение — 45,5. Список 1 275  совместных языковых пар можете просмотреть здесь: (Примечание: Порядок языков в данном списке произвольный. То есть, японский-малайский — то же самое, что малайский-японский.)

Адекватность

Размещение языковых пар указывает на относительную точность переводов среди разных языковых пар, но не предоставляет информацию о том, насколько адекватны они. Например, будут ли переводы между языковыми парами со средним значением BLEU в 50 баллов достаточно понимаемыми, или необходимо минимальное значение в 70 баллов? Очевидно, более высокий стандарт должен быть установлен на юридическую, экономическую, медицинскую или другую наиболее важную информацию, а более низкий скорее будет подходящим для понимания общего смысла неофициального, относительно неважного материала.

Определенный стандарт  — индексы  понимания текста английского языка как иностранного (TOEFL) — требуется многими университетами в США для студентов, родной язык которых не является английским. Например,  программа для магистрантов Калифорнийского университета в Лос-Анджелесе требует как минимум 21 балла из 30, в то время как  программа магистратуры делового администрирования Обернского университета  минимум, который составляет 16. Во время одного из исследований  (Aiken, и др., 2011), 75 американских студентов, основной язык которых был английским, прошли тесты на понимания текста, взяты из отрывков TOEFL  на китайском, немецком, хинди, корейском, малайском, испанском и переведены на английский с помощью Google Translate. Результаты показали, что среднее значение составляет 21,90 баллов, немного больше минимума 21 балла, требуемого выпускной программой Калифорнийского университета в Лос Анджелесе, указывая на то, что показатель понятливости этих текстов, в среднем, было достаточным для материала, с которым последипломный студент может столкнуться во время курса обучения. Соответствующий средний индекс BLEU для шести тестов составлял 19,6 баллов.

Тем не менее, материал нашего анализа был легче (читабельность Флеша = 81,6:  уровень = 3.6 по сравнению с читабельностью тестов TOEFL, которые = 63,5 и уровень облучённости = 8,3), и следовательно, средний индекс BLEU 6 пунктов выше, переведенных на английский с китайского, немецкого, хинди, корейского, испанского был значительно выше (58,83).  если провести линейную зависимость между индексами понимания текстов BLEU и TOEFL, соответствующий индекс TOEFL для 6 пунктов выше, переведенных на английский с 6 языков будет составлять 24,5 из 30. Установленные минимальные показатели читабельности TOEFL для более легкого материала для Калифорнийского университета равен 26.2, а для Обернского – 20. Используя 26,2 как стандартный показатель, 737 из 1275 языковых комбинаций  будет достаточно для понимания материала, созданного для выпускников колледжа в Калифорнии, а  865 — для стандарта магистратуры в Оберне.

Заключение

Не смотря на то, что Google Translate предоставляет переводы среди большого количества языков, точность переводов значительно отличается. Данное исследование впервые показывает оценку того, насколько хорошим будет возможный перевод благодаря программам. Наш анализ показывает, что результаты переводов между европейскими языками обычно хороши, в то время, как результаты переводов между азиатскими языками  — часто оказываются относительно слабыми. Далее, подавляющее большинство языковых комбинаций предоставляют достаточную точность для понимания прочитанного в колледжах.

Тем не менее, существует несколько ограничений при исследованиях. Первое: был использован ограниченный пример текста в связи со сложностью получения эквивалентного текста для 50 языков.. Следующее ограничение: более сложные примеры текстов имели больший шанс набрать меньшее количество балов по методу BLEU. Со второй стороны, только один  исходный текст был использован в подсчетах, снова таки, вследствие проблемы получения похожих отрывков. То есть, каждый перевод сравнивался со всего лишь одним «правильным» результатом. Другие приемлемые переводы с альтернативной формулировкой и синонимами могут быть оценены выше по методам BLEU. В результате, взгляды людей на понимание предпочтительны для автоматической оценки, но в этом случае, это непрактично из-за большого количества языковых комбинаций, которым нужно дать оценку.

В конце концов, данная оценка динамична. Google Translate беспрерывно добавляет новые языки, а существующий алгоритм языковых переводов постоянно улучшается, так как программное обеспечение подготовлено для исправления погрешностей перевода. Не смотря на то, что производительность, возможно, никогда не будет настолько же высокой, как и человеческая, данная система может предоставлять быстрые, дешевые переводы для редко встречающихся языковых пар.

Милам Айкен, профессор и заведующий информационной системы управления (ИСУ) в школе делового администрирования при университете Миссисипи, США

Шилпа Балан, доктор наук, студентка информационных систем управления (ИСУ) университета Миссисипи

 
 
0 replies

Leave a Reply

Want to join the discussion?
Feel free to contribute!

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *