Анализ современных корпусов параллельных текстов

Язык труда и переводы:
УДК:
04.89
Дата публикации:
06 декабря 2020, 18:30
Категория:
Современные методы и технологии корпусной лингвистики
Авторы
Киселёва Аполлинария Дмитриевна
Московский государственный технический университет имени Н.Э. Баумана
Бутенко Юлия Ивановна
Московский государственный технический университет имени Н.Э. Баумана
Аннотация:
В последние годы создание корпуса и тематические исследования стали неотъемлемой частью деятельности лингвистов. Методология корпуса становится частью лингвистической науки, и лингвисты, работающие в различных областях, как правило, проводят свои исследования на базе корпусов. Данная статья содержит информацию о параллельных корпусах, их разновидностях, об основных аспектах создания и использования параллельного корпуса.
Ключевые слова:
параллельный корпус, разработка этапов создания параллельного корпуса
Основной текст труда

Одним из направлений корпусной лингвистики является создание и использование параллельных корпусов, которые используются для решения различных задач, таких как создание и настройка систем машинного перевода, сравнительное изучение языков, разработка теории переводческих исследований, преподавания языка [1]. Корпусы и конкордансы предоставляют лингвистам, переводчикам и студентам бесценный и ранее недоступный языковой материал, который характеризуется большим объемом, разнообразием стилей и жанров и возможностью быстрого поиска примеров проанализированных слов и конструкций.

Следует отметить, что под корпусом параллельных текстов понимается тип лингвистического корпуса, состоящий из исходного текста на одном языке и его перевода на другой или другие языки, а конкорданс — одна из программ, которая позволяет обрабатывать и анализировать большие массивы текста, а также выявлять языковые шаблоны, которые в них содержатся. Конкорданс ищет конкретное слово или выражение в корпусе. После соответствующей команды программа выдает указанное количество текстовых фрагментов, содержащих нужные единицы измерения. На основании полученной информации возможно определить, какие функции, применение и использование устройства были определены в конкретном языковом пространстве.

В отличие от других типов корпусов, отличительным дидактическим свойством корпусов параллельных текстов является многоязычие.

Корпусы параллельных текстов могут быть двуязычные и многоязычные. Двуязычные корпусы включают исходные тексты на одном языке и их переводы на другом. Многоязычные корпусы включают исходные текста на одном языке и их соответствующие переводы на другие языки.

Корпусы могут быть однонаправленные, двунаправленные и многонаправленные. Однонаправленные корпусы позволяют осуществлять перевод с одного языка на другой (например, с английского на русский) без возможности обратного перевода (с русского на английский). Двунаправленные корпусы включают параллельные тексты на двух языках (английском и русском) и позволяют осуществлять перевод как с английского на русский, так и наоборот). Многонаправленные корпусы, включающие тексты на более чем двух языках, позволяют осуществлять перевод с любого языка на любой (в рамках существующих языков корпуса) [2–9].

Параллельный корпус имеет много общего с памятью переводов, но разница в том, что память переводов не сохраняет оригинальную последовательность текста, тогда как параллельные тексты — сохраняют.

Создание параллельного корпуса включает в себя несколько этапов: выравнивание текстов, разметка текстов, проектирование поискового интерфейса.

Для того нужно решить следующие задачи:

  • необходимо осуществить морфологическую разметку текстов. Для русского языка инструментом разметки является программа MyStem, а для английских и других текстов TreeTager;
  • помимо текстов и программы должна быть создана таблица с метаданными, где указана основная информация по каждому тексту: год создания, язык оригинального текста, переводчик;
  • создание поискового интерфейса.

Под поисковой строкой должно располагаться окно выдачи, где будут отображаться отрезки текстов, в которых встречается то или иное слово. Под ним должна быть кнопка сохранения, чтобы текст выдачи пользователь мог сохранить в TXT формате.

Для этого нужно сначала создать некий словарь, со структурой «ключ» — «значение», где ключами будут являться слова из XML файлов, а их значениями — название XML-файла, номер ID отрезка текста, где встречается слово, и сам текст [10, 11].

Параллельные корпусы используются:

  1. в сравнительной лингвистике: для сравнительного анализа структур двух языков;

  2. в области переводов; для поиска эквивалентов оригинального текста в других языках;

  3. при обучении движков машинного перевода;

  4. при изучении языка;

  5. при составлении словарей.

Практика разработки и использования электронных текстовых корпусов показала, что создать универсальный корпус невозможно. Цели и задачи любого исследования, которое предполагается выполнить с помощью корпусов, определяют тип корпуса, правила отбора текстов, метод и степень обработки. В области корпусной лингвистики уже создано большое количество корпусов, предназначенных для различных видов исследований, и задача их классификации требует определения различных характеристик — основы классификации.

Параллельные корпусы, представляющие множество текстов-оригиналов, написанных на каком-либо исходном языке, и переводов этих исходных текстов на один или несколько других языков; правда, существуют корпусы, в которых все языки признаются равнозначными, например, корпусы, созданные на основе официальных документов ООН или Европейского Сообщества.

Параллельные корпусы используются для разработки эффективных методов перевода, а также для сравнительных исследований языков. Он позволяет идентифицировать те или иные приемы перевода, оценить их эффективность, проанализировать лексику и грамматику текста перевода в сопоставлении с оригинальным текстом, сравнить и оценить различные стратегии перевода, найти на основе списков контекстов соответствия тем или иным стилистическим явлениям и выделить способы их передачи при переводе. Параллельные корпусы являются своего рода сборниками стратегий и эквивалентов перевода, которыми руководствовались и которые придумывали переводчики. Они обеспечивают нас информацией, которую двуязычные словари обычно не содержат. Они предлагают эквиваленты не только на уровне слова, но и на уровне конструкций и словосочетаний, а также переводы безэквивалентной лексики. Параллельные корпусы используются также при создании систем машинного перевода и как ресурс для автоматического извлечения терминов и терминологических словосочетаний данной предметной области для нескольких языков. Параллельные корпусы открывают возможности для компаративистских исследований, дают новую информацию по сравнению с исследованиями на базе одноязычных корпусов, расширяют знания о языках, их универсальных особенностях наряду с типологическими и культурными различиями [12].

Проблема построения параллельного корпуса заключается в высокой трудоемкости, т.е. часто оказывается гораздо проще заново перевести текст, чем выполнить его выравнивание с готовым переводом. Вследствие этого наиболее точное ручное выравнивание выполняется лишь для нескольких сотен предложений в исследовательских целях, в частности, для оценки качества автоматического выравнивания, которое активно развивалось в течение двадцати последних лет. Несмотря на достигнутые успехи, методы автоматического выравнивания дают ошибки, особенно если в текстах встречаются редкие слова и фразы. Отсюда необходимость разработки таких методов и алгоритмов, которые давали бы близкое к ручному качество выравнивания, при существенном снижении затрат.

На сегодняшний день существуют такие параллельные корпусы как: Glosbe, Linguee, MyMemory, Opus, Reverso, TAUS Data Cloud и др.

Литература
  1. Бутенко Ю.И., Маргарян Т.Д., Кочеткова Е.Л. Переводческая деятельность в условиях цифровизации: обучение и трудоустройство // Alma mater (Вестник высшей школы). 2020. № 9. С. 98–103. DOI: 10.20339/AM.09-20.098
  2. Бутенко Ю.И., Семенова Е.Л., Сидняев Н.И. Математические аспекты в языковедческой теории и практике // Alma mater (Вестник высшей школы). 2018. № 4. С. 73–78. DOI: 10.20339/AM.04-18.073
  3. Захаров В.П. Корпусная лингвистика. СПб., 2005.
  4. Королева А.А. Корпус параллельных текстов в обучении иностранному языку // Вестник ТГУ. 2013. Вып. 2 (118). C. 57–62.
  5. Добровольский Д.О. Корпус параллельных текстов как инструмент сопоставительного описания языков // Русская сопоставительная филология: состояние и перспективы: тр. междунар. конф. Казань: Каз. гос. ун-т, 2004. С. 289–290.
  6. Добровольский Д.О., Кретов А.А., Шаров С.А. Корпус параллельных текстов: архитектура и возможности использования // Национальный корпус русского языка: 2003–2005. М.: Индрик, 2005.
  7. Захаров В.П., Богданова С.Ю. Корпусная лингвистика. 2-е изд., перераб. и дополн. СПб.: СПбГУ, 2013.
  8. Беляева Л.Н. Лексикографический потенциал параллельного корпуса текстов // Корпусная лингвистика – 2004: тр. междунар. конф. СПб.: СПбГУ, 2004. С. 55–64.
  9. Потемкин C.Б. Проблемы разработки параллельного корпуса переводов русской классики // Вестник Военного университета. 2012. № 2 (30). С. 138–145.
  10. Рогачева В.Э. Методы извлечения терминологических эквивалентов из двуязычного корпуса текстов // Прикладная лингвистика в науке и образовании ALPAC REPORT – полвека после разгрома: тр. VIII Междунар. науч. конф. (Санкт-Петербург, 24–26 ноября 2016 г.). СПб.: Книжный дом, 2016. С. 91–96.
  11. Рогачева В.Э. Методы извлечения терминологических единиц из корпуса сопоставимых текстов // Вестник воронежского государственного университета. Сер. Лингвистика и межкультурная коммуникация. 2017. № 2. С. 118–122.
  12. Мухамедшин Д.Р., Сулейманов Д.Ш. Система корпус-менеджер: архитектура и модели корпусных данных //Ученые записки Казанского ун-та. Сер. Гуманитарные науки. 2014. Т. 156. № 5. С. 236–244. DOI: 10.15827/0236-235X.124.653-658
Ваш браузер устарел и не обеспечивает полноценную и безопасную работу с сайтом.
Установите актуальную версию вашего браузера или одну из современных альтернатив.