Исследовательский прототип параллельного корпуса научно-технических текстов

Язык труда и переводы:
УДК:
81'33
Дата публикации:
09 декабря 2020, 00:31
Категория:
Современные методы и технологии корпусной лингвистики
Авторы
Бутенко Юлия Ивановна
Московский государственный технический университет имени Н.Э. Баумана
Строганов Юрий Владимирович
Московский государственный технический университет имени Н.Э. Баумана
Бабаджанян Роман Владиславович
Московский государственный технический университет имени Н.Э. Баумана
Аннотация:
Представлен исследовательский прототип параллельного корпуса научно-технических текстов. Описано устройство разрабатываемого параллельного корпуса. Показаны роли пользователей в параллельном корпусе. Рассмотрены виды разметки, отражающие особенности научно-технических текстов. Особое внимание уделено терминологической разметке. Предложены источники научно-технических текстов для наполнения корпуса.
Ключевые слова:
параллельный корпус, научно-технические тексты, разметка, роль пользователя, термин
Основной текст труда

При проведении лингвистических исследований ручной сбор иллюстративного материала традиционно является трудоемким и дорогостоящим этапом работы. Использование электронных ресурсов позволяет существенно сократить время на сбор информации для проведения исследования. Одним из наиболее эффективных инструментов реализации такой задачи является использование электронных корпусов текстов. Сферы применения корпусов текстов включают автоматизированное извлечение информации, обучение на основе данных, текстовые поиски в крупномасштабных коллекциях текстов с использованием методов обработки естественного языка, автоматическая классификация текстов, преподавание языков для специальных целей, проведение лингвистических исследований [1, 2].

Корпус всегда проектируется для конкретной цели. На сегодняшний день существует множество корпусов, подробный обзор которых проведен в [3]. Распространенными являются корпуса, содержащие тексты художественной литературы, однако наличия корпусов, основанных исключительно на литературно-художественных произведениях, недостаточно для эффективного применения корпусной лингвистики в области лингвистических исследований. Для осуществления исследований в определенной предметной области, т. е. изучения языков для специальных целей необходимо наличие  корпусов научно-технических текстов и параллельных, которые в настоящее время находятся в закрытом доступе или вовсе отсутствуют. Таким образом, возникает необходимость в создании параллельного корпуса научно-технических текстов как основы для лингвистически исследований и базы данных для задач автоматической обработки научно-технических текстов.

Разрабатываемый параллельный корпус инкапсулирует в себе информацию, дающую представление о следующих слоях текстов: абзацы, предложения, речевые обороты; слова (термины). Параллельный корпус научно-технических текстов представляет собой совокупность данных, состоящих из научно-технических текстов на оригинальном языке; доступные переводы текстов; различные слои текста, доступ к которым осуществляется по доступным переводам, коими являются: абзацы (параграфы), предложения, слова (термины) и т. д. Эти слои содержат разметки, которые обозначают языковое соответствие между определенными слоями. На рисуноке показано внутреннее устройство корпуса.

 

Устройство параллельного корпуса

 

Содержательная часть параллельного корпуса научно-технических текстов формируется пользователем посредством осуществления разметки в необходимом слое с возможностью последующей модификации осуществленной разметки. Для поддержания консистентности, в системе предусмотрено несколько следующих ролей пользователей:

  • администратор — имеет полный доступ к данным: он может как проводить манипуляции над текстами (добавление и удаление, в том числе и из определенных УДК), так и управлять разметками – удалять их, изменять и добавлять новые;
  • пользователи имеют возможность осуществлять разметку, которая после своего создания должна пройти модерацию перед публикацией. Также пользователи могут искать нужные разметку и текст среди уже существующих по соответствующим УДК;
  • модератор производит проверку разметки.

 

В корпусе содержатся тексты по различным научно-техническим направлениям, сгруппированные по принципу соотнесенности текста с той или иной предметной областью. Источниками текстов, обеспечивающих репрезентативность создаваемого корпуса, могут являться следующие материалы:

  1. учебно-методическая литература для студентов технических специальностей;
  2. руководства по эксплуатации технических средств;
  3. научные статьи, опубликованные в специализированных научно-технических журналах;
  4. энциклопедии;
  5. стандарты (отраслевая нормативная документация).

Тексты корпусов обычно размечаются для удобства пользования, т.е. текстам и содержащимся в них языковым единицам приписываются специальные метки. Размеченные корпуса обеспечивают специализированными поисковыми системами, реализующими грамматические и лексические виды поиска [4]. В зависимости о целей создания корпуса в него включают дополнительные виды разметки [5]. Так, для корпуса научно-технических текстов наибольшую значимость приобретает терминологическая  разметка, так как именно термины выступают основным средством передачи информации.

Более того, работа с корпусами научно-технических текстов требует особый инструментарий для выявления устойчивых терминологических сочетаний. Стоит отметить, что в настоящее время лексико-грамматические шаблоны многокомпонентных терминов исследователи создают для каждого специализированного корпуса отдельно. В такой ситуации возникает необходимость в разработке специализированной технологии, позволяющей последовательно обрабатывать коллекции текстов разных предметных областей и фиксировать каждую модель многокомпонентного терминологического словосочетания в отдельной базе данных. М.Г. Кружков в работе  [4] вводит термин для таких специализированных баз данных  — «надкорпусные базы данных». Такой подход позволит, с одной стороны, использовать уже созданную базу структурных моделей терминологических словосочетаний, а с другой стороны позволит дополнять и актуализировать базу данных новыми структурными моделями терминов с минимальными временными и человеческими затратами.

Литература
  1. Нагель О.В. Корпусная лингвистика и ее использование в компьютеризированном языковом обучении // Язык и культура. 2008. № 4. С. 53–59.
  2. Бутенко Ю.И., Семенова Е.Л., Сидняев Н.И. Математические аспекты в языковедческой теории и практике // Alma mater (Вестник высшей школы). 2018. №4. С. 73–78. DOI: 10.20339/AM.04-18.073
  3. Захаров В.П. Корпуса русского языка // Труды Института русского языка имени В.В. Виноградова. 2015. Т. 6. С. 20–65.
  4. Кружков М.Г. Информационные ресурсы контрастивных лингвистических исследований: электронные корпуса текстов // Системы и средства информатики. 2015. Т. 25, № 2. С. 140–159.
  5. Лесников В.С. Виды разметок текстовых корпусов русского языка // Научно-техническая информация. Сер. 2. Информационные процессы и системы. 2019. № 9. С. 27–30.
Ваш браузер устарел и не обеспечивает полноценную и безопасную работу с сайтом.
Установите актуальную версию вашего браузера или одну из современных альтернатив.