Сферы применения корпуса научно-технических текстов по конструкциям летательных аппаратов

Язык труда и переводы:
УДК:
81’33
Дата публикации:
06 декабря 2020, 18:14
Категория:
Современные методы и технологии корпусной лингвистики
Авторы
Синева Елизавета Евгеньевна
Московский государственный технический университет имени Н.Э. Баумана
Аннотация:
Рассмотрены теоретические основы лингвистического проектирования корпусов, обобщены результаты основных теоретических исследований отечественных и зарубежных специалистов в области корпусной лингвистики. Описаны перспективы применения корпусов научно-технических текстов в лингводидактике и терминоведении. Реализован этап концептуального проектирования корпуса, содержащего тексты авиакосмической тематики. Определены источники текстов, которые могут быть включены в данный корпус, а также описаны типы разметки научно-технических текстов.
Ключевые слова:
корпусная лингвистика, терминология, авиация, разметка текста, научно-технические тексты
Основной текст труда

Корпусная лингвистика предназначена для решения широкого спектра вопросов в различных областях современного языкознания. Корпус представляет собой массив лингвистических данных, полученных на основе разметки большого количества текстовой информации. Корпусные данные активно применяются в качестве исходного материала для многих систем обработки естественного языка, позволяющих исследовать различные языковые явления [1, 2]. Корпусная лингвистика предлагает методологию для расширения границ научных исследований в таких дисциплинах, как переводоведение, лексикология, грамматика, лингводидактика, а также выступает в качестве самостоятельной дисциплины, включающей два основных компонента: технологию создания корпусов (оцифровку и предобработку текстов, разметку) и последующий анализ содержания лингвистической информации, представленной в корпусе. Инструментарий корпусной лингвистики позволяет получать достоверные результаты относительно функционирования языковых единиц [3, 4].

Электронные корпуса стали появляться еще в 1960-х годах, когда на многие сферы науки оказала большое влияние третья научно-техническая революция, в результате которой произошел качественный скачек в развитии электронно-вычислительной техники. Брауновский корпус (The Brown Corpus) стал первым компьютеризированным корпусом, составленным учеными Г. Кучерой и Н. Френсисом из университета Брауна [5]. Это структурированный корпус американского английского языка, содержащий около 500 текстов из американских книг, газет и журналов, впервые опубликованных в США в 1961 году. Составители корпуса включили в него некоторую первичную статистическую информацию о частоте вхождения лексических единиц, что стало предпосылкой к составлению новых корпусов для проведения последующих статистических исследований. Как отмечается в работе [6], построение частотных списков слов и фразеологических единиц, включающих информацию о частоте их употребления в определенной области дискурса, является одним из наиболее популярных и значимых способов применения корпусных исследований за последние 80 лет. Такие частотные списки стали активно применяться в лингводидактике с 40-х годов 20 века. Как отмечает Г. Кеннеди [7], корпусная лингвистика и лингводидактика имеют тесную связь, и словарные списки для обучения иностранным языкам часто составляются на основе корпусов. Можно c уверенностью предположить, что учащимся проще развивать как рецептивные, так и продуктивные языковые навыки, когда они изучают наиболее распространенные лексические элементы языка, по сравнению с теми случаями, когда в процессе изучения языка приоритет отдается редким словам, с которыми учащиеся практически не сталкиваются в реальных жизненных ситуациях.

Отечественные лингвисты наряду с зарубежными исследователями обращаются к корпусному инструментарию и рассматривают возможности применения корпусных исследований в лингводидактике, как показано в работах [8, 9]. Стоит отметить, что частотные списки слов включают в основном общеупотребительную лексику, которая выделяется на основе статистического корпусного анализа, а лексические единицы распределяются в порядке убывания частоты встречаемости относительно всей совокупности лексических единиц корпуса. Для составления частотных списков, включающих профессиональную и терминологическую лексику определенной предметной области, с целью обучения иностранным языкам студентов технических специальностей необходимо наличие специальных корпусов текстов. Сегодня существует множество корпусов, но большинство из них создано для определенных исследовательских проектов и находится в закрытом доступе. Особенно распространенными являются корпуса, содержащие тексты художественной и публицистической литературы. На сегодняшний день самым крупным и представительным отечественным онлайн-корпусом является Национальный корпус русского языка (НКРЯ), открытый в 2004 году. Корпус содержит коллекцию письменных текстов (публицистика, художественная и религиозная литература, мемуары), а также записи устных текстов. В корпус входят тексты различных жанров и стилей, объем которых в целом превышает 600 млн словоупотреблений, однако для составления частотных списков определенной предметной области с целью изучения языка для специальных целей, известного как «Language for Specific Purposes» или LSP, необходимо наличие корпусов научно-технических текстов. С помощью подобных корпусов можно формировать частотные терминологические списки, то есть выбирать наиболее релевантную лексику для изучения языка. Такие корпуса научно-технических текстов в настоящее время закрыты для общего доступа или вовсе отсутствуют. Создание корпуса узкоспециальных текстов для описания подъязыка определенной предметной области является актуальной задачей, так как общие корпуса не подходят для изучения определенных предметных областей в силу их большого объема, разнообразного материала, а также отсутствия специальной терминологии.

С помощью корпусных исследований научно-технических текстов можно решить некоторые актуальные задачи не только в области лингводидактики, но и одну из основных проблем современного прикладного языкознания проблему стандартизации научно-технической терминологии. Унификация терминологических лексических единиц, то есть приведение терминов к единообразной форме, является актуальной проблемой лексики любого языка, так как инвариантность в терминологии приводит к использованию неоднозначной и противоречивой системы терминов в литературе и научно-технической документации [10]. Проблемы терминологии, связанные с изучением ее структуры и функционирования, а также возможностями ее регулирования и стандартизации, пользуются интересом среди специалистов различных сфер деятельности, однако в зарубежной и отечественной научной литературе не упоминается о том, что корпусные исследования пригодны для решения проблемы стандартизации научно-технической терминологии.

 В связи с активным  развитием теоретических и прикладных исследований в области авиации и космоса, а также отсутствием открытых корпусов научно-технических текстов, основной целью данной работы является концептуальное проектирование корпуса предметной области «Авиакосмическое приборостроение». Терминология данной предметной области особенно нуждается в проведении работы по стандартизации из-за наличия большого количества синонимичных и омонимичных терминов (интерцептор — спойлер, маслоуловитель — маслосборник, космонавт — астронавт, авиалайнер — воздушный лайнер). Корпус текстов авиакосмической направленности можно будет использовать в качестве основного инструмента упорядочивания терминологии, а также создания лингводидактических списков слов. Термины в таком списке могут быть распределены по частоте встречаемости или в алфавитном порядке. На основе корпуса возможно также создать семантические сети и онтологии, терминологические гнезда для адекватной оценки состояния терминологии определенной предметной области. С целью создания подобного корпуса опишем основные характеристики, которые должны быть учтены при построении корпуса научно-технических текстов данной предметной области.

В первую очередь необходимо определить источники текстов, которые войдут в данный корпус. Источниками текстов, обеспечивающих репрезентативность создаваемого корпуса, могут являться следующие материалы:

  1. учебно-методическая литература в области космоса и авиации;
  2. руководства по летной и технической эксплуатации летательных аппаратов;
  3. научные статьи, опубликованные в специализированных журналах;
  4. энциклопедии;
  5. стандарты (отраслевая нормативная документация).

Одним из ключевых аспектов проектирования корпусов является также метаразметка текстов — процесс приписывания тексту различных характеристик, описывающих обстоятельства его создания, автора, соотнесенность с определенным жанром и стилем изложения. Основное назначение метаразметки – дать возможность пользователям корпуса настроить внешние параметры поиска текстов: например, осуществлять поиск по текстам, созданным авторами определенного года рождения, страны происхождения, гендерной принадлежности. Метаразметка содержит основную информацию о каждом тексте, включенном в корпус. При создании корпуса научно-технических текстов в области космоса и авиации подобная разметка не будет иметь столь существенного значения, как для корпусов художественных текстов. Для научно-технического корпуса значимой будет являться информация о соотнесенности текста с тем или иным описываемым тематическим разделом. Наличие тематических рубрикаторов позволит структурировать информацию внутри корпуса и обеспечит эффективный информационный поиск. Например, тексты в корпусе могут быть разбиты по следующим тематическим рубрикаторам:

  1. типы авиации (гражданская, государственная, военная, экспериментальная);
  2. летно-технические характеристики (вес и нагрузка летательных аппаратов, нормативы и ограничения, управляемость и устойчивость);
  3. виды летательных аппаратов (беспилотные, гиперзвуковые, космические) и т. д.

Разметка позволяет сделать корпус гораздо удобнее в использовании и является главной отличительной особенностью корпуса по сравнению с любыми другими коллекциями текстов. Метаразметка является экстралингвистическим уровнем разметки, позволяющим быстро находить в корпусе наиболее релевантные тексты в соответствии с запросами пользователей, однако особую значимость для проведения корпусных исследований имеет лингвистическая разметка – приписывание компонентам текста специальных меток (тегов). Лингвистическая разметка описывает сугубо лингвистические характеристики языковой выборки корпуса и представляет собой сложный процесс, требующий длительной и кропотливой работы над каждой лексической единицей, представленной в корпусе. Лингвистическая разметка обычно включает в себя разметку морфологическую, синтаксическую, семантическую [11]. При проектировании корпуса научно-технических текстов ключевой будет являться терминологическая разметка, под которой мы подразумеваем разметку лексических единиц по принципу их  соотнесенности с терминологическим аппаратом определенной предметной области. Более того, необходимо указывать модели терминов (например, прил. + сущ.), что позволит осуществлять быстрый поиск по терминам в корпусе. В процессе терминологической разметки необходимо также обращать внимание на многосоставные термины, которые должны восприниматься системой как единые терминологические словосочетания. Например, словосочетание «гидравлический усилитель» должно пониматься в совокупности, как единая терминологическая единица. Терминология авиакосмической предметной области содержит множество других особенностей, которые должны быть отражены в разметке проектируемого корпуса, включая явления синонимии и омонимии терминов [12].

Таким образом, корпусная лингвистика дает объективный взгляд на язык и позволяет исследовать практически любые языковые структуры и явления. Наличие корпуса научно-технических текстов позволит составлять на его основе частотные списки слов, которые можно использовать как самостоятельные лингводидактические материалы, так и включать в учебные пособия в качестве терминологического тезауруса. Частотные списки слов, составленные на основе корпусов научно-технических текстов, позволят отбирать наиболее релевантную лексику для обучения студентов технических специальностей иностранным языкам. На основе корпуса научно-технических текстов можно также создавать семантические сети и онтологии, терминологические гнезда для адекватной оценки состояния терминологии определенной предметной области. Перспективное будущее корпусной лингвистики обусловлено возможностью использовать инструменты корпусной лингвистики для оценки состояния авиакосмической терминологии с целью проведения ее последующей стандартизации.

Литература
  1. Сидняев Н.И., Бутенко Ю.И., Болотова Е.Е. Экспертная система продукционного типа для сознания базы знаний о конструкциях летательных аппаратов // Авиакосмическое приборостроение. 2019. № 6. С. 38–52.
  2. Бутенко Ю.И., Маргарян Т.Д., Кочеткова Е.Л. Переводческая деятельность в условиях цифровизации: обучение и трудоустройство // Alma mater (Вестник высшей школы). 2020. № 9. С. 98–103.
  3. Нагель О.В. Корпусная лингвистика и ее использование в компьютеризированном языковом обучении // Язык и культура. 2008. № 4. С. 53–59.
  4. Biber D. Corpus linguistics and the study of English grammar // Indonesian JELT. 2005. Vol. 1. Pp. 1–21.
  5. Соловьева А.Е. Англоязычные тексты военной авиации как основа лингвистического корпуса // Балтийский гуманитарный журнал. 2019. № 3 (28). С. 369–372.
  6. Miller D., Biber D. Evaluating reliability in quantitative vocabulary studies: The influence of corpus design and composition // International Journal of Corpus Linguistics. 2015. Vol. 20. Pp. 30–53.
  7. Kennedy G. Preferred ways of putting things with implications for language teaching // Directions in Corpus Linguistics. Proceedings of Nobel Symposium 82. 1992. No. 4–8. P. 335–373.
  8. Сысоев П.В. Лингвистический корпус в методике обучения иностранным языкам // Язык и культура. 2010. № 1 (9). C. 99–111.
  9. Базарова Б.Б. Корпусная лингвистика и преподавание иностранных языков // Вестник БГУ. 2015. № 15. C. 88–92.
  10. Лотте Д.С. Очередные задачи научно-технической терминологии // Известия Академии наук СССР. Отделение общественных наук. Сер. VII. 1931. № 4. С. 883–591.
  11. Лесников С. В. Виды разметок текстовых корпусов русского языка // Научно-техническая информация. Сер. 2. Информационные процессы и системы. 2019. №. 9. С. 27–30.
  12. Бутенко Ю.И., Семенова Е.Л. Влияние лингвистических особенностей текстов стандартов на информационный поиск // Филологические науки. Научные доклады высшей школы. 2019. № 6. С. 29–35.
Ваш браузер устарел и не обеспечивает полноценную и безопасную работу с сайтом.
Установите актуальную версию вашего браузера или одну из современных альтернатив.