Концептуальные основы создания корпуса англоязычных научно-технических текстов

Язык труда и переводы:
УДК:
8133
Дата публикации:
06 декабря 2020, 21:47
Категория:
Современные методы и технологии корпусной лингвистики
Авторы
Гаража Владислав Владленович
Московский государственный технический университет имени Н.Э. Баумана
Аннотация:
Затронута тема разработки корпуса научных текстов на английском языке. Рассмотрены труды по корпусной лингвистике. Собранный материал послужил теоретической основой для проведения исследования, основными методами которого являются прямой и косвенный анализ. Прямой анализ подразумевал непосредственное обращение к корпусам, среди них был национальный корпус русского, английского и турецкого языка. Косвенный анализ включал в себя рассмотрение работ и статей, посвященных этим корпусам. Из всей полученной информации были выделены принципы и подходы, которые послужат концептуальной базой для нового корпуса и положительно скажутся на опыте его использования студентами и преподавателями.
Ключевые слова:
корпусная лингвистика, разметка текста, технические тексты
Основной текст труда

Введение

Со времени появления в 60-е гг. ХХ в. корпусная лингвистика прошла значительный путь, что нашло отражение в развитии ее терминологической базы. Однако по-прежнему существуют разные взгляды на то, как следует рассматривать эту область. А.А. Баркович в своей работе «Корпусная лингвистика: специфика современных метаописаний языка» представляет корпусную лингвистику как металингвистический инструмент, методологию создания, использования и изучения корпусов для метаязыковой интерпретации закономерностей речевой практики посредством компьютерных инструментов [1]. Оформлению корпусной лингвистики в особое направление в науке способствовал технический прогресс. Именно с помощью компьютерных технологий удалось преобразовать различные блоки данных в корпуса и создать базы данных. Согласно И.А. Пахолковой корпусная лингвистика занимается разработкой общих принципов построения и использования лингвистических данных с применением компьютерных технологий. Она отмечает, что вследствие роста объема данных появилась необходимость организовать материал, в частности, в виде корпусов. Корпус текстов — корпус данных, единицами которого являются тексты или их части [2].

Природа корпусов текстов подробно рассматривается в книге В.П. Захарова и С.Ю. Богдановой «Корпусная лингвистика». Среди прочего, авторы объясняют целесообразность создания корпуса текстов. Во-первых, достаточно большой и сбалансированный корпус репрезентативен и обеспечивает полное представление языковых явлений. Во-вторых, данные в корпусе находятся в своей естественной контекстной форме, делая их изучение более объективным. В-третьих, созданный и подготовленный массив данных может использоваться многократно различными исследователями и в разных целях [3]. На ряду с этим, массив данных может послужить основой для изучения свойств языка. Только при достаточном объеме выборки, который как раз может обеспечить база данных, возможно проводить статистические исследования для построения лингвистических моделей [4].

Корпуса можно классифицировать по различным признакам, но, если целью является разработать собственный корпус, важно определить, насколько объемным он должен быть. Как сказано в работе Г.В. Колпаковой «лингвистика и лексикография», небольшие специальные корпуса обрабатываются вручную, а категоризация существенно влияет на результаты анализов. Однако в больших корпусах, где категоризация играет ещё более важную роль, применяется автоматическая обработка. Это предполагает разметку корпусных данных по частеречной принадлежности [5]. Возвращаясь к теме разнообразия корпусов, следует обратить внимание на работу Н.В. Козловой. В статье «лингвистические корпуса: определение основных понятий и типология» подробно описывается классификация корпусов и разъясняется данный аспект корпусной лингвистики [6].

Как и в других областях, важно учитывать опыт предшественников. Для этого особое внимание уделено работам, посвященным уже существующим национальным корпусам. Несмотря на то, что они имеют несколько другую направленность, существует проблематика, универсальная для всех корпусов. К таким вопросам относится разрешение многозначности. Нахождение решения позволит внедрить в корпус семантические фильтры. Задача семантической разметки и фильтров была рассмотрена в работе исследователей, занимающихся национальным корпусом русского языка [7].

Исследование корпусов текстов на английском языке технической направленности требует рассмотрения работ, обладающих соответствующей спецификой. А.К. Фуэнтес (A.C. Fuentes) затрагивает тему лексики в академических и технических корпусах, что делает его труд особенно важным относительно задач нашего исследования [8]. Вместе с этим стоит привести статью, которая также привлекла внимание своей предметной направленностью, речь идет о статье Вьоллца Белегу-Чака (Vjollca Belegu-Caka). В ней использование корпусов раскрывается с точки зрения обучения специализированному английскому языку [9].

Вопросы, касающиеся корпус-менеджеров, отражены в работе Д.Ш. Сулейманова и Д.Р. Мухамедшина [10]. Также эти вопросы затрагиваются в обзоре корпусных возможностей от автора З.Б. Долгих. Исследователь определяет корпусный менеджер, опираясь на труд В.П. Захарова и С.Ю. Богдановой [3], упомянутый ранее. Термин означает специализированную поисковую систему, включающую программные средства для поиска данных в корпусе или корпусах, получения статистической информации и предоставления пользователю результатов в удобной форме [11].

Тексты технических стандартов требуют особого внимания. Лексический и грамматический уровень языковой системы таких текстов обладает обобщенно-отвлеченным характером [12]. Основываясь на этом, нужно подстраивать подход к аннотированию и разметке таких случаев. Обучающимся понадобится работать со стандартами не только с целью ознакомления, но и для освоения техники перевода подобных текстов. Знание стандартов и методов их перевода повышает квалификацию профессионала [13].

В настоящее время корпусная лингвистика представлена национальными корпусами для русского, английского, венгерского, словенского и других языков, а также различными специализированными корпусами, такими как словарь-корпус языка А.С. Грибоедова, корпус латинских текстов «Персей» и др. Исследователь может воспользоваться одним или несколькими корпусами для получения данных. В то же время организации, например, частные компании и университеты, постоянно ведут исследовательскую деятельность, и их инструменты специализированы в соответствии с их нуждами. Так, в качестве этапа проектирования корпуса МГТУ им. Н.Э. Баумана, в этой работе рассматриваются принципы разработки различных лингвистических баз данных для построения нового корпуса, отвечающего потребностям учителей и студентов технического вуза.

Целью исследования является разработка концепции для создания корпуса англоязычных научно-технических текстов. В статье будут рассмотрены действующие лингвистические корпуса с целью выделения особенностей, улучшающих пользовательский опыт и структуру самого корпуса. В результатах будут представлены функции и принципы, отобранные на основании их релевантности для проектируемого корпуса. Рассматриваемые принципы представлены в публикациях, посвящённых разработке лингвистических корпусов. Исследование проводится в рамках задач корпусной лингвистики, терминоведения и программирования.

На современном этапе особое внимание уделяется необходимости стандартизации и упорядочивания терминологии, а также создания терминологических словарей, баз данных для автоматической обработки научно-технической документации. В связи с вышеуказанным возникает необходимость создания размеченных коллекций научно-технических текстов как источника для дальнейшего исследования терминологических единиц. Из этого вытекают дополнительные задачи – определение вида разметки и рассмотрение способов её осуществления.

Методология

В данной работе использовалось несколько подходов и методик исследования. Методология включает в себя обзор научной литературы – рассмотрены современные научные работы отечественных и зарубежных ученых в области корпусной лингвистики. В частности, статьи, раскрывающие суть работы уже существующих корпусов. При поиске материалов для исследования внимание уделялось в первую очередь современным источникам. Сначала были отобраны корпуса, которые потенциально имеют подходящие функции и средства для корпуса технических текстов на английском языке. Такие корпуса не обязаны быть схожи с разрабатываемым корпусом по всем аспектам. Например, некоторые принципы создания национального корпуса русского языка могут подойти, несмотря на то, что это корпус русских текстов. В свою очередь, особенности корпуса, касающиеся разметки английских текстов продемонстрированы в работах, посвященных британскому национальному корпусу.

Проводился анализ корпусов, находящихся в открытом доступе и синтез теоретической основы для разработки своего корпуса. В исследовании использовался прямой и косвенный анализ. Результатом прямого анализа является материал, полученный в результате работы непосредственно с анализируемым корпусом. Данный подход не применялся ко всем корпусам, так как к некоторым из них нет открытого доступа. В остальных случаях с базой данных можно было поработать, зайдя на веб-страницу корпуса. Объектом косвенного анализа выступали публикации по корпусной лингвистике. Статьи по теме отдельно взятого корпуса, раскрывают теоретические основы, стоящие за его созданием. Данные работы являются достоверными источниками, так как авторами являются люди, принявшие участие в разработке корпуса, которому посвящена статья.

Результаты

После проведения исследования корпусов и связанных с ними работ удалось выделить несколько инструментов и принципов, которые помогут разработать корпус технических текстов на английском языке. В исследовании приоритетными были выбраны принципы, изложенные в работе М. В. Копотева и А. Мустайоки [14]. Их публикация посвящена созданию Хельсинского аннотированного корпуса, поэтому приведенные там принципы были незначительно адаптированы. Ознакомиться с итоговым материалом можно обратившись к таблице.

Принципы создания аннотированного корпуса

Направленность на широкий круг пользователейИспользуемые в интерфейсе термины понятны учителям и студентам
В приоритете грамматический охватОбъем корпуса не стоит на первом плане, более эффективный в долгосрочной перспективе вариант — точная грамматическая информация. Количество материала возможно увеличить автоматически
Направленность на многоуровневую грамматическую информациюВозможность задать в поиске одновременно несколько граммем разных грамматических категорий
Направленность на устоявшиеся лингвистические представленияОтечественная лингвистическая школа отличается от западной, используется теория и терминологическая база отечественной школы
Языковая единица может иметь более одной интерпретацииСлова, которые в зависимости от экстралингвистических факторов могут иметь разные граммемы, имеют все варианты интерпретации в своих свойствах, чтобы представляться пользователю во всех случаях

Не все подходы оказались подходящими для разрабатываемого корпуса. Так, в турецком национальном корпусе все тексты делятся на художественные (imaginative) и научные (informative) [15]. Подобное деление не подходит для корпуса технических текстов, так как вся или, по крайней мере основная часть, текстов будут информативными. Информативные тексты — тексты из научной литературы. Творческие, в свою очередь, относятся к фантастике.

Одной из задач корпуса является выполнение образовательной функции. С этой точки зрения будет уместно ввести списки согласованности. Обратившись к такому списку, пользователь увидит список слов, отсортированных по частоте использования в разных областях. Данная функция должна стать актуальной при изучении английского языка для общих академических целей. В дополнение к этому, полезными способами сортировки могут оказаться сортировка по источнику информации и по области науки [6].

Обсуждение

В ходе исследования неизбежны определенные трудности. Создание оптимального варианта корпуса англоязычных научно-технических текстов является сложной задачей ввиду того, что для такого корпуса существует незначительное количество примеров и аналогов, чтобы провести сравнение. Наряду с этим, у существующих онлайн-ресурсов разный уровень доступа как к корпусам, так и к документации. Такая ситуация однозначно влияет на результат исследования, но основная цель остается достижимой.

Разработка концептуальных основ создания корпуса англоязычных научно-технических текстов существенно приблизит реализацию непосредственного самого корпуса. Это, в свою очередь, станет отличным инструментом для решения самых разных задач, в том числе, научных и образовательных. Тем временем, формирование корпуса текстов является вкладом в сразу несколько направлений лингвистики, поскольку данный процесс и его результат сочетает в себе корпусную, компьютерную лингвистику и лексикографию.

Выводы

Таким образом, на основе имеющихся научных работ, посвященных разработке корпусов, можно синтезировать теоретическую основу для разработки собственного корпуса английских текстов технической направленности. Создание размеченной коллекции научно-технических текстов — многосторонняя задача, однако, если подходить с каждой стороны по-отдельности, то можно найти решение проблемы в другом, пусть и не совсем похожем корпусе. Корпус технических текстов на английском языке, станет отличным инструментом для преподавателей и студентов, с учетом того, что в нем будут использованы рассмотренные достижения готовых корпусов.

Литература
  1. Баркович А.А. Корпусная лингвистика: специфика современных метаописаний языка // Вестник Томского государственного университета. 2016. № 406. С. 5–13.
  2. Пахолкова И.А. Применение методов корпусной лингвистики в традиционном языкознании // Вестник Московского государственного лингвистического университета. 2012. № 646. С. 125–135.
  3. Захаров В.П., Богданова С.Ю. Корпусная лингвистика. СПб.: Изд-во Санкт-Петерб. ун-та, 2020. 235 с.
  4. Сидняев Н.И., Бутенко Ю.И., Гаража В.В. Математический аппарат для инженерно-лингвистических моделей // AIP Conference Proceedings. AIP Publishing LLC, 2019. Vol. 2195, no. 1. P. 020033.
  5. Колпакова Г.В. Корпусная лингвистика и лексикография // Грани познания: электрон. науч.-образоват. журнал ВГПУ. 2011. № 2. С. 12.
  6. Козлова Н.В. Лингвистические корпуса: определение основных понятий и типология // Вестник Новосибирского государственного университета. Серия: Лингвистика и межкультурная коммуникация. 2013. Т. 11. № 1.
  7. Кустова Г. И. и др. Семантическая разметка и семантические фильтры для Национального корпуса русского языка // Тр. междунар. конф. «Корпусная лингвистика – 2006». СПб., 2006. С. 209–218.
  8. Фуэнтес А.К. Природа лексики в академических и технических корпусах: значение в развитии // Language Learning & Technology. 2001. Т. 5, № 3. С. 106–129.
  9. Вьоллча Б.Ч. Использование корпусной лингвистики для определения учебных потребностей студентов в области электротехники и вычислительной техники при изучении АСЦ. 2018. № 6. С. 90–97.
  10. Сулейманов Д.Ш., Мухамедшин Д.Р. Система корпус-менеджер: архитектура и модели корпусных данных //Программные продукты и системы. 2018. Т. 31. № 4.
  11. Долгих З.Б. Обзор ряда корпусных возможностей в сфере лингвистических исследований (на примере анализа средств градуирования в португальском языке) // Вестник Московского государственного лингвистического университета. Гуманитарные науки. 2018. № 5 (795).
  12. Бутенко Ю. И., Маргарян Т.Д., Кочеткова Е.Л. Переводческая деятельность в условиях цифровизации: обучение и трудоустройство // Alma mater (Вестник высшей школы). 2020. № 9. С. 98–103. DOI: 20339/AM.09-20.09810
  13. Бутенко Ю.И., Семенова Е.Л. Влияние лингвистических особенностей текстов стандартов на информационный поиск // Филологические науки. Научные доклады высшей школы. 2019. № 6. С. 29–35. DOI: 10.20339/PhS.6-19.029
  14. Копотев М.В., Мустайоки А. Принципы создания Хельсинкского аннотированного корпуса русских текстов (ХАНКО) в сети Интернет // Научно-техническая информация. 2003. Т. 2. С. 33–36.
  15. Аксан Ю. и др. Создание Турецкого национального корпуса (НКТЯ) // LREC. 2012. С. 3223–3227.
Ваш браузер устарел и не обеспечивает полноценную и безопасную работу с сайтом.
Установите актуальную версию вашего браузера или одну из современных альтернатив.