Особенности семантической разметки в корпусе научно-технических текстов

Язык труда и переводы:
УДК:
811
Дата публикации:
25 мая 2023, 13:47
Категория:
Современные методы и технологии корпусной лингвистики
Авторы
Попова Надежда Михайловна
студент МГТУ им. Н.Э. Баумана
Бутенко Юлия Ивановна
МГТУ им. Н. Э. Баумана
Аннотация:
Рассматривается проблема разметки семантических отношений между компонентными предложения в корпусе научно-технических текстов. Проанализированы основные подходы, описывающие предметно-предикатные отношения в предложении. Обосновано, что наибольшую сложность при семантической разметке корпуса научно-технических текстов вызывают многокомпонентные термины. Описан подход к выделению семантической разметки научно-технических текстов на основе семантических падежей Ч. Филлмора.
Ключевые слова:
разметка текста, семантические падежи, корпусная лингвистика, предикаты
Основной текст труда

Особенности семантической разметки в корпусе научно-технических текстов

Введение

Важную роль при создании корпусов играет семантическая разметка, которая помогает установить контекст высказывания и устранить двусмысленность. Основная цель семантической разметки – «формализировать» значения слов и сделать тексты пригодными для машинной обработки.

Семантическая разметка приписывает единицам текста один или несколько семантических и словообразовательных признаков; предусматривает спецификацию значения слов, разрешение омонимии и синонимии, категоризацию слов (разряды, родовые и видовые дескрипторы), выделение тематических классов, признаков каузативности, оценочных и деривационных характеристик, семантических ролей (например, агенс, инструмент, пациенс, результат) [6].

При этом семантическая разметка не имеет четких критериев, по которым размечаются тексты, например, до сих пор не существует единого инвентаря семантических ролей, поэтому такой тип разметки является одним из самых сложных и наименее развитых, в том числе в отечественной лингвистике [3, 5, 7]. Таким образом, целью исследования является выявление особенностей при выделении семантических падежей Ч. Филлмора в корпусе научно-технических текстов.

Типология семантических падежей Ч. Филлмора

Семантический синтаксис позволяет, во-первых, выделить содержание предложения как самостоятельный объект, во-вторых, выработать систему понятий, описывающих и объясняющих его. Важнейшее достижение семантического синтаксиса видится в том, что достаточно ясно осознан факт: смысл предложения не является суммой значений составляющих его слов. Это некоторое независимое образование, имеющее собственную внутреннюю организацию, которая диктует свои требования к подбору лексики и морфологических форм, тем самым заставляя их выступать в определенных значениях, а иногда «навязывая»  несвойственные им формы.

Первоначальная типология актантов создана в теории членов предложения, где были выработаны понятия «субъект», «объект», «косвенный объект», «адресат». Ч. Филлмор выделил следующие семантические падежи.

1. Агент – одушевленный инициатор действия.

2. Объект – вещь, которая является объектом действия.

3. Контрагент – сила, против которой направлено действие.

4. Адресат – лицо, для которого совершается действие.

5. Пациенс – вещь, которая чувствует эффективность действия.

6. Результат.

7. Инструмент  – физическая причина действия/ стимул.

8. Источник – исходное состояние объекта к действию.

Семантические падежи выделяются исходя из онтологической функции объекта – функции, которую объект выполняет в рамках определенного внеязыкового события. Этот подход может быть сопоставлен с выделением типового участника типового события окружающей действительности, что сильно различается с понятием грамматического падежа, добавляя к характеризующему компоненту – семантическому падежу, смысловую переменную. Именно это может стать решающим показателем в обработке естественного текста, поскольку информация, передаваемая в семантическом падеже, будет являться базовым отражением денотативной ситуации – сцены [4].

При изучении семантических падежей, в которых стоят слова в предложении, становится возможной интерпретация их онтологической роли при различных грамматических комбинаторных изменениях. Такой подход к изучению предложений является особенно важным для русского языка, который по своей синтаксической структуре не имеет фиксированного порядка слов.

 

Особенности выделения семантических падежей Ч. Филлмора в научно-технических текстах

В процессе разметки семантических падежей в научно-технических текстах возникает ряд трудностей, связанных со стилистическими особенностями размечаемых текстов. В прямые отношения с предикатом вступает только несколько слов, однако другие компоненты предложения тоже состоят в отношениях друг с другом. А именно, они находятся в отношениях двусторонней доминации – оказывают друг на друга влияние на уровне синтаксиса. Если рассмотреть предложение с точки зрения внутрифразовых отношений, то получится следующая иерархическая схема, представленная на рисунке.

 

Синтаксический разбор предложения

 

При таком анализе предложения сложно установить, какие именно слова являются актантами. Таким образом, для семантической разметки научно-технических текстов необходимо разработать специальный подход, который позволит прослеживать валентностные связи и однозначно определять связанные с предикатом актанты.

На первом этапе необходимо провести терминологическую разметку научно-технических текстов в корпусе, обозначить многокомпонентные термины как одну лингвистическую единицу и выделить в каждом многокомпонентном термине ядерный элемент, например: при этом считается, что водяной лед* обеспечит систему* жизнеобеспечения будущей Лунной станции.

Далее идентифицировать предикат, который по своей структуре может быть простым – «осуществляется», или составным – «могут осуществлять». Для выявления валентностной связи релевантными являются категории лица и числа, поскольку именно через них прослеживается зависимость компонентов, в то время как категории вида, времени, залога, наклонения, не являются показательными.

Затем выявить связанные через двустороннюю доминацию с глагольным центром актанты:

[1] При этом считается, что водяной лёд (<= кто обеспечит?) обеспечит систему жизнеобеспечения будущей Лунной станции.

[2] При этом считается, что водяной лёд (<= кто обеспечит?) обеспечит (что? =>) систему жизнеобеспечения будущей Лунной станции.

При выделении актантов важно иметь в виду, что из всей именной группы «систему жизнеобеспечения будущей Лунной станции» актантом является только слово «система», которое представляет собой ядро многокомпонентного термина.

Оставшиеся компоненты предложения являются сирконстантами, которые определяют условия реализации предикативного центра. Они являются общим модусом описываемой реальности, контекстом всего предложения и не связаны с глагольным центром напрямую. При этом считается (<=при каком условии?), что водяной лёд обеспечит систему жизнеобеспечения будущей Лунной станции.

 

Заключение

Семантическая разметка корпуса научно-технических текстов является основой для разработки широкого класса систем обработки естественного языка. Опираясь на теорию семантических падежей Ч. Филлмора, показан подход к выделению семантических падежей в научно-технических текстах. Процесс вычленения примыкающих к глагольному центру актантов станет первым шагом в разработке алгоритма по разметке семантических ролей в научно-технических текстах.

Литература
  1. Алиева Н.А. Актанты и Сирконстанты. Ученые записки Таврического национального университета имени В.И. Вернадского. Сер. Филология. Социальные коммуникации, 2014, № 3, с. 246–252.
  2. Бутенко Ю.И., Галетка М.Л., Синева Е.Е. Создание системы разметки семантических ролей в научно-технических текстах по авиации и космонавтике. Научно-техническая информация. Сер. 2. Информационные процессы и системы, 2022, № 10, с. 23–32. DOI:10.36535/0548-0027-2022-10-4
  3. Бутенко Ю.И., Синева Е.Е., Строганов Ю.В., Виноградов И.А. Разметка семантических ролей с целью извлечения информации из баз знаний в области авиакосмического приборостроения. XLVI Академические чтения по космонавтике, посвященные памяти академика С.П. Королева и других выдающихся отечественных ученых – пионеров освоения космического пространства. Москва, Изд-во МГТУ им. Н. Э. Баумана, 2022, с. 453–456.
  4. Генералова Л.М., Ребрина Л.Н. О когнитивной сущности семантического падежа. Вопросы когнитивной лингвистики, 2017, № 2, с. 58–63.
  5. Кузнецов И.О. Автоматическая разметка семантических ролей в русском языке. Автореф. дис … канд. фил. наук. Москва, 2016. 179 с.
  6. Лесников С.В. Виды разметок текстовых корпусов русского. Научно-техническая информация. Сер. 2. Информационные процессы и системы. 2019, № 19, с. 27–30.
  7. Мельчук И.А., Жолковский А.К. Толково-комбинаторный словарь современного русского языка. Опыты семантико-синтаксического описания русской лексики. Вена, Венский славистический альманах, 1984.
  8. Попова Е.А. Сирконстанты и условия их актуализации в высказывании. Вестник МГЛУ, 2016, № 21, с. 69–80.
  9. Ривилина А.А. Теоретическая грамматика английского языка. Благовещенск, Изд-во БГПУ, 2009, с. 251.
  10. Теньер Л. Основы структурного синтаксиса. Москва, Прогресс, 1988. 656 с.
  11. Филлмор Ч.Дж. Фреймовая семантика и природа языка, Беркли, 1976.
  12. Гильдея Д., Джурафски Д. Автоматическое обозначение семантических ролей. Компьютерная лингвистика, 2002, № 18.
Ваш браузер устарел и не обеспечивает полноценную и безопасную работу с сайтом.
Установите актуальную версию вашего браузера или одну из современных альтернатив.