Электронный корпус древнейших русских летописей: инструменты, возможности, применение

Язык труда и переводы:
УДК:
811.161.1.04
Дата публикации:
07 декабря 2020, 17:37
Категория:
Современные методы и технологии корпусной лингвистики
Авторы
Верняева Регина Александровна
Ижевский государственный технический университет имени М. Т. Калашникова
Аннотация:
В работе представлено описание возможностей и инструментов электронной коллекции русских летописей информационно-аналитической системы «Манускрипт: Славянское письменное наследие» (URL: manuscripts.ru). Дана характеристика ключевым модулям подкорпуса, позволяющим проводить количественно-статистический анализ языковых единиц - модулю статистики и модулю n-грамм. Сделаны выводы о важности использования компьютерных технологий при работе в большими текстовыми массивами. Продемонстрировано, что корпус древнейших и средневековых славяно-русских рукописей портала «Манускрипт» является одним из немногочисленных сегодня исторических корпусов, позволяющих проводить лингвотекстологические исследования.
Ключевые слова:
Электронный корпус, русские летописи, модуль n-грамм, количественно-статистические методы
Основной текст труда

В настоящее время активно развивается корпусная лингвистика, позволяющая исследовать факты речи и языка на основе анализа очень больших текстовых массивов.

В ряду наиболее значимых для русской истории и культуры текстов особое место занимают русские летописи. Летопись представляет собой так называемый объединяющий тип древнерусской литературы. Многообразие жанровых включений, смешение книжной и живой языковой традиций позволяют ставить и решать сложные задачи истории русского языка. Наличие нескольких разновременных редакций и списков в большей части одних и тех же текстов-произведений позволяет осуществлять сопоставительное исследование нескольких рукописей и в динамике проследить изменения, происходившие в языковой системе.

Сегодня создано и доступно в Интернете достаточно много ресурсов на основе русских летописей: хорошо известен проект «Лаврентьевская летопись. 1377 г. Электронное представление рукописного памятника», подготовленный к 1150-летию Российской государственности совместно тремя организациями: Российской национальной библиотекой, Президентской библиотекой имени Б.Н. Ельцина и Центром национальной славы (URL: http://expositions.nlr.ru/LaurentianCodex/project1.html); транскрипции, представленные на сайте «Изборник» (URL: http://litopys.org.ua/ipatlet/ipat01.htm); компиляция нескольких списков Повести временных лет, подготовленная Дональдом Островским (URL: https://web.archive.org/web/20050309022812/http://hudce7.harvard.edu/~ostrowski/pvl/); параллельный корпус двух списков Повести временных лет Института русской литературы (URL: http://lib.pushkinskijdom.ru/Default.aspx?tabid=4869) и некоторые другие. Все они представляют собой публикации переводов или сканированных печатных изданий, а также электронные наборы текстов по печатным изданиям. Большая часть публикаций снабжена средствами навигации, которые позволяют перейти к нужной странице или погодной записи.

Однако исключительными являются интернет-ресурсы на основе русских летописей, имеющие и текстологическую, и лингвистическую разметку, позволяющие осуществлять не только стандартный поиск по маске словоформы или поиск нужного листа или погодной записи, но и выборку по нескольким, в первую очередь текстологическим и лингвистическим параметрам, строить упорядоченные перечни словоформ и/или лемм и получать статистические сведения о лингвистических единицах рукописей. Можно сказать, что, несмотря на значительное количество электронных изданий русских летописей в Интернете, все они представляют собой электронные публикации, лишь по форме отличающиеся от печатных изданий и тем самым не позволяющие осуществлять ни специализированных, ни комплексных исследований текстов летописных списков.

Информационно-аналитическая система «Манускрипт» (ИАС «Манускрипт») (портал системы: manuscripts.ru/), возможности которой позволяют представить древнерусский текст в виде, адекватно отражающем все графико-орфографические особенности списков, а также осуществлять выборку необходимого для лингвистического анализа материала и визуализировать его с помощью веб-модулей, в настоящее время содержит коллекцию (подкорпус) русских летописей, включающую пять полных списков – Лаврентьевский (ЛЛ), Ипатьевский (ИЛ), Радзивилловский (РЛ); Комиссионный (НIЛК) и Синодальный (НIЛС) списки Новгородской I летописи (http://manuscripts.ru/mns/portal.main?p1=23). На основе полнотекстовой базы данных этих транскрипций создан параллельный корпус погодных записей и типов изложения, доступный по адресу http://manuscripts.ru/mns/cred.cred?koll=62133570&f_type=14001.

1.Запросные формы

Ранее в работе [1] мы описывали формы ввода и вывода запросов.

Для получения сведений об общем количестве словоформ в рукописях может быть использован табличный количественный указатель словоформмноготекстовой запросной формы (рис. 1).

Для выявления количества отдельных форм может быть использован прямой указатель словоформмноготекстовой запросной формы.

Эти списочные и табличные перечни дают общее количество форм в рукописи, а также их адреса в виде гиперссылок к страницам фрагментов, что позволяет провести анализ любой языковой единицы в тексте.

Рис. 1. Визуализация результатов запроса: указатель словоформ количественный

2. Модуль статистики

Анализ функционирования лингвистических единиц предполагает, в частности, наличие сведений об их количестве в некотором объеме текстов.

Учитывая, что факты средневековой рукописи отражают одновременно и современные времени создания списка языковые особенности, и особенности антиграфов и протографа, важным является установление закономерностей распределения языковых фактов в конкретном списке или группе списков в зависимости от характеристик их частей. 

Учет того, что графические, орфографические, словообразовательные, лексические факты компилятивных средневековых рукописей отражают одновременно и современные времени создания списка языковые особенности и – в ряде случаев – особенности антиграфов и протографов, а распределение вариантов по различным фрагментам может быть обусловлено в том числе и текстологически – характеристиками частей, позволяет поставить вопрос о поиске лингвистически значимых различий между частями на основе анализа распределения речевых фактов в конкретном списке или группе списков.

Для получения сведений о распределении единиц в рукописях создан и тестируется модуль статистики (http://www.manuscripts.ru/mns/cred.stat; подробнее о модуле см. [2–5]), использование которого позволяет «ставить и решать большое количество корпусных и лингвотекстологических задач, связанных с определением количества единиц в рукописях и с их распределением по тексту» [2]. Модуль позволяет увидеть распределение текстовых форм, в частности в списках одного произведения, выровненных по аналогичным фрагментам.

В работах [6, 7] мы использовали модуль статистки для анализа и описания функционирвоания форм на -о (предикативных) в русских летописях (рис. 2). 

Рис. 2. Распределение форм с конечным -но в Лаврентьевской (основная), Радзивилловской и Ипатьевской летописях

3. Модуль n-грамм

Количественный фактор имеет большое значение при любых статистических исследованиях устойчивых единиц, например, при определении их частотности.

Модуль n-грамм дает возможность осуществить статистический анализ языковых единиц с помощью мер ассоциации (Mutual Information (MI), Pointwise Mutual Information (PMI), T-score, Log-Likelihood, Dice, Inside и др.). Мы говорим о статистической ассоциации, которая основана на синтаксической и лексической связности. Несомненно, частота совместной встречаемости лексем является важным параметром для нахождения, в частности, устойчивых сочетаний. Статистические меры учитывают частоту совместной встречаемости единиц, а также частоту каждой отдельной единицы в текстовом корпусе.

В.А. Баранов в работе [5] описал возможности модуля n-грамм «для выявления грамматически и семантически устойчивых словосочетаний, характеризующих тематику текстов». Автор выявил перечни редких и частотных сочетаний в текстах летописей с помощью мер Mutual Information и T-score и пришел к выводу, что «MI-перечни включают имена собственные, парные именования, устойчивые библейские и славяно-книжные подчинительные конструкции», а «T-score-перечни дают информацию о событиях, целях, лицах, результатах и о их характеристиках».

Модуль n-грамм ИАС «Манускрипт» способен определить неслучайность связи компонентов сочетания и позволяет получить лингвистически обоснованные результаты.

В настоящее время мы активно используем данный модуль для анализа коллокаций, зафиксированных в летописном корпусе. В частности подготовлены и находятся в печати статьи, содержащие анализ n-грамм и триграмм с компонентами мъного и мало, анализ статистически устойчивых глагольно-именных сочетаний, коллокаций с компонентами на -ьн(о). 

На сегодняшний день компьютерные технологии позволяют обрабатывать большое количество материала за сравнительно небольшое количество времени, в связи с чем исследователь имеет возможность привлечь для анализа большой круг источников, в том числе в виде корпусов.

Одним из немногочисленных сегодня исторических корпусов является корпус древнейших и средневековых славяно-русских рукописей портала «Манускрипт», содержащий подкорпус нескольких древнейших летописных списков, оснащенный модулями, позволяющими проводить лингвотекстологические исследования.

Литература
  1. Верняева Р.А. Корпус русских летописей в Интернете // Русский язык и русская речь в XXI веке: проблемы и перспективы: сб. тез. IV Междунар. науч.-практ. конф. (Ижевск, 20–22 сентября 2018) / отв. ред. Л.Ф. Килина. Ижевск: Издат. центр «Удмуртский университет», 2018. 50 с.
  2. Баранов В.А. Software Tools and User Interfaces designed for Historical-Linguistic Purposes of Project “Manuscript” // Информационный бюллетень Ассоциации «История и компьютер». № 37. Труды международной конференции «Компьютерные технологии и математические методы в исторических исследованиях» (Петрозаводск, 11–16 июля 2011 г.). Петрозаводск, 2011. C. 7–14.
  3. Baranov V.A., Gnutikov R.M. The statistics and n-gram modules of the historical corpus “Manuscript” // Digital and Analytical Approaches to the Written Heritage: Proceedings of the 7th international conference El‘Manuscript “Textual Heritage and Information Technologies”, 2018 / Compilers and Editors: Anisava Miltenova, Victor Baranov, Heinz Miklas, Kevin Hawkins, Jürgen Fuchsbauer. Sofia: Gutenberg Publishing House, 2019. Pp. 9–28.
  4. Баранов В.А. Модуль статистики исторического корпуса «Манускрипт»: функции и демонстрация данных. 2 // И.А. Бодуэн де Куртенэ и мировая лингвистика: междунар. конф.: VII Бодуэновские чтения (Казан. федер. ун-т, 28–31 октября 2019 г.): тр. и матер.: в 2 т. / под общ. ред. К.Р. Галиллина, Е.А. Горобец, Э.А. Исламовой. Казань: Изд-во Казанского университета, 2019. Т. 1. С. 24–30.
  5. Баранов В. А. Корпусные исследования средневековых славянских рукописей: статистически значимые n-граммы (коллокации) древнерусских летописей // Электронный научно-образовательный журнал «История». 2020. Т. 11, вып. 3 (89): Цифровое содружество наук: опыт применения информационных технологий в истории и смежных дисциплинах / ред. А.Ю. Володин, Артур Пол, Клива Клер. DOI: 10.18254/S207987840009440-3
  6. Верняева Р.А. Субстантиваты на –о в летописном тексте (на материале Лаврентьевской, Ипатьевской и Радзивилловской летописей) // Язык и литература в научном диалоге. Специальный выпуск : Интегративные процессы в филологии : сборник научных статей / отв. ред. Л.Ф. Килина. Ижевск: Издат. центр «Удмуртский университет», 2016. 212 с. С. 12–16.
  7. Верняева Р.А. Условия активизации качественных наречий на –о: развитие предикативных конструкций в летописном тексте на материале Лаврентьевской, Ипатьевской и Радзивилловской летописей) // Вестник Удмуртского университета. Сер. История и филология. 2016. Т. 26, вып. 5. С. 5–11.
Ваш браузер устарел и не обеспечивает полноценную и безопасную работу с сайтом.
Установите актуальную версию вашего браузера или одну из современных альтернатив.