Особенности разметки в речевом корпусе для распознавания диалектов русского языка

Язык труда и переводы:
УДК:
88'33
Дата публикации:
08 декабря 2020, 17:05
Категория:
Современные методы и технологии корпусной лингвистики
Авторы
Мохов Дмитрий Михайлович
Московский государственный технический университет имени Н.Э. Баумана
Бутенко Юлия Ивановна
Московский государственный технический университет имени Н.Э. Баумана
Аннотация:
Статья посвящена особенности разметки в речевом корпусе для распознавания диалектов русского языка. Показано, что интерес к созданию речевых корпусов был в значительной степени инициирован разработками в области автоматического распознавания речи, где исследователям приходится сталкиваться с огромной акустической вариативностью звуковых единиц языка, что подтверждается количеством и качеством проведенных исследований. Обосновано, что для распознавания диалектов русского языка требуют использования специального программного обеспечения по созданию речевых корпусов. Описана разработанная система разметки звучащей речи, представляющая собой веб-приложение, которое позволяет пользователю с помощью браузера взаимодействовать с речевой базой данных. Показано, что задача система разметки речи учитывает характерные черты каждого диктора, влияющие на качество произношения. Показано, что дикторы из одного региона примерно одного возраста произносили одни и те же слова по-разному.
Ключевые слова:
речевой корпус, диктор, разметка, произношение, звучащая речь
Основной текст труда

Введение

Интересом к созданию речевых корпусов был в значительной степени инициирован разработками в области автоматического распознавания речи, где исследователям приходится сталкиваться с огромной акустической вариативностью звуковых единиц языка [1, 2].

К программному обеспечению по созданию речевых корпусов можно отнести системы разметки звучащей речи [3]. Разработанная система представляет собой веб-приложение, которое позволяет пользователю с помощью браузера взаимодействовать с речевой базой данных, размещенной на удаленном сервере. Интерфейс представляет собой виджет, который создает визуализацию загруженной аудиозаписи, и набор форм для описания фонем и диктора. Визуализация аудиозаписи представляет собой осциллограмму, на которой пользователь может выделять необходимые участки, соответствующие определенным предложениям, словам и фонемам [4].

Особенности сбора и разметки речевого материала

Для диктовки был подобран ряд текстов, в каждом из которых была представлена фонема в разных позициях: в начале и конце слова, в открытом и закрытом слоге, ударной или безударной позиции и т. д.

Задача сбора аудиозаписей усложнена рядом факторов, таких как уровень образования диктора, длительным проживанием в другом регионе с ярко выраженным диалектом, наличием физиологических особенностей, развитием болезней, связанных с речью и дыханием, которые обязательно необходимо отразить в системе.

Разметка — главная характеристика корпуса; она отличает корпус от простых коллекций (или «библиотек») текстов, в изобилии представленных в современном Интернете [5]. В созданной системе предполагается наличие разметки трех уровней: предложений, слов и фонем.

Разметка слов и предложений производится копированием из файла вручную, а для фонем из предложного списка необходимо выбрать нужную транскрипцию, для упрощения этой задачи, предварительно можно набрать букву на клавиатуре (если фонема произнесена диктором нечетко можно ввести “-”/”?” или оставить поле пустым). Помимо текстового описание у каждой фонемы есть язык и диалект.

Однако, чтобы загрузить размеченные фонемы в базу данных, пользователю сперва необходимо заполнить форму с информацией о дикторе, а точнее заполнить информацию о месте проживания, языке, возрасте, поле и нарушениях речи.  Для хранения фонем используется графовая база данных.

Вариативность произношения при разметке сообщений

В ходе разметки голосовых сообщений можно отметить, насколько по-разному люди из одного города примерно одного возраста произносили одни и те же слова по-разному, например:

1) Поля Пуаря, 1 диктор поставил ударение на безударнурную гласную а, а в конце произносит фонему у;

2) Поля Пуаре, 2й диктор правильно ставит ударение, но в конце употребляет гласную букву е;

3) Поля Пуарэ, 3й диктор произносит слово абсолютно правильно.

Также по осциллограмме можно увидеть, насколько эмоциональна речь у 1-го диктора и как спокойно разговаривают 2-й и 3-й дикторы.

Далее можно отметить, что в среднем все дикторы читали текст  на протяжении 7–10 минут, также в процессе разметки присутствовали  голосовые сообщения ребенка 7 лет и в силу возраста время прочитанного текста было увеличено примерно вдвое, но следует отметить, что детскую речь было значительно проще размечать, а особенно это фонемы, по тому как темп речи был значительно медленнее, чем у взрослого

Заключение

В ходе разметки голосовых сообщений были выявлены следующие аспекты.

  1. Темп речи пользователей варьируется в широких пределах, часто в несколько раз. При этом различные звуки речи растягиваются или сжимаются не пропорционально. Например, гласные изменяются значительно сильнее, чем полугласные и особенно смычные согласные. (Полугласные — это звуки, при генерации которых необходимо участие голосовых связок, как и для гласных звуков, но сами они в обиходе считаются согласными. Образование щелевых звуков связано с шипением и прочими эффектами турбулентности в органах артикуляции. )
  2. Различие голосов, диалектов, дикций, возрастных различий, эмоциональное и физическое состояния диктора, сильно сказывается на распознавании речи важно отметить, что к концу голосового сообщения диктор уставал и его речь былазначительно сложение для разметки.
  3. Проблема кластеризации слитной речи: в непрерывном речевом потоке трудно распознать речевые единицы из-за неточного определения границ.  Возникает необходимость выделять односложные слова — именно с ними и связано максимальное число ошибок реально существующих систем.
  4. Различные условия записи речи, наличие шума или его отсутствие
  5. Звуковые образцы из разных предметных областей в связи с разнообразием терминологии.
Литература
  1. Бутенко Ю.И., Семенова Е.Л., Сидняев Н.И. Математические аспекты в языковедческой теории и практике // Alma mater (Вестник высшей школы). 2018. № 4. С. 73–78. DOI: 10.20339/AM.04-18.07
  2. Бутенко Ю.И., Коноплева А.А. Методология использования нейросетевых технологий при распознавании триграмм // Нейрокомпьютеры: разработка, применение. 2020. № 1. С. 5–17. DOI: 10.18127/j19998554-202001-01
  3. Бутенко Ю.И. Система разметки звучащей речи для сравнительного анализа произношения в различных диалектах // Вестник Воронежского государственного университета. Сер. Системный анализ и информационные технологии. 2020. № 4. С. 168–176. DOI: 10.17308/sait.2020.1/2631
  4. Slavnov N.V., Stroganov Y.V., Kvasnikov A.V. System for Speech Corpus Development // Conference of Russian Young Researchers in Electrical and Electronic Engineering (EIConRus). 2020. Pp. 1730–1732.
  5. Лесников С.В. Виды разметок текстовых корпусов русского языка // Научно-техническая информация. Сер. 2. Информационные процессы и системы. 2019. № 9. C. 27–30.
Ваш браузер устарел и не обеспечивает полноценную и безопасную работу с сайтом.
Установите актуальную версию вашего браузера или одну из современных альтернатив.