О диалоговых системах и классификации их функциональности

Язык труда и переводы:
УДК:
004.912:004.89
Дата публикации:
31 марта 2023, 16:35
Категория:
Функциональные, семантические и прагматические особенности лексических единиц различных уровней
Авторы
Волкова Лилия Леонидовна
МГТУ им. Н.Э. Баумана
Аннотация:
Приведен обзор ключевых задач и вызовов диалоговых систем. Диалоговые системы рассмотрены с точки зрения решений в области сильного искусственного интеллекта. Приведена классификация функциональности диалоговых систем, и решаемые задачи соотнесены с выделенными классами. Рассмотрены проблемы человеко-машинной коммуникации и в том числе подходы, позволяющие приблизить диалоговую систему к прохождению теста Тьюринга.
Ключевые слова:
диалоговые системы, компьютерная лингвистика, человеко-машинное взаимодействие, искусственный интеллект
Основной текст труда

Введение

Диалоговые системы — это прикладная область на стыке машинной лингвистики и искусственного интеллекта (ИИ). Классическое понимание этого термина находится в области сильного искусственного интеллекта. Cильный ИИ основан на специальных методах, которые воссоздают, определённые признаки и свойства человеческого мышления, слабый ИИ есть средство автоматизации расчетов [1]. Во втором десятилетии XXI в. понятие диалоговой системы и в особенности синонима «чат-бот» совершило переход к частному случаю интерфейса — меню, которое выводится телеграм-ботами и допускает ввод пункта меню в виде текста, что позиционируется как новая концепция меню по сравнению со вводом пользователем символа или числа для указания номера пункта меню в консольном интерфейсе.

В данной статье будут рассмотрены задачи диалоговых систем, кроме близких к упомянутому выше случаю, вырожденному в сверку строк. Задачи эти соотнесены с классами функциональности диалоговых систем и зачастую относятся как к методам автоматической обработки текста (АОТ), синтеза текста и речи, так и к методам понимания и интерпретации информации и знаний для систем и методов, близких к сильному ИИ и делающих первые шаги к нему.

Классификация диалоговых систем

Базовая функциональность диалоговых систем — это автоматическая обработка текстов на естественном языке. В зависимости от полноты выполнения стека этапов АОТ [2], может быть достигнута глобальная цель диалоговых систем — некоторое машинное понимание смысла текста. На этой основе и зиждутся автоматизированные системы, работающие в режиме диалога с человеком, при котором формируется ответ на каждую команду или реплику пользователя, в том числе по мере надобности обращение к нему за дополнительной информацией [3].

Диалоговые системы обладают подмножеством следующей функциональности, определяющей классы решаемых задач. Эти классы могут пересекаться.

  1. Функция выполнения команд. Исторически первоочередное применение роботов — замена человека на трудоёмких и опасных работах. Команды могут быть сформулированы посредством различных каналов передачи информации: так, команду остановиться, или прервать текущую работу, можно отдать словесно либо жестом — выставленной вперёд ладонью (что можно распознать при наличии модуля обработки данных с видеокамеры). Ответы диалоговой системы также могут быть мультимодальными. Унимодальные, текстовые диалоговые системы, разработанные в стремлении к сильному ИИ: ELIZA [4], SIR [5], SHRDLU [6], PARRY [7], A.L.I.C.E. [8]. Во XXI веке функция выполнения команд реализуется в голосовых помощниках: Яндекс Алиса [9], Apple Siri [10], Microsoft Cortana [11], Microsoft Xiaoice [12], Amazon Alexa [13], Google Assistant [14].
  2. Функция ответа на вопросы в простейшем случае реализуется на основании словаря ответов или сценариев ответов. В голосовых ассистентах данная функция сочетается с функцией выполнения команд. При этом перечень сценариев взаимодействия с человеком ограничен, но может пополняться. Вопросно-ответные системы в более широком смысле используют стек методов анализа текста на естественном языке, чтобы из входного текста либо текста, транскрибированного по входной аудиодорожке, извлечь смысл и по смыслу входного высказывания сформировать ответ, а затем с привлечением методов синтеза текста на естественном языке [2] облечь ответ в человекопонятную форму — в текст и, если его требуется озвучить, в аудиосигнал. Частный случай полного цикла анализа и синтеза текстов на естественном языке — это машинный перевод: вместо поиска ответа на поставленный вопрос происходит перенос смысла на ткань целевого языка, и уже этот новый смысл проходит этапы синтеза согласно с языковой моделью целевого языка [15, 16]. В числе передовых вопросно-ответных систем находятся отечественный продукт ABBYY Compreno [17], а также рекомендательные системы, анализирующие естественно-языковой ввод и предлагающие решение в качестве инструментов поддержки принятия решения человеком: IBM Watson [18] для медицинского домена и нишевая рекомендательная система для домена духов [19].
  3. Коммуникативная функция. Люди вступают в коммуникацию не только и не столько ради получения информации. Зачастую их интересует именно коммуникация, в том числе аффективная, с демонстрацией эмоций, что доказано всемирным локдауном в пандемию коронавируса. Прикладная психология позволяет расшифровать и зашифровать дополнительную информацию, упакованную в поведенческие паттерны, чтобы увеличить эффективность и снизить психологический дискомфорт, который может проистекать из неверного и даже неприемлемого выбора средств выражения личностного отношения одного собеседника к другому или к предмету беседы, а также средств донесения смысла высказывания. В человеко-машинном взаимодействии можно наблюдать те же проблемы. Рассмотрим частный пример: ассистент (человек либо робот) отвечает единственно на поставленный вопрос, не добавляя ни одного лишнего слова, не добавляя ни грана эмоциональной окраски речи, не выражая интереса к беседе и собеседнику, не задавая вопросов и не задействуя невербальные средства коммуникации. В большинстве случаев такое поведение в диалоге воспринимается как неприятное, скудное и малополезное, поскольку люди ожидают более богатых реакций, когда задают вопрос и просят о простой помощи, например, о справке. Человеку нужно быть понятым, а сверх этого ещё и принятым, даже если он недостаточно полно или точно сформулировал ответ. Помимо собственно донесения смысла ответа, существует общечеловеческая проблема, которую можно выразить в вопросе: «Догадайся, что именно человек хочет узнать, задав этот вопрос?» Чаще всего, требуется уточнение дополнительной информации, чтобы дать наиболее полный ответ. А свойственным человеческому общению подходом будет выражение некоторого личностного отношения к собеседнику в репликах, что будет оценено им и повысит степень его удовлетворённости беседой, если к нему проявили участие.  Вопросно-ответные системы, голосовые ассистенты в смартфонах и умных домах, чат-боты сегодня являются глобальным трендом, и с учётом вышесказанного, важной представляется задача добавить немного личностного в их механистичное мышление.
  4. Социальная функция. Помимо удовлетворения потребности человека в коммуникации, диалоговые системы и коммуникативные роботы могут иметь социальное применение. Так, отдельную важность имеют решения для ухода за болеющими, выздоравливающими и пожилыми людьми, в том числе у них дома [20]. Ещё одно применение проиллюстрировано коронавирусной пандемией: на самоизоляции люди испытывают острую потребность в общении, робот-компаньон может скрасить им дни.
  5. Образовательная функция. Диалоговая система может выступать средством автоматизации в рамках образовательного процесса. Так, сценарий вспоможествования изучения латыни или иных языков может быть встроен в коммуникативных агентов и роботов. Рассмотрим пример сценария, реализованного в проекте Ф-2: робот Ф-2 [21] называет слово или словосочетание на русском языке и ожидает от человека ответ — перевод на латынь. Если человек даёт неверный ответ, робот не формирует негативную реакцию, так как регулярная негативная обратная связь может негативно сказаться на восприятии процесса обучения человеком. Вместо этого робот даёт подсказку. Рассмотрение такого сценария обозначает комплекс задач, связанный с разработкой мультиязычных систем: переключение с одного языка на другой, разграничение спонтанной речи на русском языке и ожидаемого высказывания на латыни, распознавание речи на латыни, учёт акцента обучающегося латыни русскоязычного человека, транскрипция результата и сверка его с образцом в рамках подзадачи оценки корректности перевода, а также, возможно, определение совершённой ошибки.
  6. Развлекательная функция. Она может сочетаться с другими функциями, например, при использовании подхода геймификации в образовательном процессе [22, 23], в чисто развлекательных продуктах, как Sony Aibo, Pleo и Тамагочи. Отдельная проблема игрушек с ограниченным спектром сценариев заключается в том, что человек быстро теряет к ним интерес. Перелом наступил с появлением Тамагочи, захватившего людей тем, что демонстрировал аффективные реакции, и тем вовлекал человека и вызывал в нём эмоциональный отклик и привязанность — засим появилось обозначение «эффект Тамагочи».
  7. Исследовательская функция. Учёные из областей ИИ, лингвистики компьютерной и компьютеризированной, психологии и когнитивистики исследуют когнитивные процессы человека, а также особенности межличностного и человеко-машинного взаимодействия на сопоставлении и противопоставлении [24, 25]. Один из видных программно-аппаратных комплексов, разработанных для изучения познавательной способности человека, — Mertz (MIT, США) [26], в котором в продолжение классических работ по теории ИИ моделируется автоматическое построение связей между образами объектов и словами. Отдельное направление исследований посвящено формированию роботами и компьютерными программами аффективных реакций: Русский эмоциональный корпус REC [27], GRETA [28], Max [29], SEMAINE [30], Ф-2 [31]. При этом используется термин «аффективные реакции», чтобы отделить синтетические реакции роботов от испытываемых человеком эмоций. Отдельные успехи в воспроизведении человекоподобных реакций — в частности, иронии [32], — позволяют отметить верность выбранного подхода: человекоподобность синтезируемого поведения свидетельствует в пользу близости составленной модели к оригиналу.

Существует ряд перспективных задач в человеко-машинной коммуникации:

  • изучение и воспроизведение аффективных и мультимодальных реакций;
  • введение ограничений, обусловленных нормой языка, составом участников беседы, тематикой и контекстом беседы;
  • фильтрация данных для формирования хранимого контекста беседы;
  • привлечение методов верификации, связанных с имитационным моделированием [33].

Заключение

Предложена классификация функциональности диалоговых систем, определяющая решаемые ими задачи. Рассмотрен ряд значимых проектов и исследований, а также текущие и перспективные разработки в предметной области диалоговых систем, авторы которых стремились и стремятся наделить их чертами сильного ИИ. Обозначены перспективные задачи в области человеко-машинной коммуникации, которые помогут диалоговым системам сделать ещё один шаг к прохождению теста Тьюринга [34].

Грант
Исследование выполнено за счет гранта Российского научного фонда (проект № 19-18-00547)
Литература
  1. Сирл Дж. Разум, мозг и программы. Глаз разума. Самара, Барах-М, 2003, с. 315–331.
  2. Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика. Москва, МИЭМ, 2011, 272 с.
  3. Мильчин А.Э. Издательский словарь-справочник. Москва, Олма-Пресс, 2003, 560 с.
  4. Weizenbaum J. ELIZA. Commun. ACM, 1966, vol. 9, pp. 36–45.
  5. Raphael B. SIR, a computer program for semantic information retrieval. Semantic Information Processing. Minsky M., ed. Cambridge, MIT Press, 1968, pp. 33–144.
  6. Winograd T. Understanding natural language. New York, Academic Press, 1972, 191 p.
  7. Colby C.M. Artificial paranoia: a computer simulation of paranoid processes. New York, Elsevier Science Inc., 1975, 113 p.
  8. Wallace R.S. The anatomy of A.L.I.C.E. Parsing the Turing test. Epstein R., Roberts G., Beber G., eds. London, Springer Science+Business Media, 2009, pp. 181–210.
  9. Как устроена Алиса. Лекция Яндекса. URL: https://m.habr.com/en/company/yandex/blog/349372/ (дата обращения 17.06.2019).
  10. The Story of Siri, by its founder Adam Cheyer. URL: https://medium.com/wit-ai/the-story-of-siri-by-its-founder-adam-cheyer-3ca38587cc01 (дата обращения 13.11.2020).
  11. Introduction to Cortana intelligence suite. URL: https://social.technet.microsoft.com/wiki/contents/articles/36688.introduction-to-cortana-intelligence-suite.aspx (дата обращения 13.11.2020).
  12. Microsoft Xiaoice и тест Тьюринга. URL: https://rb.ru/story/Xiaoice/ (дата обращения 13.11.2020).
  13. How Amazon Alexa works: your guide to natural language processing (AI). URL: https://towardsdatascience.com/how-amazon-alexa-works-your-guide-to-natural-language-processing-ai-7506004709d3?gi=d983f99812f3 (дата обращения 13.11.2020).
  14. Google Assistant: The complete history of the voice of Android. Digital Trends. URL: https://www.digitaltrends.com/mobile/google-assistant/ (дата обращения 13.11.2020).
  15. Богуславский И.М., Иомдин Л.Л., Крейдлин Л.Г., Фрид Н.Е., Сагалова И.Л., Сизов В.Г. Модуль универсального сетевого языка (UNL) в составе системы ЭТАП-3. Диалог’2000. Международный семинар по компьютерной лингвистике и ее приложениям: сб. тр. в 2 т. Протвино, 14–16 июня 2000 г. Москва, Изд-во РГГУ, 2000, т. 2, с. 48–58.
  16. Boguslavsky I., Dikonov V., Frolova T., Iomdin L., Lazoursky A., Rygaev I., Timoshenko S. Combining different knowledge sources for text understanding. Information Systems and Technologies (CISTI). Proceedings of the 16th Iberian Conference. 23–26 June 2021. Chaves, Portugal. IEEE, 2021. DOI: https://doi.org/10.23919/CISTI52073.2021.9476375
  17. Anisimovich K.V., Druzhkin K.Yu., Zuev K.A., Minlos F.R., Petrova M.A., Selegei V.P. Syntactic and semantic parser based on ABBYY Compreno linguistic technologies. Компьютерная лингвистика и интеллектуальные технологии. Диалог'2012. Международная конференция: сб. тр. в 2 т. Бекасово, 30 мая – 3 июня 2012 г. Москва, Изд-во РГГУ, 2012, т. 2, вып. 11 (18), с. 91–103.
  18. Когнитивная система IBM Watson. URL: https://m.habr.com/en/company/ibm/blog/266015/ (дата обращения 05.12.2022).
  19. Анастасия Бодрова. Чат-бот подбирает парфюм. URL: https://sysblok.ru/nlp/chat-bot-podbiraet-parfjum/ (дата обращения 05.12.2022).
  20. Volkova L., Ignatev A., Kotov N., Kotov A. New communicative strategies for the affective robot: F-2 going tactile and complimenting. Communications in Computer and Information Science. Proceedings of the 4th International Conference Creativity in Intelligent Technologies and Data Science. Springer, 2021, vol. 1448, pp. 163–176. DOI: https://doi.org/10.1007/978-3-030-87034-8_13
  21. Робот Ф-2. URL: http://f2robot.com/ (дата обращения 05.12.2022).
  22. Kapp K.M. The gamification of learning and instruction: game-based methods and strategies for training and education. New York, John Wiley & Sons, 2012, 336 p.
  23. Хруслова Д.В., Ерохина Е.А. Использование элементов геймификации при изучении программирования. Новые информационные технологии в автоматизированных системах. XXI Научно-практический семинар: сб. матер. Москва, ИПМ им. М.В. Келдыша РАН, 2018, с. 328–332.
  24. Akash K., Hu W.-L., Reid T., Jain N. Dynamic modeling of trust in human-machine interactions. American Control Conference. Seattle, WA, USA, May 24–26, 2017. IEEE, 2017, pp. 1542–1548. DOI: https://doi.org/10.23919/ACC.2017.7963172
  25. Zinina A.A., Kotov A.A., Zaidelman L.Y., Arinkin N.A. Human communicative responses to different modes of gaze management by the robot. Computational Linguistics and Intellectual Technologies. Dialogue'2022. Proceedings of the Annual International Conference. Moscow, RSUH, 2022, iss. 21, pp. 594–602. DOI: https://doi.org/10.28995/2075-7182-2022-21-594-602
  26. Mertz: an active vision head robot for exploring social learning. URL: https://people.csail.mit.edu/lijin/mertz.html (дата обращения 05.12.2022).
  27. Котов А.А., Зинина А.А. Функциональная разметка коммуникативных действий в корпусе REC. Корпусная лингвистика – 2015. Международная конференция: сб. тр. Санкт-Петербруг, СПбГУ, 2015, с. 287–295.
  28. GRETA: embodied conversational agent. URL: https://trac.telecom-paristech.fr/trac/project/greta/wiki/WikiStart (дата обращения 05.12.2022).
  29. Max. URL: http://cycling74.com/products/max/ (дата обращения 05.12.2022).
  30. SEMAINE Project / GitHub. URL: https://github.com/SEMAINE (дата обращения 05.12.2022).
  31. Зинина А.А., Котов А.А., Аринкин Н.А., Зайдельман Л.Я. Наложение коммуникативных функций: изучение на мультимодальном корпусе REC и перенос на робота Ф-2. Корпусная лингвистика — 2017. Международная конференция: сб. тр. Санкт-Петербург, СПбГУ, 2017, с. 178–182.
  32. Волкова Л.Л., Котов А.А. Эмоциональные реакции робота-компаньона на фразы на русском языке. Лингвистический форум 2020: Язык и искусственный интеллект. Международная конференция: сб. тез. докл. 12–14 ноября 2020 г. Москва, Институт языкознания РАН, 2020, с. 66–67.
  33. Рудаков И.В., Пащенкова А.В. Программный комплекс верификации алгоритмов программного обеспечения с помощью иерархических сетей Петри. Инженерный журнал: наука и инновации, 2013, вып. 2 (14). DOI: https://doi.org/10.18698/2308-6033-2013-2-538
  34. Turing A. Computing machinery and intelligence. Mind. Oxford, Oxford University Press, 1950, no. 59, pp. 433–460.
Ваш браузер устарел и не обеспечивает полноценную и безопасную работу с сайтом.
Установите актуальную версию вашего браузера или одну из современных альтернатив.