1 (Радостев). Развит подход к количественному определению в реальном времени эмоций и аффектов, выраженных в мимике, с помощью шлемов виртуальной реальности и их атрибутов. Подход использует обучаемый перцептрон, переводящий параметры конфигурации лица (Blendshapes) в координаты модели VAD.
2 (Радостев). Проведено исследование в парадигме игры типа Staring Game, где целью испытуемых было установить социальный контакт с виртуальным актором, взаимодействуя посредством мимики. Сравнивались варианты парадигмы, в которых в качестве партнера использовались (а) зеркальная копия конфигурации лица испытуемого, (б) VAD-копия, (в) модель на основе eBICA, (г) другой испытуемый, находящийся в другой комнате в аналогичных условиях с тем же заданием (испытуемые не знали, что партнером может быть живой человек). Испытуемые должны были оценить поведение партнера по социальным критериям. Наивысшую оценку получило зеркало (а). Живой партнер (г) оказался в числе наихудших.
3 (Хабаров, Нгуен, Чубчев) Построена и исследована семантическая карта интенциональностей высказываний в диалоге. Список интенциональностей был сгенерирован с помощью ChatGPT. Размерность была понижена с помощью ручной обработки и анализа главных компонент и сведена к 23. Разработан метод и система для определения интенциональностей высказываний на базе DistilBERT. Тестирование системы показало лучшие результаты по сравнению с ChatGPT.
4 (Хабаров). Воплощен разговорный агент на основе больших языковых моделей GPT и когнитивной модели диалога в парадигме "Конференция". Когнитивная модель агента построена согласно формализму eBICA с использованием семантических карт интенциональностей и моральных схем. Связь когнитивной модели с пользователем осуществлялась посредством GPT-3 и GPT-4, доступных через ChatGPT API. Было показано, что в случае одновременной беседы агента с несколькими собеседниками когнитивная модель дает существенные преимущества по сравнению с ChatGPT, получающим лишь исходные инструкции в виде промпта.
5 (Михнев). Результат (4) был далее улучшен путем визуализации виртуального агента на основе Unreal Engine 5 с включением невербальных модальностей (мимика, взгляд; двустороннее взаимодействие в этих модальностях не было реализовано). Было найдено, что оценки агента пользователем по нескольким социальным шкалам существенно улучшаются при одновременном включении двух факторов: когнитивной модели, управляющей поведением агента, и визуализации агента. Любого одного из этих двух факторов оказалось недостаточно.
6 (Щербак) Улучшенные результаты были достигнуты в парадигме "Виртуальный психолог". В отличие от прошлогодней работы Анисимовой, для классификации психотипов в данном случае использовалась дообученная модель rubert-tiny.
7 (Гаврилов). Реализован "Виртуальный синтезатор музыки" на основе библиотеки музыкальных фрагментов Apple Loops и и методов глубокого обучения (GAN). Хотя прямого отношения к целям гранта данная работа не имеет, в принципе есть возможность добавить контроль эмоциональности генерируемой музыки и его связь с поведением пользователя на основе eBICA, реализовав таким образом дополнительную модальность человеко-машинного социального взаимодействия.
8 (Булыгин) Реализована система для распознавания эмоций в выражении лица, считываемого веб-камерой, на основе дообученной сверточной нейросети VGG. Система работает в реальном времени, задержка может составлять доли секунды.
9 Нашей группой совместно с американскими коллегами разработана концепция Виртуального тьютора на основе интеграции формализмов когнитивной архитектуры eBICA и теории саморегулируемого обучения (SRL). Воплощение предполагает интеграцию когнитивной модели агента с визуализацией на базе Unreal Engine 5 и Unity 3D, включая набор микросервисов, производящих обработку вербальных и невербальных каналов многомодального взаимодействия с пользователем. В качестве парадигмы выбрано обучение написанию текстов статей или эссе на английском языке.