Управление диалогом, персонализация, эмоциональность
и мультимодальность для цифровых ассистентов
Разрабатываемые в проекте механизмы мультимодального взаимодействия обеспечат пользователям в общении с цифровыми персональными помощниками и чат-ботами более естественное взаимодействие. Так, благодаря способности видеть, когда пользователь смотрит на них, помощникы и чатботы смогут понимать, когда пользователь обращается к ним, или к кому-то ещё. Это понимание, в свою очередь, позволит сделать использование специального ключевого слова (e.g., «Алиса», “Alexa” и т.д.) необязательным для инициации общения с цифровым помощником или чат-ботом, а лишь одним из способов. Это также поможет убрать ограничение типа фиксированного времени ожидания ответа пользователя, делая возможным пользователям выдавать несколько реплик в спокойном и удобном им режиме, без страха, что необходимо быстро и четко высказать то, что нужно, чтобы помощник/чат-бот всё правильно понял с первого раза. Наконец, мультимодальность позволит помощнику/чат-боту лучше понимать, когда стоит обращаться к пользователю, а когда – не стоит, и быть проактивным – т.е., начинать беседу самостоятельно при появлении пользователя рядом с устройством.

Поддержка механизма переключения между тематиками диалога позволит пользователям цифровых помощников и чатботов получить более естественный опыт взаимодействия с ними за счёт бесшовного объединения диалоговых навыков по разным тематикам и представления опыта общения в виде общения с единой сущностью, а не множеством сущностей, представленных этими диалоговыми навыками.

Поддержка механизма понимания эмоций пользователя и проявления эмоций цифровыми помощниками и чатботами позволит сделать диалоги с пользователями более естественными и комфортными для пользователей. Так, способность цифровых помощников/чатботов понимать эмоции пользователя сможет помочь сглаживать острые углы в взаимодействии пользователей и организаций, представленных этими помощниками и чатботами, проявить участие к пользователям, выстроить долговременные эмоциональные связи с пользователями.
Разработка и реализация свойств мультимодальности, персонификации, эмоциональности взаимодействия для персональных цифровых ассистентов.

В ходе работ будет реализован следующий функционал разговорного ИИ-помощника:

  • расширение характера взаимодействия с пользователем с помощью сочетания различных модальностей (компьютерное зрение, голос) для достижения большей естественности;
  • ответ на фактоидные вопросы на основе открытых графов знаний типа Wikidata и различных полнотекстовых баз знаний;
  • поддержка диалога с пользователем в открытом домене с помощью сценарных навыков (как расширенных с помощью моделей машинного и глубокого обучения, так и автоматически сгенерированных);
  • стратегическое управление диалогом на основе балансировки между целями пользователя и бота в открытом домене;
  • понимание эмоций, настроения, психометрического профиля пользователя; формирование психометрического профиля, настроения, эмоций бота; управление диалогом на основе эмоций бота и пользователя с целью формирования, развития и поддержки отношений между пользователем и ботом.

Данная технология позволит улучшить взаимодействия пользователей с цифровыми помощниками и чат-ботами через видеочаты, через визуальные интерфейсы на персональных и мобильных компьютерах, устройствах взаимодействия с виртуальной и расширенной реальностью, виртуальных средах, и т.д.

Индустриальным партнером является Sber AI.

Проект реализует Лаборатория нейронных систем и глубокого обучения МФТИ.


Руководитель проекта - Попов Александр Витальевич.