Новости

Модель на миллион: МФТИ победил в соревновании AI Journey Contest 2024

Специалисты Исследовательского центра прикладных систем ИИ МФТИ победили в международном онлайн-соревновании AI Journey Contest. Первое место и приз в 1 млн рублей команда получила за инновационную разработку мультимодальной модели для глубокого понимания видеоконтента и распознавания эмоций и намерений человека.

Команда DeepPavlov – это сотрудники Исследовательского центра прикладных систем искусственного интеллекта МФТИ: Джоксан Асокар, Иван Максимов и Дмитрий Косенко. Соревнование включало четыре задачи на развитие виртуальных ассистентов: Emotional FusionBrain 4.0; Multiagent AI; Embodied AI и E-com AI Assistant. В номинации Emotional FusionBrain 4.0, в которой участвовала команда, необходимо было разработать решение для работы с тремя форматами: видео, аудио и текстом. Решение должно понимать происходящее на видеозаписях длительностью до 5 мин, в которых в основном представлены социальные взаимодействия людей. Для каждой видеозаписи необходимо решить одну из двух задач: ответить на вопрос либо дать подробное описание происходящего.

Важно упомянуть следующие технические особенности соревнования. Для разработки решения не предоставлялось обучающих данных и вычислительных мощностей. Для тестирования решения оно должно быть передано на сервер организаторов в архиве с размером не более 4,5 ГБ. При этом на сервере доступна видеокарта A100 с 80 ГБ видеопамяти, 243 ГБ оперативной памяти, 16 ядер процессора и 10 ГБ свободного дискового пространства. На сервере решение запускается в изолированной среде без доступа в Интернет. В среде установлены необходимые для работы библиотеки и имеется ряд моделей, например, VideoLLaMA2-7B, LLaVA-OneVision-Qwen2-7B-SI, а также видео- и аудио-адаптеры. На сервере решение должно обрабатывать 1000 видеозаписей за время не более 3,5 ч.
«Мы сделали основную ставку на подготовку качественных данных с последующим обучением LoRA-адаптеров. Расчёт был на то, что тщательная работа с доменом и анализ данных к задаче смогут дать, хоть и отложенный, но куда более значительный прирост качества по сравнению с подбором гиперпараметров моделей и обучения», — рассказал Иван Максимов, исследователь Исследовательского центра прикладных систем искусственного интеллекта МФТИ.
По словам представителей команды, несмотря на технические ограничения, коллективу удалось интегрировать в свою работу недавно вышедшие модели с существенно лучшим качеством. Для работы с видео была выбрана модель Qwen2-VL-7B-Instruct, а для работы с аудио – модель Whisper-base.

Иван Максимов отвечал за data probing на лидерборде, а также за подготовку, оптимизацию и тестирование кода решения. Код был адаптирован для работы с длинными видео, а в решении была реализована параллельная обработка задач на центральном процессоре и видеокарте. Джоксан Асокар подбирал данные и проводил обучение LoRA-адаптеров отдельно для каждой из двух задач (Question Answering и Captioning). Дмитрий Косенко квантизировал модель Qwen2-VL в 4 бита, подобрал гиперпараметры генерации, подготовил код для работы с моделью Whisper-base, а также подготовил необходимые библиотеки для офлайн-установки в контейнере.

При этом модель Qwen2-VL деквантизировалась в bfloat16 после загрузки на сервер для получения скорости генерации на уровне оригинальной (неквантизированной) модели.

Соревнование проходило в рамках международной конференции по искусственному интеллекту и машинному обучению AI Journey в Москве — международной конференции, посвященной искусственному интеллекту. В этом году мероприятие объединило экспертов из России и других стран, которые обсудили возможности применения ИИ в различных сферах жизни. Программа включала специальные треки для молодёжи, а также награждение победителей конкурсов AI Challenge для юных исследователей данных и AIJ Contest для опытных специалистов. Конференция стала значимой площадкой для обмена опытом и обсуждения перспективных разработок в области искусственного интеллекта.