Обнаружение мультимодальной депрессии с использованием многопотоковой модели Mood Insight Encoder (MMIE)
- Фироз Неда, Томский государственный университет (Томск, Россия)
- Берестнева Ольга Григорьевна, Томский политехнический университет (Томск, Россия)
- Аксенов Сергей Владимирович, Томский политехнический университет (Томск, Россия)
Глобальный всплеск распространенности депрессии, которая характеризуется стойким чувством печали, незаинтересованности и снижением функциональности, подчеркивает недостатки преобладающих парадигм диагностики и лечения. Это подчеркивает настоятельную потребность в усиленных вмешательствах, учитывая недостатки, присущие традиционным подходам к диагностике депрессии. Недавние достижения в области применения искусственного интеллекта вызвали растущий интерес к разработке автоматизированных систем диагностики депрессии среди специалистов по эмоциональным вычислениям. Появление больших языковых моделей, таких, как BERT и его производные, для выявления депрессии на основе текста демонстрирует необходимость мультимодальных подходов, которые объединяют текстовые и аудиоданные модальности для достижения более точной диагностики. В этой работе авторы исследовали возможности существующих больших языковых моделей и предложили многопоточную модель Multi-Stream Mood Insight Encoder (MMIE). MMIE разработана для беспрепятственного использования интегрированных потоков текстовых и аудиоданных с функциями обработки с помощью кодировщика Reformer. В рамках этой концепции в кодировщик Reformer были включены такие лингвистические особенности, как абсолютистские слова и местоимения первого лица. Такой целостный подход способствовал всестороннему анализу настроения и эмоционального состояния человека. Эксперименты показали, что языковая модель ClinicalBERT превосходит по производительности предложенную модель бинарной классификации депрессии. Впоследствии для диагностики депрессии были использованы значения сигмовидной мышцы модели Реформер. Используя предложенную модель, были проведены эксперименты с набором данных DAIC-WOZ. Результаты показали значительные улучшения, продемонстрировав F1 0,9538 при классификации, в то время как MAE 3,42 и RMSE 4,64 при регрессии по сравнению с самыми современными методами. Эти результаты демонстрируют эффективность предложенной модели в облегчении диагностики депрессии.
аудио, клинический анализ, выявление депрессии, LLMs, Реформер, MMIE
2025-12-01