учёные РУДН выявили «галлюцинации» ИИ при диагностике ментальных расстройств

Источник: Российский университет дружбы народов – Peoples’Friendship University of Russia –

Важный отказ от ответственности находится в нижней части этой статьи.

Исследователи факультета искусственного интеллекта РУДН провели масштабное исследование, которое раскрыло системные ошибки больших языковых моделей (LLM) при диагностике депрессии по тексту. Эта работа, выполненная совместно с коллегами из AIRI, ФИЦ ИУ РАН, ИСП РАН, МФТИ и MBZUAI, не только выявляет проблему, но и закладывает основу для создания более надёжных и безопасных инструментов для детектирования депрессии и тревожности.

«Наше исследование — это важный шаг на пути к доверенному ИИ в медицине. Мы не просто указываем на недостатки инструментов ИИ, а предлагаем подходы к их преодолению. Ключевая задача сегодня — не слепое доверие к алгоритмам, а их интеграция в работу врача в качестве проверенного и понятного инструмента поддержки принятия решений. Безопасность пациентов и понимание ограничений технологии — наш абсолютный приоритет», — отметил Антон Поддубский, декан факультета искусственного интеллекта РУДН.

Главная ценность исследования — детальное сравнение существующих больших языковых моделей (LLM), а также методов их использования и дообучения для задач выявления депрессии и тревожности по тексту, и анализ ошибок и «галлюцинаций» ИИ в этих задачах с привлечением экспертов в области психологии. Работа учёных РУДН получила признание и была представлена на высокорейтинговой международной конференции Empirical Methods in Natural Language Processing (EMNLP). Мы поговорили с авторами статьи и узнали, как появилась идея работы, какие «галлюцинации» ИИ были выявлены и каковы перспективы развития исследования.

Как возникла идея исследования на эту тему и почему она актуальна и важна?

В последние годы растёт интерес к диагностике психических состояний по тексту и к использованию ИИ в этой сфере, а также к применению LLM в медицине в целом. При этом большинство работ опираются на англоязычные данные и ML-модели; для русского языка комплексных сравнений до сих пор не было. Это подтолкнуло нас к исследованию LLM и других моделей машинного обучения для выявления депрессии и тревожности по тексту. Мы сравнили различные модели для обеих задач и показали, какие из них лучше работают в каждом случае. Кроме того, мы провели дополнительные эксперименты, чтобы оценить качество генерации LLM с точки зрения экспертов-психологов. Выяснилось, что на текущем этапе LLM дают ответы невысокого качества. В частности, в одном из экспериментов мы с помощью LLM не только определяли наличие или отсутствие депрессии у автора текста, но и генерировали объяснение того, почему модель пришла к соответствующему выводу. Именно в этом эксперименте мы установили, что объяснения современных моделей содержат большое количество ошибок с экспертной точки зрения.

В чём главная опасность таких ошибок?

Опасность заключается в том, что LLM могут выдавать необоснованные или ложные выводы («галлюцинации»), которые выглядят правдоподобно для конечного пользователя. Такие ошибки трудно выявить без помощи эксперта, но при этом они могут привести к неверной интерпретации признаков депрессии.

Какие причины ошибок ИИ вы выявили? В чём особенность разговоров о психическом здоровье, которая так «сбивает с толку» даже самые продвинутые языковые модели?

Клинические психологи анализировали ответы LLM и отмечали в них ошибки с экспертной точки зрения. Так мы выделили шесть основных типов ошибок: тавтология, необоснованные обобщения, ложные выводы, конфабуляции, искажение медицинских представлений о депрессии и неполное перечисление её признаков. Стоит отметить, что с точки зрения машинного обучения все эти ошибки могут описываться как «галлюцинации», однако в задачах, связанных с психологией, нужна более точная категоризация. Особенность текстов, используемых для выявления депрессии, связана со сложностью их интерпретации. Люди нередко описывают своё состояние косвенно, с помощью метафор, и текст не всегда напрямую отражает признаки психических нарушений. Кроме того, сама задача выявления депрессии по тексту сложна для неспециализированных моделей, поскольку они в большинстве своём не обучались на психологических или медицинских данных.

Каковы перспективы развития этого исследования?

Следующим шагом может стать специализированное дообучение LLM на больших массивах данных для задач выявления депрессии и тревожности. В текущих экспериментах использовалось относительно небольшое количество данных, что могло ограничить итоговое качество моделей.

Примите к сведению; Эта информация является необработанным контентом, полученным непосредственно от источника информации. Она представляет собой точный отчет о том, что утверждает источник, и не обязательно отражает позицию MIL-OSI или ее клиентов.