Чем длиннее диалог, тем больше галлюцинаций: чат-боты тупеют после общения с людьми

Чем длиннее диалог, тем больше галлюцинаций: чат-боты "тупеют" после общения с людьми

Сегодня, 16:25 | Технологии

фото с Зеркало недели

Размер текста:

Совместное исследование Microsoft Research и Salesforce показало, что большие языковые модели (Large Language Models, LLM) демонстрируют резкое падение надежности во время многоуровневых разговоров. После анализа более 200 тысяч чатов исследователи зафиксировали рост ненадежности на 112%, даже если общая пригодность моделей снизилась лишь на 15%, сообщает WindowsCentral.

В работе проанализировали диалоги с использованием таких моделей, как GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 и Llama 4. По данным исследования, модели вроде GPT-4.1 или Gemini 2.5 Pro достигают около 90% успешности в ответах на отдельные подсказки. Однако во время длительных разговоров этот показатель снижается примерно до 65%, когда задача смешивается с естественным многогранным диалогом.

Исследователи отмечают, что модели часто "теряются в разговоре", особенно когда пытаются предложить решение еще до завершения объяснения пользователя. Такая преждевременная генерация приводит к закреплению ошибочных предположений в последующих ответах.

[see_also ids="670769"]

Еще одной проблемой стало "раздутие ответов". В многошаговых диалогах тексты становились на 20-300% длиннее, что увеличивало количество предположений и галлюцинаций, которые впоследствии использовались как контекст для последующих ответов. Даже модели с дополнительными "токенами для мышления", в частности o3 от OpenAI и DeepSeek R1, не смогли избежать этой тенденции.

Несмотря на широкое внедрение генеративного ИИ, результаты работы указывают на его ограничения в условиях сложного взаимодействия.

Отказ от традиционных поисковых систем в пользу инструментов ИИ может нести риски, если полученная информация воспринимается как безоговорочно точная.

Ранее ученые из нескольких американских университетов доказали, что обучение искусственного интеллекта на низкокачественном контенте из соцсетей вызывает у нейросетей эффект "гниения мозга". Потребляя вирусные и эмоциональные тексты, ИИ-модели теряют способность к логике, хуже понимают контекст и начинают генерировать ответы без эмпатии.

Источник: Зеркало недели