Лучше возьмите калькулятор: исследователи доказали, что чат-ботам нельзя доверять вычисления

Сегодня, 11:49 | Технологии

фото с Зеркало недели

Размер текста:

Чат-боты с искусственным интеллектом все чаще используют для простых вычислений. Впрочем, новое исследование показало, что они ошибаются почти в четырех из десяти случаев, хотя результаты существенно различаются в зависимости от модели и типа задач, пишет EuroNews.

Исследователи Omni Research on Computing in AI (ORCA) проверили точность пяти популярных моделей ИИ на 500 реальных математических задачах. В среднем вероятность ошибки составляла около 40 процентов, что ставит под сомнение надежность таких инструментов для повседневных расчетов.

В тестировании, проведенном в октябре 2025 года, приняли участие ChatGPT-5, Gemini 2.5 Flash, Claude Sonnet 4.5, DeepSeek V3.2 и Grok-4. Все модели получили одинаковый набор из 500 вопросов, каждый из которых имел только один правильный ответ.

[see_also ids="652878"]

Самый высокий общий результат показал Gemini от Google — 63 процента правильных ответов. Почти столько же набрал Grok от xAI — 62,8 процента, тогда как DeepSeek получил 52 процента.

ChatGPT завершил тест с результатом 49,4 процента, а Claude занял последнее место с 45,2 процента. Средний показатель всех пяти моделей составил 54,5 процента по всем заданиям.

"Хотя точные рейтинги могут измениться, более широкий вывод, вероятно, останется неизменным: числовая надежность остается слабым местом в современных моделях искусственного интеллекта", — заявил соавтор тестирования ORCA Давид Сиуда.

Лучше всего модели справились с базовой математикой и преобразованиями, где средняя точность составила 72,1 процента. В этой категории Gemini достиг 83 процентов, опередив Grok и DeepSeek, тогда как ChatGPT набрал 66,7 процента.

[see_also ids="666350"]

Худшие результаты зафиксировали в физике, где средняя точность составила лишь 35,8 процента. Лучшим здесь стал Grok с 43,8 процента, а Claude показал лишь 26,6 процента правильных ответов.

Особенно слабыми оказались результаты DeepSeek в биологии и химии — всего 10,6 процента. Это означает, что модель ошибалась примерно в девяти из десяти вопросов в этой категории.

Наибольший разрыв между моделями исследователи зафиксировали в финансах и экономике. Gemini и Grok достигли точности 76,7 процента, тогда как ChatGPT, Claude и DeepSeek не превысили 50 процентов.

[see_also ids="665601"]

Эксперты также проанализировали типичные ошибки моделей. Самыми распространенными стали "небрежные математические расчеты", которые составили 68 процентов всех ошибок, в частности, проблемы с округлением и базовыми вычислениями.

"Их слабое место — округления: если расчет многоэтапный и требует округления, конечный результат обычно очень неверный", — отметил Сиуда.

В отчете отмечается, что даже самые современные бесплатные модели ИИ не гарантируют точности.

Исследователи предостерегают, что использование чат-ботов для математики требует осторожности и дополнительной проверки результатов.

Ранее исследование показало, что чат-бот Grok хуже всего реагирует на запросы о суициде, часто предоставляя опасные советы или отвечая сарказмом. Хотя модель Gemini показала самый высокий уровень эмпатии, абсолютно все протестированные системы искусственного интеллекта допустили критические ошибки при обнаружении кризисных состояний.

Источник: Зеркало недели