Согласно исследованию OpenAI, последние версии ChatGPT, такие как o3 и o4-mini, демонстрируют вдвое больше случаев «галлюцинаций» по сравнению с предыдущими, менее продвинутыми моделями.
Под «галлюцинациями» в контексте ИИ понимаются недостоверные ответы, которые нейросеть выдает, будучи уверенной в их правдивости. Тест PersonQA, оценивающий знания ChatGPT о людях, показал, что o3 галлюцинирует в 33% случаев, а o4-mini – в 43%. Для сравнения, старая модель o3-mini выдавала неверные ответы лишь в 15% случаев.
Другой тест, Transluce, проведенный независимым разработчиком, выявил склонность модели o3 выдумывать действия. Например, в ответ на запрос, ИИ заявил, что запускал код на Apple MacBook Pro 2021 «вне ChatGPT» и копировал числа в ответ. Однако, на самом деле, алгоритм не имеет таких возможностей.
Одним из решений проблемы галлюцинаций является предоставление ИИ доступа к веб-поиску, где информация более надежна. Этот подход оказался эффективным для нерассуждающей модели o4, и разработчики надеются, что он также поможет и более продвинутым моделям.








