OpenAI провела тесты: новые системы ИИ ошибаются чаще прежнего

Согласно публикации The New York Times, случаи, когда искусственный интеллект выдает неверные данные, называемые галлюцинациями, происходят все чаще. Издание приводит пример: бот технической поддержки инструмента Cursor сообщил пользователям ложную информацию о запрете использования сервиса на нескольких устройствах. Впоследствии руководство компании опровергло эти данные. Отмечается, что даже самые современные системы от OpenAI, Google и DeepSeek демонстрируют рост количества ошибок. Несмотря на улучшение математических способностей, умение работать с фактами у новых ИИ-моделей снизилось. Причины этого технологические компании пока объяснить не могут. Системы искусственного интеллекта строятся на математических вероятностях и не обладают механизмами различения правды и лжи. В некоторых тестах, по данным The New York Times, частота галлюцинаций достигала 79%. Представители компаний признают, что полностью исключить ошибки невозможно. Особую обеспокоенность вызывает использование ИИ в таких сферах, как право, медицина и бизнес, где ошибки могут привести к значительным последствиям. По данным OpenAI, их новейшая система o3 допустила ошибки в 33% случаев при тестировании на знание публичных личностей, а более новая версия o4-mini — в 48%. В другом тесте, SimpleQA, частота ошибок достигла 79%. Тестирования показывают, что аналогичные проблемы фиксируются у моделей других компаний, включая Google и DeepSeek. Причиной роста числа ошибок специалисты называют особенности новых методо...

11.05.2025

Рубрика: «Наука и Техника» Поделиться:

OpenAI стала тратить меньше времени на тесты безопасности ИИ-моделей OpenAI сократила время и ресурсы, которые тратятся на тестирование мощных моделей искусственного интеллекта на безопасность. Это вызывает опасения, ч ...

OpenAI провела зачистку ChatGPT от аккаунтов из Китая и Северной Кореи, подозреваемых во вредоносной деятельности OpenAI заблокировала аккаунты пользователей из Китая и Северной Кореи, которые, якобы, использовали технологии компании в злонамеренных целях, включа ...

В январе 2025 года РУСАДА чаще всего проводила допинг-тесты для игроков «Зенита» Российское антидопинговое агентство (РУСАДА) в январе 2025 года чаще других проводило тестирование футболистов «Зенита», сообщает ТАСС. ...

Софтлайн Решения (ГК Softline) провела пилотирование системы управления жизненным циклом Appius-PLM УЖЦИ на промышленном предприятии «Софтлайн Решения» (ГК Softline) провела пилотирование системы управления жизненным циклом «Appius-PLM УЖЦИ» на промышленном предприятии «Софтлайн Решения» (ГК Softline) провела пилотный проект по тестированию системы «Appius-PLM УЖЦИ» для управления конструкторско-технологической подг ...

Минздрав сделал бесплатными новые генетические тесты для будущих родителей С 2026 года в программу государственных гарантий бесплатного оказания медицинской помощи включены генетические тесты на моногенные заболевания и стру ...

СМИ: EA закрыла студию авторов игры про Черную Пантеру и провела новые увольнения Electronic Arts (EA) продолжает прореживать штат, сообщает портал IGN со ссылкой на внутреннее письмо от президента подразделения EA Entertainment Ло ...

В Костроме партия Новые люди провела акцию Поздравь по-новому ко Дню учителя В Костроме партия «Новые люди» провела акцию «Поздравь по-новому» ко Дню учителя В Костроме прошла акция «Поздравь по-новому», которую организовала партия «Новые люди» в честь Дня учителя. На площадке установили интерактивный экра ...

OpenAI готовится выпустить новые модели ChatGPT Microsoft готовится к выпуску новых моделей ChatGPT от OpenAI, сообщает Block Beats.Ожидается, что GPT-4.5 будет запущена уже на следующей неделе, а ...