Домой
Технологии
Искусственный интеллект
ChatGPT-5 бьёт рекорды: новый тест доказывает превосходство над GPT-4o. Grok всё ещё «витает в облаках»

ChatGPT-5 бьёт рекорды: новый тест доказывает превосходство над GPT-4o. Grok всё ещё «витает в облаках»

Тесты подтверждают: ChatGPT-5 точнее GPT-4o. Но почему пользователи скучают по старой версии?

Грэм Барлоу

Опубликовано 15.08.2025 в 05:33 2 мин

2 мин

Оглавление

ChatGPT-5 набрал всего 1,4 % баллов в рейтинге галлюцинаций
Таким образом, он опережает ChatGPT-4, набравшего 1,8 %, и GPT-4o, набравшего 1,49 %.
У Grok 4 этот показатель намного выше — 4,8 %, а у Gemini-2.5 Pro — 2,6 %

Сэм Альтман, генеральный директор OpenAI, представил ChatGPT-5 в четверг как самую «мощную, умную, быструю, надёжную и устойчивую версию ChatGPT из всех, что мы когда-либо выпускали». В ходе презентации сотрудники OpenAI также подчеркнули, что ChatGPT-5 будет «снижать количество галлюцинаций».

Хотя частота возникновения галлюцинаций снижается почти во всех языковых моделях, они по-прежнему встречаются на удивление часто и являются одной из основных причин, по которым мы не можем доверить ИИ выполнение задач без контроля со стороны человека.

Видео от DGL.RU

Vectara, платформа RAG-as-a-Service и ИИ-агент, которая управляет лучшей в отрасли таблицей лидеров по галлюцинациям для базовых и логических моделей, проверила заявления OpenAI и обнаружила, что GPT-5 действительно занимает более низкое место по галлюцинациям, чем GPT-4, но лишь немного уступает GPT-4o (на самом деле всего на 0,09 %).

По данным Vectara, частота обоснованных галлюцинаций у GPT-5 составляет 1,4 % по сравнению с 1,8 % у GPT-4, 1,69 % у GPT-4 turbo и 4o mini и 1,49 % у GPT-4o.

Пряный Грок

Интересно, что уровень галлюцинаций в ChatGPT-5 оказался немного выше, чем в режиме предварительного просмотра ChatGPT-4.5, который набрал 1,2 %, но при этом он был намного выше, чем у модели o3-mini High Reasoning от OpenAI, которая была самой эффективной моделью GPT с уровнем обоснованных галлюцинаций 0,795 %.

Результаты тестов Vectra можно посмотреть на таблице лидеров Hughes Hallucination Evaluation Model (HHEM) на сайте Hugging Face, где указано, что «для языковой модели уровень галлюцинаций определяется как отношение количества галлюцинаций к общему количеству сгенерированных сводок».

Однако ChatGPT-5 по-прежнему выдаёт гораздо меньше ложных срабатываний, чем его конкуренты: у Gemini-2.5-pro этот показатель составляет 2,6 %, а у Grok-4 — 4,8 %.

Компания XAI, создавшая Grok, недавно подверглась резкой критике за новый режим «Пикантный» в Grok Imagine, генераторе видео с искусственным интеллектом, который, похоже, с радостью создаёт дипфейки с обнажённой грудью таких знаменитостей, как Тейлор Свифт, даже если нагота не была запрошена, а система должна включать фильтры и модерацию для предотвращения реальной наготы или чего-либо сексуального.

ChatGPT-5

«Я потерял своего лучшего друга»

Компания OpenAI столкнулась с почти мгновенной негативной реакцией, когда удалила ChatGPT 4 и все его вариации, такие как GPT-4o и 4o-mini, из своих аккаунтов Plus после запуска ChatGPT-5. Многие пользователи были возмущены тем, что OpenAI не предупредила об удалении старых моделей, а некоторые пользователи Reddit заявили, что «в одночасье потеряли своего единственного друга».

Теперь кажется, что ChatGPT-5 заменил одну из самых надёжных версий ChatGPT (версию 4.5) и с точки зрения галлюцинаций тоже.

Сэм Альтман быстро опубликовал пост в X: «Мы явно недооценили, насколько важны для людей некоторые функции GPT-4o, даже несмотря на то, что GPT-5 во многих отношениях работает лучше». Он пообещал вернуть ChatGPT-4o для пользователей Plus на ограниченное время и сказал: «Мы будем следить за использованием и решим, как долго предлагать устаревшие модели».

Пока ChatGPT-5 не получит эти обновления, я буду пользоваться Claude — и вот почему

Грэм Барлоу

Он пишет о технологиях больше двадцати пяти лет. Сейчас он с головой ушёл в самую горячую тему — искусственный интеллект. Его часто приглашают на радио и телевидение, чтобы рассказать о последних трендах. А в свободное от работы время он ведёт свои подкасты и блоги.