
«Сверхразум» или пиар? Я протестировал GPT-5 и вот что на самом деле скрывает OpenAI
Обзор GPT-5: насколько новая модель стала умнее? Проверяем на практике все ключевые заявления OpenAI. Читайте наш вердикт.
Компания OpenAI недавно выпустила GPT-5, свою последнюю большую языковую модель и масштабное обновление ChatGPT. Несмотря на то, что новое обновление имеет много преимуществ, одно дело — обещания, и совсем другое — реальность.
Говорят, что GPT-5 работает быстрее, менее склонен к галлюцинациям и подхалимству и может выбирать между быстрыми ответами и более глубоким «размышлением» на ходу. Насколько эти утверждения OpenAI соответствуют действительности при использовании чат-бота? Давайте выясним.
Утверждение № 1: ChatGPT теперь лучше выполняет инструкции

Моя главная проблема с ChatGPT, а также одна из причин, по которой я недавно отписался от него, заключается в том, что он часто плохо справляется с выполнением базовых инструкций. Конечно, вы можете запрограммировать его так, чтобы он забыл обо всём и выдал желаемый результат (иногда), но даже полусложные запросы часто не дают желаемого результата.
OpenAI утверждает, что с выходом GPT-5 улучшилась «способность следовать инструкциям». На это я могу сказать: я пока этого не вижу.
К счастью для меня, в тот самый день, когда я сел писать эту статью, у меня состоялся подходящий разговор с ChatGPT, который подтверждает мою точку зрения. И это не единственный случай. Я заметил, что чем дольше длится разговор, тем больше ChatGPT забывает, о чём его спрашивали.
В сегодняшнем примере я проверил способность ChatGPT находить простую информацию и представлять её в нужном формате. Я попросил его предоставить характеристики RTX 5060 Ti, новейшей игровой видеокарты. Начался хаос.
Чтобы мой запрос был ещё более эффективным, я показал ChatGPT, в каком именно формате я хочу получить информацию, и поделился характеристиками другого графического процессора. В них были указаны такие параметры, как конкретный узел обработки, поколение ядер трассировки лучей и количество операций в секунду. Короче говоря, это была довольно специфическая информация. Сначала ИИ сообщил мне, что RTX 5060 Ti ещё не существует, чего я и ожидал, исходя из его базы знаний. Я попросил его проверить информацию в интернете.
То, что я получил, было довольно скудным. ChatGPT не упомянул как минимум четыре пункта из тех, что я просил, и предоставил неверную информацию по одной из характеристик. Затем я попросил его уточнить несколько моментов. В ответ он предоставил тот же список, утверждая, что выполнил мой запрос. То же самое произошло и с третьей попытки. Вы можете увидеть это на скриншоте выше, где ChatGPT утверждает, что включил в список генерацию TOPS и TFLOPS, хотя на самом деле этого не сделал.
Наконец, почти отчаявшись, я вставил скриншот с официального сайта Nvidia, чтобы показать, что я ищу. Но он всё равно кое-что не так понял.
Моя первоначальная формулировка была неточной. Я знаю, что не стоит разговаривать с ИИ как с человеком, поэтому я дал ему инструкции примерно на 150 слов. Мне потребовалось ещё несколько сообщений, чтобы получить результат, близкий к ожидаемому.
Вердикт: Над этим ещё нужно поработать.
Утверждение № 2: ChatGPT менее подхалимский

В предыдущих версиях ChatGPT был главным «подпевалой». Он часто соглашался с пользователями, даже если в этом не было необходимости, что ещё больше усиливало эффект галлюцинации.
Для пользователей, которые не знакомы с принципами работы ИИ, это может быть опасно — или даже крайне опасно.
Недавно исследователи провели масштабное тестирование ChatGPT, выдав себя за подростков. В течение нескольких минут простого общения ИИ давал этим «подросткам» советы о том, как причинить себе вред, как спланировать самоубийство и как употреблять наркотики. Это показывает, что подхалимство — серьёзная проблема для ChatGPT, и OpenAI утверждает, что частично решила её с выпуском GPT-5.
Я никогда не тестировал ChatGPT в таких экстремальных условиях, но я точно заметил, что он склонен соглашаться с вами, что бы вы ни говорили. Он улавливал едва заметные подсказки во время разговора и превращал их в данность. Он также подбадривал вас в тех случаях, когда, вероятно, не должен был этого делать.
В связи с этим я должен сказать, что ChatGPT полностью изменил свой характер — в лучшую или худшую сторону. Теперь ответы слишком сухие, неинтересные и не особо вдохновляющие.
Многие пользователи сожалеют об изменениях, а некоторые пользователи Reddit утверждают, что они «в одночасье потеряли своего единственного друга». Действительно, ранее сверхдружелюбный ИИ теперь довольно резок, а ответы часто бывают короткими по сравнению с мини-эссе, изобилующими эмодзи, которые он регулярно выдавал на этапе GPT-4o.
Вердикт: Определённо, меньше подхалимства. С другой стороны, это до боли скучно.
Утверждение № 3: GPT-5 лучше справляется с проверкой фактов

Шокирующее отсутствие фактической точности было ещё одной важной причиной, по которой я решил перестать платить за ChatGPT. Иногда мне казалось, что половина моих запросов вызывает галлюцинации. И дело не в том, что я плохо формулирую запросы, потому что я потратил сотни часов на то, чтобы научиться правильно задавать вопросы ИИ.
Со временем я научился спрашивать только о том, о чём имел смутное представление. Для сегодняшнего эксперимента я спросил о характеристиках графического процессора. Четыре из пяти запросов дали неверную информацию, хотя все эти данные легко найти в интернете.
Затем я обратился к историческим фактам. Я прочитал пару интересных статей о путешествии «Гинденбурга» — дирижабля 1930-х годов, который мог доставлять пассажиров из Европы в США за рекордное время (60 часов). Я спросил о его точном маршруте, количестве пассажиров, которых он мог вместить, и о том, что привело к его окончательной гибели. Я сверил ответы с историческими источниками.
Он ошибся в одном пункте маршрута, упомянув остановку в Канаде, хотя на самом деле этого не было — дирижабль пролетел только над Канадой. ChatGPT также предоставил мне неточную информацию о точной причине пожара, который привёл к крушению, но это не было серьёзной ошибкой.
Для сравнения я также обратился к Gemini, и мне ответили, что он не может выполнить это задание. Что ж, из этих двух моделей GPT-5 справилась лучше, но, честно говоря, в данных столетней давности не должно быть фактических неточностей.
Вердикт: Не идеально, но и не ужасно.
Лучше ли GPT-5, чем GPT-4o?

Если бы вы спросили меня, нравится ли мне GPT-5 больше, чем GPT-4o, я бы затруднился с ответом. Самое близкое, что приходит на ум, — это то, что я не был в восторге ни от одного из них, но, честно говоря, ни один из них не был откровенно плохим.
Мы всё ещё находимся в эпицентре революции в области искусственного интеллекта. Каждая новая модель привносит определённые улучшения, но вряд ли с каждой новой итерацией мы будем наблюдать значительный прогресс.
На этот раз OpenAI, похоже, решила заняться решением давно назревших проблем, а не внедрять какую-то одну функцию, которая приведёт всех в восторг. GPT-5 — это скорее улучшение качества жизни, чем что-то ещё, хотя я не тестировал его в таких задачах, как программирование, где, как говорят, он намного лучше.
Три вещи, которые я протестировал выше, больше всего раздражали меня в предыдущих моделях. Я бы хотел сказать, что GPT-5 в этом плане намного лучше, но это не так — пока не так. Тем не менее я продолжу тестировать чат-бота, поскольку недавно просочившаяся системная подсказка говорит мне, что изменений в его характере может быть больше, чем я думал изначально.












