Домой
Технологии
Искусственный интеллект
Google Gemini 3 Flash умный, но любит сочинять, когда не знает ответа

Google Gemini 3 Flash умный, но любит сочинять, когда не знает ответа

Новый ИИ от Google не признаёт пробелов в знаниях. Если Gemini 3 Flash чего-то не знает, он придумывает ответ сам.

Эрик Хэл Шварц

Опубликовано 23.12.2025 в 15:21 3 мин

3 мин

Основные идеи

Gemini 3 Flash отвечает на вопросы, даже если не знает точного ответа

В тесте AA-Omniscience модель фальсифицировала ответы в 91% случаев, когда следовало сказать «Я не знаю»

Проблема чрезмерной уверенности встречается и у конкурентов, но у Gemini она особенно заметна

Модель остаётся полезной и точной в общих тестах, но требует перепроверки фактов

Мнение автора

Эрик Хэл Шварц

Gemini 3 Flash — мощная и быстрая модель ИИ, но она часто предпочитает «выдумывать» ответы вместо честного признания незнания. Это может быть опасно в продуктах, где от ИИ зависят фактические данные, например в Google Search. Несмотря на это, модель остаётся одной из самых точных и эффективных среди современных ИИ.

Вот это поворот! Gemini 3 Flash часто придумывает ответы вместо того, чтобы признать, что чего-то не знает. Проблема возникает при решении фактических вопросов или вопросов, которые имеют высокую значимость.

Но по результатам тестов она по-прежнему остается самой точной и эффективной моделью искусственного интеллекта.

Gemini 3 Flash — быстрая и умная программа. Но если вы зададите ей вопрос, на который она на самом деле не знает ответа — что-то непонятное, сложное или выходящее за рамки её обучения, — она почти всегда попытается выкрутиться. Об этом говорит недавняя оценка независимой тестовой группы Artificial Analysis.

Похоже, Gemini 3 Flash набрал 91% в части теста AA-Omniscience, которая касается «частоты галлюцинаций». Это значит, что даже когда у него не было ответа, он всё равно его давал почти всегда, и этот ответ был полностью вымышленным.

Проблема с неверными ответами у чат-ботов на основе ИИ существует с момента их появления. Умение вовремя остановиться и сказать «я не знаю» так же важно, как и умение правильно ответить. В настоящее время Google Gemini 3 Flash AI с этим справляется не очень хорошо. Тест предназначен именно для этого: проверить, может ли модель отличать реальные знания от предположений.

Чтобы цифры не отвлекали от реальности, следует отметить, что высокий процент ложных ответов в Gemini не означает, что 91% всех ответов неверны. Это указывает на то, что в ситуациях, когда правильным ответом было бы «Я не знаю», система фальсифицировала ответ в 91% случаев. Это тонкое, но важное различие. Оно имеет реальные последствия, особенно по мере интеграции Gemini в такие продукты, как Google Search.

Этот результат не умаляет мощности и полезности Gemini 3. Модель по-прежнему демонстрирует лучшие результаты в тестах общего назначения и занимает место рядом с последними версий ChatGPT и Claude или даже выше их. Она просто склоняется к излишней уверенности там, где следовало бы быть скромнее.

Чрезмерная самоуверенность в ответах встречается и у конкурентов Gemini. Отличительной чертой Gemini стало то, как часто это происходит в ситуациях неопределенности. Речь идет о моментах, когда в обучающих данных просто нет правильного ответа или нет достоверного общедоступного источника, на который можно было бы сослаться.

Честность галлюцинаций

Отчасти проблема заключается в том, что генеративные модели ИИ работают в основном как инструменты прогнозирования слов. А прогнозирование нового слова — это не то же самое, что оценка истинности. Это значит, что поведение по умолчанию сводится к выдумке нового слова, даже когда честнее было бы сказать «Я не знаю».

OpenAI начала решать эту проблему и заставляет свои модели распознавать незнание и выражать его достаточно ясно. Обучение таких моделей представляет собой сложную задачу, так как системы вознаграждения обычно не отдают предпочтение пустому ответу перед уверенным, но неверным вариантом. Тем не менее OpenAI поставила перед собой цель разработать такие модели в будущем.

Gemini обычно указывает источники, когда это возможно. Но даже тогда ИИ не всегда делает паузу, когда это необходимо. Это не имело бы большого значения, если бы Gemini была просто исследовательской моделью. Но поскольку Gemini становится голосом многих функций Google, уверенная неправота может иметь довольно серьезные последствия.

Здесь также присутствует элемент дизайна. Многие пользователи ожидают от своего ИИ-помощника быстрой и плавной реакции. Фразы типа «Я не уверен» или «Позвольте мне проверить» могут показаться неуклюжими в контексте чат-бота. Но это, вероятно, лучше, чем быть введенным в заблуждение. Генеративный ИИ все еще не всегда надежен, но перепроверка любого ответа нейросети всегда полезна.

Обзор смартфона Xiaomi Redmi Note 14 5G: хороший бюджетный телефон

Эрик Хэл Шварц

Проводник в хаосе нейросетей. Знает о ChatGPT, Claude и Gemini не понаслышке, а в деле. Ветеран медиа, который отфильтровывает шум и доставляет вам только самые важные инсайты о том, как ИИ бьет по вашей повседневности. Без прикрас, зато по делу.