Наверх

Искусственный интеллект Google: как сохранить ваши данные в безопасности без потерь в производительности!

Google представляет новую модель искусственного интеллекта, которая ставит конфиденциальность пользователей на первый план, не жертвуя при этом производительностью.

18.09.2025
12:24
Google находит баланс между мощностью ИИ и данными
  • Разработчики ИИ пытаются найти баланс между полезностью модели и конфиденциальностью пользователей.
  • Новое исследование Google предлагает возможное решение проблемы.
  • Результаты обнадеживают, но предстоит еще много работы.

Разработчики ИИ уже давно столкнулись с дилеммой: чем больше обучающих данных вы предоставляете большой языковой модели (БЯМ), тем более беглой и похожей на человеческую будет её речь. Однако в то же время вы рискуете включить в этот набор данных конфиденциальную личную информацию, которую модель может затем дословно воспроизвести, что приведёт к серьёзным угрозам безопасности для пострадавших лиц и репутационным скандалам для разработчиков.

Как найти баланс между удобством и конфиденциальностью?

Новое исследование Google утверждает, что найдено решение — платформа для создания больших языковых моделей, которая позволит оптимизировать конфиденциальность пользователей без существенного снижения производительности ИИ.

На прошлой неделе группа исследователей из Google Research и Google DeepMind представила VaultGemma — языковую модель, предназначенную для создания высококачественных результатов без дословного запоминания обучающих данных. Результат: конфиденциальная информация, попавшая в обучающий набор данных, не будет опубликована повторно.

Цифровой шум

Ключевым компонентом VaultGemma является математическая система, известная как дифференциальная конфиденциальность (differential privacy, DP). По сути, это цифровой шум, который мешает модели идеально запоминать информацию, содержащуюся в обучающих данных.

Важно отметить, что исследователи внедрили динамическое программирование на уровне последовательностей токенов. Это означает, что на самом базовом уровне VaultGemma не сможет идеально запомнить или воспроизвести детали, на которых она обучалась.

«Говоря неформально, поскольку мы обеспечиваем защиту на уровне последовательности, если информация, относящаяся к какому-либо (потенциально конфиденциальному) факту или умозаключению, встречается в одной последовательности, то VaultGemma, по сути, не знает об этом факте. Ответ на любой запрос будет статистически аналогичен результату модели, которая никогда не обучалась на рассматриваемой последовательности», — написала компания Google в блоге, резюмируя свои выводы.

Здесь нужно было соблюсти тонкий баланс: исследователи Google должны были добавить этот цифровой шум, не снизив при этом катастрофически производительность модели. Чем лучше модель ИИ запоминает и, следовательно, воспроизводит обучающие данные, тем лучше она должна работать — по крайней мере, если считать «хорошей» модель, которая генерирует ответы, похожие на человеческие, в ответ на запросы пользователей.

Но если ваша метрика направлена на оптимизацию конфиденциальности пользователей, то парадигма «только запоминание» — это проблема, потому что большинство из нас не хочет жить в мире, где огромные модели ИИ просто собирают копии нашей личной информации, которые затем непредсказуемым образом публикуются теми же моделями.

Таким образом, новое исследование Google было направлено на поиск оптимальной формулы для баланса между вычислительными ресурсами, конфиденциальностью и полезностью модели.

Многообещающие ранние результаты

По данным компании, VaultGemma, созданная на основе семейства открытых моделей Gemma 2, которое Google представила в 2024 году, имеет всего 1 миллиард параметров — относительно небольшой объём по сравнению с самыми крупными и мощными моделями на рынке, некоторые из которых, по некоторым данным, имеют более триллиона параметров.

Тем не менее VaultGemma по ключевым показателям примерно соответствует некоторым более старым моделям, в том числе GPT-2 от OpenAI. Это говорит о том, что система оптимизации вычислительных ресурсов, конфиденциальности и полезности в конечном счёте может стать жизнеспособной альтернативой ведущим проприетарным моделям, хотя ей ещё предстоит пройти долгий путь, прежде чем она приблизится к ним.

«Это сравнение показывает, что современные методы машинного обучения позволяют создавать модели, полезность которых сопоставима с полезностью общедоступных моделей, созданных примерно 5 лет назад. Это подчёркивает важный пробел, который наша работа поможет систематически устранять», — написала компания Google в своём блоге.

Весовые коэффициенты модели и методы обучения, лежащие в основе VaultGemma, были опубликованы в научной статье, чтобы сообщество ИИ-разработчиков могло совершенствовать частные модели. Доступ к весовым коэффициентам также можно получить через HuggingFace и Kaggle.

Скандал с рекламой Apple в Корее: разоблачение, которое потрясёт рынок!

Уэбб Райт

Уэбб Райт

Он исследует две большие темы: технологии и человеческий разум. Его особенно интересует, как они влияют друг на друга. Для этого он даже изучал психоделическую журналистику.

Источник: zdnet
Теги:
Подпишитесь на наши новости:
Нажимая кнопку «Подписаться», вы принимаете «Пользовательское соглашение» и даёте согласие с «Политикой обработки персональных данных»