Huawei Atlas 950: рекордные зеттафлопсы для инференса ИИ-моделей

Новый суперкластер предназначен для задач искусственного интеллекта и оснащен сотнями тысяч APU, обеспечивающих экзафлопсную мощность для обучения.

Антон Шилов

Обновлено 9.11.2025 в 23:20 Опубликовано 23.09.2025 в 21:23 4 мин

4 мин

Оглавление

На конференции Huawei Connect 2025 компания Huawei представила свое ИИ-решение нового поколения для центров обработки данных. Система способна обеспечить производительность в 1 зеттафлопс в формате FP4 для задач инференса и 524 эксафлопс в FP8 для обучения ИИ. Новый SuperCluster 950 использует сотни тысяч нейронных процессоров (NPU) Ascend 950DT и обещает стать одним из самых мощных суперкомпьютеров для искусственного интеллекта на планете. Huawei ожидает, что ее SuperCluster сможет конкурировать с системами Nvidia на базе архитектуры Rubin в конце 2026 года.

Массивная производительность

Huawei Atlas 950 SuperCluster будет состоять из 64 модулей Atlas 950 SuperPoD — стоечных ИИ-решений компании, аналогичных Nvidia GB300 NVL72 или Vera Rubin NVL144 следующего поколения. Atlas 950 SuperCluster будет построен на 524 288 ИИ-ускорителях Ascend 950DT, распределенных по более чем 10 240 оптически соединенным стойкам.

Видео от DGL.RU

Заявлено, что суперкомпьютер предлагает до 524 эксафлопс в FP8 для обучения ИИ и до 1 зеттафлопс в FP4 (точнее, в формате MXFP4) для инференса. Это ставит его в один ряд с передовыми ИИ-суперкомпьютерами, такими как OCI Supercluster от Oracle, который работает на 131 072 графических процессорах B200 и предлагает пиковую производительность до 2,4 зеттафлопс в FP4 для инференса. Следует помнить, что эти цифры относятся к пиковым показателям производительности, и еще предстоит увидеть, могут ли они быть достигнуты в реальных условиях.

SuperCluster спроектирован для поддержки как протокола RoCE (Remote Direct Memory Access over Converged Ethernet), так и проприетарного протокола Huawei UBoE (UnifiedBus over Ethernet), хотя пока неясно, насколько быстро последний будет внедряться. По данным Huawei, UBoE обеспечивает меньшую задержку в состоянии простоя, более высокую надежность оборудования и требует меньшего количества коммутаторов и оптических модулей по сравнению с традиционными конфигурациями RoCE.

Huawei позиционирует свой Atlas 950 SuperCluster для поддержки рабочих нагрузок обучения и инференса для ИИ-моделей с параметрами от сотен миллиардов до десятков триллионов. В Huawei считают, что эта платформа хорошо подходит для следующей волны крупномасштабных плотных и разреженных моделей благодаря сочетанию вычислительной мощности, пропускной способности межсоединений и стабильности системы. Учитывая ее размеры, неясно, сколько компаний смогут ее разместить.

Огромные размеры

Huawei признает, что не может создавать процессоры, которые бы бросили вызов графическим процессорам Nvidia по производительности. Поэтому для достижения 1 зеттафлопс с помощью Atlas 950 SuperCluster компания намерена использовать подход «грубой силы», задействовав сотни тысяч ИИ-ускорителей для конкуренции с кластерами Nvidia на базе Rubin в 2026–2027 годах.

Основным строительным блоком Huawei Atlas 950 SuperCluster является Atlas 950 SuperPoD, который объединяет 8192 чипа Ascend 950DT. Это в 20 раз больше процессорных блоков по сравнению с Atlas 900 A3 SuperPoD (также известным как CloudMatrix 384) и представляет собой колоссальный скачок вычислительной мощности — 8 эксафлопс в FP8 и 16 эксафлопс в FP4.

Производительность Atlas 950 SuperCluster на бумаге действительно впечатляет. Утверждается, что она значительно выше, чем у Nvidia Vera Rubin NVL144 (1,2 эксафлопс в FP8, 3,6 эксафлопс в NVFP4) — продукта, с которым компания ее сравнивает. Однако за эту производительность приходится платить размером. Установка Atlas 950 SuperCluster включает 160 стоек — 128 для вычислений и 32 для коммуникаций — и занимает 1000 квадратных метров, что сопоставимо с площадью двух баскетбольных площадок. Для сравнения, Nvidia Vera Rubin NVL144 — это стоечное решение, состоящее из одной вычислительной стойки и одной стойки с кабелями и коммутаторами, которому требуется всего несколько квадратных метров.

Что касается Huawei Atlas 950 SuperCluster, состоящего из 64 модулей Atlas 950 SuperPoD, его площадь составит около 64 000 м² — это сравнимо со 150 баскетбольными площадками или девятью стандартными футбольными полями. При этом реальному кампусу, скорее всего, потребуется дополнительное пространство для электрощитовых, чиллеров/градирен, систем бесперебойного питания и вспомогательных помещений, так что общая площадь объекта может быть значительно больше 64 000 м².

Планы на будущее

Одна из особенностей продажи серверного оборудования заключается в том, что клиенты всегда хотят знать, что будет дальше. Поэтому, помимо хорошего продукта, крайне важно иметь дорожную карту. На Huawei Connect компания раскрыла планы по запуску Atlas 960 SuperCluster вместе с Atlas 960 SuperPoD в четвертом квартале 2027 года.

Система следующего поколения будет масштабироваться до более чем 1 миллиона NPU Ascend 960 и обеспечит производительность 2 зеттафлопс в FP8 и 4 зеттафлопс в MXFP4. Она также будет поддерживать как UBoE, так и RoCE, при этом ожидается, что первый протокол обеспечит улучшенные показатели задержки и времени безотказной работы, продолжая полагаться на Ethernet.

Слухи о видеокартах Nvidia RTX 50 SUPER: все, что известно на данный момент

Антон Шилов

Пишет обо всём: от процессоров и графических процессоров до суперкомпьютеров, от современных технологических процессов и новейших производственных инструментов до тенденций в высокотехнологичной отрасли.