
Мировой рекорд памяти взят! Google представляет суперкомпьютер на 1.77 петабайта
Узнайте, как инженеры Google объединили мощности тысяч процессоров для создания системы, не имеющей аналогов для задач ИИ.
- TPU Ironwood от Google масштабируется до 9216 чипов с рекордной общей памятью 1,77 ПБ
- Архитектура с двумя кристаллами обеспечивает 4614 TFLOPs FP8 и 192 ГБ HBM3e на чип
- Улучшенное надежное охлаждение и функции проектирования с помощью ИИ обеспечивают эффективную работу с задачами инференса в больших масштабах
Google завершил сессии по машинному обучению на недавнем мероприятии Hot Chips 2025 подробным обзором своего новейшего тензорного процессора (TPU) Ironwood.
Чип, впервые представленный на Google Cloud Next 25 в апреле 2025 года, является первым TPU компании, разработанным в первую очередь для крупномасштабных задач инференса, а не для обучения, и представляет собой седьмое поколение аппаратного обеспечения TPU.
Каждый чип Ironwood объединяет два вычислительных кристалла, обеспечивая производительность 4614 TFLOPs в формате FP8, а восемь стеков HBM3e предоставляют 192 ГБ памяти на чип с пропускной способностью 7,3 ТБ/с.
1,77 ПБ HBM
Google встроила 1,2 ТБ/с пропускной способности ввода-вывода, чтобы система могла масштабироваться до 9216 чипов на один под без использования дополнительной логики. Такая конфигурация достигает ошеломляющей производительности в 42,5 экзафлопс.
Объем памяти также впечатляюще масштабируется. В пределах одного пода Ironwood предлагает 1,77 ПБ напрямую адресуемой HBM. Этот уровень устанавливает новый рекорд для суперкомпьютеров с общей памятью и достигается за счет оптических коммутаторов, соединяющих стойки.
Аппаратное обеспечение может переконфигурироваться вокруг отказавших узлов, восстанавливая рабочие нагрузки из контрольных точек.
Чип интегрирует множество функций, направленных на стабильность и отказоустойчивость. К ним относятся встроенный в чип корень доверия, функции самотестирования и меры по смягчению скрытых повреждений данных.

Включены функции логического ремонта для повышения выхода годных при производстве. Акцент на RAS (надежность, доступность и обслуживаемость) виден во всей архитектуре.
Охлаждение осуществляется с помощью решения с холодной пластиной, поддерживаемого третьим поколением инфраструктуры жидкостного охлаждения Google.
Google заявляет о двукратном улучшении производительности на ватт по сравнению с Trillium. Динамическое масштабирование напряжения и частоты дополнительно повышает эффективность при различных рабочих нагрузках.
Ironwood также использует методы ИИ в своем собственном дизайне. Они использовались для оптимизации схем ALU и плана размещения.
Добавлено четвертое поколение SparseCore для ускорения встраивания и коллективных операций, поддерживая такие рабочие нагрузки, как рекомендательные системы.
Развертывание уже идет в гипермасштабируемых дата-центрах Google Cloud, хотя TPU остается внутренней платформой, недоступной напрямую клиентам.
Samsung выпустила SSD на 8 ТБ, но есть нюанс: радиатор продается отдельно












