
Nvidia DGX Spark и M3 Ultra Mac Studio дают 2,8-кратный прирост производительности в ИИ
EXO Labs показала, как распределённая обработка нагрузок ускоряет вывод AI-моделей на двух DGX Spark и M3 Ultra Mac Studio.
Основные идеи
Мнение автора
Я изучил тест EXO с Mac Studio на M3 Ultra и двумя DGX Spark, система показала почти трёхкратное ускорение вывода LLM 8B благодаря разделению фаз предварительного заполнения и декодирования между машинами. Рекомендую исследователям и разработчикам ИИ использовать смешанные установки для оптимизации производительности вместо покупки дорогого оборудования.
Что известно о совместной работе M3 Ultra Mac Studio и Nvidia DGX Spark? Основной проект EXO Labs — EXO, фреймворк с открытым исходным кодом для эффективного запуска больших языковых моделей (LLM) на смешанных аппаратных установках. Вместо того чтобы рассматривать вывод как задачу, привязанную к одному графическому процессору или ускорителю, EXO автоматически распределяет рабочую нагрузку между любыми имеющимися у вас устройствами, превращая кластер настольных компьютеров, ноутбуков, рабочих станций, серверов, планшетов или даже смартфонов в кооперативную сеть ИИ.
Новейшая демонстрация EXO объединяет две системы NVIDIA DGX Spark с Mac Studio на базе Apple M3 Ultra, чтобы использовать различные сильные стороны каждой машины: Spark обладает большей чистой вычислительной мощностью, в то время как Mac Studio может гораздо быстрее перемещать данные. EXO 1.0, в настоящее время находящийся в раннем доступе, объединяет их в единый конвейер вывода, и, по-видимому, он работает на удивление хорошо.

Чтобы понять, как это происходит, нужно знать, что вывод LLM состоит из двух отдельных фаз: во-первых, фазы предварительного заполнения, когда модель считывает и обрабатывает запрос пользователя. Эта часть ограничена вычислительными ресурсами, а значит, использует мощные графические процессоры, такие как Blackwell в DGX Spark. Далее следует фаза декодирования, в ходе которой токены генерируются один за другим. Этот этап сильно ограничен пропускной способностью, что делает сверхширокую шину памяти M3 Ultra идеальной. Суть EXO заключается в разделении этих фаз между машинами, передавая внутренние данные модели (так называемый кэш KV) послойно, чтобы две системы могли работать одновременно, а не ждать друг друга.

В бенчмарке EXO с моделью Meta Llama-3.1 8B гибридная конфигурация продемонстрировала почти трёхкратное ускорение по сравнению с Mac Studio, сравнявшись со скоростью предзаполнения DGX Spark и сохранив при этом быстрое время генерации, характерное для M3 Ultra. В результате общий прирост составил 2,8 раза, и это при запросе 8K токенов на относительно скромной модели 8B. Более длинные запросы или модели большего размера должны давать ещё больший прирост.
Такой «дезагрегированный вывод» не новинка, но всё же очень продуманный. Он намекает на будущее, в котором производительность ИИ будет масштабироваться не за счёт покупки одного мощного ускорителя, а за счёт более разумного управления уже имеющимся оборудованием. NVIDIA, похоже, согласна: её будущая платформа Rubin CPX будет использовать высокопроизводительные процессоры Rubin CPX для этапа предварительного заполнения контекста, в то время как стандартные чипы Rubin с огромной пропускной способностью памяти HBM3e будут отвечать за этап декодирования — тот же принцип, который EXO уже демонстрирует на серийном оборудовании.

Предварительный релиз EXO всё ещё находится на экспериментальной стадии. Текущая версия с открытым исходным кодом (0.0.15-альфа) датируется мартом 2025 года, а полная сборка 1.0 — с автоматическим планированием, потоковой передачей KV и гетерогенными оптимизациями — пока не доступна. Это не готовое к использованию программное обеспечение для рядовых пользователей, по крайней мере, пока; на данный момент это инструмент исследовательского уровня, доказывающий, что дезагрегированный вывод может дать реальный эффект.
Тем не менее это впечатляющее доказательство концепции. Разумно используя смешанное оборудование, EXO демонстрирует, что высокопроизводительный ИИ необязательно должен быть монополизирован центрами обработки данных. Этого достаточно, чтобы задуматься о потенциале устройств, установленных в вашем офисе.














