Наверх

Nvidia DGX Spark и M3 Ultra Mac Studio дают 2,8-кратный прирост производительности в ИИ

EXO Labs показала, как распределённая обработка нагрузок ускоряет вывод AI-моделей на двух DGX Spark и M3 Ultra Mac Studio.

20.10.2025
11:59
M3 Ultra Mac Studio ускоряет LLM в гибридной системе EXO

Основные идеи

EXO автоматически распределяет нагрузку LLM между Mac Studio M3 Ultra и DGX Spark
Декодирование выполняется на M3 Ultra, предварительное заполнение — на DGX Spark
Гибридная конфигурация ускоряет генерацию 8K токенов на модели 8B почти в 3 раза

Мнение автора

Я изучил тест EXO с Mac Studio на M3 Ultra и двумя DGX Spark, система показала почти трёхкратное ускорение вывода LLM 8B благодаря разделению фаз предварительного заполнения и декодирования между машинами. Рекомендую исследователям и разработчикам ИИ использовать смешанные установки для оптимизации производительности вместо покупки дорогого оборудования.

Что известно о совместной работе M3 Ultra Mac Studio и Nvidia DGX Spark? Основной проект EXO Labs — EXO, фреймворк с открытым исходным кодом для эффективного запуска больших языковых моделей (LLM) на смешанных аппаратных установках. Вместо того чтобы рассматривать вывод как задачу, привязанную к одному графическому процессору или ускорителю, EXO автоматически распределяет рабочую нагрузку между любыми имеющимися у вас устройствами, превращая кластер настольных компьютеров, ноутбуков, рабочих станций, серверов, планшетов или даже смартфонов в кооперативную сеть ИИ.

Новейшая демонстрация EXO объединяет две системы NVIDIA DGX Spark с Mac Studio на базе Apple M3 Ultra, чтобы использовать различные сильные стороны каждой машины: Spark обладает большей чистой вычислительной мощностью, в то время как Mac Studio может гораздо быстрее перемещать данные. EXO 1.0, в настоящее время находящийся в раннем доступе, объединяет их в единый конвейер вывода, и, по-видимому, он работает на удивление хорошо.

M3 Ultra Mac Studio ускоряет LLM в гибридной системе EXO

Чтобы понять, как это происходит, нужно знать, что вывод LLM состоит из двух отдельных фаз: во-первых, фазы предварительного заполнения, когда модель считывает и обрабатывает запрос пользователя. Эта часть ограничена вычислительными ресурсами, а значит, использует мощные графические процессоры, такие как Blackwell в DGX Spark. Далее следует фаза декодирования, в ходе которой токены генерируются один за другим. Этот этап сильно ограничен пропускной способностью, что делает сверхширокую шину памяти M3 Ultra идеальной. Суть EXO заключается в разделении этих фаз между машинами, передавая внутренние данные модели (так называемый кэш KV) послойно, чтобы две системы могли работать одновременно, а не ждать друг друга.

M3 Ultra Mac Studio ускоряет LLM в гибридной системе EXO

В бенчмарке EXO с моделью Meta Llama-3.1 8B гибридная конфигурация продемонстрировала почти трёхкратное ускорение по сравнению с Mac Studio, сравнявшись со скоростью предзаполнения DGX Spark и сохранив при этом быстрое время генерации, характерное для M3 Ultra. В результате общий прирост составил 2,8 раза, и это при запросе 8K токенов на относительно скромной модели 8B. Более длинные запросы или модели большего размера должны давать ещё больший прирост.

Зак Киллиан

Зак Киллиан

Детская страсть к играм в подростковом возрасте переросла в более серьёзное увлечение компьютерами, когда он впервые собрал собственную систему на базе AMD K6. Сейчас, спустя десятилетия, он по-прежнему собирает и тестирует новые компьютеры, по-прежнему играет в свободное время и по-прежнему спорит в интернете практически по любому поводу. Он в некотором роде современный человек эпохи Возрождения: он не является экспертом ни в чём, но знает понемногу обо всём.

Источник: Tomshardware
Подпишитесь на наши новости:
Нажимая кнопку «Подписаться», вы принимаете «Пользовательское соглашение» и даёте согласие с «Политикой обработки персональных данных»