Agentes autônomos de IA estão impulsionando a próxima onda de inovação em IA. Esses agentes frequentemente precisam gerenciar tarefas de longa duração que utilizam múltiplos canais de comunicação e subprocessos em segundo plano simultaneamente para explorar opções, testar soluções e gerar resultados ótimos. Isso impõe demandas extremas de computação local.
O NVIDIA DGX Spark oferece o desempenho necessário para que agentes autônomos executem esses fluxos de trabalho complexos de forma eficiente e local. Agora, com o NVIDIA NemoClaw , parte do NVIDIA Agent Toolkit, ele instala o ambiente de execução NVIDIA OpenShell — um ambiente seguro para executar agentes autônomos e modelos de código aberto como o NVIDIA Nemotron .
Este artigo discute vários aspectos importantes das capacidades e do desempenho do sistema necessários para alimentar agentes autônomos sempre ativos e explica por que o NVIDIA DGX Spark é uma plataforma de desktop ideal para IA autônoma.
Inferência para agentes de IA autônomos
Ferramentas de agentes frequentemente precisam processar janelas de contexto enormes. O OpenClaw, por exemplo, é um ambiente de execução de agentes de IA que requer essas grandes janelas de contexto para compreender solicitações e ambientes, e para pensar na melhor abordagem para um problema.
O processamento imediato (pré-preenchimento) pode ser considerado a fase de compreensão de leitura da inferência e pode facilmente se tornar um gargalo com uma GPU lenta. É comum ver agentes autônomos usando contextos de 30 mil a 120 mil tokens (100 mil tokens equivalem à leitura de Harry Potter e a Pedra Filosofal ), com alguns agentes processando 250 mil tokens para solicitações complexas.
A Tabela 1 mostra o desempenho de um agente ou subagente potencial com uma grande janela de contexto (128K/1K de ISL/OSL).
Modelo
Latência de ponta a ponta (s)
Latência de processamento imediata (s)
Taxa de transferência de processamento imediato (tok/s)
Taxa de transferência de geração de tokens (tok/s)
NVIDIA Nemotron 3 Super 120B NVFP4 com TensorRT LLM
99
44
2.855
18
Qwen3.5 35B A3B FP8 com vLLM
73
41
3.080
35,75
Qwen3 Coder Next 80B FP8 com vLLM
89
54
2.390
28,95
Tabela 1. Representação do desempenho de uma entrada de 128 mil tokens e uma resposta de 1 mil tokens, com tamanho de lote 1.
Ao migrar de um único subagente para múltiplos subagentes, as cargas de trabalho simultâneas devem ser escaláveis sem impactar significativamente o desempenho. O NVIDIA DGX Spark lida eficazmente com alta concorrência nesse cenário.
Graças ao poder do Superchip NVIDIA Grace Blackwell , a GPU pode paralelizar vários subagentes. Dois, quatro ou até oito subagentes trabalhando simultaneamente em solicitações podem se beneficiar dos robustos recursos de concorrência do DGX Spark.
Com o suporte de frameworks que lidam bem com a concorrência (como NVIDIA TensorRT LLM , vLLM e SGLang), as cargas de trabalho multiagentes são executadas sem problemas no NVIDIA DGX Spark. Para tarefas com 32 mil ISL de 1 mil OSL, concluir quatro vezes mais tarefas requer apenas 2,6 vezes mais tempo, enquanto a taxa de transferência de processamento imediato aumenta em cerca de 3 vezes (Tabela 2).
Taxa de transferência de processamento imediato (tok/s)
Taxa de transferência de geração de tokens (tok/s)
Quanto menor, melhor.
Quanto mais alto, melhor.
1
35
9
3.261
38
2
54
12
5.363
47
4
91
15
9.616
53
Tabela 2. Representação do desempenho do Qwen3 Coder Next em FP8 no vLLM para uma entrada de 32 mil tokens e uma resposta de 1 mil tokens em diferentes níveis de concorrência.
Escalabilidade da inferência e do ajuste fino em até quatro nós NVIDIA DGX Spark.
Modelos maiores e múltiplos subagentes exigem mais memória para carregar e executar. Até agora, o NVIDIA DGX Spark suportava escalonamento para até dois nós, aumentando a memória disponível de 128 GB em um nó para 256 GB em dois nós. Essa capacidade foi agora ampliada para até quatro nós DGX Spark.
O DGX Spark agora também suporta diversas topologias de execução, cada uma adaptada a diferentes objetivos, graças à baixa latência da comunicação RoCE possibilitada pelas placas de rede ConnectX-7 .
Um nó DGX Spark : Ideal para inferência de baixa latência e grande tamanho de contexto, ajuste fino de até 120 bilhões de parâmetros e cargas de trabalho com agentes locais.
Dois nós DGX Spark : Escalabilidade balanceada para ajuste fino mais rápido e modelos maiores, além de suporte para inferência de até 400 bilhões de parâmetros.
Três nós DGX Spark em anel : Ideal para ajustes finos em modelos maiores ou pequenas tarefas de treinamento.
Quatro nós DGX Spark com switch RoCE 200 GbE: Servidor de inferência local ideal para modelos de última geração com até 700 bilhões de parâmetros, cargas de trabalho com uso intensivo de comunicação e operações locais de fábrica de IA.
A inferência pode escalar linearmente no DGX Spark quando a comunicação entre nós é mínima. Quando o trabalho é em grande parte independente por GPU, os resultados são agregados uma única vez ao final, em vez de continuamente. Nesse caso, os nós do DGX Spark podem ser executados em paralelo com baixa sobrecarga de sincronização.
Por exemplo, uma carga de trabalho de aprendizado por reforço (RL) no NVIDIA Isaac Lab pode executar várias simulações independentemente em cada nó. Os resultados são coletados em uma única etapa, proporcionando escalabilidade quase linear em vários nós DGX Spark.
A escalabilidade da inferência é sublinear quando a carga de trabalho exige comunicação frequente e granular entre os nós. Durante a inferência LLM, a execução do modelo ocorre camada por camada, com sincronização contínua necessária entre os nós. Resultados parciais de diferentes nós do DGX Spark precisam ser trocados e mesclados repetidamente, o que introduz uma sobrecarga de comunicação significativa. À medida que nós adicionais são adicionados, essa sobrecarga torna-se cada vez mais dominante, limitando a eficiência da escalabilidade.
Paralelismo para agentes de IA: Inferência em escala
O paralelismo de tensores permite o compartilhamento eficiente de inferências entre vários nós para ajustar o modelo, minimizando a sobrecarga de comunicação. A escalabilidade de dois a quatro nós DGX Spark proporciona excelentes recursos de paralelismo. Isso se deve às placas de rede ConnectX-7 de baixa latência, que escalam em tempo por token de saída (TPOT) de forma quase linear, com um aumento de aproximadamente 2x com TP2 (dois nós) e 4x com TP4 (quatro nós) em casos de uso de inferência.
A Tabela 3 mostra como um único agente executa uma tarefa de inferência compartilhada entre vários nós.
1 nó DGX Spark TP1 (ms)
2 nós DGX Spark TP2 (ms)
4 nós DGX Spark TP4 (ms)
TTFT (quanto menor, melhor)
33.415
21.384
15.552
TPOT (quanto menor, melhor)
269
133
72
Tabela 3. Escalando Llama 3.3 70B Instruir NVFP4 no TensorRT LLM com um, dois e quatro nós DGX Spark (32K de entrada, 1K de saída, tamanho do lote 1)
Diversos modelos populares no contexto do OpenClaw — incluindo o Qwen3.5 397B, o GLM 5 e o MiniMax M2.5 230B — podem se beneficiar do empilhamento de várias unidades DGX Spark, aumentando a memória disponível.
Ajuste fino quase linear
O ajuste fino e cargas de trabalho semelhantes podem ser significativamente paralelizados com escalonamento de desempenho quase linear quando a instância do modelo cabe em uma única GPU. Isso reduz a sobrecarga de comunicação apenas à sincronização do gradiente ao final de cada etapa.
Uma carga de trabalho de RL no NVIDIA Isaac Lab ou Nanochat pode se beneficiar desse escalonamento de desempenho. O Isaac Lab pode acomodar várias cópias de cada ambiente em cada DGX Spark. A cada etapa, o Isaac Lab se comunica com os outros nós para sincronizar o treinamento, obtendo um aumento de velocidade linear por meio do agrupamento.
1 nó DGX Spark TP1
2 nós DGX Spark TP2
4 nós DGX Spark TP4
Horário de coleta
12,1 s
11,4 s
10,4 s
Tempo de aprendizado
40,9 s
41,4 s
42,3 s
# ambientes
1.024
1.024
1.024
FPS
630
1241
2.520
Tabela 4. Escalabilidade do desempenho de aprendizado por reforço do Isaac Lab em um, dois e quatro nós DGX Spark.
Configuração de hardware
Taxa total de transferência de tokens (tok/s)
Aumento de velocidade em comparação com 1 nó DGX Spark
1 nó DGX Spark
~18.400
1
2 nós DGX Spark
~35.900
2
4 nós DGX Spark
~74.600
4
Tabela 5. Escalonamento do desempenho de ajuste fino do Nanochat de um a quatro nós DGX Spark (profundidade do modelo de 20 camadas, tamanho do lote de 32 por nó, atenção contextual completa)
Ao usar paralelismo de dados distribuído (DDP), o ajuste fino também pode se beneficiar da baixa sobrecarga de comunicação. Nesse caso, cada nó pode hospedar uma cópia completa do modelo e se comunicar com os outros nós uma vez por etapa.
Nós
Amostras/etapa
Tamanho do lote
Amostras/s
Acelerar
1 nó DGX Spark
15,73
32
2.03
–
3 nós DGX Spark
15,69
96
6.12
3x
Tabela 6. Escalando um DGX Spark para três nós DGX Spark, cada nó com o modelo completo do Qwen3 4B (tamanho do lote de quatro amostras por dispositivo, quantização BF16)
Desenvolva no DGX Spark e implemente na nuvem: fluxos de trabalho entre arquiteturas.
As soluções em nuvem são necessárias ao passar da fase de prototipagem para a implantação em produção em larga escala. Esta seção explica como as cargas de trabalho desenvolvidas no DGX Spark podem ser implantadas na nuvem.
O Tile IR e o cuTile Python permitem a portabilidade perfeita do kernel de ambientes de desenvolvimento DGX Spark para implantação em nuvem em GPUs NVIDIA Blackwell de data center, com alterações mínimas de código. Usando o TileGym , os desenvolvedores podem:
Escreva kernels uma única vez usando a DSL Python cuTile
Teste e valide no DGX Spark
Implante em placas NVIDIA Blackwell B300/B200, NVIDIA Hopper ou NVIDIA Ampere com alterações mínimas no código.
Utilize os kernels de transformadores pré-otimizados do TileGym como substitutos diretos.
Desempenho de inferência de ponta a ponta
Além da análise em nível de kernel, avaliamos o desempenho da inferência completa do Qwen2 7B usando kernels cuTile em ambas as plataformas para demonstrar a portabilidade de desempenho entre arquiteturas. A Tabela 7 mostra a configuração; a Tabela 8 mostra a especificação da plataforma.
Parâmetro
Valor
Modelo
Qwen2 7B
Comprimento de entrada
2.189 tokens
Comprimento de saída
128 fichas
Tamanhos de lote
1, 2, 4, 8, 16, 32, 64, 128
Tabela 7. Especificações do modelo e dos parâmetros mostrando o uso do Tile IR
Especificação
NVIDIA DGX Spark (Desenvolvedor)
NVIDIA Blackwell B200 (Nuvem)
Capacidade de computação
SM 12.1
SM 10.0
Contagem SM
48
148
Frequência SM
2,14 GHz
~1,0 GHz
Tipo de memória
LPDDR5X (Unificado)
HBM3e
Largura de banda da memória
273 GB/s
~8 TB/s
Tabela 8. Especificações da plataforma NVIDIA DGX Spark e NVIDIA B200 como exemplos locais e em nuvem.
Configuração específica da plataforma
Embora o código-fonte do kernel permaneça idêntico em todas as plataformas, o desempenho ideal é alcançado por meio de configurações específicas da plataforma (Tile e Occupancy). Para o exemplo do kernel FMHA, a Tabela 9 mostra como essas configurações se adaptam a diferentes características de hardware. O Tile IR é compilado para PTX/SASS específico da arquitetura no JIT, aproveitando automaticamente recursos específicos da plataforma, como o Tensor Memory Accelerator (TMA), usando a configuração apropriada.
Plataforma
TILE_M
TILE_N
Ocupação
Justificativa
NVIDIA DGX Spark (SM 12.1)
64
64
2
Blocos menores de 48 SMs, memória unificada
NVIDIA B200 (SM 10.0)
256
128
1
Blocos grandes maximizam a taxa de transferência do HBM3e.
NVIDIA B200 (alternativa)
128
128
2
Maior ocupação, paralelismo equilibrado
Tabela 9. Configuração específica da plataforma cuTile para NVIDIA DGX Spark e NVIDIA B200
Análise da linha do telhado e comparação do desempenho do kernel Tile IR
A análise de limite de desempenho (roofline) no NVIDIA Nsight Compute é uma poderosa estrutura visual de desempenho usada para determinar o quão bem um aplicativo está utilizando os recursos de hardware. Como desenvolvedor, a análise de limite de desempenho ajuda você a descobrir se seu código está "lento" e mostra por que ele pode estar atingindo um limite de desempenho.
A análise do modelo de limite superior sugere que o kernel escala de forma eficaz em relação ao respectivo limite superior, demonstrando que o Tile IR é uma opção viável para escalar cargas de trabalho. O kernel considerado é o kernel de decodificação de atenção, otimizado utilizando o Tile IR.
Figura 1. A análise de desempenho máximo (roofline) no NVIDIA Nsight Compute mostra como o desempenho do kernel Tile IR escala no NVIDIA B200 e no NVIDIA DGX Spark em relação ao desempenho máximo teórico de cada GPU.
Espaço para escalonamento e otimização de desempenho
Na Figura 1, o posicionamento vertical dos pontos de dados no eixo y confirma que o kernel atinge uma utilização de hardware maior na NVIDIA B200. Especificamente, a proximidade vertical do ponto azul à linha de limite da memória da GPU NVIDIA B200 é maior do que a do ponto verde à linha de limite do Spark.
Esta análise do desempenho indica oportunidades adicionais de otimização, e que as otimizações algorítmicas ou de memória do NVIDIA DGX Spark também beneficiarão as GPUs NVIDIA B200.
Utilização do cache e intensidade aritmética
A análise do eixo x revela que o ponto azul está posicionado à direita do ponto verde, o que significa que o B200 atinge uma intensidade aritmética de hardware superior.
Eficiência do cache: Embora a maior capacidade de cache da GPU NVIDIA B200 forneça a base teórica para reduzir o tráfego de DRAM, o hardware por si só é insuficiente. O software deve ser projetado para explorar esses recursos.
Portabilidade do kernel: O deslocamento para a direita indica que os kernels Tile IR aproveitam com sucesso a hierarquia de cache expandida do NVIDIA B200 na migração.
Futuras otimizações do kernel Tile IR, visando aumentar a intensidade aritmética no Spark — movendo o ponto de dados mais para a direita ao longo do eixo x — resultarão inerentemente em benefícios de desempenho cumulativos ao executar em várias GPUs na nuvem.
Ajuste automático multiplataforma automatizado
Atualmente, as configurações ideais são selecionadas com base nas características da plataforma. As futuras versões do cuTile oferecerão suporte à otimização automática multiplataforma. O otimizador automático descobrirá automaticamente os tamanhos de bloco e as configurações de ocupação ideais para cada arquitetura de destino, permitindo a portabilidade transparente de desempenho sem qualquer configuração manual.
Comece a usar o NVIDIA DGX Spark
À medida que os sistemas de IA se tornam mais sofisticados, o NVIDIA DGX Spark oferece o ambiente de execução flexível e multitopológico necessário para implantá-los com eficiência. Da inferência multiagente ao processamento de trilhões de parâmetros, do ajuste fino aos pipelines entre nuvens do Tile IR, o DGX Spark proporciona escalabilidade e eficiência.
O resultado é uma plataforma unificada onde as empresas podem implementar e dimensionar cargas de trabalho de IA, sem precisar reescrever a infraestrutura para cada modelo ou ambiente de execução.