Inicio > Informática > NVIDIA DGX Spark Bundle, 2 Pack Kit Gold, 940-54242-0000-000

NVIDIA DGX Spark Bundle, 2 Pack Kit Gold, 940-54242-0000-000 - comprar online

NVIDIA DGX Spark Bundle, 2 Pack Kit Gold, 940-54242-0000-000 en internet

NVIDIA DGX Spark Bundle, 2 Pack Kit Gold, 940-54242-0000-000 - Loja do Jangão - InterBros

NVIDIA DGX Spark Bundle, 2 Pack Kit Gold, 940-54242-0000-000 - tienda online

Imagen de NVIDIA DGX Spark Bundle, 2 Pack Kit Gold, 940-54242-0000-000

ESTOQUE: 3 UN

SKU: 940-54242-0000-000

NVIDIA DGX Spark Bundle, 2 Pack Kit Gold, 940-54242-0000-000

Name: NVIDIA DGX Spark Bundle, 2 Pack Kit Gold, 940-54242-0000-000
Brand: NVIDIA
SKU: 940-54242-0000-000
Availability: InStock

Produto Lacrado de Fábrica

HighLights cada um

NVIDIA GB10 Grace Blackwell superchip
128GB of coherent, unified system memory
Up to 4TB Storage
150mm L x 150mm W x 50.5mm H
1 PFLOPS of FP4 AI performance
ConnectX-7 Smart NIC

Agentes autônomos de IA estão impulsionando a próxima onda de inovação em IA. Esses agentes frequentemente precisam gerenciar tarefas de longa duração que utilizam múltiplos canais de comunicação e subprocessos em segundo plano simultaneamente para explorar opções, testar soluções e gerar resultados ótimos. Isso impõe demandas extremas de computação local.

O NVIDIA DGX Spark oferece o desempenho necessário para que agentes autônomos executem esses fluxos de trabalho complexos de forma eficiente e local. Agora, com o NVIDIA NemoClaw , parte do NVIDIA Agent Toolkit, ele instala o ambiente de execução NVIDIA OpenShell — um ambiente seguro para executar agentes autônomos e modelos de código aberto como o NVIDIA Nemotron .

Este artigo discute vários aspectos importantes das capacidades e do desempenho do sistema necessários para alimentar agentes autônomos sempre ativos e explica por que o NVIDIA DGX Spark é uma plataforma de desktop ideal para IA autônoma.

Inferência para agentes de IA autônomos

Ferramentas de agentes frequentemente precisam processar janelas de contexto enormes. O OpenClaw, por exemplo, é um ambiente de execução de agentes de IA que requer essas grandes janelas de contexto para compreender solicitações e ambientes, e para pensar na melhor abordagem para um problema.

O processamento imediato (pré-preenchimento) pode ser considerado a fase de compreensão de leitura da inferência e pode facilmente se tornar um gargalo com uma GPU lenta. É comum ver agentes autônomos usando contextos de 30 mil a 120 mil tokens (100 mil tokens equivalem à leitura de Harry Potter e a Pedra Filosofal ), com alguns agentes processando 250 mil tokens para solicitações complexas.

A Tabela 1 mostra o desempenho de um agente ou subagente potencial com uma grande janela de contexto (128K/1K de ISL/OSL).

Modelo	Latência de ponta a ponta (s)	Latência de processamento imediata (s)	Taxa de transferência de processamento imediato (tok/s)	Taxa de transferência de geração de tokens (tok/s)
NVIDIA Nemotron 3 Super 120B NVFP4 com TensorRT LLM	99	44	2.855	18
Qwen3.5 35B A3B FP8 com vLLM	73	41	3.080	35,75
Qwen3 Coder Next 80B FP8 com vLLM	89	54	2.390	28,95

Tabela 1. Representação do desempenho de uma entrada de 128 mil tokens e uma resposta de 1 mil tokens, com tamanho de lote 1.

Ao migrar de um único subagente para múltiplos subagentes, as cargas de trabalho simultâneas devem ser escaláveis sem impactar significativamente o desempenho. O NVIDIA DGX Spark lida eficazmente com alta concorrência nesse cenário.

Graças ao poder do Superchip NVIDIA Grace Blackwell , a GPU pode paralelizar vários subagentes. Dois, quatro ou até oito subagentes trabalhando simultaneamente em solicitações podem se beneficiar dos robustos recursos de concorrência do DGX Spark.

Com o suporte de frameworks que lidam bem com a concorrência (como NVIDIA TensorRT LLM , vLLM e SGLang), as cargas de trabalho multiagentes são executadas sem problemas no NVIDIA DGX Spark. Para tarefas com 32 mil ISL de 1 mil OSL, concluir quatro vezes mais tarefas requer apenas 2,6 vezes mais tempo, enquanto a taxa de transferência de processamento imediato aumenta em cerca de 3 vezes (Tabela 2).

O NVIDIA DGX Spark é uma plataforma ideal para o desenvolvimento do OpenClaw. Com o NVIDIA OpenShell, você pode executar agentes autônomos e autoevolutivos com mais segurança. Comece a executar o OpenClaw localmente no NVIDIA DGX Spark.

Concorrência (número de tarefas simultâneas)	Latência de ponta a ponta (s)	Tempo médio de tratamento (TTFT ) (s)	Taxa de transferência de processamento imediato (tok/s)	Taxa de transferência de geração de tokens (tok/s)
	Quanto menor, melhor.		Quanto mais alto, melhor.
1	35	9	3.261	38
2	54	12	5.363	47
4	91	15	9.616	53

Tabela 2. Representação do desempenho do Qwen3 Coder Next em FP8 no vLLM para uma entrada de 32 mil tokens e uma resposta de 1 mil tokens em diferentes níveis de concorrência.

Escalabilidade da inferência e do ajuste fino em até quatro nós NVIDIA DGX Spark.

Modelos maiores e múltiplos subagentes exigem mais memória para carregar e executar. Até agora, o NVIDIA DGX Spark suportava escalonamento para até dois nós, aumentando a memória disponível de 128 GB em um nó para 256 GB em dois nós. Essa capacidade foi agora ampliada para até quatro nós DGX Spark.

O DGX Spark agora também suporta diversas topologias de execução, cada uma adaptada a diferentes objetivos, graças à baixa latência da comunicação RoCE possibilitada pelas placas de rede ConnectX-7 .

Um nó DGX Spark : Ideal para inferência de baixa latência e grande tamanho de contexto, ajuste fino de até 120 bilhões de parâmetros e cargas de trabalho com agentes locais.
Dois nós DGX Spark : Escalabilidade balanceada para ajuste fino mais rápido e modelos maiores, além de suporte para inferência de até 400 bilhões de parâmetros.
Três nós DGX Spark em anel : Ideal para ajustes finos em modelos maiores ou pequenas tarefas de treinamento.
Quatro nós DGX Spark com switch RoCE 200 GbE: Servidor de inferência local ideal para modelos de última geração com até 700 bilhões de parâmetros, cargas de trabalho com uso intensivo de comunicação e operações locais de fábrica de IA.

A inferência pode escalar linearmente no DGX Spark quando a comunicação entre nós é mínima. Quando o trabalho é em grande parte independente por GPU, os resultados são agregados uma única vez ao final, em vez de continuamente. Nesse caso, os nós do DGX Spark podem ser executados em paralelo com baixa sobrecarga de sincronização.

Por exemplo, uma carga de trabalho de aprendizado por reforço (RL) no NVIDIA Isaac Lab pode executar várias simulações independentemente em cada nó. Os resultados são coletados em uma única etapa, proporcionando escalabilidade quase linear em vários nós DGX Spark.

A escalabilidade da inferência é sublinear quando a carga de trabalho exige comunicação frequente e granular entre os nós. Durante a inferência LLM, a execução do modelo ocorre camada por camada, com sincronização contínua necessária entre os nós. Resultados parciais de diferentes nós do DGX Spark precisam ser trocados e mesclados repetidamente, o que introduz uma sobrecarga de comunicação significativa. À medida que nós adicionais são adicionados, essa sobrecarga torna-se cada vez mais dominante, limitando a eficiência da escalabilidade.

Paralelismo para agentes de IA: Inferência em escala

O paralelismo de tensores permite o compartilhamento eficiente de inferências entre vários nós para ajustar o modelo, minimizando a sobrecarga de comunicação. A escalabilidade de dois a quatro nós DGX Spark proporciona excelentes recursos de paralelismo. Isso se deve às placas de rede ConnectX-7 de baixa latência, que escalam em tempo por token de saída (TPOT) de forma quase linear, com um aumento de aproximadamente 2x com TP2 (dois nós) e 4x com TP4 (quatro nós) em casos de uso de inferência.

A Tabela 3 mostra como um único agente executa uma tarefa de inferência compartilhada entre vários nós.

	1 nó DGX Spark TP1 (ms)	2 nós DGX Spark TP2 (ms)	4 nós DGX Spark TP4 (ms)
TTFT (quanto menor, melhor)	33.415	21.384	15.552
TPOT (quanto menor, melhor)	269	133	72

Tabela 3. Escalando Llama 3.3 70B Instruir NVFP4 no TensorRT LLM com um, dois e quatro nós DGX Spark (32K de entrada, 1K de saída, tamanho do lote 1)

Diversos modelos populares no contexto do OpenClaw — incluindo o Qwen3.5 397B, o GLM 5 e o MiniMax M2.5 230B — podem se beneficiar do empilhamento de várias unidades DGX Spark, aumentando a memória disponível.

Ajuste fino quase linear

O ajuste fino e cargas de trabalho semelhantes podem ser significativamente paralelizados com escalonamento de desempenho quase linear quando a instância do modelo cabe em uma única GPU. Isso reduz a sobrecarga de comunicação apenas à sincronização do gradiente ao final de cada etapa.

Uma carga de trabalho de RL no NVIDIA Isaac Lab ou Nanochat pode se beneficiar desse escalonamento de desempenho. O Isaac Lab pode acomodar várias cópias de cada ambiente em cada DGX Spark. A cada etapa, o Isaac Lab se comunica com os outros nós para sincronizar o treinamento, obtendo um aumento de velocidade linear por meio do agrupamento.

	1 nó DGX Spark TP1	2 nós DGX Spark TP2	4 nós DGX Spark TP4
Horário de coleta	12,1 s	11,4 s	10,4 s
Tempo de aprendizado	40,9 s	41,4 s	42,3 s
# ambientes	1.024	1.024	1.024
FPS	630	1241	2.520

Tabela 4. Escalabilidade do desempenho de aprendizado por reforço do Isaac Lab em um, dois e quatro nós DGX Spark.

Configuração de hardware	Taxa total de transferência de tokens (tok/s)	Aumento de velocidade em comparação com 1 nó DGX Spark
1 nó DGX Spark	~18.400	1
2 nós DGX Spark	~35.900	2
4 nós DGX Spark	~74.600	4

Tabela 5. Escalonamento do desempenho de ajuste fino do Nanochat de um a quatro nós DGX Spark (profundidade do modelo de 20 camadas, tamanho do lote de 32 por nó, atenção contextual completa)

Ao usar paralelismo de dados distribuído (DDP), o ajuste fino também pode se beneficiar da baixa sobrecarga de comunicação. Nesse caso, cada nó pode hospedar uma cópia completa do modelo e se comunicar com os outros nós uma vez por etapa.

Nós	Amostras/etapa	Tamanho do lote	Amostras/s	Acelerar
1 nó DGX Spark	15,73	32	2.03	–
3 nós DGX Spark	15,69	96	6.12	3x

Tabela 6. Escalando um DGX Spark para três nós DGX Spark, cada nó com o modelo completo do Qwen3 4B (tamanho do lote de quatro amostras por dispositivo, quantização BF16)

Desenvolva no DGX Spark e implemente na nuvem: fluxos de trabalho entre arquiteturas.

As soluções em nuvem são necessárias ao passar da fase de prototipagem para a implantação em produção em larga escala. Esta seção explica como as cargas de trabalho desenvolvidas no DGX Spark podem ser implantadas na nuvem.

O Tile IR e o cuTile Python permitem a portabilidade perfeita do kernel de ambientes de desenvolvimento DGX Spark para implantação em nuvem em GPUs NVIDIA Blackwell de data center, com alterações mínimas de código. Usando o TileGym , os desenvolvedores podem:

Escreva kernels uma única vez usando a DSL Python cuTile
Teste e valide no DGX Spark
Implante em placas NVIDIA Blackwell B300/B200, NVIDIA Hopper ou NVIDIA Ampere com alterações mínimas no código.
Utilize os kernels de transformadores pré-otimizados do TileGym como substitutos diretos.

Desempenho de inferência de ponta a ponta

Além da análise em nível de kernel, avaliamos o desempenho da inferência completa do Qwen2 7B usando kernels cuTile em ambas as plataformas para demonstrar a portabilidade de desempenho entre arquiteturas. A Tabela 7 mostra a configuração; a Tabela 8 mostra a especificação da plataforma.

Parâmetro	Valor
Modelo	Qwen2 7B
Comprimento de entrada	2.189 tokens
Comprimento de saída	128 fichas
Tamanhos de lote	1, 2, 4, 8, 16, 32, 64, 128

Tabela 7. Especificações do modelo e dos parâmetros mostrando o uso do Tile IR

Especificação	NVIDIA DGX Spark (Desenvolvedor)	NVIDIA Blackwell B200 (Nuvem)
Capacidade de computação	SM 12.1	SM 10.0
Contagem SM	48	148
Frequência SM	2,14 GHz	~1,0 GHz
Tipo de memória	LPDDR5X (Unificado)	HBM3e
Largura de banda da memória	273 GB/s	~8 TB/s

Tabela 8. Especificações da plataforma NVIDIA DGX Spark e NVIDIA B200 como exemplos locais e em nuvem.

Configuração específica da plataforma

Embora o código-fonte do kernel permaneça idêntico em todas as plataformas, o desempenho ideal é alcançado por meio de configurações específicas da plataforma (Tile e Occupancy). Para o exemplo do kernel FMHA, a Tabela 9 mostra como essas configurações se adaptam a diferentes características de hardware. O Tile IR é compilado para PTX/SASS específico da arquitetura no JIT, aproveitando automaticamente recursos específicos da plataforma, como o Tensor Memory Accelerator (TMA), usando a configuração apropriada.

Plataforma	TILE_M	TILE_N	Ocupação	Justificativa
NVIDIA DGX Spark (SM 12.1)	64	64	2	Blocos menores de 48 SMs, memória unificada
NVIDIA B200 (SM 10.0)	256	128	1	Blocos grandes maximizam a taxa de transferência do HBM3e.
NVIDIA B200 (alternativa)	128	128	2	Maior ocupação, paralelismo equilibrado

Tabela 9. Configuração específica da plataforma cuTile para NVIDIA DGX Spark e NVIDIA B200

Análise da linha do telhado e comparação do desempenho do kernel Tile IR

A análise de limite de desempenho (roofline) no NVIDIA Nsight Compute é uma poderosa estrutura visual de desempenho usada para determinar o quão bem um aplicativo está utilizando os recursos de hardware. Como desenvolvedor, a análise de limite de desempenho ajuda você a descobrir se seu código está "lento" e mostra por que ele pode estar atingindo um limite de desempenho.

A análise do modelo de limite superior sugere que o kernel escala de forma eficaz em relação ao respectivo limite superior, demonstrando que o Tile IR é uma opção viável para escalar cargas de trabalho. O kernel considerado é o kernel de decodificação de atenção, otimizado utilizando o Tile IR.

Espaço para escalonamento e otimização de desempenho

Na Figura 1, o posicionamento vertical dos pontos de dados no eixo y confirma que o kernel atinge uma utilização de hardware maior na NVIDIA B200. Especificamente, a proximidade vertical do ponto azul à linha de limite da memória da GPU NVIDIA B200 é maior do que a do ponto verde à linha de limite do Spark.

Esta análise do desempenho indica oportunidades adicionais de otimização, e que as otimizações algorítmicas ou de memória do NVIDIA DGX Spark também beneficiarão as GPUs NVIDIA B200.

Utilização do cache e intensidade aritmética

A análise do eixo x revela que o ponto azul está posicionado à direita do ponto verde, o que significa que o B200 atinge uma intensidade aritmética de hardware superior.

Eficiência do cache: Embora a maior capacidade de cache da GPU NVIDIA B200 forneça a base teórica para reduzir o tráfego de DRAM, o hardware por si só é insuficiente. O software deve ser projetado para explorar esses recursos.
Portabilidade do kernel: O deslocamento para a direita indica que os kernels Tile IR aproveitam com sucesso a hierarquia de cache expandida do NVIDIA B200 na migração.

Futuras otimizações do kernel Tile IR, visando aumentar a intensidade aritmética no Spark — movendo o ponto de dados mais para a direita ao longo do eixo x — resultarão inerentemente em benefícios de desempenho cumulativos ao executar em várias GPUs na nuvem.

Ajuste automático multiplataforma automatizado

Atualmente, as configurações ideais são selecionadas com base nas características da plataforma. As futuras versões do cuTile oferecerão suporte à otimização automática multiplataforma. O otimizador automático descobrirá automaticamente os tamanhos de bloco e as configurações de ocupação ideais para cada arquitetura de destino, permitindo a portabilidade transparente de desempenho sem qualquer configuração manual.

Comece a usar o NVIDIA DGX Spark

À medida que os sistemas de IA se tornam mais sofisticados, o NVIDIA DGX Spark oferece o ambiente de execução flexível e multitopológico necessário para implantá-los com eficiência. Da inferência multiagente ao processamento de trilhões de parâmetros, do ajuste fino aos pipelines entre nuvens do Tile IR, o DGX Spark proporciona escalabilidade e eficiência.

O resultado é uma plataforma unificada onde as empresas podem implementar e dimensionar cargas de trabalho de IA, sem precisar reescrever a infraestrutura para cada modelo ou ambiente de execução.

Saiba mais com os seguintes guias:

Comece a desenvolver no NVIDIA DGX Spark .

Specifications

Key Specs

Processor Model

ARM

Storage Type

SSD

Total Storage Capacity

4000 gigabytes

System Memory (RAM)

128 gigabytes

Graphics Type

None

Graphics

NVIDIA Blackwell Architecture
General

Brand

NVIDIA

Model Number

NVDGXSPARK2PK-KIT

Product Name

DGX Spark - NVIDIA GB10 Grace Blackwell Superchip, 128 GB LPDDR5x, ARM Processor, 4TB NVME M.2 SSD Storage 2 Pack Kit

Color

Gold

Year of Release

2025
Processor

Processor Brand

ARM

Processor Model

ARM

Processor Model Number

Grace Blackwell
Storage

Storage Type

SSD

Total Storage Capacity

4000 gigabytes

Solid State Drive Capacity

0 gigabytes

Solid State Drive Interface

NVMe
Memory

System Memory (RAM)

128 gigabytes

Type of Memory (RAM)

LPDDR5X
Graphics

Graphics Type

None

GPU Brand

NVIDIA

Graphics

NVIDIA Blackwell Architecture

GPU Base Clock Frequency

0 gigahertz

GPU Boost Clock Frequency

0 gigahertz

GPU Video Memory Type (RAM)

LPDDR5X
Compatibility

Operating System

NVIDIA DGX OS
Connectivity

Display Connector(s)

1 x HDMI 2.1, 3 x DisplayPort 1.4

Number of HDMI Outputs (Total)

1

Number of DisplayPort Outputs (Total)

3

USB Ports

4 x USB-C

Number of USB Ports (Total)

4

Number Of Ethernet Ports

1
Cooling

CPU Cooling System

Air
Features

Size

Small

NVIDIA DGX Spark Bundle, 2 Pack Kit Gold, 940-54242-0000-000

NVIDIA DGX Spark Bundle, 2 Pack Kit Gold, 940-54242-0000-000

HighLights cada um

NVIDIA GB10 Grace Blackwell superchip

128GB of coherent, unified system memory

Up to 4TB Storage

150mm L x 150mm W x 50.5mm H

1 PFLOPS of FP4 AI performance

ConnectX-7 Smart NIC

Inferência para agentes de IA autônomos

Escalabilidade da inferência e do ajuste fino em até quatro nós NVIDIA DGX Spark.

Paralelismo para agentes de IA: Inferência em escala

Ajuste fino quase linear

Desenvolva no DGX Spark e implemente na nuvem: fluxos de trabalho entre arquiteturas.

Desempenho de inferência de ponta a ponta

Configuração específica da plataforma

Análise da linha do telhado e comparação do desempenho do kernel Tile IR

Espaço para escalonamento e otimização de desempenho

Utilização do cache e intensidade aritmética

Ajuste automático multiplataforma automatizado

Comece a usar o NVIDIA DGX Spark

Specifications

Key Specs

General

Processor

Storage

Memory

Graphics

Compatibility

Connectivity

Cooling

Features

Medios de pago

Medios de envío

Subtotal (sin envío) : €0,00

Total: €0,00