Ninguém realmente esperava que a Nvidia lançasse algo como o GB10. Afinal, por que uma empresa de tecnologia que se transformou na empresa mais valiosa de todos os tempos, vendendo peças que custam centenas de milhares de dólares, de repente decidiria vender um sistema inteiro por uma fração do preço?
Acredito que a Nvidia quer revolucionar a computação da mesma forma que a IBM fez há quase 45 anos com o IBM PC original.
O Projeto DIGITS, como lembrete, é um supercomputador totalmente formado e pronto para uso, integrado em algo do tamanho de um mini PC. É essencialmente uma versão menor do DGX-1, o primeiro desse tipo lançado há quase uma década, em abril de 2016. Na época, foi vendido por US$ 129.000 com uma CPU Intel Xeon de 16 núcleos e oito placas GPGPU P100; Dígitos custa US$ 3.000.
A Nvidia confirmou que tem um desempenho de IA de 1.000 Teraflops com precisão de FP4 (denso/esparso?). Embora não haja comparação direta, pode-se estimar que o diminuto supercomputador tem aproximadamente metade do poder de processamento de um DGX-1 de 8 placas totalmente carregado baseado em Pascal.
No coração do Digits está o SoC GB10, que possui 20 Arm Cores (10 Arm Cortex-X925 e 10 Cortex-A725). Além da presença confirmada de uma GPU Blackwell (uma versão lite do B100), só podemos inferir o consumo de energia (100W) e a largura de banda (825GB/s de acordo com The Register).
Você deve ser capaz de conectar dois desses dispositivos (mas não mais) por meio da tecnologia ConnectX proprietária da Nvidia para lidar com LLMs maiores, como o Llama 3.1 405B da Meta. Colocar esses minúsculos mini PCs em um rack de 42U parece ser quase impossível por enquanto, pois isso invadiria os sistemas DGX GB200, muito mais lucrativos da Nvidia.
Tudo sobre o fosso
Por que a Nvidia embarcou no Projeto DIGITS? Acho que se trata de reforçar o seu fosso. Tornar seus produtos tão rígidos que se torna quase impossível passar para a concorrência é algo que funcionou muito bem para outros: Microsoft e Windows, Google e Gmail, Apple e iPhone.
O mesmo aconteceu com a Nvidia e o CUDA – estar no comando permitiu à Nvidia fazer coisas como embaralhar as traves do gol e atrapalhar a concorrência.
A mudança para o FP4 para inferência permitiu à Nvidia fornecer afirmações de benchmark impressionantes, como “Blackwell oferece 2,5x o desempenho de seu antecessor no FP8 para treinamento, por chip, e 5x com FP4 para inferência”. Claro, a AMD não oferece computação FP4 na série MI300X/325X e teremos que esperar até o final deste ano para que ela seja lançada no Instinct MI350X/355X.
A Nvidia está, portanto, preparando o terreno para futuras incursões, por falta de uma palavra ou analogia melhor, de concorrentes existentes e futuros, incluindo os seus próprios clientes (pense na Microsoft e no Google). A ambição do CEO da Nvidia, Jensen Huang, é clara; ele quer expandir o domínio da empresa para além do domínio dos hiperescaladores.
“A IA será dominante em todas as aplicações de todos os setores. Com o Projeto DIGITS, o Grace Blackwell Superchip chega a milhões de desenvolvedores, colocando um supercomputador de IA nas mesas de cada cientista de dados, pesquisador de IA e estudante, capacitando-os a se envolver e moldar a era da IA”, comentou Huang recentemente.
Além de renomear Nvidia como Nvid-ai, isso é o mais próximo que Huang chega de reconhecer suas ambições de tornar o nome de sua empresa sinônimo de IA, assim como Tarmac e Hoover antes deles (embora em mais nichos verticais).
Eu também fiquei, como muitos, perplexo com o link da Mediatek e a justificativa para essa união pode ser encontrada no comunicado de imprensa da Mediatek. A empresa taiwanesa “traz sua experiência em design de desempenho de SoC baseado em Arm e eficiência de energia para [a] dispositivo inovador para pesquisadores e desenvolvedores de IA”, observou.
A parceria, acredito, beneficia mais a Mediatek do que a Nvidia e, no curto prazo, posso ver a Nvidia indo sozinha silenciosamente. A Reuters relatou que Huang rejeitou a ideia da Nvidia ir atrás da AMD e da Intel, dizendo: “Agora eles [Mediatek] poderiam fornecer-nos isso e poderiam ficar com isso para si e servir o mercado. E então foi um grande ganha-ganha”.
Isso não significa que a Nvidia não fornecerá produtos mais convencionais, apenas eles seriam voltados para empresas e profissionais, não para consumidores, onde a concorrência acirrada torna as coisas mais desafiadoras (e as margens são mínimas).
O artigo da Reuters cita Huang dizendo: “Vamos fazer disso um produto mainstream, vamos apoiá-lo com todas as coisas que fazemos para oferecer suporte a software profissional e de alta qualidade, e o PC (fabricantes) irá disponibilizá-lo para usuários finais.”
Célula de cabeçalho – Coluna 0 | DÍGITOS | DÍGITOS 2,4X | DGX-1 v1 | Variância (DGX vs DÍGITOS) |
---|---|---|---|---|
Profundidade (est.) em mm | 89 | 89 | 866 | 9,73x |
Largura (est.) em mm | 135 | 324 | 444 | 1,37x |
Altura (est.) em mm | 40 | 40 | 131 | 3,28x |
Peso em Kg | ~1 | ~2,4 | 60,8 | 25,35x |
Preço em USD (ajustado em novembro de 2024) | 3.000 | 7200 | 170100 | 23,63x |
GPU de desempenho FP16 (TF) | 0 | 0 | 170 | Linha 5 – Célula 4 |
GPU de desempenho FP16 denso (TF) | ~282 | 676,8 | 680 | 1,00x |
GPU de desempenho FP4 denso (TF) | 1000 | Linha 7 – Célula 2 | 0 | Linha 7 – Célula 4 |
Memória GPU (GB) | 128 | 307.2 | 128 | 0,42x |
Consumo máximo de energia (W) | ~150 | ~300 | 3200 | 10,67x |
Armazenamento (TB) | 4 | 9.6 | 7,68 | 0,80x |
Família de GPUs | Blackwell | Blackwell | Pascal | Linha 11 – Célula 4 |
Consumo de energia da GPU (W) x8 | ~100 | ~240 | 2400 | 10x |
Contagem de transistores de GPU (bn) x8 | ~30 | ~72 | 120 | 1,67x |
Largura de banda de memória (GB/seg) x | ~850 | ~850 | 720 | 0,85x |
Olhando na minha bola de cristal
Uma teoria que descobri enquanto pesquisava esse recurso é que mais cientistas de dados estão adotando a plataforma Mac da Apple porque ela oferece uma abordagem equilibrada. Desempenho suficientemente bom – graças à sua arquitetura de memória unificada – a um preço ‘razoável’. O Mac Studio com memória unificada de 128 GB e SSD de 4 TB é vendido atualmente por US$ 5.799.
Então, para onde vai a Nvidia a partir daí? Um movimento óbvio seria integrar a memória no SoC, semelhante ao que a Apple fez com seu SoC da série M (e a AMD com seu Epyc alimentado por HBM). Isto não só economizaria custos, mas também melhoraria o desempenho, algo que seu irmão maior, o GB200, já faz.
Então vai depender se a Nvidia deseja oferecer mais pelo mesmo preço ou o mesmo desempenho por um preço mais baixo (ou um pouco de ambos). A Nvidia poderia seguir o caminho da Intel e usar o GB10 como protótipo para encorajar outros parceiros importantes (PNY, Gigabyte, Asus) a lançar projetos semelhantes (a Intel fez isso com a Next Unit of Computing ou NUC).
Também estou particularmente interessado em saber o que acontecerá com a família Jetson Orin; a versão NX de 16 GB foi atualizada há apenas algumas semanas para oferecer 157 TOPS em desempenho INT8. Esta plataforma é destinada a atender mais casos de uso DIY/edge, em vez de tarefas puras de treinamento/inferência, mas não posso deixar de pensar em cenários “What If”.
A Nvidia está claramente se interrompendo antes que outros tentem fazê-lo; a questão é até onde isso irá.