- O H800 da NVIDIA foi lançado em março de 2023 e é uma versão reduzida do H100
- Também é significativamente mais lento que o H200 da Nvidia e o intervalo de instintos da AMD
- Essas restrições artificiais forçaram a engenharia da Deepseek a inovar
Supunha -se que os Estados Unidos permaneceriam não contestados como a superpotência global da IA, principalmente depois que o recente anúncio do presidente do Project Stargate – uma iniciativa de US $ 500 bilhões para reforçar a infraestrutura de IA nos EUA. No entanto, nesta semana, viu uma mudança sísmica com a chegada da veia profunda da China. Desenvolvido por uma fração do custo de seus rivais americanos, a Deepseek saiu balançando aparentemente do nada e causou tanto impacto que limpou US $ 1 trilhão do valor de mercado das ações da Tech, com a Nvidia a principal vítima.
Obviamente, qualquer coisa desenvolvida na China será altamente secreta, mas um documento de tecnologia publicado alguns dias antes do modelo de bate -papo atordoar os observadores da IA nos fornece algumas informações sobre a tecnologia que impulsiona o equivalente chinês do ChatGPT.
Em 2022, os EUA bloquearam a importação de GPUs avançadas da NVIDIA para a China para reforçar o controle sobre a tecnologia crítica da IA e, desde então, impuseram restrições adicionais, mas evidentemente isso não parou de vencimento. De acordo com o artigo, a empresa treinou seu modelo V3 em um cluster de 2.048 GPUs NVIDIA H800 – versões aleijadas do H100.
Treinamento em barato
O H800 foi lançado em março de 2023, para cumprir as restrições de exportação dos EUA para a China e apresenta 80 GB de memória HBM3 com largura de banda de 2 TB/s.
Ele fica atrás do H200 mais recente, que oferece 141 GB de memória HBM3E e largura de banda de 4,8 TB/S, e o instinto da AMD MI325X, que supera 256 GB de memória HBM3E e 6 TB/s de largura de banda.
Cada nó no cluster Deepseek treinou nas casas 8 GPUs conectadas por NVLink e NVSwitch para comunicação intra-nó, enquanto as interconexões infiniband lidam com a comunicação entre nós. O H800 possui largura de banda NVLink mais baixa em comparação com o H100, e isso, naturalmente, afeta o desempenho da comunicação multi-GPU.
Deekseek-V3 exigiu um total de 2,79 milhões de horas de GPU para pré-treinamento e ajuste fino em 14,8 trilhões de tokens, usando uma combinação de paralelismo de pipeline e dados, otimizações de memória e técnicas inovadoras de quantização.
A próxima plataformaque fez um mergulho profundo na defesa do Deepseek, diz “ao custo de US $ 2 por hora da GPU – não temos idéia se esse é realmente o preço predominante na China – então custou apenas US $ 5,58 milhões para treinar V3”.