No início deste mês, relatamos o Exacluster da ExaAilabs, um cluster de 18 máquinas que executam 144 GPUs NVIDIA H200, que por acaso é um dos primeiros clusters baseados nesses processadores. Desde então, o Hydra Host, a empresa que facilitou a construção do cluster, nos deu detalhes adicionais sobre o sistema. O cluster usa sistemas Lenovo com múltiplas personalizações do host Hydra, que desempenharam um papel significativo. A máquina também pode ser alugada – quando não estiver em uso pelo proprietário – através da plataforma Brokkr da Hydra.
Muito poder de computação
A espinha dorsal do cluster consiste em 18 nós Lenovo equipados com 144 GPUs NVIDIA H200 e 20TB de memória HBM3E – ou oito por sistema – permitindo o desempenho da computação de 570 petatops FP8 para IA. 16 Os nós são configurados e ajustados por HydraHost para treinamento, o que requer computação maciça e desempenho da memória, enquanto os dois restantes servem como nós de inferência. Além disso, a Hydra Host instalou sua plataforma Brokkr para provisionamento, gerenciamento e aluguel remoto (mais sobre isso mais tarde).
O host Hydra colaborou com o Computacenter para projetar uma arquitetura de rede de alto desempenho adaptada às necessidades do cluster. A configuração usa o infiniband de 3,2 Tbps para tráfego leste-oeste e Ethernet de 400 Gbps para comunicação norte-sul, incluindo conexões duplas de 200 Gbps por servidor e interruptores Ethernet Dell de 400 Gbps. Os engenheiros de rede da Computacenter garantiram que todos os componentes alinhados com a arquitetura de referência da NVIDIA para compatibilidade perfeita.
“Fornecemos os 18 nós da Lenovo com GPUs H200 (16 nós interconectados e dois nós de inferência), projetou a arquitetura de rede em colaboração com a Computacenter e facilitou a colocação através do Patmos”, explicou Andrea Holt, porta -voz da Hydra Host.
O próprio cluster é bastante poderoso, mesmo em termos de computação de uso geral. Os servidores apresentam 192 processadores 96-core (para um total de 3.456 núcleos) emparelhados com 36 TB de memória DDR5 e 270 TB de armazenamento de estado sólido NVME. Existem baías sobressalentes para que o espaço de armazenamento possa ser expandido facilmente. O supercomputador usa uma rede personalizada da HydraHost.
A empresa também trouxe a Patmos para lidar com a colocação, fornecendo energia suficiente (cerca de 100kW) e resfriamento para as máquinas que sedentos e quentes.
Melhor desempenho a melhor preço
O Exacluster custa US $ 5 milhões, com média de US $ 277.777 por máquina, comparável a um único rodapé de 8 vias H200 em vez de um servidor completo. Aqui é onde fica interessante. Quem facilitou esse preço?
Por um lado, o Hydra Host é um parceiro próximo da NVIDIA e oferece apenas o NVIDIA GPUS como serviço. Além disso, seu software Brokkr é otimizado principalmente para CUDA. Por outro lado, a Exaai é uma empresa apoiada pela NVIDIA, por isso pode potencialmente obter preços preferenciais.
“Somos melhores no mercado em obter nossos clientes a GPU certa para suas necessidades e pelo melhor preço”, disse Ryan Horjus, engenheiro de vendas líder da Hydra. “Este cluster foi apoiado pela Nvidia a partir de um design de arquitetura e seu programa de início. Hydra lidou com isso para exa, como fazemos para outras empresas”.
A Hydra também é especializada na criação de soluções personalizadas para startups e até monetiza suas máquinas quando não estiver em uso.
“A Hydra ajudou as startups a entrar em seus próprios grupos para obter melhores preços por meio de compras em massa”, acrescentou Horjus. “Eles podem obter preços ideais em nossa rede. Eles também são capazes de monetizar os servidores quando não estão em uso através da plataforma de gerenciamento da Brokkr”.
Falando em Brokkr, é um software de gerenciamento e provisionamento de GPU e uma plataforma de monetização para GPUs. Ele fornece datacenters e startups com uma solução de software prontuário para colocar seu hardware nas mãos dos clientes e pagá-los, explicou Ariel Deschapell, diretor de tecnologia e co-fundador da Hydra.
“Um de seus principais recursos é o provisionamento automatizado de metal e gerenciamento do ciclo de vida”, descreveu Deschapell. “Isso significa que a plataforma faz todo o trabalho de configurar e gerenciar o sistema operacional e o firmware do servidor base, configurar drivers e outros softwares de suporte e executar testes nas GPUs e outros componentes. Isso acelera e padroniza o processo de entrega significativamente, reduzindo a marcha lenta Tempo em servidores e GPUs.