- Fabricante de chip de IA mais rápido do mundo faz um mergulho com vencimento profundo
- Cerebras diz que a solução classificará 57x mais rápido que as GPUs, mas não menciona quais GPUs
- Deepseek R1 será executado no Cerebras Cloud e os dados permanecerão nos EUA
A Cerebras anunciou que apoiará o DeepSeek em um movimento não tão surpreendente, mais especificamente o modelo de raciocínio R1 70B. A mudança ocorre depois que o GROQ e a Microsoft confirmou que também traria o novo garoto do bloco de IA para suas respectivas nuvens. O AWS e o Google Cloud ainda não o fizeram, mas qualquer um pode executar o modelo de código aberto em qualquer lugar, mesmo localmente.
O especialista em chip de inferência da IA executará o Deepseek R1 70B a 1.600 tokens/segundo, o que afirma ser 57x mais rápido que qualquer provedor R1 usando GPUs; Pode-se deduzir que 28 tokens/segundo é o que a solução GPU na nuvem (nesse caso Deepinfra) aparentemente alcançam. Por acaso, o último chip do Cerebras é 57x maior que o H100. Entrei em contato com os Cerebras para descobrir mais sobre essa reivindicação.
Pesquisas de cerebras também demonstraram que o Deepseek é mais preciso do que os modelos OpenAI em vários testes. O modelo será executado com hardware cerebras em datacentros baseados nos EUA para aliviar as preocupações de privacidade que muitos especialistas expressaram. Deepseek – o aplicativo – enviará seus dados (e metadados) para a China, onde provavelmente será armazenado. Nada surpreendente aqui, pois quase todos os aplicativos – especialmente os gratuitos – capturam dados do usuário por razões legítimas.
Cerebras Wafer Scale Solution Posita exclusivamente para se beneficiar do boom iminente de inferência de nuvem de IA. O WSE-3, que é o chip de IA mais rápido (ou acelerador de HPC) do mundo, tem quase um milhão de núcleos e um impressionante transistores de quatro trilhões. Mais importante, porém, ele tem 44 GB de SRAM, que é a memória mais rápida disponível, ainda mais rápida que o HBM encontrado nas GPUs da NVIDIA. Como o WSE-3 é apenas um enorme dado, a banda de memória disponível é enorme, várias ordens de magnitude maiores do que o que o Nvidia H100 (e, nesse caso, o H200) pode reunir.
Uma guerra de preços está se formando antes do lançamento da WSE-4
Ainda não foi divulgado preços, mas as cérebras, que geralmente são tímidas com esse detalhe em particular, divulgaram no ano passado que a llama 3.1 405b em inferência de cerebras custaria tokens de entrada de US $ 6/milhão e tokens de produção de US $ 12/milhão. Espere que o DeepSeek esteja disponível por muito menos.
O WSE-4 é a próxima iteração do WSE-3 e proporcionará um impulso significativo no desempenho dos modelos de raciocínio Deepseek e de raciocínio similares, quando se espera que seja lançado em 2026 ou 2027 (dependendo das condições do mercado).
A chegada da Deepseek também provavelmente abalará a proverbial árvore de dinheiro da IA, trazendo mais concorrência a jogadores estabelecidos como Openai ou antropia, empurrando os preços para baixo.
Uma rápida olhada na calculadora da API Docsbot.ai LLM mostra que o OpenAI é quase sempre o mais caro em todas as configurações, às vezes por várias ordens de magnitude.