Uma equipe de pesquisa de IA da Universidade da Califórnia, Berkeley, liderada por Ph.D. O candidato Jiayi Pan, afirma ter reproduzido as principais tecnologias da DeepSeek R1-Zero por apenas US $ 30, mostrando como os modelos avançados podem ser implementados de maneira acessível. De acordo com Jiayi Pan on Fritter, sua equipe reproduziu o DeepSeek R1-Zero no jogo de contagem regressiva, e o pequeno modelo de idioma, com seus 3 bilhões de parâmetros, desenvolveu auto-verificação e habilidades de pesquisa por meio de aprendizado de reforço.
Pan diz que eles começaram com um modelo de linguagem base, rápido e uma recompensa de verdadeira-verdade. A partir daí, a equipe realizou aprendizado de reforço com base no jogo de contagem regressiva. Este jogo é baseado em um programa de jogo britânico com o mesmo nome, onde, em um segmento, os jogadores têm a tarefa de encontrar um número de destino aleatório de um grupo de outros números atribuídos a eles usando aritmética básica.
A equipe disse que seu modelo começou com saídas fictícias, mas acabou desenvolvendo táticas como revisão e pesquisa para encontrar a resposta correta. Um exemplo mostrou o modelo propondo uma resposta, verificando se estava certo e revisando -o através de várias iterações até encontrar a solução correta.
Além da contagem regressiva, o PAN também tentou multiplicação em seu modelo e usou uma técnica diferente para resolver a equação. Ele quebrou o problema usando a propriedade distributiva da multiplicação (da mesma maneira que alguns de nós faria ao multiplicar grandes números mentalmente) e depois a resolveu passo a passo.
A equipe de Berkeley experimentou bases diferentes com seu modelo baseado no Deepseek R1-Zero-eles começaram com um que tinha apenas 500 milhões de parâmetros, onde o modelo apenas adivinharia uma solução possível e depois parou, não importa se ela encontrou a resposta correta ou não. No entanto, eles começaram a obter resultados em que os modelos aprenderam diferentes técnicas para obter pontuações mais altas quando usaram uma base com 1,5 bilhão de parâmetros. Parâmetros mais altos (3 a 7 bilhões) levaram o modelo a encontrar a resposta correta em menos etapas.
Mas o mais impressionante é que a equipe de Berkeley afirma que custou apenas US $ 30 para conseguir isso. Atualmente, as APIs O1 da Openai custam US $ 15 por milhão de tokens de entrada-mais de 27 vezes mais caro que os tokens de entrada de US $ 0,55 por milhão de Deepseek-R1. Pan diz que este projeto visa tornar a pesquisa emergente de escala de aprendizado de reforço mais acessível, especialmente com seus baixos custos.
No entanto, o especialista em aprendizado de máquina, Nathan Lambert, está disputando o custo real da Deepseek, dizendo que seu custo de US $ 5 milhões para o treinamento de seu 671 bilhão LLM não mostra o quadro completo. Outros custos, como pessoal de pesquisa, infraestrutura e eletricidade, aparentemente não estão incluídos no cálculo, com Lambert estimando os custos operacionais anuais da Deepseek AI entre US $ 500 milhões e mais de US $ 1 bilhão. No entanto, isso ainda é uma conquista, especialmente porque os modelos de IA americanos concorrentes estão gastando US $ 10 bilhões anualmente em seus esforços de IA.