Quase todos os anos, recebemos um relatório que nos diz que algo na indústria de PCs está morrendo, ou desaparecendo, ou que os dias de algum aspecto da tecnologia informática estão contados.
Então, quando vi um artigo sobre a Micron não vender chips de memória suficientes para PCs e smartphones com IA, o que significou que a empresa rebaixou suas previsões de receita para os próximos trimestres, e algumas pessoas estão em pânico porque a ‘IA está morrendo’ – bem, aconteceu não me surpreende nem um pouco.
Esta indústria adora, por vezes, um pouco de tristeza e tristeza, mas muito deste ruído errante deve-se puramente à compreensão pública da IA moderna como um todo – certamente no sector dos entusiastas.
Deixe-me ser claro: a IA não está morrendo – nós sabemos disso. Inferno, tudo que você precisa fazer é ver o quão bem a Nvidia está se saindo para ter uma boa noção de quão errada essa afirmação está. A questão é que, de todos os numerosos laptops e telefones com IA, ou outros gadgets, por aí – tudo o que está sendo comercializado atualmente com o slogan da IA (faço outro longo discurso sobre isso aqui) – o fato é que a grande maioria dos O processamento de IA não vem do seu minúsculo laptop. Simplesmente não funciona.
Mesmo o melhor PC para jogos personalizado atualmente mal consegue executar o ChatGPT a 10% de sua capacidade total. E isso mesmo se você pudesse fazer isso, já que não é um programa de código aberto que qualquer pessoa possa simplesmente baixar.
Infelizmente, são necessários muitos dados e poder de processamento para simular totalmente esse tipo de programa localmente na área de trabalho. Existem soluções alternativas e aplicativos alternativos, mas eles geralmente são insignificantes em comparação com aplicativos como Gemini ou GPT, tanto em profundidade de conhecimento quanto em tempos de resposta. Não é exatamente surpreendente, já que você está tentando competir com vários servidores blade operando em tempo real. Sinto muito, seu RTX 4090 simplesmente não vai funcionar, meu amigo.
E esse é outro ponto importante aqui – mesmo olhando para o seu PC personalizado, qualquer um que diga que uma CPU com um NPU integrado pode superar algo como um RTX 3080 antigo em cargas de trabalho de IA está enganando seus olhos. Use algo como o conjunto de benchmark Procyon da UL com seu teste AI Computer Vision e você verá que os resultados para um desktop RTX 4080 versus um laptop com Intel Core Ultra 9 185H são cerca de 700% a 800% maiores. Isso não é uma margem pequena, e isso dá ao chip Intel o benefício da dúvida e não usa também a API Nvidia TensorRT, onde os resultados são ainda melhores para o Team Green.
A questão é que as empresas, ferramentas e técnicas que estão indo bem no ecossistema de IA já estão bem estabelecidas. Se você possui uma placa gráfica RTX, é provável que já tenha desempenho suficiente para executar anéis em torno da maioria das CPUs de ‘AI’ modernas com um NPU integrado. Em segundo lugar, praticamente todos os programas de IA que valem a pena executar utilizam blades de servidor para oferecem esse desempenho – há muito pouco que seja executado localmente ou que não tenha alguma forma de conexão com a nuvem.
O Google agora lançou o Gemini para a maior parte de seus dispositivos com sistema operacional Android e chegará aos alto-falantes Nest também nos próximos meses (com uma versão beta tecnicamente já disponível, graças a alguns divertidos Google Home Public Visualize a trapaça). E para ser claro, neste momento este é um palestrante de quatro anos, não exatamente uma tecnologia de ponta.
Este é apenas o começo
Muitos anos atrás, conversei com Roy Taylor, que na época trabalhava na AMD como vice-presidente corporativo de mídia e entretenimento, especializado em VR e nos avanços nesse campo.
Minha memória está um pouco confusa, mas o resumo da conversa foi que, no que diz respeito ao desempenho da placa gráfica, para obter uma experiência realista em VR, com densidade de pixels alta o suficiente e taxa de quadros suficiente para garantir um ser humano não saberia a diferença, precisaríamos de GPUs capazes de gerar petaflops de desempenho. Acho que o número exato estava em torno da marca de 90 PFLOPs (para referência, um RTX 4090 ainda é bem mais de 100x menos potente que isso).
Na minha opinião, a IA local parece estar no mesmo campo que essa. É um reino de aplicativos, utilitários e ferramentas que provavelmente nunca habitarão seu PC de jogos local, mas residirão apenas em servidores blade e supercomputadores. Simplesmente não há forma de um sistema informático isolado poder competir – mesmo que interrompêssemos todo o desenvolvimento da IA no seu estado actual, demoraríamos anos a recuperar o atraso em termos de desempenho global. Isso não é necessariamente uma coisa ruim ou o fim do mundo.
Há uma fresta de esperança para nós, pessoas fora da rede, e tudo depende dos fabricantes de GPU. Naturalmente, a programação de IA, especialmente a aprendizagem automática, opera predominantemente através de computação paralela. Isso é algo que as GPUs são extremamente boas em fazer, muito melhor que as CPUs, e especialmente as GPUs Nvidia que utilizam núcleos Tensor. É a tecnologia por trás de todos os modelos DLSS e FSR que conhecemos e amamos, aumentando as taxas de quadros sem sacrificar a fidelidade gráfica do jogo.
No entanto, desenvolver uma GPU desde o início leva tempo – muito tempo. Para uma arquitetura totalmente nova, estamos falando de vários anos. Isso significa que a série RTX 40 provavelmente estava em desenvolvimento em 2020/2021, em um palpite, e da mesma forma, a série RTX 50 (quando a próxima geração chegar, supostamente em breve) provavelmente começou a vida em 2022/2023, com diferentes equipes se mexendo. de tarefa em tarefa conforme e quando estiverem disponíveis. Tudo isso antes do degelo do inverno mais recente da IA e da chegada do ChatGPT.
O que isso nos diz é que, a menos que a Nvidia possa mudar radicalmente seus designs em tempo real, é provável que a série RTX 50 continue com o sucesso de Lovelace (série RTX 40), dando-nos um desempenho de IA ainda melhor, com certeza. Mas só na série RTX 60 é que realmente veremos a capacidade e o desempenho da IA sobrecarregados de uma forma que nunca vimos antes com essas GPUs. Essa pode ser a geração de placas gráficas que poderia tornar os LLMs localizados uma realidade, em vez de uma quimera.