- O CEO da Nvidia, Jensen Huang, participou do podcast All-In em uma entrevista que abordou uma ampla gama de temas, incluindo a aquisição da Groq, a explosão da inferência, IA física, computação com agentes e a crise de PR da indústria de IA
- A Nvidia evoluiu de uma empresa de GPU para uma empresa de fábricas de IA, adicionando à arquitetura de computação heterogênea para processamento de agentes a Groq LPU, BlueField, CPU e processadores de rede
- Ele avalia o Open Claw como o blueprint do sistema operacional da computação de IA moderna, definindo-o como o primeiro computador pessoal de IA com sistema de memória, skills, agendamento e subsistema de IO
- A IA física é uma oportunidade de mercado de US$ 50 trilhões que a indústria de tecnologia está abordando pela primeira vez, e atualmente está crescendo exponencialmente como um negócio que já se aproxima de US$ 10 bilhões por ano
- Sobre a crise de PR da indústria de IA, ele alerta para os impactos negativos de falas extremas e apocalípticas de líderes de tecnologia sobre formuladores de políticas e o público, defendendo uma comunicação mais comedida e equilibrada
Aquisição da Groq e explosão da inferência
- A tecnologia central do sistema operacional de fábricas de IA Dynamo, apresentado há dois anos e meio, é a inferência desagregada (disaggregated inference), uma abordagem que divide o pipeline de inferência e o executa em GPUs diferentes
- Esse conceito de computação desagregada levou à aquisição da Mellanox, e hoje a computação da Nvidia está distribuída por GPU, CPU, switches, switches scale-up/scale-out e processadores de rede
- A isso se soma a Groq, em uma estrutura que posiciona a carga de trabalho adequada no chip adequado
- Com a transição para a era do processamento por agentes, as exigências de memória de trabalho, memória de longo prazo, uso de ferramentas e armazenamento estão aumentando rapidamente
- Grandes modelos, pequenos modelos, modelos de difusão e modelos autorregressivos coexistem dentro do data center
- Vera Rubin é um sistema projetado para executar essa carga de trabalho extremamente diversa
- À configuração anterior de 1 rack, foram adicionados mais 4 racks, aumentando o TAM da Nvidia em cerca de 33~50%
- A parte adicional é composta por processadores de armazenamento (BlueField), processadores Groq, CPU e processadores de rede
- Não se deve equiparar o preço do data center ao custo por token
- Uma fábrica de US$ 50 bilhões pode produzir os tokens de menor custo, e a razão é uma eficiência de throughput 10x maior
- US$ 20 bilhões correspondem ao custo de terreno, energia e estrutura; armazenamento, rede, CPU, servidores e refrigeração serão necessários de qualquer forma
- A diferença entre o preço da GPU ser 1x ou 0,5x representa algo como US$ 50 bilhões contra US$ 40 bilhões, o que não é uma proporção grande diante de um throughput 10x maior
- No ano passado ele disse que a inferência aumentaria 1.000x, mas agora isso deve chegar a 1 milhão de vezes, 1 bilhão de vezes
- Na época, o mundo estava focado em pré-scaling e treinamento, mas agora a inferência está explodindo e estamos em um estado de restrição por inferência (inference constrained)
Tomada de decisão da empresa mais valiosa do mundo
- O papel do CEO é definir visão e estratégia, moldando o futuro com base nas informações de excelentes cientistas da computação e engenheiros
- Critérios centrais: é algo insanamente difícil? É algo que nunca foi feito antes? Está alinhado ao superpoder especial da Nvidia?
- Se for fácil, é melhor evitar, porque haverá muitos concorrentes
- Em coisas extremamente difíceis, há sofrimento envolvido, então é preciso ser capaz de apreciar esse processo
O mercado de US$ 50 trilhões da IA física e o Open Claw
- IA física é a primeira oportunidade de a indústria de tecnologia atuar sobre uma indústria de US$ 50 trilhões
- Começou há 10 anos e hoje já é um negócio em crescimento exponencial que se aproxima de US$ 10 bilhões por ano
- Distinção entre 3 sistemas de computação
- Primeiro: computadores para treinamento e desenvolvimento de modelos de IA
- Segundo: computadores de avaliação — avaliam robôs e carros em ambientes virtuais que seguem as leis da física (Omniverse)
- Terceiro: computadores de robótica de edge — carros autônomos, robôs, ursinhos de pelúcia etc.
- Está em andamento o trabalho de transformar estações-base de telecomunicações em parte da infraestrutura de IA
- A indústria de telecom, de US$ 2 trilhões, se tornará uma extensão da infraestrutura de IA
- Biologia digital está próxima de seu momento ChatGPT
- Entender a representação e a dinâmica de genes, proteínas e células será possível em 2~5 anos
- Em até 5 anos, a biologia digital chegará a um ponto de inflexão na indústria de saúde
- Open Claw é o terceiro dos três pontos de inflexão dos últimos dois anos
- Primeiro: ChatGPT — levou a IA generativa à consciência popular
- Segundo: o1/o3 — reasoning, com informações fundamentadas, mudando o modelo econômico
- Terceiro: Claude Code — o primeiro sistema de agentes realmente útil, mas limitado ao uso corporativo; o Open Claw fixa no imaginário popular o conceito de agente de IA
- Estrutura do modelo computacional do Open Claw
- Sistema de memória: scratchpad (memória de curto prazo), sistema de arquivos
- Skills: execução de vários tipos de aplicações via API
- Gerenciamento de recursos e agendamento: cron jobs, spawn de agentes, decomposição de tarefas
- Subsistema de IO: entrada e saída, conexão com WhatsApp etc.
- Esses quatro elementos definem fundamentalmente um computador → o primeiro computador pessoal de IA open source
- Contribuições para governança e segurança do software de agentes
- Política de não permitir simultaneamente acesso a informações sensíveis, execução de código e comunicação externa
- Peter Steinberger e engenheiros da Nvidia contribuíram para reforçar a segurança
A crise de PR da IA e o problema de comunicação da Anthropic
- IA é software de computador, não um ser biológico, nem um alienígena, nem algo consciente
- A afirmação de que “não entendemos nada disso” não é verdadeira; entendemos muitas coisas sobre essa tecnologia
- É preciso informar continuamente os formuladores de políticas e impedir que apocalipticismo e extremismo influenciem decisões políticas
- Ao mesmo tempo, como a tecnologia avança muito rápido, a política não pode correr muito à frente da tecnologia
- A maior preocupação de segurança nacional dos EUA: enquanto outros países adotam IA, os EUA ficarem com raiva, medo ou paranoia em relação à IA e deixarem de adotá-la
- Sobre a Anthropic: a tecnologia é excelente, e ele respeita o foco em segurança e proteção
- Porém, alertar sobre os riscos da tecnologia é positivo, mas assustar as pessoas é menos positivo
- Fazer afirmações extremas e catastróficas sem evidências pode ser mais nocivo do que as pessoas imaginam
- Como líderes de tecnologia, é preciso reconhecer o peso das palavras e ser mais comedido, moderado, equilibrado e ponderado
- A popularidade da IA nos EUA é de apenas 17%, com risco de seguir o mesmo caminho de shutdown da indústria nuclear
- Enquanto 100 reatores de fissão estão sendo construídos na China, nos EUA são 0
- Já se fala até em moratória para data centers
Capacidade de receita, alocação de tokens para funcionários e o futuro dos agentes
- Ranking de uso de modelos de IA: 1º OpenAI, 2º open source (com uma diferença enorme), 3º Anthropic
- Aumento da demanda por computação
- De generativa → reasoning: cerca de 100x
- De reasoning → agentes: cerca de 100x
- Em 2 anos, a computação aumentou 10.000x
- As pessoas pagam por informação, mas pagam ainda mais por trabalho
- Sistemas de agentes executam trabalho → o consumo já aumentou cerca de 100x, sem que o scaling tenha sequer começado de fato
- Dos 43.000 funcionários da Nvidia, cerca de 38.000 são engenheiros
- Se um engenheiro com salário de US$ 500 mil gastar apenas US$ 5 mil por ano em tokens, isso é um grande problema
- A expectativa é de um consumo de pelo menos US$ 250 mil em tokens
- É como um designer de chips dizer: “vou usar só papel e lápis, não preciso de ferramentas CAD”
- Caso do Auto Research
- Uma pesquisa feita em 30 minutos no desktop chegou a um nível normalmente equivalente a uma tese de PhD que leva 7 anos
- Baixado do GitHub e executado localmente, gerou resultados em nível de periódico científico
- Ferramenta publicada em um fim de semana com 600 linhas de código
- Forma de trabalho do futuro: em vez de escrever código diretamente, escrever ideias, arquitetura e especificações, organizar equipes e definir critérios de avaliação
- Todo engenheiro terá 100 agentes
O futuro do software enterprise
- Contestação à visão de que a indústria de software de TI enterprise será destruída
- O software enterprise foi limitado por pessoas e assentos (butts and seats)
- Em breve, 100x mais agentes usarão ferramentas existentes como SQL, bancos de dados vetoriais, Blender, Photoshop etc.
- As ferramentas existentes fazem bem o trabalho e servem como canal para expressar o resultado final de forma controlável pelo usuário
Open source, difusão global e cadeia de suprimentos Irã/Taiwan
- Modelos são tecnologia, não produto; tecnologia, não serviço
- Tanto modelos proprietários quanto open source são fundamentalmente necessários (não A ou B, mas A e B)
- O consumidor em geral prefere inteligência genérica da camada horizontal, como ChatGPT, Claude e Gemini
- Especialização e expertise por setor só são possíveis com modelos abertos
- Modelos open source estão próximos da fronteira, e mesmo quando chegarem à fronteira, os modelos como serviço continuarão a prosperar
- Situação da difusão global
- As regras de difusão da era Biden eram uma política de difusão antiamericana de IA
- O presidente Trump quer liderança mundial da indústria de tecnologia dos EUA e difusão tecnológica
- A Nvidia abriu mão de 95% de participação no mercado em seu segundo maior mercado, a China, e hoje está em 0%
- A empresa obteve licença aprovada pelo Secretary Lutnik, recebeu ordens de compra de empresas chinesas e está reativando a cadeia de suprimentos
- Perspectiva de segurança nacional
- Se não se controla pequenos motores, minerais de terras raras, redes de telecomunicações e energia sustentável, a segurança nacional enfraquece
- A indústria de IA não pode se tornar como a solar, as terras raras, os ímãs, os motores e as telecomunicações
- É desejável que a stack tecnológica americana (de chips a sistemas computacionais e plataformas) represente 90% do mundo
- Taiwan: é preciso impulsionar a reindustrialização dos EUA o mais rápido possível, assegurando a parceria estratégica e amizade com a cadeia de suprimentos taiwanesa para fabricar em Arizona, Texas e Califórnia em alta velocidade
- Também é necessário diversificar a cadeia de suprimentos para Coreia, Japão e Europa
- Durante o processo de diversificação e construção de resiliência, são necessários paciência e autocontrole
- Hélio: pode se tornar um problema, mas provavelmente há buffer suficiente na cadeia de suprimentos
Plataforma de direção autônoma e concorrência
- “Tudo o que se move um dia será total ou parcialmente autônomo”
- A Nvidia não fabrica carros autônomos diretamente; ela capacita todas as montadoras a fabricá-los
- Constrói os três componentes: computador de treinamento, computador de simulação/avaliação e computador embarcado no veículo
- O primeiro carro autônomo baseado em inferência do mundo — sistema Alpommyo, que explora cenários complexos decompondo-os em cenários simples
- A Tesla compra apenas o computador de treinamento, enquanto outras empresas usam a stack completa, em um modelo flexível de colaboração
- Situação em que clientes também se tornam concorrentes, como Google TPU e Amazon Inferentia/Tranium
- A confiança da Nvidia: enquanto competir com a melhor tecnologia e continuar avançando rápido, comprar da Nvidia será a opção mais econômica
- A única arquitetura presente em todas as clouds — da cloud ao on-premise, ao veículo, a qualquer região e até ao espaço
- Cerca de 40% do negócio não pode ser aproveitado pelo cliente sem uma stack completa capaz de construir toda a fábrica de IA
- Razões para a expansão da participação de mercado
- Anthropic migrou para Nvidia, Meta também, e o crescimento dos modelos abertos — tudo sobre Nvidia
- Crescimento de empresas, indústrias e edge fora da cloud
- A AWS anunciou a compra de 1 milhão de chips nos próximos anos
- Sobre as previsões de desaceleração do crescimento feitas por analistas (30% no próximo ano, depois 20%, 7% em 2029)
- Isso decorre de não entenderem a escala e o alcance da IA
- A maioria acha que a IA está apenas entre os cinco maiores hyperscalers, mas na prática ela é muito mais ampla
Data centers no espaço, IA em saúde e robótica
- Data centers no espaço
- A Nvidia já está no espaço — CUDA com radiation hardening já realiza imaging e processamento de imagens com IA em satélites no mundo todo
- Em vez de enviar todos os dados do espaço para a Terra, faz sentido processar o imaging diretamente no espaço
- No espaço há energia abundante, mas não é possível resfriar com condução e convecção → apenas radiação é possível, exigindo uma área de superfície muito grande
- Levará anos para explorar a arquitetura de data centers espaciais
- IA em saúde em três áreas
- Biologia com IA: representar e prever comportamento biológico com IA → descoberta de fármacos
- Agentes de IA: apoio a diagnóstico etc. — exemplos como Open Evidence e Hypocratic
- IA física: IA que entende leis da física → cirurgia robótica etc.
- No futuro, todos os equipamentos hospitalares — ultrassom, CT etc. — se tornarão agentes, com uma versão segura do Open Claw incorporada em cada equipamento
- Robótica
- Os EUA inventaram grande parte dessa indústria, mas se cansaram cerca de 5 anos antes da chegada da tecnologia central (o cérebro = IA)
- Da prova de existência de alta funcionalidade até um produto razoável, a tecnologia não leva mais que 2~3 ciclos (3~5 anos)
- A China é líder mundial em microeletrônica, motores, terras raras e ímãs → a indústria global de robótica depende fortemente do ecossistema e da cadeia de suprimentos chineses
- Robôs tornarão possível fazer coisas que indivíduos não conseguem fazer sozinhos, sendo o maior unlock de mobilidade econômica e prosperidade
- Hoje os EUA enfrentam escassez de mão de obra de milhões de pessoas, e a robótica é urgentemente necessária
- Presença virtual (virtual presence) por meio de robôs, deslocamento à velocidade da luz e colonização da Lua e de Marte serão viabilizados por eles
Potencial de receita de OpenAI/Anthropic e moat da IA
- Dario Amodei prevê uma receita de IA não relacionada à infraestrutura de centenas de bilhões de dólares até 2027~28 e de US$ 1 trilhão até 2030
- Jensen considera isso muito conservador e espera que a Anthropic tenha desempenho muito melhor do que isso
- Há algo ainda não considerado: todas as empresas de software enterprise se tornarão revendedoras de valor agregado de tokens da Anthropic e da OpenAI
- O go-to-market deve escalar logaritmicamente
- O moat na era da IA é a especialização profunda (deep specialization)
- Modelos genéricos serão conectados a sistemas de agentes, e muitos modelos serão subagentes especializados treinados pelas próprias empresas
- Mensagem para empreendedores: conheça seu vertical mais profundamente do que qualquer outro, e à medida que as ferramentas evoluírem, injete seu conhecimento nelas
- Quanto mais rápido você conectar agentes aos clientes, mais a flywheel entra em ação e os agentes melhoram
- Em vez do modelo atual de plataforma horizontal → customização, haverá oportunidade para empresas de plataforma se tornarem especialistas e especialistas em domínios verticais
Conselhos para os jovens na era da IA
- Recomenda ciência profunda, matemática profunda e habilidade com linguagem
- Como a linguagem é a linguagem de programação da IA, quem se forma em literatura inglesa pode acabar sendo o mais bem-sucedido
- Independentemente da formação, é preciso se tornar um especialista profundo no uso de IA
- Não prescrever demais (overprescribe) e ainda assim conduzir a IA ao resultado desejado, deixando espaço para ela inovar e criar, é uma arte (artistry)
- Caso dos radiologistas
- Há 10 anos, previa-se que visão computacional substituiria completamente a radiologia → a visão computacional foi integrada em 100%
- No entanto, o número de radiologistas aumentou, com a demanda disparando
- Os exames ficaram mais rápidos, o que gerou mais exames → mais pacientes atendidos → aumento da receita hospitalar
- As tarefas (tasks) da profissão mudam, mas o propósito (purpose) permanece
- Com o aumento da produtividade, o país se torna mais rico e pode colocar mais professores em sala de aula, oferecendo currículo personalizado para cada aluno
- A transição de empregos é inevitável, e a direção autônoma mudará 10 a 15 milhões de empregos de motoristas
- O chauffeur pode evoluir para um assistente de mobilidade, executando várias tarefas para o passageiro enquanto o carro dirige sozinho
- Assim como o piloto automático de aeronaves criou mais pilotos, um padrão semelhante pode acontecer
5 comentários
A partir de 24:28 é impressionante.
Vamos fazer um experimento mental.
Suponha que exista um engenheiro de software ou pesquisador de IA que ganha US$ 500 mil por ano. Isso é comum para nós.
No fim do ano, eu perguntaria a esse engenheiro que ganha US$ 500 mil por ano:
"Quanto você gastou em tokens este ano?"
E, se essa pessoa respondesse "Gastei US$ 5 mil", eu ficaria realmente pasmo.
Se esse engenheiro que ganha US$ 500 mil por ano não tivesse usado pelo menos US$ 250 mil em tokens, eu levaria isso muito a sério.
Isso não é diferente de um dos nossos designers de chips dizer:
"Eu vou usar só papel e lápis. Acho que não vou precisar de ferramentas de CAD."
Isso significa que a própria forma de enxergar os melhores talentos está mudando completamente.
Isso também é parecido com o que aprendemos quando, na NBA, LeBron James começou a gastar US$ 1 milhão por ano para cuidar do próprio corpo e manter o condicionamento.
Por que não dar capacidades sobre-humanas a trabalhadores do conhecimento tão extraordinários?
Então, olhando para daqui a 2 ou 3 anos,
quão eficientemente um dos maiores talentos da Nvidia vai trabalhar?
E até onde ele será capaz de chegar?
Primeiro, a ideia de "uau, isso é difícil demais" vai desaparecer.
A ideia de "isso leva tempo demais" também vai desaparecer.
A ideia de "isso precisa de muita gente" também vai desaparecer.
É grande demais, pesado demais, leva tempo demais.
Essas ideias vão desaparecer por completo.
No fim, o que resta é a criatividade.
Só vai restar o que você é capaz de imaginar.
Então, a pergunta passa a ser esta.
Como vamos trabalhar junto com esses agentes?
Isso, no fim das contas, é uma nova forma de programar computadores.
No passado, nós escrevíamos código diretamente.
No futuro, vamos escrever ideias, arquitetura e especificações.
Vamos organizar equipes,
definir como avaliar bons e maus resultados,
determinar o que é um resultado excelente,
decidir como iterar juntos,
e como fazer brainstorming juntos.
É exatamente esse tipo de trabalho que realmente importa.
E, na minha opinião,
no futuro todo engenheiro terá uma centena de agentes sob seu comando.
Entendo o que isso quer dizer, mas avaliar engenheiros pelo número de linhas de código sempre foi uma estupidez. Parece bem difícil encontrar uma métrica realmente boa.
Em vez de perguntar a um engenheiro com salário anual de 500 mil dólares "quantos tokens você usou?",
não deveríamos perguntar "o que você desenvolveu este ano e como isso contribuiu para o lucro operacional da empresa?"
A pergunta não é "quantos tokens você usou?", mas sim se você está fazendo um bom uso deles.
Acho que dá para entender que ter usado apenas 5.000 dólares é pouco demais, como um critério do que seria gastar pouco.
"Eu vou usar só papel e lápis. Acho que não preciso de uma ferramenta de CAD"
não é muito diferente de dizer isso.
Como outro exemplo, dá para pensar assim: "Tem algum funcionário que só usa fórmula de soma no Excel?"