8 pontos por GN⁺ 16 일 전 | 5 comentários | Compartilhar no WhatsApp
  • À medida que a comoditização da inteligência em IA acelera, enquanto todas as empresas entram na disputa pelo melhor modelo, a Apple, com enorme caixa acumulado, acaba assegurando uma posição até mais favorável
  • A OpenAI, apesar de uma avaliação de $300B, viu se concretizar o risco de investir em infraestrutura sem um modelo de receita claro, com a interrupção do Sora e o cancelamento do Stargate Texas
  • Graças a 2,5 bilhões de dispositivos ativos e a uma arquitetura de processamento on-device, a Apple possui como fosso os dados de contexto pessoal e um design centrado em privacidade
  • O modelo open-weight Gemma 4 apresentou desempenho no nível do Claude Sonnet 4.5 Thinking, e a diferença entre modelos está diminuindo rapidamente a ponto de já poder rodar em notebooks
  • A arquitetura de memória unificada do Apple Silicon viabiliza a execução local de modelos grandes e, com o framework MLX, estabelece a base para expandir o ecossistema
  • Seja estratégia ou acaso, a Apple já garantiu uma nova vantagem competitiva sobre uma base de hardware e software otimizada para a era da IA

O ‘fosso acidental’ da Apple, “derrotada” na corrida da IA

  • Na tendência de comoditização da inteligência, quanto melhores os modelos criados pelas empresas, mais rapidamente os modelos concorrentes conseguem alcançá-los
    • Investimentos em treinamento em larga escala reduzem o custo dos modelos da geração anterior, e a lacuna entre modelos de fronteira e modelos open source está encolhendo rapidamente
    • Modelos abertos recentes como Gemma 4, Kimi K2.5 e GLM 5.1 já atingiram um nível em que funcionam bem até em hardware pessoal
    • Em contrapartida, empresas como a OpenAI levantam dúvidas sobre sustentabilidade por causa de estruturas de custo gigantescas e modelos de receita instáveis
  • Essa mudança acaba favorecendo a Apple, antes chamada de “perdedora da IA”
    • A Apple tinha a Siri antes de todos, mas após o lançamento do ChatGPT foi classificada como “perdedora da IA” por não ter um modelo flagship de fronteira nem promessa de investimento em compute na casa de $500B
    • Enquanto outros laboratórios de IA e big techs queimavam enormes quantias para conquistar o 1º lugar nos benchmarks mais recentes, a Apple acumulava caixa ocioso e até ampliava recompra de ações, aumentando suas opções estratégicas

Os gastos excessivos e os riscos da OpenAI

  • Após captar recursos com uma avaliação de $300B, a OpenAI operou o serviço de vídeo Sora com custo diário de cerca de $15M frente a receita de $2.1M e acabou encerrando o serviço
  • A Disney havia firmado um contrato de licença de 3 anos do Sora para gerar conteúdo com personagens de Marvel, Pixar e Star Wars, e estudava um investimento de $1B em participação na OpenAI, mas a interrupção do Sora fez o investimento de $1B fracassar
  • Em infraestrutura, a OpenAI assinou com Samsung e SK Hynix cartas de intenção não vinculantes para até 900 mil wafers de DRAM por mês (cerca de 40% da produção global)
  • A Micron, vendo esse sinal de demanda, encerrou a marca de memória para consumidor Crucial, com 29 anos de existência, e redirecionou foco para clientes de IA, mas com o cancelamento do Stargate Texas a demanda desapareceu e as ações da Micron despencaram
  • Independentemente do desempenho em benchmarks ou da escala da infraestrutura, trata-se de uma estrutura em que um pequeno erro na receita esperada pode tirar uma empresa do jogo

Da inteligência para a capacidade

  • A premissa central dos laboratórios de IA era que a capacidade bruta dos modelos (inteligência) e a infraestrutura para operá-los continuariam sendo recursos escassos, mas modelos menos poderosos estão rapidamente alcançando o nível dos antigos modelos de fronteira
  • O modelo open-weight Gemma 4 do Google pode rodar em celulares, marcou 85.2% no MMLU Pro e aparece no mesmo nível do Claude Sonnet 4.5 Thinking no ranking da Arena
    • Alcançou 2 milhões de downloads na primeira semana
    • Um modelo que era SOTA há 18 meses agora já roda em notebook e melhora de desempenho a cada trimestre
  • Ao rodar o Gemma 4 diretamente em um AMD Ryzen AI Max+, o resultado em tokens por segundo e nível de inteligência foi tão bom que foi possível migrar o backend de ferramentas pessoais para esse modelo sem perda de qualidade de saída
  • A Anthropic percebeu esse movimento e vem lançando rapidamente ferramentas práticas como Claude Code, Claude Cowork e Claude Managed Sessions, numa estratégia para prender usuários ao seu ecossistema
    • A lógica central: se o modelo em si não pode ser o fosso, é preciso dominar a camada de uso e elevar o custo de troca
    • Segundo uma análise, assinantes do plano Max ($200) consomem algo equivalente a $27,000 em compute, mostrando que os laboratórios estão sustentando a demanda com subsídios
  • Como a Apple quase não gasta com infraestrutura de IA nem subsidia o consumo de tokens dos usuários, ela mantém mais opções e mais alavancagem do que outras empresas

Contexto é o recurso central

  • Quando a inteligência se torna abundante, o contexto passa a ser o recurso escasso
    • Um modelo capaz de raciocinar sobre tudo, mas que não sabe nada sobre o usuário, não passa de uma ferramenta genérica
    • Para que a IA seja realmente útil no cotidiano, é preciso capacidade de raciocínio + contexto pessoal (mensagens, calendário, código, dados de saúde, fotos, hábitos etc.)
  • A Apple já possui esse contexto por meio de 2,5 bilhões de dispositivos ativos
    • Dados de saúde do Apple Watch, fotos do iPhone, notas, mensagens, histórico de localização, comportamento em apps, emails e percepção do ambiente via sensores do dispositivo
  • Com processamento on-device, torna-se possível fornecer todo o contexto ao modelo sem enviar dados para fora do aparelho
    • O posicionamento “Privacy. That's iPhone” pode deixar de ser apenas PR e se tornar uma proposta central de valor
    • Entregar prontuários médicos e 15 anos de fotos à OpenAI é algo fundamentalmente diferente de permitir acesso a um modelo que funciona apenas dentro do dispositivo
  • O acordo Gemini ($1B) firmado pela Apple com o Google seria para consultas que exigem inferência em nível de nuvem, a um custo que mal chega a arredondar o gasto semanal de compute da OpenAI
    • O que a Apple manteve internamente: a camada de contexto, a stack on-device e o sistema operacional que intermedeia tudo

Por que o Apple Silicon é adequado para IA

  • Como mostra a febre do Mac Mini após o lançamento do OpenClaw, o Apple Silicon foi desenvolvido não para IA, mas para eficiência, bateria, desempenho térmico e design integrado entre hardware e software — e mesmo assim se revelou uma arquitetura ideal para rodar modelos localmente
  • O design central: memória unificada (Unified Memory)
    • Em arquiteturas tradicionais, CPU e GPU ficam em chips separados e pools de memória separados, o que torna a movimentação de dados lenta e energeticamente custosa
    • GPUs da Nvidia são rápidas em operações matriciais, mas a transferência de dados entre CPU e GPU pelo barramento PCIe vira gargalo
    • As séries M e A da Apple colocam CPU, GPU e Neural Engine no mesmo die e compartilhando um único pool de memória de alta largura de banda, eliminando cruzamento de barramento, overhead de transferência e latência
  • A inferência de LLM hoje é limitada não por compute, mas por largura de banda de memória
    • O ponto crucial é a velocidade de streaming dos pesos do modelo da memória para as unidades de computação e o tamanho da memória para armazenar o cache KV
    • O pool de memória unificada da Apple oferece acesso direto de alta largura de banda a todas as unidades de computação ao mesmo tempo
  • A técnica LLM in a Flash é especialmente eficaz em hardware da Apple
    • Houve um caso de execução do Qwen 397B (modelo de 209GB) em um Mac M3 Max com apenas 5.5GB de RAM ativa, a cerca de ~5.7 tokens/seg
    • Os pesos ficaram armazenados em SSD e foram transmitidos a ~17.5 GB/s; graças à arquitetura MoE (Mixture-of-Experts), cada token ativa apenas parte das camadas especialistas
    • Para essa execução, o Claude escreveu ~5.000 linhas de Objective-C e shaders Metal

Dinâmica de plataforma e o déjà vu da App Store

  • Assim como na App Store, a Apple não criou os apps, e sim construiu a plataforma onde eles funcionavam melhor, com o ecossistema vindo atrás
    • Os desenvolvedores miravam o iOS não porque a Apple pediu, mas por causa da base de usuários, das ferramentas e da consistência do hardware
  • O mesmo pode acontecer com inferência local
    • O MLX já está emergindo como framework padrão de fato para IA on-device
    • Principais arquiteturas de modelo como Gemma, Qwen e Mistral oferecem suporte a MLX
    • Mesmo sem vencer a disputa dos modelos, a Apple pode se tornar a plataforma de fato onde os modelos (ou agentes) rodam
    • A febre do Mac Mini após a viralização do OpenClaw é um exemplo dessa possibilidade

Estratégia ou sorte

  • A estratégia de design integrado entre hardware e software da Apple é foco central há anos, e seu posicionamento em privacidade, seu foco em processamento on-device e a decisão de desenvolver silício próprio enquanto a indústria dependia de Nvidia e Intel eram escolhas comercialmente arriscadas
    • Essas decisões não foram tomadas por causa da IA, e sim por custo e governança, mas acabaram favorecendo a empresa na era da IA
  • O que a Apple talvez não pudesse prever:
    • que a arquitetura de memória unificada seria perfeitamente adequada para LLMs
    • que modelos open-weight evoluiriam tão rapidamente
    • que fazer streaming de um modelo de 400B parâmetros a partir de SSD realmente funcionaria
  • Parte disso é sorte, mas do tipo que encontra empresas que construíram a base certa
  • Enquanto o restante da indústria passou 3 anos obcecado em disputar o melhor modelo, a Apple observava da lateral como seus dispositivos e ecossistema se encaixariam nesse futuro
  • Ainda há partes incompletas, como as limitações da Siri, mas
    • 2,5 bilhões de dispositivos, contexto pessoal completo, execução local de modelos em silício dedicado e o Gemini de prontidão para consultas complexas
    • uma estrutura de inferência baseada em custos variáveis, e não CAPEX fixo, dificilmente parece uma posição desfavorável numa era de IA disseminada
  • Em conclusão, a Apple pode continuar ocupando uma posição importante mesmo em um futuro centrado em IA
    • Seja estratégia ou acaso, o essencial é que ela está apoiada sobre a base certa

5 comentários

 
j2sus91 16 일 전

Isso é meio uma bobagem, porque
como as empresas de modelos de IA estão travando uma competição de desgaste agora,
a ideia é que a Apple, que não fez nada, esteja levando a melhor, não é?

Mas isso é só porque o fluxo atual é de competição excessiva entre modelos de LLM,
se os modelos de IA estivessem numa fase de estabilização/crescimento, será que a Meta estaria maluca a ponto de abrir o Gemma?

O know-how acumulado ao longo desse tempo desenvolvendo e operando modelos é que vira ouro e diamante.

 
wang3281 16 일 전

Meta -> Google

Vendo os gastos da Apple, dá para perceber que ela não está parada. Também é uma empresa bem posicionada para alcançar AI física.. Até a Nvidia, no fim, está indo para o físico.. O impressionante é o Google, que tem tudo isso.

 
sudoeng 16 일 전

Acho que a ideia é mais que os dados de personalização vão acabar sendo um fosso competitivo importante na próxima era da IA, e como a Apple já tem isso, ela estaria em uma posição vantajosa.

 
kimjoin2 16 일 전

Apple, força no MLX!

 
GN⁺ 16 일 전
Comentários no Hacker News
  • Na minha opinião, o Gemma4 é bom em ajuda com código ou sugestões de erro, mas ainda deixa a desejar em uso complexo de ferramentas e compreensão de contexto em nível especialista
    Se melhorar mais algumas vezes e, lá pelo Gemma6, conseguir rodar totalmente local no Mac no nível do Opus atual, acho que não haverá muita razão para usar modelos na nuvem

    • Também senti algo parecido. No começo fiquei decepcionado porque o Gemma4 era menos compatível com agentes de programação do que o Qwen3.5, mas para outros usos ele era bem decente
      Acabei de ver que no Ollama 0.20.6 a função de chamada de ferramentas do Gemma4 foi melhorada. Vou testar de novo depois do café da manhã
    • Tem uma vibe parecida com aquele velho ditado “640k é suficiente”
    • Economia no fim é competição. Alguém pode conseguir um bom machado e ficar satisfeito, mas os outros estão dirigindo um bulldozer. Mesmo que você esteja feliz com o machado, isso significa que saiu da competição
    • Então não era só comigo. A qualidade do Gemma4 me impressionou, mas quando eu usava com opencode, em 9 de 10 vezes ele não conseguia registrar corretamente as alterações nos arquivos
    • Sinceramente, hoje não é obrigatório ter um modelo local para trabalho de alto desempenho. Em lugares como o OpenRouter dá para usar vários modelos abertos, e eles já estão bem próximos do SOTA
      Como vários provedores oferecem o mesmo modelo e competem em preço e desempenho, o risco de monopólio também diminui
      Tenho o Gemma no meu dispositivo, então conversas pessoais e tarefas não relacionadas a programação podem ser feitas totalmente offline
      Numa situação dessas, se eu fosse a OpenAI ou a Anthropic talvez tentasse todo tipo de truque antiético para prender o cliente, mas no fim isso não vai funcionar
  • Acho que o valuation da OpenAI partiu da premissa de que a IA funcionaria como busca
    Só que a busca melhorava à medida que os usuários faziam mais consultas, e o Google por muito tempo foi de fato o melhor produto
    Já na IA, treino e inferência são separados, e depois das divisões internas na OpenAI os concorrentes alcançaram rápido
    Agora isso virou uma guerra de desgaste em que só dá para competir torrando bilhões de dólares, e quanto menor a diferença entre os modelos, mais capacidade de distribuição decide o jogo
    Google, Meta, MSFT e Amazon conseguem; a OpenAI não tem caixa para isso

    • O valor da OpenAI não está só em substituir busca, mas na possibilidade de virar uma plataforma para toda a web
      Havia uma grande expectativa de que ela pudesse abranger desde automação empresarial até substituição de redes sociais, e a isso se somava o valor futuro incerto da possibilidade de AGI
      O papel do Sam Altman é inflar essas expectativas para maximizar o valor para investidores
    • No começo dos anos 2000 não havia capital nem gente para enfrentar o Google, mas agora a disputa em IA está intensa, então para o usuário isso gera um ganho líquido em redução de custos e avanço rápido
    • Penso parecido. No fim o Google aguenta, e OpenAI e Anthropic provavelmente acabam absorvidas pela MSFT ou Amazon por falta de capital
      A parceria da Apple com o Google também parece parte desse mesmo movimento
    • É uma pena que o Google tenha arruinado a qualidade da própria busca. Decisões como remover o operador + ou fazer censura política são difíceis de entender
    • Em busca real, parece mais eficiente investir em curadoria de dados baseada em RAG do que criar modelos novos
  • A Apple sempre usou uma estratégia de esperar e então dar o salto
    Enquanto outras empresas passam por tentativa e erro, ela identifica os limites da tecnologia e lidera o mercado com um produto bem acabado

    • Exato. Desta vez também anunciou o ‘Apple Intelligence’ para tranquilizar o mercado, mas está avançando com cautela sem investimento excessivo
      Há uma boa chance de lançar um produto realmente refinado daqui a alguns anos
    • Ela já vem mostrando progresso silencioso em recursos como OCR on-device e copiar/colar
    • Casos como Newton, Pippin e Vision Pro mostram que as tentativas experimentais da Apple seguem um padrão recorrente
    • Desde o iPhone de 2007, não sei se houve de fato algum produto desse tipo “salto”. O Watch talvez chegue perto, mas não é certo
    • Meus pais usam Android para coisas como “apagar pessoas da foto”, enquanto no meu iPhone ainda estou no nível de “Siri, inicia o cronômetro”
      Mesmo assim uso iPhone porque não quero entregar meus dados ao Google
  • A Apple não é uma vitrine de chatbot para investidores, e sim uma empresa centrada em hardware de consumo
    O iPhone e os futuros óculos de AR são o núcleo, e o motivo do design dos chips é o machine learning on-device necessário para isso
    Não há razão para ela fazer um produto concorrente ao da OpenAI

    • No FY25, cerca de 25% da receita da Apple vem de serviços, 50% de iPhone, e o restante de hardware. Só serviços já dão algo na casa de 100 bilhões de dólares
    • Óculos de AR parecem menos a aposta principal e mais um projeto de pesquisa ou de seguro
    • Às vezes as pessoas não usam iPhone porque querem um iPhone, mas para não serem excluídas do iMessage
  • Quando as outras empresas desistiam de VR e migravam para IA, eu não entendia por que a Apple foi na direção oposta e lançou um headset de VR
    Juntou preço alto, falta de desenvolvedores e atraso na entrada em IA

    • A Apple sempre entra tarde, mas talvez esteja criando as condições para baixar o preço
    • Vejo isso como uma estratégia de checkpoint para não ficar tecnologicamente para trás. É uma base para evitar patentes e proteger a marca
    • Hardware leva tempo para amadurecer. É bem possível que a Apple tenha criado protótipos desde 2015~18
      Se os óculos de AR forem realmente implementados direito, isso vira uma plataforma gigantesca, e parece que a Apple está mirando o timing para entrar depois que a Meta fracassar
  • O melhor de tudo é que tudo roda localmente. Os dados não saem para fora
    Acho que criadores também tendem a ver a Apple AI com mais simpatia. Ela usaria dados de treino éticos e, sem assinatura, passa uma sensação de propriedade pessoal

    • Fico curioso por que tanta gente acha que criadores odeiam IA desse jeito
  • Desliguei a Siri desde o Sequoia, e gosto que a Apple não me force a ligá-la de novo
    Já JIRA e Slack ficam jogando recursos novos de IA na minha cara o tempo todo, o que é irritante

    • Não gosto dessa postura das empresas de empurrar recursos novos como ruído. Mas gosto menos ainda quando colocam anúncios em produto pago
      Até a Apple, ao mostrar anúncios patrocinados no topo da App Store, parece ter passado do limite
      No Android há alternativas como F-Droid, mas no iOS é difícil escapar
    • Foi por isso que apaguei o Google Maps. Os resumos gerados por IA atrapalham a leitura das avaliações
      Amazon, Uber e Google Workspace também forçam IA de modo parecido
    • O que me irrita mais é a Apple ficar empurrando a atualização Tahoe o tempo todo.
      Eu só quero um patch simples do Sequoia, mas o Tahoe sempre vem como opção padrão
      Até a integração do Claude Code no Xcode é exclusiva do Tahoe, o que é absurdo
  • Lançar o MacBook Neo agora foi uma excelente estratégia
    Enquanto observa a disputa em IA, a Apple consegue prender a próxima geração de usuários ao seu ecossistema
    O Neo parece o iPod desta geração

    • Mas o verdadeiro concorrente do Neo não é o dispositivo virtual da OpenAI, e sim Chromebook e notebooks com Windows
  • A Nvidia restringe GPUs para gamers para que não sejam usadas em data centers,
    então, se a Apple ameaçar o mercado de IA local, ela pode até lançar placas de IA para consumidor separadas
    Talvez venha um futuro em que o mesmo chip seja vendido com preços diferentes conforme o uso

    • Segundo um artigo da Forbes, notebooks com Arm da Nvidia-Mediatek devem ser apresentados no primeiro semestre de 2026
      Se o desempenho de NPU superar Intel e AMD, e for possível integrar uma GPU no nível de RTX 5070 em um formato fino, a estrutura dos notebooks gamer pode mudar por completo
    • A separação entre GPU profissional e de consumo existe há muito tempo
    • Outras empresas como a Intel também impõem restrições parecidas. Mas o preço das GPUs depende muito de capacidade e largura de banda da memória
      As de consumo são baratas, mas têm menos memória e são mais lentas
    • No fim, é uma estratégia para buscar ao mesmo tempo boa imagem com o consumidor e maximização de lucro
  • A Apple não entrou na corrida dos LLMs. A força dela está no design centrado no ser humano
    O iPod não foi o primeiro tocador de MP3, e o iPhone também fez sucesso sem ter 3G no início
    A Apple vem focando em eficiência energética e arquitetura de memória unificada, pensando em produtos futuros como óculos de AR
    A Apple vem se preparando com design integrado de chip, memória e SSD para algo que a NVidia ou a Intel não conseguem fazer sozinhas
    Assim como quando adotou ARM de 64 bits no passado, muita gente também está subestimando o significado disso agora
    A GPU da NVidia tem desempenho 2 a 3 vezes maior, mas consome 10 vezes mais energia
    A Apple compete em eficiência por preço e está otimizada para usos de LLM local que exigem imediatismo, pessoalidade e privacidade