2 pontos por GN⁺ 3 시간 전 | 2 comentários | Compartilhar no WhatsApp
  • A IA é uma infraestrutura civilizacional para trabalho, educação, ciência, software, criação, serviços públicos e capacidade nacional, e o acesso a ela não deve depender das condições e dos preços impostos por algumas poucas empresas
  • A capacidade de pesquisar, construir, reparar, distribuir, auditar, ajustar, treinar, preservar e executar sistemas inteligentes sem pedir permissão está diretamente ligada à liberdade de operar
  • A IA de código aberto deve manter a usabilidade mesmo que os laboratórios dominantes de hoje, laboratórios estrangeiros, fabricantes de hardware, plataformas de nuvem e provedores de modelos com pesos abertos mudem de direção ou desapareçam
  • Se um pequeno número de laboratórios de fronteira fechados e empresas de plataforma controlar os modelos, há o risco de a infraestrutura de inteligência se tornar uma economia de assinatura da cognição
  • Os EUA não devem ficar para trás na liberdade de executar, inspecionar, modificar, fazer benchmark, treinar e preservar a infraestrutura de inteligência, e a postura prática deve combinar a capacidade dos EUA com padrões abertos globais

A IA de código aberto precisa vencer

  • Se a inteligência se tornar algo que só pode ser alugado de algumas poucas instituições fechadas, o público perderá não apenas a liberdade do software, mas também a liberdade de operar
  • Deve ser possível pesquisar, construir, reparar, distribuir, auditar, ajustar, treinar, preservar e executar sistemas inteligentes sem pedir permissão, e essa capacidade é existencialmente importante
  • A IA é vista como uma infraestrutura civilizacional que sustenta trabalho, educação, ciência, software, criação, serviços públicos e capacidade nacional
  • O acesso à IA não deve depender de APIs fechadas, plataformas remotas, termos de uso mutáveis, ajustes opacos, disponibilidade de modelos ou preços definidos por algumas poucas empresas

Condições que a IA de código aberto deve manter

  • A IA de código aberto deve ser utilizável, compreensível e reproduzível
  • A IA de código aberto deve permitir implantação local, ser economicamente sustentável e possibilitar que a comunidade assuma a governança
  • Mesmo que os laboratórios dominantes de hoje, laboratórios estrangeiros, fabricantes de hardware, plataformas de nuvem e provedores de modelos com pesos abertos mudem de direção ou desapareçam, a IA de código aberto deve continuar funcionando
  • Se um pequeno número de laboratórios de fronteira fechados e empresas de plataforma controlar os modelos, há o risco de a infraestrutura de inteligência se tornar uma economia de assinatura da cognição
  • Os EUA não devem ficar para trás na liberdade de executar, inspecionar, modificar, fazer benchmark, treinar e preservar a infraestrutura de inteligência
  • A postura prática deve ser uma que combine a capacidade dos EUA com padrões abertos globais

2 comentários

 
GN⁺ 3 시간 전
Opiniões no Lobste.rs
  • Não existe “IA” de código aberto. Um LLM executável localmente é só um bloco opaco disponibilizado pela boa vontade de grandes empresas que gastam milhões de dólares em cada versão de treinamento e mantêm controle total sobre os dados de entrada
    Uma pessoa que não seja independentemente rica não consegue auditar completamente como o modelo foi feito, mexer no dataset original de treinamento nem recriá-lo do zero quando quiser
    Ter de rodar necessariamente um LLM gratuito pré-compilado em um computador pessoal é uma dependência cultivada de infraestrutura centralizada e, na realidade atual, está mais próximo de apoiar uma tecnologia que o indivíduo estruturalmente não pode controlar. Melhor escrever um manifesto dizendo que a fusão nuclear a frio deveria vencer

    • Em grande parte isso está certo, mas na prática também existem modelos financiados com recursos públicos, com pesos, dados de treinamento e metodologia divulgados
      Claro, esses modelos em geral não estão no mesmo nível dos modelos de ponta em capacidade técnica, e muitas vezes nem é esse o objetivo. Por exemplo, a UE financiou o desenvolvimento de modelos que representem melhor as línguas da UE para fins como tradução
      E eu não acho que, por definição, um modelo open source precise necessariamente rodar localmente. Se o modelo for realmente aberto, mesmo que a empresa por trás dele quebre, a base para desenvolvimento futuro do modelo não fica trancada dentro da empresa, então o risco cai bastante. Software open source não significa necessariamente “consigo fazer isso barato na minha máquina local”
    • Mesmo entre LLMs que rodam localmente, existe um espectro de abertura. Alguns são blocos opacos com quase nenhuma informação sobre dados de treinamento e métodos, enquanto outros têm dataset de treinamento e código-fonte publicados
      Entre os LLMs relativamente abertos mais recentes estão NVIDIA-Nemotron-3-Nano-30B-A3B (código open source, maior parte do dataset de treinamento fornecida) e Olmo-3.1-32B-Think (código open source, todos os dados de treinamento publicados no Hugging Face)
      Em teoria, qualquer pessoa pode reproduzir um modelo semelhante, decidir quais dados usar no treinamento ou modificar a receita de treinamento. Ainda assim, é verdade que o pré-treinamento continua fora do alcance de um indivíduo sem dinheiro
    • Modelos totalmente open source definitivamente existem. Não são modelos de ponta, mas existem de fato
      OLMo é explicitamente listado como um modelo que passou pela etapa de validação da OSI, e o Pythia também foi validado pela OSI como atendendo aos requisitos de sistema de IA open source. O Lucie-7B é um dos primeiros LLMs multilíngues a seguir a definição de IA da OSI, e seus criadores afirmam que o dataset de treinamento, o código de preparação dos dados e os pesos do modelo são todos fornecidos sob licenças abertas
    • Na frase “não dá para auditar completamente como foi feito, mexer no dataset original de treinamento e recriar tudo do zero à vontade”, a parte correta é que nem todos os modelos divulgados como “abertos” são de fato transparentes e abertos quanto a dados, procedimento de treinamento etc. O ideal é ter até reprodutibilidade
      Também é verdade que treinar do zero custa muito dinheiro. Mas, se for assim, fico pensando se usar o kernel Linux também deveria ser chamado de “dependência cultivada”, porque as mesmas ressalvas se aplicam ali
  • IA não é “infraestrutura civilizatória para trabalho, educação, ciência, software, criatividade, serviços públicos e capacidade nacional”. As pessoas que a controlam querem que ela se torne isso e estão forçando desesperadamente nessa direção, mas na prática não é

  • Basta não terceirizar o pensamento para máquinas que consomem muitos recursos, violam copyright e alucinam 😘
    Claro, não concentrar esse poder nas mãos de algumas megacorporações resolve um dos grandes problemas atuais da IA, mas não resolve em nada os outros problemas

    • Dizer que “consome muitos recursos” é correto ao treinar modelos de ponta ou ao fazer centenas de milhões de pessoas usarem modelos de ponta. Mas, se você está dizendo isso sobre IA local, ou fez as contas errado ou está defendendo uma posição ambientalista bem extrema
      O menor agente local de programação realmente útil é o Qwen3.6 27B, e ele roda tranquilamente, de forma intermitente, em algo como 280~300W numa placa NVIDIA com limite de energia. A eletricidade usada em um dia de programação provavelmente é menor do que passar algumas horas jogando Subnautica 2 num desktop gamer. Em parte isso acontece porque modelos pequenos não permitem terceirizar tanto pensamento, então a IA descansa e a pessoa passa mais tempo pensando
      O custo de treinamento é maior, mas se a ideia for treinar só alguns modelos na escala de 27B por ano, isso se perde no ruído da civilização industrial como um todo. Quando fiz as contas antes, parecia algo como acrescentar mais uma fundição de alumínio movida a geotermia na Islândia já bastaria para treinar alguns modelos desse porte. Não é de graça, mas chega perto de erro de arredondamento
      O uso de energia na inferência é menor que o de três lâmpadas incandescentes, e isso só enquanto o modelo está realmente gerando. O uso de energia no treinamento equivale ao de uma grande instalação industrial, mas quase tudo isso também poderia vir de energia renovável. A Islândia é boa nesse ponto
      “Violação de copyright” não parece bater com a jurisprudência atual dos EUA, e convém ter cautela ao defender mais ampliação de direitos autorais. Sou contra a expansão do copyright desde os anos 90, então, embora eu não goste de como o treinamento de LLMs funciona, essa questão parece ter saído do campo do direito autoral e ido para o campo da política e da legislação. A exceção é quando a Anthropic simplesmente pirateou livros
      Mas o problema de terceirizar o pensamento está piorando rapidamente. Muita gente está tentando se transformar em marionete de carne de um deus-máquina, e isso assusta
    • Violação de copyright é citada com frequência como motivo para dizer que LLMs e empresas de IA são ruins, mas acho que se concentrar nisso é desviar para um caminho lateral
      É parecido com dizer que homicídio é ruim “porque é ilegal”. Homicídio é ruim, claro, mas não é a ilegalidade que o torna ruim. A lei pode mudar. Se todo o discurso virar “IA é ruim por causa do copyright” e o Congresso legalizar isso, todo mundo vai passar a achar IA aceitável de repente? Havia outros motivos de oposição mais próximos do cerne da preocupação real, e talvez tivesse sido mais produtivo se mobilizar em torno deles
      Alexandra Elbakyan também é uma violadora de copyright. Mas ela é adulta e toda universidade deveria ter uma estátua dela
  • Um futuro de aprendizado de máquina e grandes modelos de linguagem que seja realmente aberto e justo não existe sem considerar a cadeia de suprimentos inteira. Recomendo ler: https://time.com/6247678/openai-chatgpt-kenya-workers/

  • Em breve vamos chegar ao pico dos dados, e depois disso os avanços provavelmente virão mais de agrupar de forma agentiva os LLMs mais recentes
    O último modelo open source lançado publicamente provavelmente será usado por anos como base para estruturas superiores open source em constante mudança, do tipo agentivo ou de outro tipo

  • Mais precisamente, o público precisa reconhecer os enormes recursos públicos que as big techs receberam nos últimos 20 anos, especialmente recentemente, e exigir direitos sobre a infraestrutura paga com impostos
    Essas empresas não existiriam, nem poderiam existir, sem esse investimento maciço de dinheiro público. Além disso, boa parte dos dados de treinamento foi tirada diretamente de bens comuns públicos
    Esses modelos não são produto de esforço privado, mas o resultado final de um enorme esforço coletivo, e deveriam ser reconhecidos legalmente como bens comuns públicos

  • Seja importante ou não, seja bolha ou não, seja ou não apenas um previsor de tokens que alucina, é muito importante que todos os países tenham um marco legal para obrigar os “Frontier labs” a publicar como open source os modelos, exceto os mais recentes
    O escopo da divulgação deve incluir pesos, dados de treinamento e metodologia, ou então deve haver obrigação de tornar cada modelo open source depois de 10~15 anos. Para o avanço do conhecimento humano e para evitar a separação entre os “que têm” e os “que não têm”, todos os modelos deveriam ser tornados públicos após certo tempo
    Você pode achar que AGI não está próxima, mas a intenção desses laboratórios de fronteira é chegar primeiro à AGI e depois mantê-la sozinhos atrás de um paywall. Seja isso provável ou não, isso precisa ser impedido em benefício de toda a humanidade

 
GN⁺ 3 시간 전
Opiniões do Hacker News
  • Há algum tempo venho pensando em criar um sistema distribuído de treinamento de modelos com máquinas para as quais contribuímos quase como voluntários, mas na prática a dificuldade é astronomicamente alta
    A velocidade de comunicação não dá conta, e a contaminação de dados vinda de nós não confiáveis também é um problema
    Parece que este último ponto poderia ser quase resolvido com um sistema de rollback de checkpoint com autorrecuperação, que não exigisse descartar todos os resultados posteriores aos dados contaminados, mas isso não é um projetinho que uma pessoa consiga tocar só com uma ideia
    Se chegarmos a uma situação em que laboratórios de fronteira inteiros sejam impedidos de avançar mais, talvez esse caminho passe a despertar interesse
    A soma de todas as GPUs da Terra deveria superar a capacidade deles, mas seria preciso descobrir uma forma de usá-las de maneira distribuída com eficiência
    Mesmo que não desse para treinar o Fable tão rápido quanto eles, poder chegar lá algum dia ainda é melhor do que nunca chegar

    • Como eu já disse em outra resposta acima, mesmo sendo uma boa ideia, é difícil ela se sustentar no mundo real
      Hardware dedicado a IA não só é muito mais rápido do que GPUs de consumo, como também é muito mais eficiente energeticamente e tem conectividade muito melhor, e cada um desses três fatores por si só já derruba a ideia
      A diferença de eficiência energética é tão grande que, mesmo reunindo todas as GPUs públicas ou dispositivos parecidos do planeta, a conta de luz ficaria alta demais, e no fim talvez saísse mais barato construir seu próprio datacenter com esse dinheiro
      Mesmo que a eletricidade fosse grátis, conectar GPUs espalhadas pelo mundo com a latência da internet as tornaria de milhares a milhões de vezes mais lentas, e nem está claro se isso seria viável
      De todo modo, é difícil conseguir um fable-oss nesta década, e talvez nem neste século
      Seria melhor, e eu realmente acho que deveria acontecer, que governos comprassem e possuíssem datacenters diretamente, ainda que em formato de consórcio, e os operassem para o bem público
    • Quando as pessoas pensam em treinamento distribuído, normalmente não imaginam primeiro grandes datacenters pertencentes à mesma empresa treinando um modelo a longa distância
      Em vez disso, imaginam milhares de pequenos datacenters ou usuários individuais reunindo capacidade ociosa pela internet para coordenar uma execução de treinamento maior do que a de qualquer agente único
      Empresas como Pluralis Research, Prime Intellect e Nous Research estão perseguindo essa visão e já tiveram sucesso com treinamento distribuído em escala, mas, na prática, o treinamento distribuído pela internet ainda fica muito atrás do treinamento centralizado
      Mesmo os maiores modelos, como o 8B Protocol Model da Pluralis, o INTELLECT-1 da Prime Intellect e o Consilience 40B da Nous, foram treinados com 1.000 vezes menos computação do que modelos de fronteira atuais como o Grok 4 da xAI
      https://epoch.ai/gradient-updates/how-far-can-decentralized-...
    • Não é verdade que a soma de todas as GPUs da Terra supera a capacidade deles
      Isso subestima quanto silício foi parar justamente nessas empresas e o quanto esse silício é mais poderoso do que equipamento de consumo
    • Alguns anos atrás houve um projeto chamado Petals que tentava alcançar parte desse objetivo com P2P: https://github.com/bigscience-workshop/petals
      O modelo BLOOM também foi resultado de um esforço colaborativo: https://huggingface.co/docs/transformers/en/model_doc/bloom
    • Com as técnicas certas, acho que dá para comprimir a informação de gradiente em 10.000 vezes e tornar isso viável
      A Nous afirma já ter conseguido: https://github.com/NousResearch/DisTrO
      No passado também houve artigos sobre compressão de gradiente relatando taxas altas de compressão
  • Isso, junto com inferência distribuída de LLM, é necessário
    Já chegamos a um ponto em que ficou caro demais para uma pessoa montar sozinha o hardware necessário para rodar modelos de ponta
    Então precisamos criar e adotar frameworks para que indivíduos possam compartilhar recursos e executar modelos de ponta de forma distribuída
    Isso também tornaria mais difícil para governos censurarem
    A única forma de impedir que um único agente transforme isso em arma é dar acesso a todos

    • Fico pensando se haveria uma forma de pequenos LLMs locais se complementarem mutuamente e, no agregado, formarem um LLM muito mais capaz
    • Criei o Teale.com e o publiquei como open source
      Ele roda inferência totalmente distribuída em Mac, Windows, Linux, Android, iOS e até HarmonyOS
      Modelos open source/open weight vão continuar melhorando e, no fim, algo no nível do mythos vai rodar até em hardware de smartphone ou de óculos
      Só que, por enquanto, casar oferta e demanda é absurdamente trabalhoso
      Por exemplo, um MacBook com 16 GB de RAM não significa necessariamente que dá para usar os 16 GB inteiros de verdade, e também existe o problema de ajustar modelos e configurações (kvcache, context limit, temperature etc.) à demanda
      Precisamos de inferência de IA feita por pessoas e para pessoas, então ajuda é bem-vinda
    • Se o modelo estiver distribuído, a inferência distribuída de LLM parece muito ineficiente quando se leva em conta a transferência de dados entre as camadas do modelo
      Um projeto chamado Petals chegou a alegar até 4 tok/s com um modelo de 180B, mas o repositório não recebe atualizações há 2 anos
      https://petals.dev/
    • A afirmação de que a única forma de impedir que um único agente transforme isso em arma é dar acesso a todos admite um meio-termo
      O espaço de políticas públicas também inclui abordagens em que o governo regula tanto o acesso quanto a monopolização
      Sou contra a monopolização dessa tecnologia, mas os riscos de entregar AGI/ASI desbloqueada para todo mundo deveriam ser óbvios
      Como exemplo simplificado, dá para imaginar o governo contratando vários laboratórios (n_quorum) e concedendo a todos um orçamento de tokens, como uma renda básica universal de IA
      Só que a operação via API ainda precisaria vir acompanhada de controles de segurança
      Se todo mundo puder rodar sua própria AGI desbloqueada, a única norma social estável talvez seja uma vigilância em massa para monitorar quem está criando ameaças CBRNE
      Isso não parece uma vitória clara do ponto de vista das liberdades civis, mas entendo a lógica desse argumento
  • Na minha casa e no meu negócio, isso já venceu desde o início
    Mais precisamente, era pesos abertos, e essa diferença sutil parece incômoda
    Nunca entendi a postura de tornar o funcionamento ou o desenvolvimento de um produto totalmente dependente do código-fonte secreto de uma entre duas grandes startups, ambas com rentabilidade incerta e funcionamento obscuro
    Isso também vai contra princípios saudáveis de engenharia
    Por isso nunca pretendi seguir por esse caminho, e o motivo de eu explorar IA agora é justamente porque, graças aos pesos abertos, concluí que vale a pena investir tempo nisso
    Os negócios já costumam ficar subordinados às políticas de uma única plataforma de pagamentos e de duas emissoras americanas de cartão de crédito, e isso por si só já é ruim o bastante
    Talvez por eu ter espírito de freelancer, sempre fico inquieto quando me pedem para investir energia demais em estudar e aprender o produto de outra pessoa, em vez de uma tecnologia de base
    Também me lembro da época em que a Microsoft convencia departamentos universitários prometendo acesso ao código-fonte do NT
    Também me lembro de uma figura importante do nosso lado dizendo que Linux era algo periférico e que o acesso ao NT nos tornaria relevantes de verdade
    Sempre lembro a mim mesmo e aos que estão ao meu redor que é preciso ter mais controle sobre o próprio destino, e que a fronteira tecnológica está à frente da tecnologia estável mais recente
    O progresso acontece na fronteira, mas há risco de dano
    A engenharia deve se concentrar não em surfar no progresso dos outros, mas em construir sobre a tecnologia estável mais recente

    • Nesse contexto, a palavra open source tem uma nuance incômoda
      Ferramentas como llama.cpp são abertas, mas sem os pesos elas não servem para nada
      Os pesos são um capital extremamente caro, doado por grandes organizações em guerra entre si
      Por exemplo, não sei se o archive.org conseguiria criar pesos realmente abertos, e fora o archive.org é difícil até imaginar outra organização open source como a FreeBSD ou a Apache em posição de criar pesos realmente abertos
      Se houver alguém capaz disso, talvez sejam governos, órgãos governamentais ou universidades
      Mas, no momento, essas instituições não têm financiamento, autoridade, vontade nem interesse suficientes para despejar dinheiro na infraestrutura necessária para criar pesos
    • Curiosamente, adotei outra abordagem
      A IA complementa a forma como desenvolvemos no nosso negócio, e os engenheiros preferem de longe usar Opus 4.8 em vez dos melhores modelos open source
      Acredito que open source é importante, mas no meu negócio vou simplesmente usar as melhores ferramentas disponíveis
  • Quando open source passa a significar software gratuito, isso acaba ficando muito próximo de dizer que você quer, na prática, uma cópia grátis
    O que deveríamos dizer é que projetos públicos e operados pela comunidade deveriam realizar juntos o pré-treinamento e o treinamento
    Isso significa tratar publicamente o corpus de treinamento e coordenar de alguma forma o trabalho de treinamento
    Isso muda completamente o sentido do termo, e é parecido com quando as pessoas misturam pirataria e roubo
    São coisas diferentes, então deveríamos usar palavras diferentes
    Pesos gratuitos, código de inferência e templates de chat são muito diferentes de um projeto de LLM operado pela comunidade

    • A EleutherAI pode ser algo próximo disso
  • Quem vai financiar isso?
    O custo de treinamento é difícil até de imaginar de tão alto
    Só existe o modelo de financiamento por VC, que busca retorno sobre o investimento, ou o modelo de financiamento do PCC, voltado a consolidar o modelo social autoritário chinês
    Pode até haver algo como um modelo 4B universitário, mas parece difícil que isso vá muito longe

    • Entendo essa preocupação, mas mesmo hoje ainda existem coisas abertas de tamanho e complexidade semelhantes
      Fico surpreso todos os dias com o fato de que meu computador Linux oferece uma experiência quase igual à dos sistemas operacionais feitos por duas empresas de trilhões de dólares
      E ele ainda faz coisas que essas alternativas comerciais nem conseguem fazer
      Se a DeepSeek realmente consegue lançar modelos com 1/10 do custo dos concorrentes ocidentais e com uma fração do número de funcionários, isso pode significar que existe mercado para alguém oferecer uma alternativa nesse espaço
      Penso no motivo pelo qual empresas como a IBM contribuem de bom grado para o Linux e liberam essas contribuições gratuitamente
      É porque fazem parte de um grupo de patrocinadores corporativos que precisa de uma alternativa ao player comercial mais dominante do mercado
      O motivo pelo qual a Meta praticamente distribui o React de graça é parecido
      Para a Meta, é mais vantajoso que ele vire padrão e que seja possível contratar pessoas que já o conheçam
      É mais difícil imaginar o mesmo tipo de benefício de ecossistema em modelos de IA, mas talvez ele exista em algum lugar
      Dá para imaginar provedores de datacenter/VPS patrocinando algo assim para reduzir o poder de barganha das grandes empresas de IA
      Claro, esse otimismo também pode ser só um sonho ilusório
    • Precisamos muito de um precedente jurídico de que destilação de modelos é uma atividade legal
      Se os criadores de modelos podem raspar o trabalho dos outros para treinar, lavar a informação como se fosse deles e não devolver nada aos criadores originais, não vejo por que destilar modelos deveria ser ilegal
      É a mesma coisa que os criadores de modelos de fronteira estão fazendo com a propriedade intelectual dos outros de forma geral
    • Você já tentou calcular o custo dos computadores dos anos 1960 ajustado pela inflação?
      O treinamento é caro de um jeito que hoje é difícil imaginar
      E se várias universidades juntassem dinheiro?
      E se vários países juntassem dinheiro?
      Em algum momento surgirão avanços e otimizações
      As pessoas duvidavam que um sistema operacional open source seria viável, mas o Linux já foi por décadas uma opção real no desktop, sem nem falar do uso difundido como sistema operacional de servidores e celulares
    • Não é só caro, também é desperdiçador
      Não há valor em usar modelos ultrapassados
      O manifesto de IA open source exige que “a IA open source também seja economicamente sustentável”, mas isso parece mais pensamento positivo do que outra coisa
    • Pode ser viável exigir que laboratórios que lancem modelos fechados também publiquem modelos open source
      O gpt-oss já está desatualizado agora, mas quando saiu era razoável
      O Nemotron também é sólido, e especialmente o lançamento ultra recente é bom
      A Nvidia tem uma história muito melhor, especialmente em comparação com os modelos chineses, no sentido de divulgar não só o modelo em si, mas também todas as partes, incluindo dados de pré e pós-treinamento
  • Eu teria total disposição para pagar US$ 50 por mês para apoiar um laboratório de pesquisa em IA open source, em vez de obter modelos open source como subproduto de empresas

    • Os laboratórios de IA estão gastando centenas de bilhões de dólares, então seria preciso ter muitos assinantes para competir
    • Acho que a OpenAI destruiu a confiança
      Como saber se esse laboratório de IA open source não acabará se desmembrando em uma empresa com fins lucrativos de algum jeito?
    • Pelo que sei, a DeepSeek não tem modelos fechados e publica mais código/dados/artigos do que a maioria
      Talvez eu devesse começar a usar a API deles
      Também não é um subproduto corporativo
  • Pode ser que a IA de pesos abertos não tenha incentivo para investir muito capital em treinamento e pesquisa
    Até poderia surgir algo como fundos de doação, mas obviamente não chegaria perto do nível de financiamento que os laboratórios de fronteira recebem
    Por isso, talvez seja impossível a IA existir apenas com pesos abertos
    Grandes players como OpenAI, Anthropic e Google provavelmente continuarão existindo e tendem a ter modelos melhores do que as versões open source
    Pode acabar parecendo a relação entre Photoshop e GIMP
    Photoshop seria o laboratório de fronteira e o GIMP seria o modelo de pesos abertos
    O GIMP serve bem para vários fluxos de trabalho de edição de imagem, mas o Photoshop simplesmente é melhor
    Seria ótimo se houvesse um modelo de pesos abertos melhor do que os laboratórios de fronteira, mas não acho isso provável

    • Eu penso de forma parecida, mas mesmo que não sejam modelos open source, acho que a IA local no fim é inevitável
      A própria OpenAI e outras também podem lançar produtos on-premises
      Seja em formato de appliance rack ou de outro tipo, as grandes empresas vão querer rodar inferência localmente por soberania de dados e controle de custos
      Isso vale ainda mais quando chegar a hora de integrar IA à manufatura ou a outras redes isoladas
    • A analogia com Photoshop e GIMP é bem boa
      Agora estamos numa espécie de fase de expansão acelerada, mas a menos que a tecnologia por trás da IA realmente continue evoluindo, vai ficar cada vez mais difícil fazer modelos cada vez melhores e os retornos vão diminuir
      Se o GIMP dos LLMs entregar só 80% do desempenho do modelo financiado por VC, isso já será útil o bastante para muita gente
      Mesmo que de fato não seja tão bom quanto um modelo proprietário, só o fato de existir a opção de usar um modelo open source já é uma vitória
    • Dando um passo para trás, é só uma questão de tempo
      Quando ficar claro que é impossível arrancar trilhões de dólares dos consumidores, avaliações na casa dos trilhões passarão a ser vistas como sem sentido
      Enquanto isso, e de qualquer forma, se a otimização de software e a expansão de hardware continuarem, em pouco tempo pesos abertos com capacidades superiores às do Fable vão rodar em dispositivos móveis
    • Talvez fosse possível se os usuários tivessem um jeito de doar computação para o treinamento, como no folding@home
      Só não sei como isso se tornaria prático
    • Há um motivo mais fundamental para ser difícil a IA existir só com pesos abertos
      Alguns modelos de IA são grandes a ponto de só serem viáveis de rodar, de forma razoável, em datacenters hyperscale de ponta
      Divulgar esses modelos como open source em geral não significaria muita coisa
      Estamos falando de uma escala muito maior do que a dos maiores modelos públicos de hoje, num nível em que até inferência lenta em clusters improvisados pequenos e baratos fica descartada
      O Fable talvez já esteja nesse ponto
  • Concordo com o sentimento e com a missão, mas esse objetivo agora não pode mais ser separado da política
    Ser Open Source(tm) não impede que governos ou outros atores controlem o silício ou o que esse silício pode fazer, e isso já está acontecendo no mundo todo
    Mesmo que o modelo seja open source, isso não resolve regulação nem incentivos econômicos
    Isso não é um problema que dê para condensar em alguns parágrafos
    IA é infraestrutura civilizacional, e exige uma solução civilizacional, não apenas código-fonte

    • O capitalismo monopolista e o capitalismo financeiro dominam o mercado há mais de 100 anos, e o Estado serve a esses enormes interesses
      Todo mundo sabe que as empresas de IA pegaram material sem autorização para treinar, mas nada vai acontecer
      É um exemplo descarado de aplicação de classe da lei
      O motivo para aplicarem as próprias leis como quiserem sempre será segurança nacional
      Como eles possuem a infraestrutura, os interesses deles viram segurança nacional
      Toda vez que a tecnologia dá um grande salto, isso pode embaralhar o jogo, mas o capitalismo financeiro se adapta rápido e absorve essa onda
  • Caso o texto não tenha tratado disso, a distinção entre open source e pesos abertos é importante
    Modelos de pesos abertos são quase como uma droga de entrada em que a primeira dose é grátis
    Sem os dados de treinamento originais, pelo menos, a capacidade de fazer upgrades relevantes fica tão limitada que eles logo acabam ficando para trás dos modelos mais recentes em desenvolvimento contínuo
    Aí você passa a ansiar pela próxima liberação pública ou volta para a API do provedor
    Só empurrar a data de corte de conhecimento para a frente já melhora perceptivelmente a experiência do usuário, sem nem falar de inferência, treino com consciência de quantização e várias outras melhorias que ainda virão
    Dá para fazer pesquisa para melhorar modelos de pesos abertos, mas a conclusão é a mesma
    Se não for open source, o benefício para o público em geral fica muito menor

  • A IA de código aberto, por definição, nunca pode vencer
    Hoje em dia, IA no fim das contas se parece mais com otimização por subida de encosta, e laboratórios fechados podem absorver tudo o que o mundo aberto faz e empilhar mais coisas por cima
    Na maioria dos casos de uso, isso não é um grande problema, porque a IA está funcionando em um regime de saturação de capacidade
    https://www.delanceyukschoolschesschallenge.com/the-rising-t...
    A exceção são apenas áreas intrinsecamente adversariais com a natureza ou com outras pessoas, em que a vantagem competitiva importa

    • Quando se chega à saturação de capacidade em tarefas comuns, o código aberto vence, e isso já está acontecendo
      A segunda grande vitória provavelmente será quando pessoas comuns puderem rodar isso no próprio hardware
    • Daria para dizer a mesma coisa sobre o Linux
      A Microsoft podia aprender à vontade com o Linux, mas o Linux não só permaneceu relevante apesar dos concorrentes comerciais como, ao contrário de casos como a participação de mercado atual do Firefox, agora se tornou de longe o sistema operacional mais difundido
      Parece que a capacidade de absorver todas as boas ideias ou dados de sistemas públicos não é o único fator decisivo
    • Os laboratórios fechados ainda precisam justificar o investimento, e isso vai ficando cada vez mais difícil à medida que a capacidade dos modelos se aproxima da estagnação
      Neste momento, Fable e Mythos estão na fronteira, mas em pouco tempo vão virar commodities
      Para cada empresa como a OpenAI/Anthropic tentando se manter à frente com modelos de ponta, haverá umas cem tentando transformar seus complementos em commodity
    • AllegroLisp está muito atrás do SBCL
    • Não é preciso que um modelo open source seja tão bom quanto Claude Mythos ou Claude Sonnet para vencer
      Basta que a vitória do open source signifique que pelo menos uma das alternativas aos modelos fechados seja tão boa quanto o GPT-4
      Na verdade, com os modelos Google Gemma já estamos quase nesse ponto
      Como engenheiro de software, depois do Sonnet eu não senti mais diferença na minha produtividade
      Claro que o Opus é melhor e o Fable será melhor, mas do ponto de vista do valor econômico já estamos batendo em retornos decrescentes
      Quando saí de um dos primeiros modelos GPT no Cursor e fui para Claude Code com Sonnet, para mim houve quase um ganho de produtividade de 5x
      Antes do Claude Code, eu só usava IA para pequenos trechos de código, mas com Claude Code + Sonnet eu podia delegar subtarefas inteiras
      Mesmo assim, eu ainda não confiaria ao Opus uma funcionalidade inteira até o fim
      Não tenho certeza se um dia isso vai acontecer, e talvez nem precise acontecer
      As empresas exigem um certo nível elevado de talento de engenheiros de software, mas acima desse nível realmente não ligam nem um pouco
      Mesmo que a diferença seja grande, elas nem percebem