ETH Zurich e EPFL devem lançar LLM desenvolvido em infraestrutura pública

(ethz.ch)

2 pontos por GN⁺ 2025-07-12 | 1 comentários | Compartilhar no WhatsApp

ETH Zurich e EPFL lideram o lançamento iminente de um grande modelo de linguagem (LLM) desenvolvido de forma totalmente aberta em infraestrutura pública
O modelo prioriza transparência, desempenho multilíngue e amplo acesso, podendo ser aplicado em ciência, governo, setor privado e outras áreas
Código-fonte, pesos e dados de treinamento serão públicos, e todo o processo foi projetado para ser reproduzível, promovendo pesquisa aberta e conformidade regulatória
Foi treinado no supercomputador de ponta Alps (CSCS) com energia limpa, com foco em grande escala, alto desempenho e uso responsável de dados
O LLM será lançado no fim do verão sob a licença Apache 2.0 e deve contribuir para impulsionar inovação e pesquisa no mundo todo

Cooperação internacional e contexto para construir um LLM aberto

Na International Open-Source LLM Builders Summit, realizada em Genebra, mais de 50 organizações globais ligadas a LLMs open source e IA confiável se reuniram no mesmo local
Organizado pelos centros de IA da EPFL e da ETH Zurich, o evento foi um marco importante para fortalecer a ecosistema de modelos fundacionais abertos e a colaboração
Os LLMs abertos vêm sendo cada vez mais vistos como uma alternativa aos sistemas comerciais desenvolvidos de forma fechada nos EUA, na China e em outros países

Características do novo LLM público e plano de lançamento

O LLM totalmente aberto e desenvolvido no setor público será lançado em breve por meio da colaboração entre pesquisadores da EPFL, ETH Zurich, outras universidades suíças e engenheiros do CSCS
O modelo está atualmente na fase final de testes e deverá ficar disponível para download sob uma licença aberta
Seus valores centrais são transparência, desempenho multilíngue e amplo acesso

Princípios de abertura total e transparência

Tanto o código-fonte quanto os pesos do modelo serão divulgados
Os dados de treinamento também serão publicados com transparência e estruturados de forma reproduzível, apoiando a adoção em ciência, governo, educação e setor privado
Essa abordagem busca promover a inovação e reforçar a responsabilidade

Opinião de especialistas

Imanol Schlag, pesquisador do ETH AI Center, destacou que “modelos totalmente abertos são essenciais para aplicações mais confiáveis e para avançar a pesquisa sobre riscos e oportunidades da IA”
Um processo transparente também facilita a conformidade regulatória

Projeto multilíngue

Uma das principais características do modelo é o suporte a mais de 1.000 idiomas
O professor Antoine Bosselut afirmou que houve foco, desde o início, em amplo suporte multilíngue
O pré-treinamento foi realizado com um grande conjunto de dados de mais de 1.500 idiomas (60% em inglês e 40% em outros idiomas), além de dados de código e matemática
Ao refletir conteúdos de diferentes idiomas e culturas do mundo todo, o modelo amplia sua utilidade global

Escalabilidade e inclusão

O modelo será disponibilizado em dois tamanhos: 8 bilhões (8B) e 70 bilhões (70B) de parâmetros
- A versão 70B será um dos modelos totalmente abertos mais poderosos do mundo
Foi treinado com mais de 15 trilhões de tokens de alta qualidade (pequenas unidades de texto), alcançando alta confiabilidade e versatilidade

Uso responsável de dados

O desenvolvimento segue a lei suíça de proteção de dados, a legislação de direitos autorais e as obrigações de transparência exigidas pelo EU AI Act
Pesquisas recentes demonstraram que respeitar a recusa de rastreamento da web (robots exclusion standard) quase não reduz o desempenho de LLMs

Desenvolvimento com supercomputador e sustentabilidade

O treinamento do modelo foi realizado no supercomputador Alps do CSCS, em Lugano
- Equipado com 10 mil NVIDIA Grace Hopper Superchips, ele representa uma infraestrutura de IA de nível mundial
- Permite treinamento eficiente com eletricidade 100% neutra em carbono
A implementação bem-sucedida do Alps foi possível graças a 15 anos de colaboração estratégica com NVIDIA e HPE/Cray
O Alps desempenha papel central ao atender às exigências de grandes cargas de trabalho de IA, incluindo o pré-treinamento de LLMs complexos
O professor Thomas Schulthess enfatizou que o esforço conjunto entre instituições públicas de pesquisa e a indústria comprova a contribuição para infraestrutura soberana de IA, inovação aberta e para a ciência e a sociedade em escala global

Acesso aberto e uso global

O LLM será lançado no fim do verão, sob a licença Apache 2.0
Também será fornecida documentação sobre arquitetura do modelo, métodos de treinamento e diretrizes de uso, apoiando reutilização transparente e desenvolvimento adicional
O professor Antoine Bosselut comentou que espera que pesquisadores do setor público liderem o avanço dos modelos abertos e que diversas organizações desenvolvam suas próprias aplicações a partir deles
O professor Martin Jaggi afirmou que a abertura total é um fator importante para impulsionar a inovação por meio da cooperação entre Suíça, Europa e parceiros internacionais, além de atrair os melhores talentos

1 comentários

GN⁺ 2025-07-12

Comentários do Hacker News

Estou ansioso para ver os resultados. Pelo que sei, a ETH e a EPFL estão treinando ou fazendo fine-tuning de versões anteriores, e não dos modelos LLaMA mais recentes, então podem ficar um pouco atrás do desempenho SOTA. Ainda assim, acho que o mais importante é que a ETH e a EPFL ganhem experiência em treinamento de larga escala. Pelo que ouvi, o cluster de IA recém-construído ainda está passando por muitas tentativas e erros nesta fase inicial. As pessoas frequentemente subestimam como é difícil treinar modelos nessa escala com infraestrutura própria Para contextualizar, nasci na Suíça e estudei na ETH. Capacidade intelectual eles têm de sobra, mas ainda falta experiência em treinamento de larga escala. Além disso, pessoalmente acho que grande parte da “mágica” dos LLMs vem, na verdade, da infraestrutura
- Na verdade, acho que muita da mágica vem dos datasets, especialmente de SFT e de outros dados de fine-tuning/RLHF. Foi isso que de fato distinguiu os modelos que as pessoas usam dos que elas não usam. Concordo totalmente com a ideia de ganhar experiência, e acho que montar infraestrutura é uma parte central de uma cadeia soberana de fornecimento de LLMs. Mas também é preciso dar atenção suficiente aos dados desde o começo para que o modelo se torne realmente útil na prática
- Para treinar um LLM SOTA, a infraestrutura também fica bastante complexa. Muita gente acha que basta publicar a arquitetura e o dataset e usar algo como Ray, mas na prática é preciso dataset design, construção de pipelines de avaliação, método de treinamento, maximização da eficiência do hardware, latência entre nós, recuperação de erros e muitos outros elementos. Mesmo assim, acho ótimo ver mais participantes entrando nessa área
- Ao ver a expressão "from scratch", imaginei que eles fossem fazer pretraining, e não fine-tuning. Gostaria de saber se alguém pensa diferente. Também tenho curiosidade se vão seguir uma arquitetura Llama mais padrão. Quero muito ver os resultados dos benchmarks
Fico muito feliz em ver a frase “respeitar o opt-out de web crawling quase não causa perda de desempenho”
- Mesmo que nos indicadores de treinamento não haja perda de desempenho, no fim das contas isso pode ser diferente do ponto de vista do usuário final. Usuários e donos de sites têm objetivos fundamentalmente diferentes. O usuário quer respostas e conteúdo; o dono do site quer anúncios ou vendas adicionais. No fim, só dá para satisfazer plenamente um dos dois lados
Fico curioso se este é um caso que estabelece um novo padrão em transparência de datasets. Se der certo, acho que será um avanço importante. Dito isso, teria sido mais divertido se tivessem chamado a máquina de AIps (AI Petaflops Supercomputer)
- O modelo OLMo, criado pelo Allen Institute for Artificial Intelligence, também é totalmente aberto OLMo is fully open A posição da AI2 é que verdadeira abertura significa divulgar dados, modelo e código Saiba mais sobre o OLMo
- Pelo que sei, o Smollm também é um modelo totalmente aberto
Dados de treinamento abertos são o grande diferencial. Fico me perguntando se este é o primeiro dataset realmente aberto nessa escala. Tentativas anteriores, como o The Pile, também foram valiosas, mas tinham limitações. Também estou curioso para ver como vão garantir a reprodutibilidade do treinamento
- Pela frase “o modelo será totalmente aberto: o código-fonte e os pesos serão públicos, e os dados de treinamento serão transparentes e reproduzíveis”, acho que a ênfase está mais em “reproduzíveis” do que em dizer que todo o conjunto de dados de treinamento será publicado. Talvez materiais de referência, como a lista de URLs das páginas usadas no treinamento, possam ser divulgados, mas não necessariamente o conteúdo em si
- Exato, ainda existem as questões tradicionais de direitos autorais, então provavelmente não será disponibilizado diretamente como um dataset empacotado
É exatamente isso que significa “democratização da IA”
O comunicado de imprensa fala bastante sobre como eles fizeram isso, mas quase não traz informação sobre quais capacidades o modelo realmente tem em comparação com outros modelos abertos
- No caso das universidades, ensinar “como foi feito” é central, então é natural que o foco esteja nisso
- Dizem que “o modelo será lançado em duas versões, 8B e 70B, e a versão 70B será um dos modelos abertos mais poderosos do mundo, com lançamento no fim deste verão sob licença Apache 2.0”, então poderemos conferir isso em setembro
Como suíço, sinto orgulho de ver essa notícia no topo do HN. Essas duas universidades já formaram muitos fundadores, pesquisadores e engenheiros de nível mundial, mas sempre ficaram à sombra dos EUA. Ainda assim, acho que, graças à excelente infraestrutura pública/educação/estabilidade política (+ neutralidade), elas podem ter uma oportunidade especial no campo dos LLMs abertos
O artigo menciona que “LLMs abertos estão sendo cada vez mais vistos como uma alternativa confiável, enquanto a maioria dos sistemas comerciais está sendo desenvolvida de forma fechada nos EUA ou na China” Hoje, as empresas que constroem LLMs de grande porte têm incentivo para piorar a qualidade por razões de monetização, como induzir assinaturas ou promover produtos. Algumas já apresentam até viés político Se na Europa houver colaboração entre academia e governo para oferecer serviços de busca/IA voltados ao interesse público e centrados no usuário, isso pode ser muito significativo
- Mas oferecer esse tipo de serviço em si já é algo complexo. Por melhor que seja o modelo treinado, a operação real ainda será feita pelo setor privado. Então, em essência, a pressão por monetização continua existindo. No caso da IA, como o custo operacional é alto, essa tendência pode ser ainda mais forte. No fim, se o serviço for gratuito, o usuário vira o produto, então é preciso extrair valor ativamente para que haja lucro
Também quero muito testar isso na prática logo
Fico me perguntando por que estão anunciando dessa forma antes mesmo do lançamento. Acho que seria melhor falar de forma mais direta
- Este anúncio foi feito no International Open-Source LLM Builders Summit, realizado esta semana na Suíça. Não me parece tão estranho compartilhar cronograma e planos
- Pode ser por captação de recursos. E também faz sentido para fixar fortemente na mente dos usuários europeus a ideia de um LLM desenvolvido com recursos públicos na Europa (ou pelo menos não vindo dos EUA ou da China). (Talvez seja até lógico demais para ser aprovado em Bruxelas)
- Na Suíça, o clichê é fazer as coisas com bastante calma

ETH Zurich e EPFL devem lançar LLM desenvolvido em infraestrutura pública

Cooperação internacional e contexto para construir um LLM aberto

Características do novo LLM público e plano de lançamento

Princípios de abertura total e transparência

Opinião de especialistas

Projeto multilíngue

Escalabilidade e inclusão

Uso responsável de dados

Desenvolvimento com supercomputador e sustentabilidade

Acesso aberto e uso global

Leituras relacionadas

1 comentários

Comentários do Hacker News