- ETH Zurich e EPFL lideram o lançamento iminente de um grande modelo de linguagem (LLM) desenvolvido de forma totalmente aberta em infraestrutura pública
- O modelo prioriza transparência, desempenho multilíngue e amplo acesso, podendo ser aplicado em ciência, governo, setor privado e outras áreas
- Código-fonte, pesos e dados de treinamento serão públicos, e todo o processo foi projetado para ser reproduzível, promovendo pesquisa aberta e conformidade regulatória
- Foi treinado no supercomputador de ponta Alps (CSCS) com energia limpa, com foco em grande escala, alto desempenho e uso responsável de dados
- O LLM será lançado no fim do verão sob a licença Apache 2.0 e deve contribuir para impulsionar inovação e pesquisa no mundo todo
Cooperação internacional e contexto para construir um LLM aberto
- Na International Open-Source LLM Builders Summit, realizada em Genebra, mais de 50 organizações globais ligadas a LLMs open source e IA confiável se reuniram no mesmo local
- Organizado pelos centros de IA da EPFL e da ETH Zurich, o evento foi um marco importante para fortalecer a ecosistema de modelos fundacionais abertos e a colaboração
- Os LLMs abertos vêm sendo cada vez mais vistos como uma alternativa aos sistemas comerciais desenvolvidos de forma fechada nos EUA, na China e em outros países
Características do novo LLM público e plano de lançamento
- O LLM totalmente aberto e desenvolvido no setor público será lançado em breve por meio da colaboração entre pesquisadores da EPFL, ETH Zurich, outras universidades suíças e engenheiros do CSCS
- O modelo está atualmente na fase final de testes e deverá ficar disponível para download sob uma licença aberta
- Seus valores centrais são transparência, desempenho multilíngue e amplo acesso
Princípios de abertura total e transparência
- Tanto o código-fonte quanto os pesos do modelo serão divulgados
- Os dados de treinamento também serão publicados com transparência e estruturados de forma reproduzível, apoiando a adoção em ciência, governo, educação e setor privado
- Essa abordagem busca promover a inovação e reforçar a responsabilidade
Opinião de especialistas
- Imanol Schlag, pesquisador do ETH AI Center, destacou que “modelos totalmente abertos são essenciais para aplicações mais confiáveis e para avançar a pesquisa sobre riscos e oportunidades da IA”
- Um processo transparente também facilita a conformidade regulatória
Projeto multilíngue
- Uma das principais características do modelo é o suporte a mais de 1.000 idiomas
- O professor Antoine Bosselut afirmou que houve foco, desde o início, em amplo suporte multilíngue
- O pré-treinamento foi realizado com um grande conjunto de dados de mais de 1.500 idiomas (60% em inglês e 40% em outros idiomas), além de dados de código e matemática
- Ao refletir conteúdos de diferentes idiomas e culturas do mundo todo, o modelo amplia sua utilidade global
Escalabilidade e inclusão
- O modelo será disponibilizado em dois tamanhos: 8 bilhões (8B) e 70 bilhões (70B) de parâmetros
- A versão 70B será um dos modelos totalmente abertos mais poderosos do mundo
- Foi treinado com mais de 15 trilhões de tokens de alta qualidade (pequenas unidades de texto), alcançando alta confiabilidade e versatilidade
Uso responsável de dados
- O desenvolvimento segue a lei suíça de proteção de dados, a legislação de direitos autorais e as obrigações de transparência exigidas pelo EU AI Act
- Pesquisas recentes demonstraram que respeitar a recusa de rastreamento da web (robots exclusion standard) quase não reduz o desempenho de LLMs
Desenvolvimento com supercomputador e sustentabilidade
- O treinamento do modelo foi realizado no supercomputador Alps do CSCS, em Lugano
- Equipado com 10 mil NVIDIA Grace Hopper Superchips, ele representa uma infraestrutura de IA de nível mundial
- Permite treinamento eficiente com eletricidade 100% neutra em carbono
- A implementação bem-sucedida do Alps foi possível graças a 15 anos de colaboração estratégica com NVIDIA e HPE/Cray
- O Alps desempenha papel central ao atender às exigências de grandes cargas de trabalho de IA, incluindo o pré-treinamento de LLMs complexos
- O professor Thomas Schulthess enfatizou que o esforço conjunto entre instituições públicas de pesquisa e a indústria comprova a contribuição para infraestrutura soberana de IA, inovação aberta e para a ciência e a sociedade em escala global
Acesso aberto e uso global
- O LLM será lançado no fim do verão, sob a licença Apache 2.0
- Também será fornecida documentação sobre arquitetura do modelo, métodos de treinamento e diretrizes de uso, apoiando reutilização transparente e desenvolvimento adicional
- O professor Antoine Bosselut comentou que espera que pesquisadores do setor público liderem o avanço dos modelos abertos e que diversas organizações desenvolvam suas próprias aplicações a partir deles
- O professor Martin Jaggi afirmou que a abertura total é um fator importante para impulsionar a inovação por meio da cooperação entre Suíça, Europa e parceiros internacionais, além de atrair os melhores talentos
1 comentários
Comentários do Hacker News
Estou ansioso para ver os resultados. Pelo que sei, a ETH e a EPFL estão treinando ou fazendo fine-tuning de versões anteriores, e não dos modelos LLaMA mais recentes, então podem ficar um pouco atrás do desempenho SOTA. Ainda assim, acho que o mais importante é que a ETH e a EPFL ganhem experiência em treinamento de larga escala. Pelo que ouvi, o cluster de IA recém-construído ainda está passando por muitas tentativas e erros nesta fase inicial. As pessoas frequentemente subestimam como é difícil treinar modelos nessa escala com infraestrutura própria<br>Para contextualizar, nasci na Suíça e estudei na ETH. Capacidade intelectual eles têm de sobra, mas ainda falta experiência em treinamento de larga escala. Além disso, pessoalmente acho que grande parte da “mágica” dos LLMs vem, na verdade, da infraestrutura
Na verdade, acho que muita da mágica vem dos datasets, especialmente de SFT e de outros dados de fine-tuning/RLHF. Foi isso que de fato distinguiu os modelos que as pessoas usam dos que elas não usam. Concordo totalmente com a ideia de ganhar experiência, e acho que montar infraestrutura é uma parte central de uma cadeia soberana de fornecimento de LLMs. Mas também é preciso dar atenção suficiente aos dados desde o começo para que o modelo se torne realmente útil na prática
Para treinar um LLM SOTA, a infraestrutura também fica bastante complexa. Muita gente acha que basta publicar a arquitetura e o dataset e usar algo como Ray, mas na prática é preciso dataset design, construção de pipelines de avaliação, método de treinamento, maximização da eficiência do hardware, latência entre nós, recuperação de erros e muitos outros elementos. Mesmo assim, acho ótimo ver mais participantes entrando nessa área
Ao ver a expressão "from scratch", imaginei que eles fossem fazer pretraining, e não fine-tuning. Gostaria de saber se alguém pensa diferente. Também tenho curiosidade se vão seguir uma arquitetura Llama mais padrão. Quero muito ver os resultados dos benchmarks
Fico muito feliz em ver a frase <i>“respeitar o opt-out de web crawling quase não causa perda de desempenho”</i>
Fico curioso se este é um caso que estabelece um novo padrão em transparência de datasets. Se der certo, acho que será um avanço importante. Dito isso, teria sido mais divertido se tivessem chamado a máquina de AIps (AI Petaflops Supercomputer)
O modelo OLMo, criado pelo Allen Institute for Artificial Intelligence, também é totalmente aberto<br><i>OLMo is fully open</i><br>A posição da AI2 é que verdadeira abertura significa divulgar dados, modelo e código<br>Saiba mais sobre o OLMo
Pelo que sei, o Smollm também é um modelo totalmente aberto
Dados de treinamento abertos são o grande diferencial. Fico me perguntando se este é o primeiro dataset realmente aberto nessa escala. Tentativas anteriores, como o The Pile, também foram valiosas, mas tinham limitações. Também estou curioso para ver como vão garantir a reprodutibilidade do treinamento
Pela frase “o modelo será totalmente aberto: o código-fonte e os pesos serão públicos, e os dados de treinamento serão transparentes e reproduzíveis”, acho que a ênfase está mais em “reproduzíveis” do que em dizer que todo o conjunto de dados de treinamento será publicado. Talvez materiais de referência, como a lista de URLs das páginas usadas no treinamento, possam ser divulgados, mas não necessariamente o conteúdo em si
Exato, ainda existem as questões tradicionais de direitos autorais, então provavelmente não será disponibilizado diretamente como um dataset empacotado
É exatamente isso que significa “democratização da IA”
O comunicado de imprensa fala bastante sobre como eles fizeram isso, mas quase não traz informação sobre quais capacidades o modelo realmente tem em comparação com outros modelos abertos
No caso das universidades, ensinar “como foi feito” é central, então é natural que o foco esteja nisso
Dizem que <i>“o modelo será lançado em duas versões, 8B e 70B, e a versão 70B será um dos modelos abertos mais poderosos do mundo, com lançamento no fim deste verão sob licença Apache 2.0”</i>, então poderemos conferir isso em setembro
Como suíço, sinto orgulho de ver essa notícia no topo do HN. Essas duas universidades já formaram muitos fundadores, pesquisadores e engenheiros de nível mundial, mas sempre ficaram à sombra dos EUA. Ainda assim, acho que, graças à excelente infraestrutura pública/educação/estabilidade política (+ neutralidade), elas podem ter uma oportunidade especial no campo dos LLMs abertos
O artigo menciona que<br>“LLMs abertos estão sendo cada vez mais vistos como uma alternativa confiável, enquanto a maioria dos sistemas comerciais está sendo desenvolvida de forma fechada nos EUA ou na China”<br>Hoje, as empresas que constroem LLMs de grande porte têm incentivo para piorar a qualidade por razões de monetização, como induzir assinaturas ou promover produtos. Algumas já apresentam até viés político<br>Se na Europa houver colaboração entre academia e governo para oferecer serviços de busca/IA voltados ao interesse público e centrados no usuário, isso pode ser muito significativo
Também quero muito testar isso na prática logo
Fico me perguntando por que estão anunciando dessa forma antes mesmo do lançamento. Acho que seria melhor falar de forma mais direta
Este anúncio foi feito no International Open-Source LLM Builders Summit, realizado esta semana na Suíça. Não me parece tão estranho compartilhar cronograma e planos
Pode ser por captação de recursos. E também faz sentido para fixar fortemente na mente dos usuários europeus a ideia de um LLM desenvolvido com recursos públicos na Europa (ou pelo menos não vindo dos EUA ou da China). (Talvez seja até lógico demais para ser aprovado em Bruxelas)
Na Suíça, o clichê é fazer as coisas com bastante calma