- O ecossistema suíço de IA lançou o seu próprio modelo fundacional, o Apertus, com foco em IA soberana, destacando a base de colaboração entre EPFL, ETH Zurich e CSCS
- O principal diferencial é pesos abertos, dados abertos e ciência aberta, com documentação dos dados de treinamento, código, pesos, metodologia e até princípios de alinhamento, enfatizando a reprodutibilidade
- Em termos de regulação e confiança, considera os requisitos do EU AI Act e inclui condições como respeito ao opt-out, remoção de PII e prevenção de memorização
- Afirma ter desempenho competitivo com os principais modelos abertos da mesma categoria nas escalas de 8B e 70B parâmetros, tendo sido treinado desde o início em mais de 1.000 idiomas
- A Swisscom participa como parceira estratégica, e os próximos lançamentos, pesquisas e novidades da comunidade serão divulgados por newsletter
Organização responsável e escopo da abertura
- Apertus é um modelo fundacional desenvolvido pela Swiss AI Initiative
- Swiss AI Initiative é uma colaboração entre EPFL, ETH Zurich e CSCS
- O escopo da abertura inclui dados de treinamento, código, pesos, metodologia e princípios de alinhamento
- Os elementos divulgados são documentados e buscam ser reproduzíveis
- O Apertus enfatiza seu caráter de modelo aberto com a frase “Open em IA é como Source”
Conformidade regulatória e características do modelo
- O modelo foi construído para atender aos requisitos do EU AI Act
- Respeita o opt-out
- Remove PII
- Evita memorização
- Destaca desempenho competitivo com os principais modelos abertos de porte equivalente em 8B e 70B parâmetros
- O suporte multilíngue foi incluído desde o início, com treinamento em mais de 1.000 idiomas
Parceria e notícias da comunidade
- Swisscom é parceira estratégica da Swiss AI Initiative
- A newsletter trará lançamentos do Apertus, pesquisas da equipe e notícias da comunidade
1 comentários
Comentários no Hacker News
Entre os LLMs totalmente abertos, também há o OLMo 3.1 da Allen AI e o K2 Think V2 da MBZUAI, e ambos divulgaram todo o pipeline de treinamento e os conjuntos de dados
O Nvidia Nemotron também é um modelo de treinamento aberto, mas parte do dataset é proprietária
Citando um comentário do lambda, os modelos Nemotron em geral são mais fortes que o Olmo e o K2 Think V2 (segundo o benchmark da Artificial Analysis), e os datasets também se sobrepõem bastante. Vários datasets foram criados a partir das mesmas fontes, apenas com filtros diferentes, e o Olmo e o K2 Think V2 também usaram parte dos datasets do Nemotron
O Nemotron é um LLM moderno e bastante capaz, e o modelo 122b também é mais forte que o Deepseek R1 (modelo 671b) na maioria dos benchmarks, e recentemente saiu também o 550b Ultra
https://news.ycombinator.com/item?id=48492439
Se as empresas de ponta tivessem adotado essa abordagem, o início teria sido muito mais lento, mas em 2035 provavelmente estaríamos muito mais avançados do que estamos agora. Em vez disso, agora grande parte da sociedade torce para que a IA fracasse
Gosto da ideia, e a necessidade de todo mundo fora dos EUA pensar em soberania tecnológica também aumentou. Isso porque os EUA deixaram de ser um lugar seguro para armazenar dados
Ainda assim, o Apertus dá a sensação de se mover na velocidade de um comitê, então não espero que entregue um modelo competitivo. Pelo menos parece difícil competir com os modelos atuais; talvez pudesse competir com os de um ano atrás, mas parece que ainda nem isso conseguiu
Pessoalmente gosto da abordagem da UE para proteção de dados, mas queria saber se você tinha em mente outra região ou outro mecanismo de proteção capaz de manter os dados “seguros”
Acho que a analogia com Linux também não se aplica aqui. Isso é maior do que isso e representa uma ameaça direta aos laboratórios comerciais de IA e ao seu modelo de negócios
Esses laboratórios vêm requentando vários artigos fundamentais há anos, e o fim parece estar próximo
Daqui para frente, modelos open source, com dados abertos e receitas abertas, podem se tornar o centro, e algum dia não só a inferência, mas também o treinamento poderá ser terceirizado coletivamente no estilo BitTorrent
Por fim, os modelos chineses (GLM, Deepseek, MiMax) também funcionam muito bem, e quem usa esses modelos dirá que não sente falta nenhuma de OpenAI/Anthropic/Gemini. Nesse caso, isso é base suficiente para dizer que, se existirem esses modelos abertos, também não haverá motivo para sentir falta dos modelos chineses
Para um modelo que diz focar em vários idiomas, ele é bastante instável em perguntas simples como “como se diz X no idioma Y” ou “como se conjuga o verbo X no idioma Y”
Ele continua alucinando palavras que não existem e, mesmo quando corrigido, inventa novas mentiras
Não parece que tenham colocado muitos dados de treinamento com rótulos de idioma
“Como se diz X no idioma Y” é uma tarefa diferente de dizer X no idioma Y
O modelo de instrução deles parece um fine-tuning do Llama3.1 do ano passado. Fico curioso se houve progresso no modelo novo
Minha última esperança para a IA soberana está nos modelos abertos chineses
Se você quiser misturar modelos desse jeito, vale ver https://github.com/deepbluedynamics/nemesis8
De longe, o produto mais impactante do projeto Apretus são as pessoas. Citando uma frase memorável de Dominique Paul(https://www.thisiscrispin.com/), o ponto que a maioria ignora é que esta equipe não é a quarta equipe a fazer a mesma coisa, como quase todos os outros provedores de LLM, nem é uma equipe que pôde aprender com sua própria experiência passada
Acho que, se essa equipe treinar um modelo mais uma vez, poderá reduzir o custo a um quarto e obter resultados muito melhores
A licença é bem interessante, mas não sei quem seguirá esse caminho no longo prazo
Os dados de treinamento e o Apertus LLM podem conter ou gerar informações que se refiram direta ou indiretamente a uma pessoa identificável (dados pessoais). O usuário trata dados pessoais como controlador independente, de acordo com a legislação de proteção de dados aplicável
A SNAI, como desenvolvedora do Apertus LLM, fornecerá periodicamente para download um arquivo de hash refletindo os pedidos de exclusão por proteção de dados recebidos, e o usuário poderá aplicá-lo como filtro de saída. Isso permite remover dados pessoais contidos na saída do modelo, e recomenda-se fortemente que, a cada 6 meses após o lançamento do modelo, esse filtro de saída seja baixado e aplicado a partir da SNAI
A versão anterior deste modelo era bem ruim, mas dizia cumprir a lei de direitos autorais. Só que testei pessoalmente e isso também não era verdade, então considero totalmente inútil
Modelo totalmente aberto: pesos abertos + dados abertos + detalhes completos do treinamento, incluindo todos os dados e a receita de treinamento
Fico curioso sobre como a comunidade vê a IA soberana financiada por governos do mundo todo
Por que enfatizar “soberana”? Se é aberta, isso não basta?