Apertus, um modelo fundacional aberto para IA soberana

(apertvs.ai)

1 pontos por GN⁺ 4 시간 전 | 1 comentários | Compartilhar no WhatsApp

O ecossistema suíço de IA lançou o seu próprio modelo fundacional, o Apertus, com foco em IA soberana, destacando a base de colaboração entre EPFL, ETH Zurich e CSCS
O principal diferencial é pesos abertos, dados abertos e ciência aberta, com documentação dos dados de treinamento, código, pesos, metodologia e até princípios de alinhamento, enfatizando a reprodutibilidade
Em termos de regulação e confiança, considera os requisitos do EU AI Act e inclui condições como respeito ao opt-out, remoção de PII e prevenção de memorização
Afirma ter desempenho competitivo com os principais modelos abertos da mesma categoria nas escalas de 8B e 70B parâmetros, tendo sido treinado desde o início em mais de 1.000 idiomas
A Swisscom participa como parceira estratégica, e os próximos lançamentos, pesquisas e novidades da comunidade serão divulgados por newsletter

Organização responsável e escopo da abertura

Apertus é um modelo fundacional desenvolvido pela Swiss AI Initiative
- Swiss AI Initiative é uma colaboração entre EPFL, ETH Zurich e CSCS
O escopo da abertura inclui dados de treinamento, código, pesos, metodologia e princípios de alinhamento
Os elementos divulgados são documentados e buscam ser reproduzíveis
O Apertus enfatiza seu caráter de modelo aberto com a frase “Open em IA é como Source”

Conformidade regulatória e características do modelo

O modelo foi construído para atender aos requisitos do EU AI Act
- Respeita o opt-out
- Remove PII
- Evita memorização
Destaca desempenho competitivo com os principais modelos abertos de porte equivalente em 8B e 70B parâmetros
O suporte multilíngue foi incluído desde o início, com treinamento em mais de 1.000 idiomas

Parceria e notícias da comunidade

Swisscom é parceira estratégica da Swiss AI Initiative
A newsletter trará lançamentos do Apertus, pesquisas da equipe e notícias da comunidade

1 comentários

GN⁺ 4 시간 전

Comentários no Hacker News

Entre os LLMs totalmente abertos, também há o OLMo 3.1 da Allen AI e o K2 Think V2 da MBZUAI, e ambos divulgaram todo o pipeline de treinamento e os conjuntos de dados
O Nvidia Nemotron também é um modelo de treinamento aberto, mas parte do dataset é proprietária
Citando um comentário do lambda, os modelos Nemotron em geral são mais fortes que o Olmo e o K2 Think V2 (segundo o benchmark da Artificial Analysis), e os datasets também se sobrepõem bastante. Vários datasets foram criados a partir das mesmas fontes, apenas com filtros diferentes, e o Olmo e o K2 Think V2 também usaram parte dos datasets do Nemotron
O Nemotron é um LLM moderno e bastante capaz, e o modelo 122b também é mais forte que o Deepseek R1 (modelo 671b) na maioria dos benchmarks, e recentemente saiu também o 550b Ultra
https://news.ycombinator.com/item?id=48492439
- A Allen AI não está recebendo atenção suficiente. Na minha opinião, a IA generativa deveria ter sido construída assim desde o começo
  Se as empresas de ponta tivessem adotado essa abordagem, o início teria sido muito mais lento, mas em 2035 provavelmente estaríamos muito mais avançados do que estamos agora. Em vez disso, agora grande parte da sociedade torce para que a IA fracasse
- Estou pensando em testar o Nemotron de novo. Ontem usei o modelo mais recente no OpenRouter e achei ruim, até pior que o StepFun
Gosto da ideia, e a necessidade de todo mundo fora dos EUA pensar em soberania tecnológica também aumentou. Isso porque os EUA deixaram de ser um lugar seguro para armazenar dados
Ainda assim, o Apertus dá a sensação de se mover na velocidade de um comitê, então não espero que entregue um modelo competitivo. Pelo menos parece difícil competir com os modelos atuais; talvez pudesse competir com os de um ano atrás, mas parece que ainda nem isso conseguiu
- Concordo com a frase “os EUA deixaram de ser um lugar seguro para armazenar dados”, mas fico me perguntando por que outros países seriam um refúgio de dados melhor
  Pessoalmente gosto da abordagem da UE para proteção de dados, mas queria saber se você tinha em mente outra região ou outro mecanismo de proteção capaz de manter os dados “seguros”
Acho que a analogia com Linux também não se aplica aqui. Isso é maior do que isso e representa uma ameaça direta aos laboratórios comerciais de IA e ao seu modelo de negócios
Esses laboratórios vêm requentando vários artigos fundamentais há anos, e o fim parece estar próximo
Daqui para frente, modelos open source, com dados abertos e receitas abertas, podem se tornar o centro, e algum dia não só a inferência, mas também o treinamento poderá ser terceirizado coletivamente no estilo BitTorrent
Por fim, os modelos chineses (GLM, Deepseek, MiMax) também funcionam muito bem, e quem usa esses modelos dirá que não sente falta nenhuma de OpenAI/Anthropic/Gemini. Nesse caso, isso é base suficiente para dizer que, se existirem esses modelos abertos, também não haverá motivo para sentir falta dos modelos chineses
Para um modelo que diz focar em vários idiomas, ele é bastante instável em perguntas simples como “como se diz X no idioma Y” ou “como se conjuga o verbo X no idioma Y”
Ele continua alucinando palavras que não existem e, mesmo quando corrigido, inventa novas mentiras
- Provavelmente há uma boa chance de ele nem saber a que idioma cada conjunto de palavras se refere
  Não parece que tenham colocado muitos dados de treinamento com rótulos de idioma
  “Como se diz X no idioma Y” é uma tarefa diferente de dizer X no idioma Y
O modelo de instrução deles parece um fine-tuning do Llama3.1 do ano passado. Fico curioso se houve progresso no modelo novo
Minha última esperança para a IA soberana está nos modelos abertos chineses
- IA soberana não é uma questão de usar um único modelo. É usar o modelo adequado para a tarefa e fazer vários modelos discutirem a solução entre si antes de dar uma resposta
  Se você quiser misturar modelos desse jeito, vale ver https://github.com/deepbluedynamics/nemesis8
De longe, o produto mais impactante do projeto Apretus são as pessoas. Citando uma frase memorável de Dominique Paul(https://www.thisiscrispin.com/), o ponto que a maioria ignora é que esta equipe não é a quarta equipe a fazer a mesma coisa, como quase todos os outros provedores de LLM, nem é uma equipe que pôde aprender com sua própria experiência passada
Acho que, se essa equipe treinar um modelo mais uma vez, poderá reduzir o custo a um quarto e obter resultados muito melhores
A licença é bem interessante, mas não sei quem seguirá esse caminho no longo prazo
Os dados de treinamento e o Apertus LLM podem conter ou gerar informações que se refiram direta ou indiretamente a uma pessoa identificável (dados pessoais). O usuário trata dados pessoais como controlador independente, de acordo com a legislação de proteção de dados aplicável
A SNAI, como desenvolvedora do Apertus LLM, fornecerá periodicamente para download um arquivo de hash refletindo os pedidos de exclusão por proteção de dados recebidos, e o usuário poderá aplicá-lo como filtro de saída. Isso permite remover dados pessoais contidos na saída do modelo, e recomenda-se fortemente que, a cada 6 meses após o lançamento do modelo, esse filtro de saída seja baixado e aplicado a partir da SNAI
A versão anterior deste modelo era bem ruim, mas dizia cumprir a lei de direitos autorais. Só que testei pessoalmente e isso também não era verdade, então considero totalmente inútil
- Desde que a condição a seguir seja verdadeira, este lançamento contribui mais para a ciência em geral do que a maioria dos modelos treinados “a portas fechadas”
  Modelo totalmente aberto: pesos abertos + dados abertos + detalhes completos do treinamento, incluindo todos os dados e a receita de treinamento
- Usa fineweb, que é derivado do Common Crawl, e o Common Crawl coleta páginas da web sem permissão
- Fiquei curioso sobre como você testou isso. Pode explicar? Havia um conjunto de fatos fragmentados que deveriam estar protegidos por direitos autorais, e você verificou se o modelo somehow gerava literalmente a obra completa?
Fico curioso sobre como a comunidade vê a IA soberana financiada por governos do mundo todo
Por que enfatizar “soberana”? Se é aberta, isso não basta?

Apertus, um modelo fundacional aberto para IA soberana

Organização responsável e escopo da abertura

Conformidade regulatória e características do modelo

Parceria e notícias da comunidade

Leituras relacionadas

1 comentários

Comentários no Hacker News