3 pontos por GN⁺ 2025-10-29 | 1 comentários | Compartilhar no WhatsApp
  • EuroLLM é um modelo de linguagem de grande porte (LLM) com suporte aos 24 idiomas oficiais da UE, desenvolvido em conjunto por instituições de pesquisa europeias, com foco em soberania de IA e autonomia tecnológica na Europa
  • Como um modelo de 9B parâmetros, foi treinado com mais de 4 trilhões de tokens em 35 idiomas e demonstra força em tarefas linguísticas como perguntas e respostas, resumo e tradução
  • O EuroLLM 9B Base foi disponibilizado para fine-tuning, enquanto o EuroLLM 9B Instruct é a versão com capacidade de seguir instruções em conversas e pode ser usado no Hugging Face
  • O projeto conta com a participação de importantes instituições europeias, como Unbabel, University of Edinburgh, Técnico Lisboa e Naver Labs Europe, e foi treinado no supercomputador MareNostrum 5
  • O objetivo é se consolidar como infraestrutura central do ecossistema de inovação em IA na Europa, anunciando expansão multimodal (imagem e voz) e uma política de abertura total em open source

Visão geral do EuroLLM

  • O EuroLLM é um modelo de linguagem de grande porte (Local LLM) desenvolvido na Europa, com suporte a todos os 24 idiomas oficiais da UE
    • Foi projetado como um modelo de IA de infraestrutura pública, para que cidadãos, empresas e pesquisadores europeus possam usá-lo sem barreiras linguísticas
  • Foi desenvolvido com apoio de Horizon Europe, European Research Council e EuroHPC, da União Europeia
    • O treinamento foi realizado no supercomputador MareNostrum 5

Características técnicas

  • EuroLLM 9B: modelo com 9 bilhões de parâmetros, treinado com dados de 4 trilhões de tokens em 35 idiomas
    • O modelo Base é voltado para fine-tuning pelos usuários, enquanto o modelo Instruct possui capacidade de seguir instruções em conversas
  • Principais recursos:
    • Otimizado para desempenho em processamento multilíngue de linguagem natural, como perguntas e respostas, resumo e tradução
    • Expansão multimodal planejada — no futuro, deve adicionar compreensão de imagens e voz
    • Com distribuição open source, pode ser usado livremente por pesquisadores, instituições e cidadãos em geral

Instituições participantes e rede de colaboração

  • Instituições participantes:
    • Unbabel, Instituto Superior Técnico, University of Edinburgh, Université Paris-Saclay, Aveni.ai, Sorbonne University, Naver Labs Europe, University of Amsterdam
  • Principais pesquisadores:
    • André Martins (Unbabel, professor do Instituto Superior Técnico em Lisboa) — especialista em machine learning e processamento de linguagem natural
    • Alexandra Birch (Aveni.ai, professora em Edinburgh) — liderança em pesquisa de tradução multilíngue e IA ética
    • Pierre Colombo (Université Paris-Saclay) — pesquisa em segurança de IA e aplicações jurídicas de IA

Missão e visão

  • O objetivo do EuroLLM é garantir a soberania europeia em IA e promover o avanço das tecnologias multilíngues
    • Por meio de um LLM desenvolvido de forma independente na Europa, busca criar um ciclo virtuoso de inovação (flywheel for innovation)
    • Apoia pesquisadores e empresas para que possam expandir novos serviços e pesquisas com base em modelos de IA europeus
  • A proposta é fortalecer a liderança tecnológica baseada na diversidade linguística da Europa e
    construir um modelo de inovação autônoma no ecossistema global de IA

1 comentários

 
GN⁺ 2025-10-29
Comentários do Hacker News
  • A União Europeia tem 24 idiomas oficiais ao todo: búlgaro, croata, tcheco, dinamarquês, neerlandês, inglês, estoniano, finlandês, francês, alemão, grego, húngaro, irlandês, italiano, letão, lituano, maltês, polonês, português, romeno, eslovaco, esloveno, espanhol e sueco
    O maltês é o único idioma afro-asiático, e húngaro, finlandês e estoniano pertencem à família urálica. Os demais são indo-europeus; o grego é helênico, e o irlandês pertence à família celta

    • Para ser mais preciso, o maltês é uma língua semítica (Semitic). Ver Wikipédia
    • Na eleição geral dos Países Baixos amanhã, dois partidos propuseram adicionar o frísio à lista de idiomas oficiais. Artigo relacionado
      Talvez seja preciso retreinar o modelo
    • Eu consigo ler, escrever e falar maltês. Se tiverem qualquer curiosidade sobre o idioma, podem perguntar
    • Lituano e letão são línguas bálticas. Não têm relação com as línguas eslavas
    • Pelo artigo, o modelo não se limita a esses 24 idiomas. Também inclui árabe, catalão, chinês, hindi, japonês, coreano, norueguês, russo, turco, ucraniano etc. PDF do artigo
      O principal contributo deste trabalho parece ser o cuidado detalhado com as fontes dos dados de treinamento
  • Parece que os formuladores de políticas da Europa não fazem ideia de como fomentar indústrias intensivas em tecnologia. Esse modelo de subsídio de “escolher vencedores” está fadado ao fracasso. A discussão sobre acesso aos supercomputadores europeus também é interessante. Tweet relacionado

    • O processo de subsídios da UE não é exatamente divertido, mas o Levels parece ter um certo excesso de autoconfiança. Como influenciador, ele monetiza bem, mas não acho apropriado usar supercomputadores financiados pelo Estado para rodar um jogo de navegador baseado em anúncios
    • O que realmente importa é a Europa criar um ambiente favorável a startups de IA. O prioritário seria aliviar regulações e oferecer benefícios fiscais.
      Mas, na prática, a maior limitação que empresas europeias enfrentam não é regulação, e sim acesso a capital.
      A China, aliás, prosperou na indústria de software mesmo com regulações mais pesadas. A Coreia também se beneficiou do protecionismo.
      O que a Europa deveria aprender é mais protecionismo tecnológico. Pieter Levels, no fim das contas, é só um influenciador, não um fundador sério
    • Fico curioso para saber que resultados essa estratégia de “escolher vencedores” realmente produz
    • Fico na dúvida se o objetivo dessas políticas é mesmo “escolher vencedores” ou fortalecer a capacidade dos fundadores e estimular a economia.
      Nos EUA há muitos fundadores vindos da FAANG, mas a Europa não tem um ecossistema assim.
      Mesmo que o projeto de supercomputadores fracasse, talvez o objetivo sejam os efeitos econômicos colaterais
    • As pessoas são complacentes demais com ele. Muita gente nem sabe quem é “levelsio”, então fico me perguntando por que todo mundo age como se conhecesse
  • Está faltando “(2024)” no título. O modelo 9B foi lançado em dezembro do ano passado. Página oficial

  • A equipe do EuroLLM inclui grandes instituições europeias como Unbabel, Instituto Tecnico Lisbon, University of Edinburgh e Naver Labs.
    A Europa opera uma rede pública de supercomputadores por meio do EuroHPC JU e, segundo disseram, começaram a desenvolver o modelo assim que receberam acesso. História oficial
    Na prática, reaproveitaram recursos computacionais destinados a simulações físicas

  • Hoje em dia a maioria dos modelos de fronteira já não é multilíngue? Não acho que seja necessário acrescentar suporte por idioma separadamente

    • Mas o ponto central deste modelo é ter sido treinado com dados oficiais da UE
    • Não basta haver exemplos da língua; a proporção de dados de cada idioma importa. Como há muito mais dados em inglês, o desempenho nas outras línguas cai
    • O método de treinamento é diferente. No caso do japonês, muitas vezes o desempenho é ruim por causa de problemas de tokenização
    • Em idiomas que não sejam inglês, muitas vezes o texto soa como uma tradução pouco natural. Usuários de francês frequentemente apontam frases malformadas
    • Os governos europeus possuem uma enorme quantidade de material digital e dados culturais. Essas diferenças culturais também podem influenciar os valores do modelo
  • É uma pena que o corpus realmente usado não tenha sido divulgado. Em línguas minoritárias como o irlandês, provavelmente a maior parte deve vir de documentos legais, e quase não deve haver dados coloquiais.
    Seria interessante fazer avaliações por idioma com base no julgamento de falantes nativos.
    LLMs podem ter um impacto positivo em línguas ameaçadas de extinção, mas antes disso também há riscos (por exemplo, o caso da Wikipédia em gaélico escocês).
    Ainda assim, no geral, parece uma boa tentativa

  • O EuroLLM-9B é um modelo lançado em dezembro de 2024 e, no MMLU-Pro, marcou 17,6%, um pouco acima do aleatório.
    Para uma tabela comparativa com outros modelos da UE, veja aqui

  • Fico me perguntando por que só EUA e China estão lançando modelos excelentes. Fora a francesa Mistral, quase não há modelos europeus. Índia, Japão e Coreia parecem estar em situação parecida

    • Não é surpreendente. A Europa vem ficando para trás de forma consistente em competitividade tecnológica.
      Tem 1,3x a população dos EUA e 75% do PIB, mas sua indústria de tecnologia é só uma fração minúscula da americana.
      As 7 maiores big techs dos EUA são 20 vezes maiores que as 7 maiores empresas da Europa e faturam 10 vezes mais. Link de referência
    • A Europa tem pouco acesso a capital e um mercado fragmentado.
      Por isso depende de financiamento acadêmico como o Horizon, mas esse tipo de colaboração dificilmente vira produto
    • Treinar modelos de fronteira exige uma enorme estrutura de capital. Só EUA e China conseguem levantar dezenas de bilhões de dólares
    • A UE produziu uma lei de IA de 900 páginas e se parabenizou por isso, enquanto a China já tinha colocado antes em prática uma lei de duas páginas
    • Na verdade, o valor comercial desses modelos ainda não foi comprovado. A maioria segue operando com contratos governamentais ou dinheiro de investidores
  • Para baixar o modelo EuroLLM-9B no Hugging Face, é preciso concordar em fornecer dados de contato. Fico curioso se esse tipo de exigência é comum

    • Já vi isso em alguns modelos. Por exemplo, Llama 3.1-8B-Instruct também tem um procedimento parecido
    • Sim, é um procedimento bastante comum
  • É interessante que um modelo 9B esteja recebendo atenção. Mas o modelo TildeOpen-30B, lançado há dois meses e com suporte a 19 idiomas europeus, quase não foi mencionado. Página do modelo
    O desempenho-base é baixo, mas é um modelo aberto com grande potencial de fine-tuning