- EuroLLM é um modelo de linguagem de grande porte (LLM) com suporte aos 24 idiomas oficiais da UE, desenvolvido em conjunto por instituições de pesquisa europeias, com foco em soberania de IA e autonomia tecnológica na Europa
- Como um modelo de 9B parâmetros, foi treinado com mais de 4 trilhões de tokens em 35 idiomas e demonstra força em tarefas linguísticas como perguntas e respostas, resumo e tradução
- O EuroLLM 9B Base foi disponibilizado para fine-tuning, enquanto o EuroLLM 9B Instruct é a versão com capacidade de seguir instruções em conversas e pode ser usado no Hugging Face
- O projeto conta com a participação de importantes instituições europeias, como Unbabel, University of Edinburgh, Técnico Lisboa e Naver Labs Europe, e foi treinado no supercomputador MareNostrum 5
- O objetivo é se consolidar como infraestrutura central do ecossistema de inovação em IA na Europa, anunciando expansão multimodal (imagem e voz) e uma política de abertura total em open source
Visão geral do EuroLLM
- O EuroLLM é um modelo de linguagem de grande porte (Local LLM) desenvolvido na Europa, com suporte a todos os 24 idiomas oficiais da UE
- Foi projetado como um modelo de IA de infraestrutura pública, para que cidadãos, empresas e pesquisadores europeus possam usá-lo sem barreiras linguísticas
- Foi desenvolvido com apoio de Horizon Europe, European Research Council e EuroHPC, da União Europeia
- O treinamento foi realizado no supercomputador MareNostrum 5
Características técnicas
- EuroLLM 9B: modelo com 9 bilhões de parâmetros, treinado com dados de 4 trilhões de tokens em 35 idiomas
- O modelo Base é voltado para fine-tuning pelos usuários, enquanto o modelo Instruct possui capacidade de seguir instruções em conversas
- Principais recursos:
- Otimizado para desempenho em processamento multilíngue de linguagem natural, como perguntas e respostas, resumo e tradução
- Expansão multimodal planejada — no futuro, deve adicionar compreensão de imagens e voz
- Com distribuição open source, pode ser usado livremente por pesquisadores, instituições e cidadãos em geral
Instituições participantes e rede de colaboração
- Instituições participantes:
- Unbabel, Instituto Superior Técnico, University of Edinburgh, Université Paris-Saclay, Aveni.ai, Sorbonne University, Naver Labs Europe, University of Amsterdam
- Principais pesquisadores:
- André Martins (Unbabel, professor do Instituto Superior Técnico em Lisboa) — especialista em machine learning e processamento de linguagem natural
- Alexandra Birch (Aveni.ai, professora em Edinburgh) — liderança em pesquisa de tradução multilíngue e IA ética
- Pierre Colombo (Université Paris-Saclay) — pesquisa em segurança de IA e aplicações jurídicas de IA
Missão e visão
- O objetivo do EuroLLM é garantir a soberania europeia em IA e promover o avanço das tecnologias multilíngues
- Por meio de um LLM desenvolvido de forma independente na Europa, busca criar um ciclo virtuoso de inovação (flywheel for innovation)
- Apoia pesquisadores e empresas para que possam expandir novos serviços e pesquisas com base em modelos de IA europeus
- A proposta é fortalecer a liderança tecnológica baseada na diversidade linguística da Europa e
construir um modelo de inovação autônoma no ecossistema global de IA
1 comentários
Comentários do Hacker News
A União Europeia tem 24 idiomas oficiais ao todo: búlgaro, croata, tcheco, dinamarquês, neerlandês, inglês, estoniano, finlandês, francês, alemão, grego, húngaro, irlandês, italiano, letão, lituano, maltês, polonês, português, romeno, eslovaco, esloveno, espanhol e sueco
O maltês é o único idioma afro-asiático, e húngaro, finlandês e estoniano pertencem à família urálica. Os demais são indo-europeus; o grego é helênico, e o irlandês pertence à família celta
Talvez seja preciso retreinar o modelo
O principal contributo deste trabalho parece ser o cuidado detalhado com as fontes dos dados de treinamento
Parece que os formuladores de políticas da Europa não fazem ideia de como fomentar indústrias intensivas em tecnologia. Esse modelo de subsídio de “escolher vencedores” está fadado ao fracasso. A discussão sobre acesso aos supercomputadores europeus também é interessante. Tweet relacionado
Mas, na prática, a maior limitação que empresas europeias enfrentam não é regulação, e sim acesso a capital.
A China, aliás, prosperou na indústria de software mesmo com regulações mais pesadas. A Coreia também se beneficiou do protecionismo.
O que a Europa deveria aprender é mais protecionismo tecnológico. Pieter Levels, no fim das contas, é só um influenciador, não um fundador sério
Nos EUA há muitos fundadores vindos da FAANG, mas a Europa não tem um ecossistema assim.
Mesmo que o projeto de supercomputadores fracasse, talvez o objetivo sejam os efeitos econômicos colaterais
Está faltando “(2024)” no título. O modelo 9B foi lançado em dezembro do ano passado. Página oficial
A equipe do EuroLLM inclui grandes instituições europeias como Unbabel, Instituto Tecnico Lisbon, University of Edinburgh e Naver Labs.
A Europa opera uma rede pública de supercomputadores por meio do EuroHPC JU e, segundo disseram, começaram a desenvolver o modelo assim que receberam acesso. História oficial
Na prática, reaproveitaram recursos computacionais destinados a simulações físicas
Hoje em dia a maioria dos modelos de fronteira já não é multilíngue? Não acho que seja necessário acrescentar suporte por idioma separadamente
É uma pena que o corpus realmente usado não tenha sido divulgado. Em línguas minoritárias como o irlandês, provavelmente a maior parte deve vir de documentos legais, e quase não deve haver dados coloquiais.
Seria interessante fazer avaliações por idioma com base no julgamento de falantes nativos.
LLMs podem ter um impacto positivo em línguas ameaçadas de extinção, mas antes disso também há riscos (por exemplo, o caso da Wikipédia em gaélico escocês).
Ainda assim, no geral, parece uma boa tentativa
O EuroLLM-9B é um modelo lançado em dezembro de 2024 e, no MMLU-Pro, marcou 17,6%, um pouco acima do aleatório.
Para uma tabela comparativa com outros modelos da UE, veja aqui
Fico me perguntando por que só EUA e China estão lançando modelos excelentes. Fora a francesa Mistral, quase não há modelos europeus. Índia, Japão e Coreia parecem estar em situação parecida
Tem 1,3x a população dos EUA e 75% do PIB, mas sua indústria de tecnologia é só uma fração minúscula da americana.
As 7 maiores big techs dos EUA são 20 vezes maiores que as 7 maiores empresas da Europa e faturam 10 vezes mais. Link de referência
Por isso depende de financiamento acadêmico como o Horizon, mas esse tipo de colaboração dificilmente vira produto
Para baixar o modelo EuroLLM-9B no Hugging Face, é preciso concordar em fornecer dados de contato. Fico curioso se esse tipo de exigência é comum
É interessante que um modelo 9B esteja recebendo atenção. Mas o modelo TildeOpen-30B, lançado há dois meses e com suporte a 19 idiomas europeus, quase não foi mencionado. Página do modelo
O desempenho-base é baixo, mas é um modelo aberto com grande potencial de fine-tuning