Os 2 petabytes de armazenamento flash da Huawei na Noruega e o treinamento de LLMs
(blocksandfiles.com)- A Biblioteca Nacional da Noruega está usando 2 PB de armazenamento flash Huawei OceanStor Dorado no pipeline de treinamento de IA para construir um LLM soberano que entenda norueguês
- Como provedores comerciais de LLM não estão criando modelos locais em norueguês, LLMs centrados no inglês têm dificuldade para lidar adequadamente com história, notícias e cultura registradas em idiomas regionais
- Desde 2005, a Biblioteca Nacional vem digitalizando livros, jornais, páginas da web, áudio e vídeo, acumulando 20 PB de dados próprios e armazenando cerca de 60 PB no modelo 3-2-1
- O gargalo está menos na computação e mais em qualidade dos dados, limpeza e throughput de processamento; os dados são preparados internamente em DGX H200, cluster de CPU e flash da Huawei, e depois o treinamento roda no Sigma2 Olivia
- O arquivo de preservação e o pipeline de IA têm exigências diferentes — durabilidade e custo versus baixa latência e I/O paralelo — e um LLM soberano também exige capacidade de gestão e preservação
Projeto de LLM soberano da Biblioteca Nacional da Noruega
- A Biblioteca Nacional da Noruega (Nasjonalbiblioteket) está desenvolvendo um grande modelo de linguagem (LLM) que entende norueguês e usa 2 PB de armazenamento flash Huawei OceanStor Dorado no pipeline de dados para treinamento de IA
- Marius Husnes, responsável pela plataforma de TI da Biblioteca Nacional, afirmou no Huawei ID Forum 2026 Paris que provedores comerciais de LLM não estão desenvolvendo LLMs em idiomas regionais noruegueses
- Países sem um LLM soberano treinado em seu próprio idioma acabam dependendo de LLMs treinados com dados globais e centrados no inglês, e esses modelos têm dificuldade para compreender história, notícias e cultura registradas em idiomas locais
- O Ministério da Cultura da Noruega encarregou a Biblioteca Nacional de construir uma IA soberana, isto é, um LLM, e a instituição possui a maior coleção digital de livros, jornais e páginas da web da Noruega
- A Biblioteca Nacional tem o direito de receber cópias de todos os livros publicados e conteúdos de radiodifusão, e o depósito legal foi ampliado para além dos livros, assumindo o papel de coletar e preservar todo o patrimônio cultural norueguês
- Graças a acordos com jornais noruegueses, até conteúdo protegido por direitos autorais pode ser usado no treinamento do LLM, e Husnes disse: “empresas privadas não têm isso”
Volume de dados e base de digitalização
- A Biblioteca Nacional vem digitalizando seu acervo desde 2005 e acumulou 20 PB de dados próprios
- Esses dados são armazenados no modelo 3-2-1
- 3 cópias
- 2 tipos de mídia
- 1 cópia armazenada fora do local
- Por causa dessa estrutura, o volume total armazenado chega a cerca de 60 PB
- O material digitalizado inclui texto original, áudio, vídeo, imagens estáticas e conteúdo da web
- O processo de digitalização gerou muitos escaneamentos com OCR, além de grande volume de metadados e APIs para acesso online
- A maior parte dos dados fica em um sistema de preservação composto por discos e arquivo em fita digital
O problema de mover dados do arquivo para o pipeline de IA
- O principal desafio é transferir os dados do sistema de preservação para o sistema de treinamento do LLM
- O gargalo não está na computação, mas em qualidade dos dados, limpeza e throughput do pipeline
- O processamento é dividido entre a preparação dos dados no ambiente computacional interno da Biblioteca Nacional e a execução efetiva do treinamento no supercomputador nacional
- O ambiente interno é composto pelos seguintes equipamentos
- sistemas Nvidia DGX H200
- cluster de CPU com 384 núcleos
- vários arrays all-flash Huawei OceanStor Dorado, totalizando 2 PB de flash
- O armazenamento flash da Huawei é usado como armazenamento de baixa latência para o pipeline de dados e a preparação para o treinamento
- O pipeline inclui etapas de coleta de dados, limpeza, remoção de duplicatas, normalização de formato, validação e preparação
Ambiente de execução do treinamento: Sigma2 Olivia
- Depois de passar pelo pipeline, os dados são enviados ao sistema Olivia da Sigma2, o supercomputador nacional da Noruega, para a execução efetiva do treinamento
- O Olivia é um sistema HPE Cray Supercomputing EX
- Sua configuração inclui
- 448 GPUs
- 64.512 núcleos de CPU
- sistema de armazenamento Cray ClusterStor E1000 de 5,3 PB
- O ambiente de IA on-premise da Biblioteca Nacional prepara os dados, e o Olivia fica responsável pela execução do treinamento
Requisitos de armazenamento diferentes
- O arquivo de preservação e o armazenamento do pipeline de IA têm requisitos diferentes
- O sistema de preservação de 60 PB é otimizado para durabilidade e custo, não para I/O rápido
- O sistema de preservação foi projetado para acessos pouco frequentes e, por isso, tem alta latência de leitura
- O armazenamento do pipeline de IA foi projetado para alto throughput, baixa latência e I/O paralelo de dados
- A equipe precisou descobrir por conta própria como mover e processar conjuntos de dados em escala de PB do arquivo para o pipeline de dados de IA
Desafios ainda em aberto
-
Avaliação
- Não existem ferramentas padrão de avaliação para avaliar um LLM soberano em norueguês
- O norueguês tem duas formas escritas, além de vários dialetos e mudanças históricas
- A equipe da Biblioteca Nacional está construindo suas próprias ferramentas de avaliação
-
Governança
- Ainda é preciso decidir quem controlará o acesso ao LLM soberano
- Também é um desafio definir quem decidirá para que o LLM soberano poderá ser usado
- Essas são questões institucionais e políticas, sem respostas fáceis
-
Orquestração
- O trabalho para fazer funcionar em conjunto, de forma fluida, os três sistemas — arquivo de preservação, ambiente de IA on-premise e supercomputador nacional Sigma2 — ainda está em andamento
Significado e conclusão
- O armazenamento da Huawei está desempenhando um papel importante e prático no mercado europeu
- Para países que querem desenvolver LLMs soberanos em idiomas regionais, pode ser útil conversar com Husnes e entender o trabalho necessário
- A Noruega é apresentada como um pequeno país lidando com problemas que qualquer país não anglófono enfrentará
- A pergunta central é como construir uma IA que reflita seu próprio idioma, cultura e história
- A IA precisa não apenas de construtores, mas também de gestores e guardiões
1 comentários
Comentários do Hacker News
Como norueguês, uso a Biblioteca Nacional quase todos os dias para pesquisar texto
A interface e as funcionalidades para buscar em um volume enorme de texto são realmente de altíssimo nível
Uma parte considerável só pode ser acessada a partir de IPs da Noruega, então um dos principais motivos de eu manter uma VPN, mesmo morando no Reino Unido e sendo norueguês, é esse. Outra parte só pode ser acessada a partir de IPs de bibliotecas ou instituições de pesquisa, mas ainda assim há uma quantidade enorme de material disponível publicamente
Fico me perguntando o quanto esta afirmação é verdadeira: “Se um país com seu próprio idioma não tiver um LLM soberano treinado nesse idioma, ele fica em desvantagem. Isso porque LLMs anglófonos treinados com materiais do mundo todo não conhecem a história, as notícias e a cultura desse país descritas no idioma local”
Eu achava que os grandes players já treinavam com praticamente todo material acessível, independentemente do idioma ou da qualidade, então essa visão soa como algo formado no início da era dos LLMs generalistas
Não vejo por que gastar tanto para treinar um modelo próprio, especialmente se ele provavelmente será inferior aos modelos de ponta
Por causa de genealogia, eu encontro com frequência materiais ali usando busca por palavras-chave comuns, e aparecem coisas que nem os mecanismos de busca nem os modelos de linguagem conhecem
Claro, as informações que me interessam em geral acabam publicadas em algum lugar que a IA possa rastrear, mas levaria muito tempo para extrair tudo que há de interessante ali dentro
Todos os modelos com que falei em sueco lidaram com isso perfeitamente. Acho bem provável que com norueguês já seja a mesma coisa
Também seria interessante ver a aplicação de experimentos como https://arxiv.org/pdf/2507.22445
O desempenho pode ser quase o mesmo ou às vezes até melhor. Ainda assim, padrões do inglês podem se infiltrar sutilmente em padrões nativos de outros idiomas
Em idiomas de baixo recurso é um problema totalmente diferente, mas para melhorar isso é preciso mais dados, não um modelo novo
“O sistema Olivia é um sistema HPE Cray Supercomputing EX, com 448 GPUs e 64.512 núcleos de CPU”
Querer treinar um LLM soberano com um hardware tão modesto, em vez de aplicar LoRA sobre um modelo open source, parece um grande erro e um sinal de alerta
Eles claramente não têm recursos para treinar um LLM completo, então afirmar que esse é o objetivo passa a impressão de que não existe intenção real de tornar esse LLM útil na prática. Aí fica a pergunta: por que e com o dinheiro de quem isso está sendo desperdiçado?
Ou seja, internalizar dentro da organização o conhecimento necessário para construir LLMs
No papel, a Biblioteca Nacional é a entidade principal, mas, segundo a matéria, ela parece ter sido escolhida por possuir e poder usar legalmente materiais em norueguês para esse objetivo. Pesquisadores de instituições relacionadas, como universidades, também devem participar do processo
Dito isso, não acho que estejam mirando em algo realmente valioso. Aqueles modelos ajustados estavam bem quebrados e pareciam mais uma etapa para estabelecer metodologia. Não tenho certeza de que seja superútil, mas também não cabe a mim decidir o que alguém faz com verba de pesquisa
Um modelo ajustado que usei zombava com frequência de pessoas expressando emoções no chat
Outro modelo ajustado, mesmo quando eu escrevia apenas “hei”, alucinava que eu era médico e dizia toda vez que meu bebê tinha uma doença terrível. É bem possível que um prompt de sistema comum e neutro tenha causado esse comportamento
Acho que o Olivia é grande o suficiente para o uso pretendido. Neste momento, parece melhor acompanhar as tendências atuais sem desperdiçar dinheiro demais com hardware
Um corpus em norueguês talvez não exija um cluster tão grande, e, se exigir, isso provavelmente já seria o melhor que a biblioteca pode fazer. Entre os investimentos em modelos noruegueses, isso muito provavelmente está entre os maiores
Modelos de altíssimo nível talvez não consigam acessar a qualidade de conteúdo que a biblioteca nacional possui. A matéria também menciona licenças com jornais, além do próprio arquivo da biblioteca
Como inglês e norueguês não são idiomas tão próximos dentro da mesma família, talvez LoRA não seja a melhor abordagem
Fico curioso se existe pesquisa pública sobre o quanto a localização baseada em LoRA funciona bem dependendo de quão distante a gramática e o vocabulário do idioma-alvo estão do inglês
Projetos assim normalmente não têm um único objetivo; não se trata só de criar um modelo de ponta, mas também de formar e treinar talentos locais, como quando uma universidade lança um satélite
Se eles criarem seu próprio modelo de embeddings, indexarem toda a biblioteca e depois treinarem o modelo para consultar esses dados ao responder perguntas sobre história, cultura, direito e estratégia a partir de uma perspectiva nacional, isso tem bastante potencial de ser interessante e útil
Não vai superar a Anthropic em gerar código React, mas também não há motivo para tentar copiar isso
Já experimentaram tanto ajuste fino quanto treinamento do zero com vários modelos abaixo de 10 bilhões de parâmetros e, da última vez que vi, o treinamento do zero capturava melhor o idioma
Será que não seria melhor a Noruega, em vez disso, ou em paralelo, montar datasets de treinamento e compartilhá-los gratuitamente com todos os criadores de modelos?
Isso parece um jeito melhor, ou complementar, de atingir o objetivo de fazer com que os modelos de ponta conheçam o norueguês e sua cultura
Por exemplo, pedi ao Claude para explicar o romance de 1911 “De knyttede næver” usando a ortografia norueguesa da época de 1911, e ele fez isso bem
O que falta é compreensão de literatura, cultura e história norueguesas. “De knyttede næver” foi um dos romances noruegueses de nível best-seller na época do lançamento, mas o Claude só conseguiu produzir algo depois de pesquisar a obra. O ChatGPT se saiu melhor e, especialmente no modo de raciocínio, deu um resumo detalhado
Hoje não é uma obra amplamente conhecida, mas o autor foi um jornalista renomado por décadas, e essa série é conhecida o bastante para existir um cantor norueguês cujo nome artístico vem do nome do protagonista. Além disso, por causa das posições políticas do autor e da influência delas no romance, a obra foi discutida por décadas em jornais e livros noruegueses, então parece um teste bastante razoável e que revela uma lacuna de conhecimento considerável
Concordo que seria melhor tornar o dataset da Biblioteca Nacional mais acessível. Ainda assim, o grande elemento adicional aqui parece ser que eles fecharam um acordo para poder treinar com material protegido por direitos autorais, preso em arquivos e com restrições de uso
Mesmo assim, divulgar ao menos os dados em domínio público do acervo já seria um excelente ponto de partida
É muito melhor manter acordos legais com instituições estatais e desenvolver algo que de fato seja útil para o próprio país
Quando Marius Husnes diz que “fornecedores comerciais de LLM não estão desenvolvendo LLMs locais em norueguês, e países sem um LLM soberano treinado em sua própria língua ficam em desvantagem”, não tenho tanta confiança de que ele saiba exatamente do que está falando aqui
LLMs orientados ao inglês são mais fortes em inglês porque o espaço de tokens é alocado de forma mais compacta para o inglês. Se você pegar um tokenizador online que chama a API da Anthropic e inserir palavras comuns em inglês e em norueguês, o inglês normalmente dá um token ou menos, enquanto o norueguês muitas vezes vira 2 a 4 tokens, às vezes até mais. Idiomas como o tailandês ficam enormemente em desvantagem
A escolha do corpus também costuma pender bastante para a língua-alvo. Dá mais trabalho obter obras nesse idioma
Por causa da influência mútua entre embeddings semanticamente parecidos entre línguas, o espaço vetorial também ganha uma linha de base cultural e outros vieses de significado. Por fim, o fine-tuning afeta bastante a expressão cultural de um LLM. Esses efeitos não são pequenos
Há muitos esforços para criar modelos de linguagem com línguas em desaparecimento e modelos interculturais, mas, no caso de uma língua com uma base de letramento sólida, há bons motivos para construir um LLM legado especializado em sua própria língua e cultura. Esperar que OpenAI ou Anthropic priorizem a sua língua em vez do cliente-alvo delas na hora da decisão é absurdo
A voz nativa, o estilo e a atitude são americanos
Assim como não dá para depender da Netflix e da HBO, mesmo que hoje elas produzam séries escandinavas, também nessa área precisamos fazer algo nosso
Com o tempo, a tecnologia que torna isso possível vai ficar mais barata e mais fácil de obter
Ele não só preserva melhor as formas de expressão do polonês, como também escreve melhor documentos governamentais. E é melhor porque foi avaliado em arena e teve desempenho estatisticamente superior
Houve afirmações categóricas, mas parece que não houve base. Por que ter apenas LLMs em inglês não seria uma desvantagem?
Com os modelos atuais, dá para captar as nuances da história e da cultura norueguesas?
O galês também está recebendo treinamento de LLM com Nemotron
https://www.bangor.ac.uk/news/2025-09-15-reaching-across-the...
Talvez não seja a forma mais eficiente, mas ainda parece haver casos de uso claros para construir do zero no caso de idiomas com escrita não latina
Basta ver a sarvam.ai e os casos de melhoria da tokenização para idiomas locais [1]. Nem todo LLM precisa ajudar com programação, nem já precisa ser um peixe-babel
Língua é cultura, então entendo a motivação deles. Parece bom que tenham condições de fazer isso por conta própria
[1] https://www.sarvam.ai/blogs/sarvam-30b-105b
O T-Bank da Rússia trocou o tokenizador do Qwen base para incluir 5 vezes mais tokens em cirílico e, com treinamento posterior em corpus russo, conseguiu aumentar a velocidade de geração em 1,5 a 3 vezes
Esta é uma implantação de storage gigantesca
Considerando as exigências de I/O do treinamento de LLM, especialmente checkpointing, faz sentido optar por NVMe flash nessa escala em vez de arrays de disco tradicionais
“A Noruega é um pequeno país que está resolvendo um problema que todos os países fora do mundo anglófono enfrentam. Como criar uma IA que reflita sua própria língua, cultura e história? A IA precisa não apenas de criadores, mas também de administradores”
Infelizmente, acho que a resposta é, em grande parte, algo próximo de “não dá para fazer”
Esse tipo de coisa exige uma forte vontade política e, pelo menos ao meu redor, alinhar isso parece praticamente impossível
O custo também é difícil de suportar, mas, mais do que isso, as pessoas que se importam com essa representatividade local tendem a achar totalmente aceitável que empresas estrangeiras implementem isso, ou então são contra a própria IA desde o início. Se quiser, você pode usar o ChatGPT até em basco
É um país pequeno, mas extremamente rico, e atualmente, por meio de investimentos do fundo soberano, detém participações equivalentes a 1,5% de todas as empresas listadas no mundo
E há uma grande chance de que esses modelos sejam muito melhores do que qualquer coisa que se conseguiria criar internamente
Claro, também dá para sentir o arrepio de quem está lendo isso do outro lado da tela