Os 2 petabytes de armazenamento flash da Huawei na Noruega e o treinamento de LLMs

(blocksandfiles.com)

1 pontos por GN⁺ 2026-05-27 | 1 comentários | Compartilhar no WhatsApp

A Biblioteca Nacional da Noruega está usando 2 PB de armazenamento flash Huawei OceanStor Dorado no pipeline de treinamento de IA para construir um LLM soberano que entenda norueguês
Como provedores comerciais de LLM não estão criando modelos locais em norueguês, LLMs centrados no inglês têm dificuldade para lidar adequadamente com história, notícias e cultura registradas em idiomas regionais
Desde 2005, a Biblioteca Nacional vem digitalizando livros, jornais, páginas da web, áudio e vídeo, acumulando 20 PB de dados próprios e armazenando cerca de 60 PB no modelo 3-2-1
O gargalo está menos na computação e mais em qualidade dos dados, limpeza e throughput de processamento; os dados são preparados internamente em DGX H200, cluster de CPU e flash da Huawei, e depois o treinamento roda no Sigma2 Olivia
O arquivo de preservação e o pipeline de IA têm exigências diferentes — durabilidade e custo versus baixa latência e I/O paralelo — e um LLM soberano também exige capacidade de gestão e preservação

Projeto de LLM soberano da Biblioteca Nacional da Noruega

A Biblioteca Nacional da Noruega (Nasjonalbiblioteket) está desenvolvendo um grande modelo de linguagem (LLM) que entende norueguês e usa 2 PB de armazenamento flash Huawei OceanStor Dorado no pipeline de dados para treinamento de IA
Marius Husnes, responsável pela plataforma de TI da Biblioteca Nacional, afirmou no Huawei ID Forum 2026 Paris que provedores comerciais de LLM não estão desenvolvendo LLMs em idiomas regionais noruegueses
Países sem um LLM soberano treinado em seu próprio idioma acabam dependendo de LLMs treinados com dados globais e centrados no inglês, e esses modelos têm dificuldade para compreender história, notícias e cultura registradas em idiomas locais
O Ministério da Cultura da Noruega encarregou a Biblioteca Nacional de construir uma IA soberana, isto é, um LLM, e a instituição possui a maior coleção digital de livros, jornais e páginas da web da Noruega
A Biblioteca Nacional tem o direito de receber cópias de todos os livros publicados e conteúdos de radiodifusão, e o depósito legal foi ampliado para além dos livros, assumindo o papel de coletar e preservar todo o patrimônio cultural norueguês
Graças a acordos com jornais noruegueses, até conteúdo protegido por direitos autorais pode ser usado no treinamento do LLM, e Husnes disse: “empresas privadas não têm isso”

Volume de dados e base de digitalização

A Biblioteca Nacional vem digitalizando seu acervo desde 2005 e acumulou 20 PB de dados próprios
Esses dados são armazenados no modelo 3-2-1
- 3 cópias
- 2 tipos de mídia
- 1 cópia armazenada fora do local
Por causa dessa estrutura, o volume total armazenado chega a cerca de 60 PB
O material digitalizado inclui texto original, áudio, vídeo, imagens estáticas e conteúdo da web
O processo de digitalização gerou muitos escaneamentos com OCR, além de grande volume de metadados e APIs para acesso online
A maior parte dos dados fica em um sistema de preservação composto por discos e arquivo em fita digital

O problema de mover dados do arquivo para o pipeline de IA

O principal desafio é transferir os dados do sistema de preservação para o sistema de treinamento do LLM
O gargalo não está na computação, mas em qualidade dos dados, limpeza e throughput do pipeline
O processamento é dividido entre a preparação dos dados no ambiente computacional interno da Biblioteca Nacional e a execução efetiva do treinamento no supercomputador nacional
O ambiente interno é composto pelos seguintes equipamentos
- sistemas Nvidia DGX H200
- cluster de CPU com 384 núcleos
- vários arrays all-flash Huawei OceanStor Dorado, totalizando 2 PB de flash
O armazenamento flash da Huawei é usado como armazenamento de baixa latência para o pipeline de dados e a preparação para o treinamento
O pipeline inclui etapas de coleta de dados, limpeza, remoção de duplicatas, normalização de formato, validação e preparação

Ambiente de execução do treinamento: Sigma2 Olivia

Depois de passar pelo pipeline, os dados são enviados ao sistema Olivia da Sigma2, o supercomputador nacional da Noruega, para a execução efetiva do treinamento
O Olivia é um sistema HPE Cray Supercomputing EX
Sua configuração inclui
- 448 GPUs
- 64.512 núcleos de CPU
- sistema de armazenamento Cray ClusterStor E1000 de 5,3 PB
O ambiente de IA on-premise da Biblioteca Nacional prepara os dados, e o Olivia fica responsável pela execução do treinamento

Requisitos de armazenamento diferentes

O arquivo de preservação e o armazenamento do pipeline de IA têm requisitos diferentes
O sistema de preservação de 60 PB é otimizado para durabilidade e custo, não para I/O rápido
O sistema de preservação foi projetado para acessos pouco frequentes e, por isso, tem alta latência de leitura
O armazenamento do pipeline de IA foi projetado para alto throughput, baixa latência e I/O paralelo de dados
A equipe precisou descobrir por conta própria como mover e processar conjuntos de dados em escala de PB do arquivo para o pipeline de dados de IA

Desafios ainda em aberto

Avaliação
- Não existem ferramentas padrão de avaliação para avaliar um LLM soberano em norueguês
- O norueguês tem duas formas escritas, além de vários dialetos e mudanças históricas
- A equipe da Biblioteca Nacional está construindo suas próprias ferramentas de avaliação
Governança
- Ainda é preciso decidir quem controlará o acesso ao LLM soberano
- Também é um desafio definir quem decidirá para que o LLM soberano poderá ser usado
- Essas são questões institucionais e políticas, sem respostas fáceis
Orquestração
- O trabalho para fazer funcionar em conjunto, de forma fluida, os três sistemas — arquivo de preservação, ambiente de IA on-premise e supercomputador nacional Sigma2 — ainda está em andamento

Significado e conclusão

O armazenamento da Huawei está desempenhando um papel importante e prático no mercado europeu
Para países que querem desenvolver LLMs soberanos em idiomas regionais, pode ser útil conversar com Husnes e entender o trabalho necessário
A Noruega é apresentada como um pequeno país lidando com problemas que qualquer país não anglófono enfrentará
A pergunta central é como construir uma IA que reflita seu próprio idioma, cultura e história
A IA precisa não apenas de construtores, mas também de gestores e guardiões

1 comentários

GN⁺ 2026-05-27

Comentários do Hacker News

Como norueguês, uso a Biblioteca Nacional quase todos os dias para pesquisar texto
A interface e as funcionalidades para buscar em um volume enorme de texto são realmente de altíssimo nível
- É realmente excelente. Só queria que houvesse um pouco menos de restrições no conteúdo acessível
  Uma parte considerável só pode ser acessada a partir de IPs da Noruega, então um dos principais motivos de eu manter uma VPN, mesmo morando no Reino Unido e sendo norueguês, é esse. Outra parte só pode ser acessada a partir de IPs de bibliotecas ou instituições de pesquisa, mas ainda assim há uma quantidade enorme de material disponível publicamente
- É muito frustrante não haver um mecanismo de busca unificado. Não entendo por que não é possível pesquisar dentro das legendas de TV
- Isso faz perceber o quanto eu estava acostumado com o básico de stemming e tolerância ortográfica que todo mecanismo de busca tinha desde os tempos do Altavista
Fico me perguntando o quanto esta afirmação é verdadeira: “Se um país com seu próprio idioma não tiver um LLM soberano treinado nesse idioma, ele fica em desvantagem. Isso porque LLMs anglófonos treinados com materiais do mundo todo não conhecem a história, as notícias e a cultura desse país descritas no idioma local”
Eu achava que os grandes players já treinavam com praticamente todo material acessível, independentemente do idioma ou da qualidade, então essa visão soa como algo formado no início da era dos LLMs generalistas
- Se a ideia é fazer com que os LLMs tenham conhecimento de norueguês, o jeito mais obvious seria criar um bom dataset de treinamento e disponibilizá-lo amplamente, não?
  Não vejo por que gastar tanto para treinar um modelo próprio, especialmente se ele provavelmente será inferior aos modelos de ponta
- Os LLMs estrangeiros provavelmente não foram treinados com materiais da Biblioteca Nacional da Noruega
  Por causa de genealogia, eu encontro com frequência materiais ali usando busca por palavras-chave comuns, e aparecem coisas que nem os mecanismos de busca nem os modelos de linguagem conhecem
  Claro, as informações que me interessam em geral acabam publicadas em algum lugar que a IA possa rastrear, mas levaria muito tempo para extrair tudo que há de interessante ali dentro
- Na minha avaliação, isso quase não é verdade. Não falo bem norueguês, mas falo sueco, e os dois idiomas são muito parecidos, então em geral também entendo norueguês
  Todos os modelos com que falei em sueco lidaram com isso perfeitamente. Acho bem provável que com norueguês já seja a mesma coisa
- Pelo menos talvez fosse possível escrever como um norueguês, em vez de soar como uma tradução de inglês para norueguês
  Também seria interessante ver a aplicação de experimentos como https://arxiv.org/pdf/2507.22445
- Os melhores modelos atuais já são bastante fluentes nas principais línguas e culturas, então pelo menos a parte do “todos” não procede
  O desempenho pode ser quase o mesmo ou às vezes até melhor. Ainda assim, padrões do inglês podem se infiltrar sutilmente em padrões nativos de outros idiomas
  Em idiomas de baixo recurso é um problema totalmente diferente, mas para melhorar isso é preciso mais dados, não um modelo novo
“O sistema Olivia é um sistema HPE Cray Supercomputing EX, com 448 GPUs e 64.512 núcleos de CPU”
Querer treinar um LLM soberano com um hardware tão modesto, em vez de aplicar LoRA sobre um modelo open source, parece um grande erro e um sinal de alerta
Eles claramente não têm recursos para treinar um LLM completo, então afirmar que esse é o objetivo passa a impressão de que não existe intenção real de tornar esse LLM útil na prática. Aí fica a pergunta: por que e com o dinheiro de quem isso está sendo desperdiçado?
- Talvez não seja útil para pessoas de fora, mas um dos objetivos pode ser o aprendizado organizacional
  Ou seja, internalizar dentro da organização o conhecimento necessário para construir LLMs
  No papel, a Biblioteca Nacional é a entidade principal, mas, segundo a matéria, ela parece ter sido escolhida por possuir e poder usar legalmente materiais em norueguês para esse objetivo. Pesquisadores de instituições relacionadas, como universidades, também devem participar do processo
- Antes eles já haviam criado com sucesso um modelo ajustado finamente como prova de conceito, então o próximo passo seria treinar um LLM completo
  Dito isso, não acho que estejam mirando em algo realmente valioso. Aqueles modelos ajustados estavam bem quebrados e pareciam mais uma etapa para estabelecer metodologia. Não tenho certeza de que seja superútil, mas também não cabe a mim decidir o que alguém faz com verba de pesquisa
  Um modelo ajustado que usei zombava com frequência de pessoas expressando emoções no chat
  Outro modelo ajustado, mesmo quando eu escrevia apenas “hei”, alucinava que eu era médico e dizia toda vez que meu bebê tinha uma doença terrível. É bem possível que um prompt de sistema comum e neutro tenha causado esse comportamento
  Acho que o Olivia é grande o suficiente para o uso pretendido. Neste momento, parece melhor acompanhar as tendências atuais sem desperdiçar dinheiro demais com hardware
- Modelos de linguagem multilíngues e internacionalizados não são uma área em que os laboratórios de ponta concentrem muitos recursos, e isso vale ainda mais para o norueguês
  Um corpus em norueguês talvez não exija um cluster tão grande, e, se exigir, isso provavelmente já seria o melhor que a biblioteca pode fazer. Entre os investimentos em modelos noruegueses, isso muito provavelmente está entre os maiores
  Modelos de altíssimo nível talvez não consigam acessar a qualidade de conteúdo que a biblioteca nacional possui. A matéria também menciona licenças com jornais, além do próprio arquivo da biblioteca
  Como inglês e norueguês não são idiomas tão próximos dentro da mesma família, talvez LoRA não seja a melhor abordagem
  Fico curioso se existe pesquisa pública sobre o quanto a localização baseada em LoRA funciona bem dependendo de quão distante a gramática e o vocabulário do idioma-alvo estão do inglês
  Projetos assim normalmente não têm um único objetivo; não se trata só de criar um modelo de ponta, mas também de formar e treinar talentos locais, como quando uma universidade lança um satélite
- Com esse nível de recursos, dá para usar algo como a receita do Olmo 3 como base, aplicar uma mistura de dados priorizando os dados próprios e depois um treinamento adicional voltado para tarefas próprias
  Se eles criarem seu próprio modelo de embeddings, indexarem toda a biblioteca e depois treinarem o modelo para consultar esses dados ao responder perguntas sobre história, cultura, direito e estratégia a partir de uma perspectiva nacional, isso tem bastante potencial de ser interessante e útil
  Não vai superar a Anthropic em gerar código React, mas também não há motivo para tentar copiar isso
- Na prática, o maior problema é mesmo a base de dados de treinamento
  Já experimentaram tanto ajuste fino quanto treinamento do zero com vários modelos abaixo de 10 bilhões de parâmetros e, da última vez que vi, o treinamento do zero capturava melhor o idioma
Será que não seria melhor a Noruega, em vez disso, ou em paralelo, montar datasets de treinamento e compartilhá-los gratuitamente com todos os criadores de modelos?
Isso parece um jeito melhor, ou complementar, de atingir o objetivo de fazer com que os modelos de ponta conheçam o norueguês e sua cultura
- Os modelos de ponta já conhecem bem o norueguês. Eles se adaptam até a dialetos noruegueses e imitam o norueguês antigo de forma bem convincente
  Por exemplo, pedi ao Claude para explicar o romance de 1911 “De knyttede næver” usando a ortografia norueguesa da época de 1911, e ele fez isso bem
  O que falta é compreensão de literatura, cultura e história norueguesas. “De knyttede næver” foi um dos romances noruegueses de nível best-seller na época do lançamento, mas o Claude só conseguiu produzir algo depois de pesquisar a obra. O ChatGPT se saiu melhor e, especialmente no modo de raciocínio, deu um resumo detalhado
  Hoje não é uma obra amplamente conhecida, mas o autor foi um jornalista renomado por décadas, e essa série é conhecida o bastante para existir um cantor norueguês cujo nome artístico vem do nome do protagonista. Além disso, por causa das posições políticas do autor e da influência delas no romance, a obra foi discutida por décadas em jornais e livros noruegueses, então parece um teste bastante razoável e que revela uma lacuna de conhecimento considerável
  Concordo que seria melhor tornar o dataset da Biblioteca Nacional mais acessível. Ainda assim, o grande elemento adicional aqui parece ser que eles fecharam um acordo para poder treinar com material protegido por direitos autorais, preso em arquivos e com restrições de uso
  Mesmo assim, divulgar ao menos os dados em domínio público do acervo já seria um excelente ponto de partida
- Não entendo por que esses dados deveriam ser compartilhados integralmente com empresas americanas gananciosas que roubam os dados de todo mundo para lucrar em cima disso
  É muito melhor manter acordos legais com instituições estatais e desenvolver algo que de fato seja útil para o próprio país
Quando Marius Husnes diz que “fornecedores comerciais de LLM não estão desenvolvendo LLMs locais em norueguês, e países sem um LLM soberano treinado em sua própria língua ficam em desvantagem”, não tenho tanta confiança de que ele saiba exatamente do que está falando aqui
- Ele está certo. Só que não é inteiramente uma questão do corpus de treinamento, mas também do tokenizador, que consegue tokenizar substrings com mais eficiência com base nos vieses necessários para a língua-alvo
  LLMs orientados ao inglês são mais fortes em inglês porque o espaço de tokens é alocado de forma mais compacta para o inglês. Se você pegar um tokenizador online que chama a API da Anthropic e inserir palavras comuns em inglês e em norueguês, o inglês normalmente dá um token ou menos, enquanto o norueguês muitas vezes vira 2 a 4 tokens, às vezes até mais. Idiomas como o tailandês ficam enormemente em desvantagem
  A escolha do corpus também costuma pender bastante para a língua-alvo. Dá mais trabalho obter obras nesse idioma
  Por causa da influência mútua entre embeddings semanticamente parecidos entre línguas, o espaço vetorial também ganha uma linha de base cultural e outros vieses de significado. Por fim, o fine-tuning afeta bastante a expressão cultural de um LLM. Esses efeitos não são pequenos
  Há muitos esforços para criar modelos de linguagem com línguas em desaparecimento e modelos interculturais, mas, no caso de uma língua com uma base de letramento sólida, há bons motivos para construir um LLM legado especializado em sua própria língua e cultura. Esperar que OpenAI ou Anthropic priorizem a sua língua em vez do cliente-alvo delas na hora da decisão é absurdo
- Ao conversar com o ChatGPT, mesmo em dinamarquês, fica bem claro que ele é americano
  A voz nativa, o estilo e a atitude são americanos
  Assim como não dá para depender da Netflix e da HBO, mesmo que hoje elas produzam séries escandinavas, também nessa área precisamos fazer algo nosso
  Com o tempo, a tecnologia que torna isso possível vai ficar mais barata e mais fácil de obter
- A Polônia tem seu próprio LLM, o Bielik
  Ele não só preserva melhor as formas de expressão do polonês, como também escreve melhor documentos governamentais. E é melhor porque foi avaliado em arena e teve desempenho estatisticamente superior
- Gostaria de ver se alguém consegue apresentar fundamentos de que ele está errado
  Houve afirmações categóricas, mas parece que não houve base. Por que ter apenas LLMs em inglês não seria uma desvantagem?
  Com os modelos atuais, dá para captar as nuances da história e da cultura norueguesas?
- Parece convincente o suficiente para conseguir subsídios
O galês também está recebendo treinamento de LLM com Nemotron
https://www.bangor.ac.uk/news/2025-09-15-reaching-across-the...
Talvez não seja a forma mais eficiente, mas ainda parece haver casos de uso claros para construir do zero no caso de idiomas com escrita não latina
Basta ver a sarvam.ai e os casos de melhoria da tokenização para idiomas locais [1]. Nem todo LLM precisa ajudar com programação, nem já precisa ser um peixe-babel
Língua é cultura, então entendo a motivação deles. Parece bom que tenham condições de fazer isso por conta própria
[1] https://www.sarvam.ai/blogs/sarvam-30b-105b
- Melhorar a tokenização não significa necessariamente que seja preciso construir do zero
  O T-Bank da Rússia trocou o tokenizador do Qwen base para incluir 5 vezes mais tokens em cirílico e, com treinamento posterior em corpus russo, conseguiu aumentar a velocidade de geração em 1,5 a 3 vezes
Esta é uma implantação de storage gigantesca
Considerando as exigências de I/O do treinamento de LLM, especialmente checkpointing, faz sentido optar por NVMe flash nessa escala em vez de arrays de disco tradicionais
“A Noruega é um pequeno país que está resolvendo um problema que todos os países fora do mundo anglófono enfrentam. Como criar uma IA que reflita sua própria língua, cultura e história? A IA precisa não apenas de criadores, mas também de administradores”
Infelizmente, acho que a resposta é, em grande parte, algo próximo de “não dá para fazer”
Esse tipo de coisa exige uma forte vontade política e, pelo menos ao meu redor, alinhar isso parece praticamente impossível
O custo também é difícil de suportar, mas, mais do que isso, as pessoas que se importam com essa representatividade local tendem a achar totalmente aceitável que empresas estrangeiras implementem isso, ou então são contra a própria IA desde o início. Se quiser, você pode usar o ChatGPT até em basco
- No caso da Noruega, dá para discutir se o custo é realmente impossível de bancar
  É um país pequeno, mas extremamente rico, e atualmente, por meio de investimentos do fundo soberano, detém participações equivalentes a 1,5% de todas as empresas listadas no mundo
- Se a Noruega procurar laboratórios de pesquisa dos EUA com o objetivo de montar um conjunto de dados curado para treinamento, eles certamente permitiriam que isso entrasse no processo de treinamento
  E há uma grande chance de que esses modelos sejam muito melhores do que qualquer coisa que se conseguiria criar internamente
  Claro, também dá para sentir o arrepio de quem está lendo isso do outro lado da tela

Os 2 petabytes de armazenamento flash da Huawei na Noruega e o treinamento de LLMs

Projeto de LLM soberano da Biblioteca Nacional da Noruega

Volume de dados e base de digitalização

O problema de mover dados do arquivo para o pipeline de IA

Ambiente de execução do treinamento: Sigma2 Olivia

Requisitos de armazenamento diferentes

Desafios ainda em aberto

Avaliação

Governança

Orquestração

Significado e conclusão

Leituras relacionadas

1 comentários

Comentários do Hacker News