Mi:dm 2.0 - o LLM open source desenvolvido pela própria KT

xguru · 2025-07-10T14:27:27+09:00

"Mi:dm" é um modelo open source com uso comercial permitido que reflete as características linguísticas e culturais da sociedade coreana Usa uma estratégia de otimização em várias camadas, incluindo seleção de dados coreanos de alta qualidade, geração de dados sintéticos, curriculum learning e um tokenizer próprio especializado em coreano Três modelos: mini (2.3B) para on-device, base (11.5B) com equilíbrio entre desempenho e eficiência, e pro (41B, previsto para ser lançado) de nível frontier Mi:dm 2.0 Mini (2.3B): modelo leve, otimizado para ambientes embarcados e finalidades específicas Mi:dm 2.0 Base (11.5B): modelo geral de grande escala, com desempenho reforçado ao aprofundar o modelo 8B existente por meio da técnica Depth-up Scaling Tanto o Base quanto o Mini oferecem suporte a entrada de 32K tokens Apresenta desempenho de nível máximo em benchmarks coreanos como KMMLU e HAERAE, e é disponibilizado sob licença MIT, permitindo uso livre tanto em pesquisa quanto comercialmente Composição e estratégia de dados Foco em obter documentos coreanos de alta qualidade, selecionados com base em contextualização, legibilidade e ausência de conteúdo nocivo Uso de dados sintéticos (tradução, geração de material didático baseada em palavras-chave, Chain-of-Thought etc.) para garantir diversidade de domínios Curriculum learning e balanceamento por domínio para corrigir desequilíbrios nos dados de treinamento Tokenizer otimizado para coreano para melhorar a eficiência de compressão e refletir melhor a estrutura da língua Sistema de classificação dos dados Aplicação de um sistema multidimensional de classificação por idioma, domínio, fonte dos dados e expressão/estilo 6 domínios principais (humanidades, STEM, ciências aplicadas, saúde/alimentação, vida/cultura e outros) e 20 subdomínios Mais de 85,7% compostos por dados naturais (organic), e 14% por dados sintéticos Pipeline de controle de qualidade Filtragem em 8 etapas de documentos web em grande escala: remoção de duplicatas, heurísticas, perplexity, danos/correções de caracteres, filtro de qualidade baseado em modelo, filtro de nocividade, duplicação de linhas e desidentificação de PII Aplicação de limpeza e regras separadas para cada fonte (ex.: notícias, documentos jurídicos, artigos acadêmicos etc.) Geração de dados sintéticos Em áreas de baixa cobertura, como STEM e economia, o reforço de dados é feito usando dados open source de alta confiabilidade como base, com síntese em coreano de materiais didáticos/explicações/problemas etc. Documentos web descartados (inadequados) também são aproveitados ao extrair e reescrever apenas os temas centrais A diversidade estrutural de documentos web em inglês é convertida e expandida para o coreano, garantindo dados longos de QA e redação Dados de Chain-of-Thought reforçam o aprendizado de raciocínio passo a passo em matemática, código etc. Arquitetura do modelo e treinamento Estrutura Transformer decoder-only Base: modelo 8B → Depth-up Scaling (32→48 camadas) → expansão para 11.5B, com treinamento contínuo em 2 etapas usando dados de alta qualidade Mini: versão leve do conhecimento do Base por meio de width pruning e destilação em múltiplas etapas, permitindo inferência eficiente Treinamento de long context com suporte a entrada de até 32.768 tokens Incorpora tecnologias modernas como GQA, SiLU e RoPE Relatos de uso e textos de apresentação Modelo de IA coreano: relato de uso do KT Mi:dm 2.0 IA coreana criada pela KT, apresentação do Midm 2.0 Experimentando o modelo LLM coreano da KT, Mi:dm 2.0 Página de apresentação do Mi:dm 2.0 da KT Material promocional do lançamento do Mi:dm 1.0 da KT - Mi:dm, expressando individualidade além da razão e da emoção

(huggingface.co)

10 pontos por xguru 2025-07-10 | 16 comentários | Compartilhar no WhatsApp

"Mi:dm" é um modelo open source com uso comercial permitido que reflete as características linguísticas e culturais da sociedade coreana
Usa uma estratégia de otimização em várias camadas, incluindo seleção de dados coreanos de alta qualidade, geração de dados sintéticos, curriculum learning e um tokenizer próprio especializado em coreano
Três modelos: mini (2.3B) para on-device, base (11.5B) com equilíbrio entre desempenho e eficiência, e pro (41B, previsto para ser lançado) de nível frontier
- Mi:dm 2.0 Mini (2.3B): modelo leve, otimizado para ambientes embarcados e finalidades específicas
- Mi:dm 2.0 Base (11.5B): modelo geral de grande escala, com desempenho reforçado ao aprofundar o modelo 8B existente por meio da técnica Depth-up Scaling
- Tanto o Base quanto o Mini oferecem suporte a entrada de 32K tokens
Apresenta desempenho de nível máximo em benchmarks coreanos como KMMLU e HAERAE, e é disponibilizado sob licença MIT, permitindo uso livre tanto em pesquisa quanto comercialmente

Composição e estratégia de dados

Foco em obter documentos coreanos de alta qualidade, selecionados com base em contextualização, legibilidade e ausência de conteúdo nocivo
Uso de dados sintéticos (tradução, geração de material didático baseada em palavras-chave, Chain-of-Thought etc.) para garantir diversidade de domínios
Curriculum learning e balanceamento por domínio para corrigir desequilíbrios nos dados de treinamento
Tokenizer otimizado para coreano para melhorar a eficiência de compressão e refletir melhor a estrutura da língua

Sistema de classificação dos dados
- Aplicação de um sistema multidimensional de classificação por idioma, domínio, fonte dos dados e expressão/estilo
- 6 domínios principais (humanidades, STEM, ciências aplicadas, saúde/alimentação, vida/cultura e outros) e 20 subdomínios
- Mais de 85,7% compostos por dados naturais (organic), e 14% por dados sintéticos
Pipeline de controle de qualidade
- Filtragem em 8 etapas de documentos web em grande escala: remoção de duplicatas, heurísticas, perplexity, danos/correções de caracteres, filtro de qualidade baseado em modelo, filtro de nocividade, duplicação de linhas e desidentificação de PII
- Aplicação de limpeza e regras separadas para cada fonte (ex.: notícias, documentos jurídicos, artigos acadêmicos etc.)
Geração de dados sintéticos
- Em áreas de baixa cobertura, como STEM e economia, o reforço de dados é feito usando dados open source de alta confiabilidade como base, com síntese em coreano de materiais didáticos/explicações/problemas etc.
- Documentos web descartados (inadequados) também são aproveitados ao extrair e reescrever apenas os temas centrais
- A diversidade estrutural de documentos web em inglês é convertida e expandida para o coreano, garantindo dados longos de QA e redação
- Dados de Chain-of-Thought reforçam o aprendizado de raciocínio passo a passo em matemática, código etc.

Arquitetura do modelo e treinamento

Estrutura Transformer decoder-only
Base: modelo 8B → Depth-up Scaling (32→48 camadas) → expansão para 11.5B, com treinamento contínuo em 2 etapas usando dados de alta qualidade
Mini: versão leve do conhecimento do Base por meio de width pruning e destilação em múltiplas etapas, permitindo inferência eficiente
Treinamento de long context com suporte a entrada de até 32.768 tokens
Incorpora tecnologias modernas como GQA, SiLU e RoPE

Relatos de uso e textos de apresentação

Página de apresentação do Mi:dm 2.0 da KT
Material promocional do lançamento do Mi:dm 1.0 da KT - Mi:dm, expressando individualidade além da razão e da emoção

16 comentários

miseenscene 2025-07-11

Apoio a tentativa, mas...
espero que não façam algo como criar uma nova organization e jogar a 1.0 fora.

bakyeono 2025-07-11

Só de ver o nome, já parece pouco confiável.
Por que colocaram dois-pontos no meio do nome? Será que existe algum motivo semântico? Ou será que acharam mesmo que isso fica bonito?
E, se é mit:eum, então em alfabeto latino não deveria ser escrito como mid:m?

xguru 2025-07-11

Pode haver opiniões diversas, mas eu basicamente acho que todos os projetos relacionados a IA que estão sendo tentados no país têm seu valor. Em vez de avaliar o nível comparando com os outros, acho que estamos numa situação em que o próprio esforço de tentar merece ser elogiado.

É verdade que reagimos tarde, e que também estamos em desvantagem em dinheiro e GPUs em comparação com os EUA e a China, mas se elogiarmos e usarmos juntos para ir melhorando, não pode acabar ficando bom?

crawler 2025-07-11

Concordo em parte.
Eu acho que criar wrappers que usam APIs externas e chamá-los de serviços de IA é algo sem produtividade alguma e uma forma de ganhar dinheiro em cima de taxa,
mas, no fim das contas, quando empresas ao menos fazem fine-tuning de modelos e os disponibilizam, estão tornando isso público com recursos próprios, então não vejo motivo para encarar isso de forma negativa.

No entanto, se começarem a receber dinheiro de fora, por exemplo do governo, acho que aí não daria para ver isso apenas de forma positiva...

crawler 2025-07-11

> Eu acho que criar wrappers que usam APIs externas e chamar isso de serviço de IA é um trabalho sem produtividade nenhuma e só um negócio de cobrar taxa,

Complementando isso, mesmo usando API, se ela for bem aproveitada no nível do Manus, dá para considerar como resultado, mas ainda não parece haver wrappers nesse nível na Coreia.

mssmss 2025-07-11

Porque não dá para competir de forma relevante apenas com a tarefa de melhorar o desempenho básico.

strn18 2025-07-10

Por que as empresas coreanas ou o governo se concentram em modelos de linguagem especializados em coreano? Pensando na tendência atual dos LLMs, que melhoram o desempenho ao serem treinados com grandes volumes de dados em escala de internet, parece até mais natural que modelos gerais, independentemente do idioma, sejam mais vantajosos. Não entendo muito bem que vantagem haveria em um LM especificamente focado no coreano.

ryj0902 2025-07-11

Se realmente acreditamos que a IA é a base da próxima geração, então não é desejável que tecnologias centrais de infraestrutura nacional tenham dependência de tecnologias de outros países...?

roxie 2025-07-11

A tecnologia de outro país != os dados de outro país
é o que eu penso

dbs0829 2025-07-11

É verdade que a qualidade em idiomas com poucos usuários é inferior, mas isso não significa que eles vão fazer algo para que ele seja bom apenas em coreano. Também não há exatamente um motivo para isso. E o problema é que nós somos usuários justamente desse idioma com poucos usuários....

greenday 2025-07-11

Falando friamente, é porque não há competitividade.
O desenvolvimento de modelos open source de fronteira geralmente é feito por equipes de Research Engineers que recebem salários anuais de bilhões de wons nas big techs, com um enorme suporte de recursos de GPU. (No passado, lembro que, em um único projeto da Meta, foram usadas 10 mil A100, o que na época era mais do que todo o volume de A100 existente na Coreia.)

De forma realista, o nível de pessoal e de recursos de GPU dedicado ao desenvolvimento de LLMs na Coreia é difícil de competir globalmente.
Em vez de dizer que só nós somos particularmente ruins nisso, parece mais correto ver que EUA e China são tão esmagadoramente fortes que é difícil acompanhá-los.

helio 2025-07-11

Eu também não sei muito bem, mas olhando os processos de think, às vezes parece que, mesmo quando a pergunta é feita em coreano, ele responde em inglês; se esse processo pudesse ser feito em coreano, talvez não acabasse dando respostas mais alinhadas com o contexto local?

truestar 2025-07-11

Talvez a ideia seja investir tendo em mente novas IAs que ainda serão desenvolvidas ou aperfeiçoadas, ou a elevação do nível das IAs já existentes, como o DeepSeek. Se conseguirem incorporar a sensibilidade cultural coreana a esse tipo de IA, parece algo competitivo. Mas isso é uma conversa para o futuro.

zihado 2025-07-10

Parece que estão tentando abocanhar dinheiro público gasto sem critério.

clastneo 2025-07-10

Será que não é porque o coreano está quebrando? Com o Gemini também acontece isso, e conforme você vai usando, em muitos casos ele acaba pulando para outro idioma em algum momento..

cckn1985 2025-07-10

O nome do modelo de IA parece meio sinistro, como se fosse sair de um cenário pós-apocalíptico ou distópico kkk

Mi:dm 2.0 - o LLM open source desenvolvido pela própria KT

Composição e estratégia de dados

Sistema de classificação dos dados

Pipeline de controle de qualidade

Geração de dados sintéticos

Arquitetura do modelo e treinamento

Relatos de uso e textos de apresentação

Leituras relacionadas

16 comentários