- "Mi:dm" é um modelo open source com uso comercial permitido que reflete as características linguísticas e culturais da sociedade coreana
- Usa uma estratégia de otimização em várias camadas, incluindo seleção de dados coreanos de alta qualidade, geração de dados sintéticos, curriculum learning e um tokenizer próprio especializado em coreano
- Três modelos: mini (2.3B) para on-device, base (11.5B) com equilíbrio entre desempenho e eficiência, e pro (41B, previsto para ser lançado) de nível frontier
- Mi:dm 2.0 Mini (2.3B): modelo leve, otimizado para ambientes embarcados e finalidades específicas
- Mi:dm 2.0 Base (11.5B): modelo geral de grande escala, com desempenho reforçado ao aprofundar o modelo 8B existente por meio da técnica Depth-up Scaling
- Tanto o Base quanto o Mini oferecem suporte a entrada de 32K tokens
- Apresenta desempenho de nível máximo em benchmarks coreanos como KMMLU e HAERAE, e é disponibilizado sob licença MIT, permitindo uso livre tanto em pesquisa quanto comercialmente
Composição e estratégia de dados
- Foco em obter documentos coreanos de alta qualidade, selecionados com base em contextualização, legibilidade e ausência de conteúdo nocivo
- Uso de dados sintéticos (tradução, geração de material didático baseada em palavras-chave, Chain-of-Thought etc.) para garantir diversidade de domínios
- Curriculum learning e balanceamento por domínio para corrigir desequilíbrios nos dados de treinamento
- Tokenizer otimizado para coreano para melhorar a eficiência de compressão e refletir melhor a estrutura da língua
-
Sistema de classificação dos dados
- Aplicação de um sistema multidimensional de classificação por idioma, domínio, fonte dos dados e expressão/estilo
- 6 domínios principais (humanidades, STEM, ciências aplicadas, saúde/alimentação, vida/cultura e outros) e 20 subdomínios
- Mais de 85,7% compostos por dados naturais (organic), e 14% por dados sintéticos
-
Pipeline de controle de qualidade
- Filtragem em 8 etapas de documentos web em grande escala: remoção de duplicatas, heurísticas, perplexity, danos/correções de caracteres, filtro de qualidade baseado em modelo, filtro de nocividade, duplicação de linhas e desidentificação de PII
- Aplicação de limpeza e regras separadas para cada fonte (ex.: notícias, documentos jurídicos, artigos acadêmicos etc.)
-
Geração de dados sintéticos
- Em áreas de baixa cobertura, como STEM e economia, o reforço de dados é feito usando dados open source de alta confiabilidade como base, com síntese em coreano de materiais didáticos/explicações/problemas etc.
- Documentos web descartados (inadequados) também são aproveitados ao extrair e reescrever apenas os temas centrais
- A diversidade estrutural de documentos web em inglês é convertida e expandida para o coreano, garantindo dados longos de QA e redação
- Dados de Chain-of-Thought reforçam o aprendizado de raciocínio passo a passo em matemática, código etc.
Arquitetura do modelo e treinamento
- Estrutura Transformer decoder-only
- Base: modelo 8B → Depth-up Scaling (32→48 camadas) → expansão para 11.5B, com treinamento contínuo em 2 etapas usando dados de alta qualidade
- Mini: versão leve do conhecimento do Base por meio de width pruning e destilação em múltiplas etapas, permitindo inferência eficiente
- Treinamento de long context com suporte a entrada de até 32.768 tokens
- Incorpora tecnologias modernas como GQA, SiLU e RoPE
Relatos de uso e textos de apresentação
16 comentários
Apoio a tentativa, mas...
espero que não façam algo como criar uma nova organization e jogar a 1.0 fora.
Só de ver o nome, já parece pouco confiável.
Por que colocaram dois-pontos no meio do nome? Será que existe algum motivo semântico? Ou será que acharam mesmo que isso fica bonito?
E, se é mit:eum, então em alfabeto latino não deveria ser escrito como
mid:m?Pode haver opiniões diversas, mas eu basicamente acho que todos os projetos relacionados a IA que estão sendo tentados no país têm seu valor. Em vez de avaliar o nível comparando com os outros, acho que estamos numa situação em que o próprio esforço de tentar merece ser elogiado.
É verdade que reagimos tarde, e que também estamos em desvantagem em dinheiro e GPUs em comparação com os EUA e a China, mas se elogiarmos e usarmos juntos para ir melhorando, não pode acabar ficando bom?
Concordo em parte.
Eu acho que criar wrappers que usam APIs externas e chamá-los de serviços de IA é algo sem produtividade alguma e uma forma de ganhar dinheiro em cima de taxa,
mas, no fim das contas, quando empresas ao menos fazem fine-tuning de modelos e os disponibilizam, estão tornando isso público com recursos próprios, então não vejo motivo para encarar isso de forma negativa.
No entanto, se começarem a receber dinheiro de fora, por exemplo do governo, acho que aí não daria para ver isso apenas de forma positiva...
> Eu acho que criar wrappers que usam APIs externas e chamar isso de serviço de IA é um trabalho sem produtividade nenhuma e só um negócio de cobrar taxa,
Complementando isso, mesmo usando API, se ela for bem aproveitada no nível do Manus, dá para considerar como resultado, mas ainda não parece haver wrappers nesse nível na Coreia.
Porque não dá para competir de forma relevante apenas com a tarefa de melhorar o desempenho básico.
Por que as empresas coreanas ou o governo se concentram em modelos de linguagem especializados em coreano? Pensando na tendência atual dos LLMs, que melhoram o desempenho ao serem treinados com grandes volumes de dados em escala de internet, parece até mais natural que modelos gerais, independentemente do idioma, sejam mais vantajosos. Não entendo muito bem que vantagem haveria em um LM especificamente focado no coreano.
Se realmente acreditamos que a IA é a base da próxima geração, então não é desejável que tecnologias centrais de infraestrutura nacional tenham dependência de tecnologias de outros países...?
A tecnologia de outro país != os dados de outro país
é o que eu penso
É verdade que a qualidade em idiomas com poucos usuários é inferior, mas isso não significa que eles vão fazer algo para que ele seja bom apenas em coreano. Também não há exatamente um motivo para isso. E o problema é que nós somos usuários justamente desse idioma com poucos usuários....
Falando friamente, é porque não há competitividade.
O desenvolvimento de modelos open source de fronteira geralmente é feito por equipes de Research Engineers que recebem salários anuais de bilhões de wons nas big techs, com um enorme suporte de recursos de GPU. (No passado, lembro que, em um único projeto da Meta, foram usadas 10 mil A100, o que na época era mais do que todo o volume de A100 existente na Coreia.)
De forma realista, o nível de pessoal e de recursos de GPU dedicado ao desenvolvimento de LLMs na Coreia é difícil de competir globalmente.
Em vez de dizer que só nós somos particularmente ruins nisso, parece mais correto ver que EUA e China são tão esmagadoramente fortes que é difícil acompanhá-los.
Eu também não sei muito bem, mas olhando os processos de
think, às vezes parece que, mesmo quando a pergunta é feita em coreano, ele responde em inglês; se esse processo pudesse ser feito em coreano, talvez não acabasse dando respostas mais alinhadas com o contexto local?Talvez a ideia seja investir tendo em mente novas IAs que ainda serão desenvolvidas ou aperfeiçoadas, ou a elevação do nível das IAs já existentes, como o DeepSeek. Se conseguirem incorporar a sensibilidade cultural coreana a esse tipo de IA, parece algo competitivo. Mas isso é uma conversa para o futuro.
Parece que estão tentando abocanhar dinheiro público gasto sem critério.
Será que não é porque o coreano está quebrando? Com o Gemini também acontece isso, e conforme você vai usando, em muitos casos ele acaba pulando para outro idioma em algum momento..
O nome do modelo de IA parece meio sinistro, como se fosse sair de um cenário pós-apocalíptico ou distópico kkk