10 pontos por GN⁺ 2025-02-27 | 3 comentários | Compartilhar no WhatsApp
  • A Kakao está desenvolvendo a ‘Kanana Model Family’, com foco em modelos de IA otimizados para aplicação em serviços, considerando simultaneamente alto desempenho e eficiência de custos
  • Concluiu o treinamento do modelo de linguagem de escala ultragrande ‘Kanana Flag’ e completou a linha de modelos de linguagem, incluindo Kanana Essence e Kanana Nano
  • Para contribuir com o ecossistema de pesquisa em IA e colaborar com a comunidade global de IA, publicou como open source o modelo ‘Kanana Nano 2.1B’ (base, instruct, embedding)

1. Alto desempenho em coreano e inglês em nível de topo global

  • Com o objetivo de desenvolver um modelo com competitividade global, a Kakao testou diversas técnicas de treinamento para alcançar o melhor desempenho possível dentro de recursos limitados
  • O Kanana Flag registrou desempenho de ponta (SOTA) ao mesmo tempo em que reduziu em mais de 50% o custo de treinamento em comparação com modelos de outras empresas, por meio da otimização dos recursos de treinamento
  • Em benchmarks de inglês (MMLU, MT-Bench), mostrou desempenho semelhante ao de modelos globais, e em benchmarks de coreano (KMMLU, KoMT-Bench), comprovou desempenho esmagadoramente superior em relação aos modelos concorrentes
  • Resumo do desempenho em benchmarks
    • Desempenho em conversação e execução de solicitações
      • O Kanana Flag 32.5B registrou pontuações mais altas do que modelos concorrentes em conversas baseadas em inglês e coreano
      • Em especial, mostrou excelente desempenho em conversação em coreano baseada em conhecimento (KoMT-Bench) e em avaliação de raciocínio lógico (LogicKor)
    • Desempenho em conhecimento, código e matemática
      • Obteve pontuações altas em avaliações de conhecimento em inglês (81.08 pontos) e coreano (64.19 pontos), com resultados superiores aos de modelos concorrentes
      • Também apresentou alta precisão em conclusão de código e soluções de código, e alcançou excelente desempenho em matemática básica (GSM8K), com 90.83 pontos

2. Com eficiência de treinamento, custo inferior à metade em comparação com modelos de tamanho semelhante

  • Como o treinamento de grandes modelos de linguagem exige enormes recursos computacionais, a Kakao aplicou uma estratégia de pre-training para maximizar a eficiência do treinamento
  • Utilizou a abordagem de staged pre-training para treinar modelos de tamanhos 8B e 26.8B e, após otimização, construiu o modelo Kanana Nano 2.1B
  • Otimizou modelos leves com técnicas de pruning e distillation
  • Aplicou a técnica de DUS (Depth Up-Scaling) para desenvolver o Kanana Essence 9.8B e o Kanana Flag 32.5B
  • Com isso, conseguiu otimizar o treinamento a um custo inferior à metade em comparação com modelos globais de tamanho semelhante

3. Modelo leve de alto desempenho utilizável também on-device, Kanana Nano 2.1B publicado como open source

  • Considerando a utilidade para pesquisadores e desenvolvedores, publicou como open source as versões base, instruct, embedding do ‘Kanana Nano 2.1B’
  • O Kanana Nano 2.1B foi projetado para operar de forma fluida também em ambientes on-device, podendo ser usado para pesquisa e desenvolvimento
  • Considerando o alto custo dos modelos grandes e a baixa precisão dos modelos pequenos, decidiu divulgar o modelo no tamanho mais prático
  • Mesmo sendo um modelo relativamente pequeno, apresenta desempenho comparável ao de modelos globais e oferece diversas possibilidades de aplicação
  • No entanto, pode haver limitações em tarefas de alta dificuldade, como raciocínio complexo ou resolução de problemas matemáticos, mas a empresa pretende apoiar pesquisadores e desenvolvedores para que avancem em diferentes estudos com base nele

Encerramento

  • Por meio deste relatório técnico, a Kakao apresenta toda a linha de modelos de linguagem Kanana e o modelo open source Kanana Nano 2.1B
  • No futuro, pretende incorporar tecnologias baseadas em RL (reinforcement learning) para reforçar a capacidade de reasoning (raciocínio), além do desempenho em matemática e código
  • Também planeja melhorar o modelo com Continual Learning para que continue aprendendo novos dados sem perder o conteúdo já aprendido
  • Pretende avançar as tecnologias de Alignment para reforçar a capacidade de executar solicitações dos usuários e permitir que a IA compreenda e converse de forma mais natural
  • Em última instância, o modelo Kanana evoluirá para uma IA multimodal, capaz de ver, ouvir, falar e se comunicar de forma intuitiva como uma pessoa
  • A Kakao continuará assumindo novos desafios para que a IA agregue valor ao cotidiano dos usuários e fortalecerá sua competitividade tecnológica

Kanana GitHub link
Kanana Technical Report link
Kanana Nano 2.1B Download

[1] pruning: técnica que remove elementos de um modelo de IA para manter apenas os componentes importantes
[2] distillation: técnica que transfere o conhecimento de um modelo grande para um modelo menor
[3] Depth Up-Scaling: método de aumentar de forma eficiente a escala do modelo empilhando mais camadas sobre o modelo existente

3 comentários

 
rtyu1120 2025-02-27

Fui ver qual era a licença e é CC BY-NC-ND 4.0..?? Se é NonCommercial, isso quer dizer que empresas fora da Kakao não devem usar... Não entendi muito bem a intenção.

 
bobross0 2025-03-13

kkkkkk

 
cosine20 2025-03-03

kkk