19 pontos por hophfg 2025-04-07 | Ainda não há comentários. | Compartilhar no WhatsApp

Segundo a equipe de pesquisa da Sionic AI, o Llama 4, divulgado no domingo passado pela Meta, é o modelo open source mais amigável ao coreano.

É possível ver que a configuração do tokenizer do llama4 melhorou 2,5 vezes em relação ao Llama3.3 anterior do ponto de vista da representação do coreano, e também apresentou uma grande melhora em comparação com o Qwen, que até agora tinha a maior taxa de suporte ao coreano.

Entender esses tokens BPE de coreano pode ajudar diretamente, de forma significativa, na implementação em vários dispositivos (NPU, GPU, FPGA) e em estratégias de geração de tokens de baixo nível e alta performance. Em especial, isso pode resolver problemas como a geração de idiomas estranhos, como o chinês.

O Sionic Llama4 Token Editor é uma ferramenta que analisa os tokenizers de modelos das famílias Llama e Qwen e permite ajustar os pesos de tokens de categorias específicas.

  • Classificação de tokens: faz uma análise completa e classifica tokens em várias categorias, como hangul, inglês e caracteres especiais.
  • Ajuste de pesos: com base na lista de tokens analisada, é possível aumentar ou reduzir a log-probabilidade dos tokens em hangul, influenciando diretamente os resultados gerados pelo modelo.
  • Saída em JSON e texto: salva o resultado completo da análise em um arquivo JSON e também gera separadamente arquivos de texto com a lista de IDs de tokens classificados e a lista de IDs de tokens não classificados.

O repositório no GitHub pode ser conferido aqui.
https://github.com/sionic-ai/Llama4-Token-Editor

Ainda não há comentários.

Ainda não há comentários.