1 pontos por GN⁺ 2024-12-15 | 1 comentários | Compartilhar no WhatsApp
  • Byte Latent Transformer (BLT) é uma nova arquitetura de modelo de linguagem grande (LLM) em nível de byte, que alcança o mesmo desempenho de modelos baseados em tokenização, ao mesmo tempo em que melhora significativamente a eficiência de inferência e a robustez
  • Codifica bytes em patches de tamanho dinâmico, fazendo com que os patches atuem como a principal unidade de operação
    • Divisão dinâmica em patches: aloca mais recursos computacionais para dados mais complexos com base na entropia do próximo byte
  • Primeiro estudo de escalabilidade com controle de FLOPs para modelos baseados em bytes:
    • Escalado até 8B (8 bilhões) de parâmetros e 4 trilhões (4T) de bytes de treinamento
    • Confirma a viabilidade de treinar modelos com bytes brutos, sem necessidade de vocabulário fixo

Principais resultados

  1. Treinamento e inferência eficientes:
    • Seleciona patches longos quando os dados são previsíveis, reduzindo o volume de computação
    • O modelo ajusta dinamicamente os patches de acordo com a complexidade, otimizando o uso de recursos
  2. Melhora de escalabilidade:
    • Com custo de inferência fixo, apresenta desempenho superior ao de modelos baseados em tokenização
    • Garante eficiência de escalabilidade ao aumentar simultaneamente o tamanho dos patches e o tamanho do modelo
  3. Melhorias qualitativas de desempenho:
    • Melhora na capacidade de raciocínio e generalização: avanços qualitativos em raciocínio causal e no tratamento de dados esparsos (long-tail)
    • Supera as limitações das abordagens baseadas em vocabulário fixo

Significado

  • O BLT processa bytes brutos sem tokenização e, ainda assim, demonstra eficiência no treinamento de grandes volumes de dados e modelos
  • Oferece desempenho superior em relação ao custo de inferência e aponta o potencial da próxima geração de LLMs em nível de byte
  • Em especial, ao lidar com dados complexos, sugere que a abordagem de patches dinâmicos pode se tornar um novo padrão de modelagem adaptativa

1 comentários

 
GN⁺ 2024-12-15
Comentários no Hacker News
  • No verão em que o BERT foi lançado, eu trabalhava em uma startup que fazia tarefas de classificação usando um modelo CNN baseado em caracteres. O pessoal do time tinha interesse em word vectors, mas achava que a grande quantidade de palavras fora do vocabulário poderia levar ao fracasso

    • Mesmo em "modelos fundacionais", palavras fora do vocabulário eram um problema
    • Estávamos tendo resultados razoáveis com um modelo baseado em caracteres, mas havia a opinião de que armazenar um "dicionário" na rede neural era ineficiente
    • Saí de um projeto anterior convencido de que uma abordagem como Word2Vec iria fracassar
    • Quando o byte pair encoding foi introduzido, eu disse que era a primeira forma de tokenização que eu conseguia apoiar
    • Gostaria que fosse possível trabalhar com rótulos de caracteres. Tenho antipatia por tokenizadores
  • A estrutura hierárquica é interessante, mas é uma pena haver apenas dois níveis. Empilhar mais níveis pode ser uma direção de pesquisa

    • É preciso tomar cuidado ao distribuir o orçamento de FLOPs entre os níveis
    • É preciso encontrar uma forma de agrupar patches em unidades maiores
  • Usa-se um modelo pequeno para prever a probabilidade do próximo caractere da string de entrada a fim de gerar patches

    • Ex.: a chance de o próximo caractere ser 'a' pode ser 100%, ou pode haver 10% de chance para 'a' e 10% para 'b'
    • As estimativas de caracteres são agrupadas para formar um patch (ou token)
  • Sampling é uma parte difícil dos LLMs, mas possibilita usos interessantes, como forçar sempre a saída de JSON válido ou ajustar a temperatura para obter distribuições variadas

    • No BLT, dá para imaginar um método em que bytes permitidos/proibidos sejam fornecidos como entrada adicional ao decoder, e a decodificação seja repetida até obter uma saída válida
  • Há uma pergunta sobre se a IA pode ser pré-treinada em arquivos binários

  • Há uma pergunta sobre se não seria possível tornar a tokenização implícita e fornecer ao modelo apenas bytes (ou caracteres)

  • Citação relacionada do Karpathy: a tokenização está no centro de muitas das esquisitices dos LLMs

    • O motivo de LLMs não conseguirem soletrar palavras é a tokenização
    • O motivo de LLMs não conseguirem fazer tarefas simples de processamento de strings é a tokenização
    • O motivo de LLMs serem fracos em idiomas não ingleses é a tokenização
    • O motivo de LLMs serem fracos em aritmética simples é a tokenização
    • O motivo de o GPT-2 ter passado por dificuldades desnecessárias com programação em Python é a tokenização
    • O motivo de LLMs pararem de repente ao ver a string "<|endoftext|>" é a tokenização
    • O motivo de aparecer o aviso "trailing whitespace" é a tokenização
    • O motivo de LLMs quebrarem quando você pergunta sobre "SolidGoldMagikarp" é a tokenização
    • O motivo de se dever preferir YAML a JSON em LLMs é a tokenização
    • O motivo de LLMs não fazerem, de fato, modelagem de linguagem de ponta a ponta é a tokenização
    • A verdadeira fonte do sofrimento é a tokenização
  • É um modelo composto por 3 componentes

    • Encoder: recebe grupos de bytes e produz um estado oculto/encoding chamado patch
    • Transformer: processa o encoding dos patches de forma autorregressiva
    • Decoder: gera bytes a partir do encoding processado pelo transformer
    • A loss é baseada em cross-entropy entre bytes (previsão do próximo byte)
  • Como os bytes são agrupados

    • Uso de limiar de entropia: se a entropia de uma sequência de bytes for menor que o limiar, ela é agrupada
    • É um modelo aprendido a partir dos dados
  • Há vantagens em relação à tokenização por byte pair dos LLMs atuais

    • O encoder/decoder funciona como uma forma de tokenização "aprendível"
    • O trade-off de eficiência é melhor (no caso de sequências de bytes previsíveis, o encoder pode "descarregar" o esforço computacional do transformer principal)
    • Como a história mostra, sistemas treinados de ponta a ponta superam mecanismos projetados por humanos
  • Eu achava que deveríamos estar entrando em um período de estagnação