4 pontos por GN⁺ 2025-01-29 | 3 comentários | Compartilhar no WhatsApp
  • O Qwen2.5-1M é um modelo open source de alto desempenho com suporte a comprimento de contexto de até 1M de tokens, aprimorando o Qwen2.5-Turbo lançado há 2 meses
  • Dois checkpoints foram lançados: Qwen2.5-7B-Instruct-1M e Qwen2.5-14B-Instruct-1M
    • É o primeiro modelo Qwen a oferecer suporte a contexto de 1M de tokens
  • Framework de inferência lançado: fornece um framework de inferência otimizado baseado em vLLM. Com a integração da técnica de sparse attention, processa entradas de 1M de tokens de 3 a 7 vezes mais rápido
  • Relatório técnico lançado: compartilhamento de um relatório técnico detalhado sobre o design do framework de treinamento e inferência, além dos resultados experimentais

Desempenho do modelo

Tarefas de contexto longo

  • Avaliação de Passkey Retrieval: extrai com precisão informações de documentos com 1M de tokens. O modelo Qwen2.5-7B apresentou alguns erros, enquanto o Qwen2.5-14B manteve alta precisão
  • Avaliação de tarefas complexas:
    • Em RULER, LV-Eval, LongbenchChat e outros, o modelo Qwen2.5-1M apresentou desempenho superior ao modelo de 128K
    • Em especial, o Qwen2.5-14B mostrou desempenho geral superior mesmo em comparação com o GPT-4o-mini

Tarefas de contexto curto

  • Mesmo em tarefas curtas, o modelo Qwen2.5-1M manteve o mesmo desempenho da versão 128K
  • Mostra desempenho semelhante ao GPT-4o-mini em tarefas de contexto curto, ao mesmo tempo em que oferece suporte a um contexto até 8 vezes mais longo

Tecnologias principais

Treinamento para contexto longo

  • Expansão gradual do comprimento de contexto de 4K para 256K
  • Aplicação de ajuste baseado em RoPE, treinamento em etapas e aprendizado por reforço
  • A técnica Dual Chunk Attention (DCA) permite a expansão para contexto de 1M de tokens
  • O DCA mantém alta precisão em textos longos mesmo sem treinamento adicional

Sparse Attention

  • Introdução de sparse attention baseada em MInference
  • Integração de Chunked Prefill: reduz o uso de memória em 96,7%
  • Integração de Length Extrapolation: combinada com DCA, melhora a precisão e a eficiência da inferência
  • Sparsity Refinement on Long Sequences: introdução de uma configuração de esparsidade otimizada para minimizar a perda de desempenho em textos longos
  • Como resultado, a velocidade de inferência em comprimento de 1M de tokens aumentou de 3,2x a 6,7x

Implantando o Qwen2.5-1M em ambiente local

Requisitos do sistema

  • CUDA 12.1/12.3, Python 3.9~3.12
  • Requisitos de VRAM:
    • Qwen2.5-7B: 120GB ou mais
    • Qwen2.5-14B: 320GB ou mais

Instalação e execução

  1. Clonar e instalar o repositório do vLLM
  2. Iniciar o serviço de API compatível com OpenAI
  3. É possível interagir com o modelo via Curl ou Python

Direções futuras

  • Pesquisa em andamento sobre treinamento mais eficiente, arquitetura de modelo e métodos de inferência
  • Desenvolvimento com o objetivo de alcançar excelente desempenho tanto em contexto curto quanto longo
  • Planeja expandir a aplicabilidade prática de modelos de contexto longo

3 comentários

 
yangeok 2025-01-30

Será que vai rodar bem em coreano localmente?

 
GN⁺ 2025-01-29
Comentários do Hacker News
  • Em programação com IA, janelas de contexto muito grandes na prática não são tão úteis. Ao inserir mais de cerca de 25-30k tokens, o modelo fica confuso

    • Esse problema ocorre com gpt-4o, Sonnet, DeepSeek etc.
    • Muitos usuários relatam esse problema e criaram páginas de ajuda dedicadas para resolvê-lo
    • Contextos grandes podem ser úteis para tarefas específicas com muito contexto de "baixo valor", mas podem causar problemas em programação
  • O Ollama tem o parâmetro num_ctx para controlar o tamanho da janela de contexto, e o valor padrão é 2048

    • Há dicas para executá-lo no macOS usando MLX
  • Discussão sobre o estado da arte (SOTA) em computação centrada em memória

    • Pode ser necessário um novo paradigma para reduzir o custo de memória em IA
    • Pode haver uma forma de conectar DRAM e interconexões ópticas
    • Há curiosidade sobre a existência de algo com capacidades semelhantes às de um transformer que não dependa de sequência
  • Quero confirmar se o primeiro modelo localmente executável com contexto acima de 128K deu um salto direto para 1M

  • Gostaria de ouvir opiniões de quem conseguiu executar prompts longos com sucesso no Mac

  • Um modelo somente via API com janela de contexto de 1M foi lançado em novembro

  • Ouvi rumores sobre o tamanho nativo do contexto, mas não está claro se de fato é 1M

    • Modelos como llama3 8b dizem ter contexto maior, mas na prática não é bem assim
    • É difícil passar de 8k com 16gb de VRAM
  • Todo mundo está aumentando a janela de contexto, mas também é preciso pensar na saída

    • Quero gerar milhares de linhas de código; gostaria de saber se há dicas para isso