- O Qwen2.5-1M é um modelo open source de alto desempenho com suporte a comprimento de contexto de até 1M de tokens, aprimorando o Qwen2.5-Turbo lançado há 2 meses
- Dois checkpoints foram lançados: Qwen2.5-7B-Instruct-1M e Qwen2.5-14B-Instruct-1M
- É o primeiro modelo Qwen a oferecer suporte a contexto de 1M de tokens
- Framework de inferência lançado: fornece um framework de inferência otimizado baseado em vLLM. Com a integração da técnica de sparse attention, processa entradas de 1M de tokens de 3 a 7 vezes mais rápido
- Relatório técnico lançado: compartilhamento de um relatório técnico detalhado sobre o design do framework de treinamento e inferência, além dos resultados experimentais
Desempenho do modelo
Tarefas de contexto longo
- Avaliação de Passkey Retrieval: extrai com precisão informações de documentos com 1M de tokens. O modelo Qwen2.5-7B apresentou alguns erros, enquanto o Qwen2.5-14B manteve alta precisão
- Avaliação de tarefas complexas:
- Em RULER, LV-Eval, LongbenchChat e outros, o modelo Qwen2.5-1M apresentou desempenho superior ao modelo de 128K
- Em especial, o Qwen2.5-14B mostrou desempenho geral superior mesmo em comparação com o GPT-4o-mini
Tarefas de contexto curto
- Mesmo em tarefas curtas, o modelo Qwen2.5-1M manteve o mesmo desempenho da versão 128K
- Mostra desempenho semelhante ao GPT-4o-mini em tarefas de contexto curto, ao mesmo tempo em que oferece suporte a um contexto até 8 vezes mais longo
Tecnologias principais
Treinamento para contexto longo
- Expansão gradual do comprimento de contexto de 4K para 256K
- Aplicação de ajuste baseado em RoPE, treinamento em etapas e aprendizado por reforço
- A técnica Dual Chunk Attention (DCA) permite a expansão para contexto de 1M de tokens
- O DCA mantém alta precisão em textos longos mesmo sem treinamento adicional
Sparse Attention
- Introdução de sparse attention baseada em MInference
- Integração de Chunked Prefill: reduz o uso de memória em 96,7%
- Integração de Length Extrapolation: combinada com DCA, melhora a precisão e a eficiência da inferência
- Sparsity Refinement on Long Sequences: introdução de uma configuração de esparsidade otimizada para minimizar a perda de desempenho em textos longos
- Como resultado, a velocidade de inferência em comprimento de 1M de tokens aumentou de 3,2x a 6,7x
Implantando o Qwen2.5-1M em ambiente local
Requisitos do sistema
- CUDA 12.1/12.3, Python 3.9~3.12
- Requisitos de VRAM:
- Qwen2.5-7B: 120GB ou mais
- Qwen2.5-14B: 320GB ou mais
Instalação e execução
- Clonar e instalar o repositório do vLLM
- Iniciar o serviço de API compatível com OpenAI
- É possível interagir com o modelo via Curl ou Python
Direções futuras
- Pesquisa em andamento sobre treinamento mais eficiente, arquitetura de modelo e métodos de inferência
- Desenvolvimento com o objetivo de alcançar excelente desempenho tanto em contexto curto quanto longo
- Planeja expandir a aplicabilidade prática de modelos de contexto longo
3 comentários
Será que vai rodar bem em coreano localmente?
2023-08-03 Alibaba revela o modelo de IA open source QWEN
2024-04-25 Qwen1.5-110B: o primeiro modelo 100B+ da série de LLMs open source Qwen1.5 da Alibaba
2024-06-07 Alibaba revela o modelo Qwen 2
2024-09-19 Qwen2.5 - vários modelos fundacionais revelados
2024-11-28 QwQ - o LLM de raciocínio da Alibaba semelhante ao ChatGPT o1
2024-12-24 Impressões de uso do novo modelo de raciocínio visual QvQ da Qwen
Comentários do Hacker News
Em programação com IA, janelas de contexto muito grandes na prática não são tão úteis. Ao inserir mais de cerca de 25-30k tokens, o modelo fica confuso
O Ollama tem o parâmetro
num_ctxpara controlar o tamanho da janela de contexto, e o valor padrão é 2048Discussão sobre o estado da arte (SOTA) em computação centrada em memória
Quero confirmar se o primeiro modelo localmente executável com contexto acima de 128K deu um salto direto para 1M
Gostaria de ouvir opiniões de quem conseguiu executar prompts longos com sucesso no Mac
Um modelo somente via API com janela de contexto de 1M foi lançado em novembro
Ouvi rumores sobre o tamanho nativo do contexto, mas não está claro se de fato é 1M
Todo mundo está aumentando a janela de contexto, mas também é preciso pensar na saída