Qwen2.5-1M - Implantando o Qwen por conta própria com suporte a até 1 milhão de tokens

(qwenlm.github.io)

4 pontos por GN⁺ 2025-01-29 | 3 comentários | Compartilhar no WhatsApp

O Qwen2.5-1M é um modelo open source de alto desempenho com suporte a comprimento de contexto de até 1M de tokens, aprimorando o Qwen2.5-Turbo lançado há 2 meses
Dois checkpoints foram lançados: Qwen2.5-7B-Instruct-1M e Qwen2.5-14B-Instruct-1M
- É o primeiro modelo Qwen a oferecer suporte a contexto de 1M de tokens
Framework de inferência lançado: fornece um framework de inferência otimizado baseado em vLLM. Com a integração da técnica de sparse attention, processa entradas de 1M de tokens de 3 a 7 vezes mais rápido
Relatório técnico lançado: compartilhamento de um relatório técnico detalhado sobre o design do framework de treinamento e inferência, além dos resultados experimentais

Desempenho do modelo

Tarefas de contexto longo

Avaliação de Passkey Retrieval: extrai com precisão informações de documentos com 1M de tokens. O modelo Qwen2.5-7B apresentou alguns erros, enquanto o Qwen2.5-14B manteve alta precisão
Avaliação de tarefas complexas:
- Em RULER, LV-Eval, LongbenchChat e outros, o modelo Qwen2.5-1M apresentou desempenho superior ao modelo de 128K
- Em especial, o Qwen2.5-14B mostrou desempenho geral superior mesmo em comparação com o GPT-4o-mini

Tarefas de contexto curto

Mesmo em tarefas curtas, o modelo Qwen2.5-1M manteve o mesmo desempenho da versão 128K
Mostra desempenho semelhante ao GPT-4o-mini em tarefas de contexto curto, ao mesmo tempo em que oferece suporte a um contexto até 8 vezes mais longo

Tecnologias principais

Treinamento para contexto longo

Expansão gradual do comprimento de contexto de 4K para 256K
Aplicação de ajuste baseado em RoPE, treinamento em etapas e aprendizado por reforço
A técnica Dual Chunk Attention (DCA) permite a expansão para contexto de 1M de tokens
O DCA mantém alta precisão em textos longos mesmo sem treinamento adicional

Sparse Attention

Introdução de sparse attention baseada em MInference
Integração de Chunked Prefill: reduz o uso de memória em 96,7%
Integração de Length Extrapolation: combinada com DCA, melhora a precisão e a eficiência da inferência
Sparsity Refinement on Long Sequences: introdução de uma configuração de esparsidade otimizada para minimizar a perda de desempenho em textos longos
Como resultado, a velocidade de inferência em comprimento de 1M de tokens aumentou de 3,2x a 6,7x

Implantando o Qwen2.5-1M em ambiente local

Requisitos do sistema

CUDA 12.1/12.3, Python 3.9~3.12
Requisitos de VRAM:
- Qwen2.5-7B: 120GB ou mais
- Qwen2.5-14B: 320GB ou mais

Instalação e execução

Clonar e instalar o repositório do vLLM
Iniciar o serviço de API compatível com OpenAI
É possível interagir com o modelo via Curl ou Python

Direções futuras

Pesquisa em andamento sobre treinamento mais eficiente, arquitetura de modelo e métodos de inferência
Desenvolvimento com o objetivo de alcançar excelente desempenho tanto em contexto curto quanto longo
Planeja expandir a aplicabilidade prática de modelos de contexto longo

3 comentários

yangeok 2025-01-30

Será que vai rodar bem em coreano localmente?

xguru 2025-01-29

2023-08-03 Alibaba revela o modelo de IA open source QWEN
2024-04-25 Qwen1.5-110B: o primeiro modelo 100B+ da série de LLMs open source Qwen1.5 da Alibaba
2024-06-07 Alibaba revela o modelo Qwen 2
2024-09-19 Qwen2.5 - vários modelos fundacionais revelados
2024-11-28 QwQ - o LLM de raciocínio da Alibaba semelhante ao ChatGPT o1
2024-12-24 Impressões de uso do novo modelo de raciocínio visual QvQ da Qwen

GN⁺ 2025-01-29

Comentários do Hacker News

Em programação com IA, janelas de contexto muito grandes na prática não são tão úteis. Ao inserir mais de cerca de 25-30k tokens, o modelo fica confuso
- Esse problema ocorre com gpt-4o, Sonnet, DeepSeek etc.
- Muitos usuários relatam esse problema e criaram páginas de ajuda dedicadas para resolvê-lo
- Contextos grandes podem ser úteis para tarefas específicas com muito contexto de "baixo valor", mas podem causar problemas em programação
O Ollama tem o parâmetro num_ctx para controlar o tamanho da janela de contexto, e o valor padrão é 2048
- Há dicas para executá-lo no macOS usando MLX
Discussão sobre o estado da arte (SOTA) em computação centrada em memória
- Pode ser necessário um novo paradigma para reduzir o custo de memória em IA
- Pode haver uma forma de conectar DRAM e interconexões ópticas
- Há curiosidade sobre a existência de algo com capacidades semelhantes às de um transformer que não dependa de sequência
Quero confirmar se o primeiro modelo localmente executável com contexto acima de 128K deu um salto direto para 1M
Gostaria de ouvir opiniões de quem conseguiu executar prompts longos com sucesso no Mac
Um modelo somente via API com janela de contexto de 1M foi lançado em novembro
Ouvi rumores sobre o tamanho nativo do contexto, mas não está claro se de fato é 1M
- Modelos como llama3 8b dizem ter contexto maior, mas na prática não é bem assim
- É difícil passar de 8k com 16gb de VRAM
Todo mundo está aumentando a janela de contexto, mas também é preciso pensar na saída
- Quero gerar milhares de linhas de código; gostaria de saber se há dicas para isso

Qwen2.5-1M - Implantando o Qwen por conta própria com suporte a até 1 milhão de tokens

Desempenho do modelo

Tarefas de contexto longo

Tarefas de contexto curto

Tecnologias principais

Treinamento para contexto longo

Sparse Attention

Implantando o Qwen2.5-1M em ambiente local

Requisitos do sistema

Instalação e execução

Direções futuras

Leituras relacionadas

3 comentários

Comentários do Hacker News