- Modelos de linguagem de grande porte (LLMs) mostram queda de desempenho e redução de confiabilidade em conversas com múltiplos turnos
- Em comparação com single-turn, foi confirmada experimentalmente uma queda média de 39% no desempenho em cenários multi-turno
- Os principais fatores são uma pequena redução de aptidão e uma queda muito maior de confiabilidade, ou seja, falta de consistência nos resultados
- LLMs tendem a fazer suposições erradas cedo na conversa ou a tentar chegar à resposta final cedo demais
- Como resultado, quando um LLM comete um erro no início da conversa, foi observado que ele não consegue se recuperar e perde a direção da conversa
ABSTRACT
- Modelos de linguagem de grande porte (LLMs), como interfaces conversacionais, têm potencial para ajudar usuários a definir, explorar e revisar requisitos gradualmente por meio de conversas multi-turno, mesmo quando o pedido do usuário não está totalmente especificado
- No entanto, embora a maioria das avaliações de LLMs se concentre apenas em ambientes de instruções totalmente especificadas em single-turn, a análise de logs de conversas reais mostra que o fenômeno de subespecificação (underspecification) é frequente
- Este estudo compara em larga escala o desempenho de LLMs em ambientes single-turn e multi-turno (subespecificados) por meio de simulações
- Como resultado, em 15 LLMs principais, há uma queda média de 39% no desempenho em conversas multi-turno, explicada por uma leve queda de aptidão e uma forte deterioração da confiabilidade
- Quando um LLM segue um caminho errado no início da conversa, observou-se o fenômeno de ele não conseguir se recuperar e ficar perdido na conversa
Introduction
- LLMs modernos (por exemplo, ChatGPT, Gemini, Claude etc.) oferecem interfaces com conversas multi-turno
- Mesmo que o usuário não descreva claramente todos os requisitos desde o início, é possível detalhá-los gradualmente com interações repetidas de perguntas e respostas (subespecificado → refinado)
- Na prática, muitos usuários apresentam pedidos ambíguos no início da conversa, mas a maioria das avaliações ainda é feita apenas em ambientes single-turn totalmente especificados
- Alguns estudos anteriores tentaram avaliações multi-turno, mas como muitas vezes tratam cada turno da conversa como um episódio independente, acabam subestimando o impacto da ambiguidade comum em conversas humanas reais
- Para reduzir essa lacuna, este estudo propõe um ambiente chamado sharded simulation (dividir a informação em várias partes e revelar apenas uma por turno), simulando com precisão situações multi-turno com instruções ambíguas
Resumo dos principais resultados da pesquisa
- Em single-turn, quando o LLM recebia a instrução completa de uma vez, mostrava 90% de desempenho; já em instruções ambíguas multi-turno, isso caía para 65% (queda média de 25 pontos)
- Esse fenômeno aparece após apenas dois turnos de conversa e foi observado de forma consistente em LLMs abertos e fechados, grandes e pequenos
- A análise das causas da queda de desempenho aponta para: (1) perda de aptidão (aptitude loss) e (2) forte aumento da falta de confiabilidade (unreliability)
- Em single-turn, modelos com alta aptidão também apresentavam alta confiabilidade, mas em multi-turno a confiabilidade era baixa independentemente da aptidão
- Ou seja, quando um LLM entra numa direção errada durante uma conversa multi-turno, ele não consegue se recuperar — os autores chamam isso de fenômeno “lost in conversation”
- Principais causas
- Respostas prolixas e tentativas precipitadas de dar a resposta final
- Suposições erradas sobre informações ambíguas
- Dependência excessiva de tentativas anteriores incorretas
- Existe uma grande lacuna entre o uso real de LLMs e a forma como os modelos são avaliados
- Usuários iniciantes tendem com mais frequência a dar instruções incompletas no início, o que torna esse fenômeno um dos principais obstáculos para uso prático
- O artigo apresenta: resumo dos trabalhos anteriores, descrição do ambiente de simulação, 6 tarefas de geração e métricas de avaliação, experimentos em larga escala com 15 LLMs, além de implicações práticas e recomendações concretas para produtos e uso em produção
Background and Related Work
- Modelos de linguagem de gerações anteriores (por exemplo, BART, GPT-2, T5) não lidavam de fato com conversas multi-turno, por isso eram avaliados principalmente em single-turn
- Após o surgimento do ChatGPT, aumentou o interesse por avaliação multi-turno, e surgiram avaliações com crowdsourcing, como o MT-bench
- No entanto, a maioria dos sistemas de avaliação ainda fica em conversas episódicas (cada turno avaliado separadamente), sem considerar a continuidade de conversas ambíguas reais
- No mundo real, pelo “princípio do menor esforço”, é comum que humanos deem instruções vagas (a.k.a. underspecification), e os LLMs também sofrem queda de desempenho ao tirar conclusões cedo demais ou se adaptar mal quando faltam informações
- Este estudo foi desenhado para avaliar cenários mais próximos do ambiente real, em que a ambiguidade é central
Simulating Underspecified, Multi-Turn Conversation
3.1 Sharding Process
- A instrução totalmente especificada original é dividida em vários shards (fragmentos de informação)
- Ex.: em vez de colocar todas as condições em uma só frase, apenas uma informação (contexto, número, condição etc.) é revelada por turno
- O primeiro shard sempre explica o objetivo geral da instrução, e os shards seguintes fornecem gradualmente informações adicionais (contexto, condições etc.) a cada turno
- Esse processo de sharding foi construído com alta qualidade por meio de proposta + validação com LLM (GPT-4o) e complementação manual
- Para cada tarefa, foram criadas de 90 a 120 instruções fragmentadas, com várias horas de revisão manual
3.2 Simulating Sharded Conversations
- A simulação de conversa usa três papéis: o LLM avaliado (assistant), um simulador de usuário que conhece todos os shards e um sistema de classificação e pontuação das respostas
- Primeiro turno: o simulador de usuário entrega apenas o primeiro shard ao assistant → o assistant responde → sua estratégia (pedido de esclarecimento, pergunta, tentativa de resposta etc.) é classificada e a resposta final é extraída → a resposta é então avaliada
- Nos turnos seguintes: apenas mais um shard entre os restantes é revelado, repetindo o processo / em cada turno, o assistant pode responder livremente
- Fim da conversa: (1) quando o avaliador decide que a resposta está correta ou (2) quando não há mais shards a fornecer
- O simulador de usuário foi implementado com um LLM (GPT-4o-mini), capaz de fornecer shards de forma natural e de reformular automaticamente quando necessário
- Em todo o experimento, erros de classificação ou extração dos LLMs auxiliares ficaram abaixo de 5%, e os casos desfavoráveis ao assistant ficaram abaixo de 2%
- O assistant foi avaliado em estado padrão, sem informação especial sobre o ambiente, de forma semelhante ao uso real
3.3 Simulation Types
- FULLY-SPECIFIED (FULL): toda a instrução é fornecida em single-turn, usada como baseline de desempenho
- SHARDED: apenas um fragmento de informação é revelado por turno; é o experimento central deste estudo sobre conversas ambíguas multi-turno
- CONCAT: toda a instrução fragmentada é fornecida de uma vez em bullet points, para avaliar apenas a perda de informação da instrução
- RECAP: após a conversa fragmentada, todos os shards são resumidos/reapresentados no final; é uma forma simples de intervenção estilo agent-like
- SNOWBALL: a cada turno, além do novo shard, todos os shards já revelados anteriormente são repetidos, para que o assistant não perca informação (experimento de reforço de memória)
Task and Metric Selection
4.1 Task Selection
- Total de 6 tarefas: programação (Code), banco de dados (geração de SQL), chamadas de função de API (Actions), matemática (Math), tabela→texto (Data-to-Text) e resumo em formato de perguntas e respostas (Summary)
- Exemplos: escrever função em Python, converter linguagem natural em consulta SQL etc.
- Para cada tarefa, foram selecionadas de 90 a 120 instruções de benchmarks de alta qualidade, depois fragmentadas e revisadas manualmente
- As 6 tarefas cobrem tanto programação quanto não programação e incluem cenários diversos, como Summary, que exige long context
4.2 Metric Selection
- Métricas de avaliação
- Desempenho médio (P): pontuação média obtida em várias simulações (0~100)
- Aptidão (A90): valor dos 10% melhores resultados de simulação (90th percentile, best-case)
- Confiabilidade (U90_10): diferença entre a pontuação dos 90% superiores e dos 10% inferiores (mede consistência/variabilidade dos resultados)
- Ex.: em um box-plot, o topo representa a aptidão, e a amplitude entre topo e base representa a confiabilidade
- As 6 tarefas usam métricas consistentes de agregação de pontuação (correção, similaridade, BLEU etc.)
- Métodos detalhados, código, parâmetros de experimento, exemplos e amostragem também estão incluídos no apêndice/Appendix
Simulation Scale and Parameters
- Foram construídas 600 instruções no total para 6 tarefas, com experimentos nos cenários FULL/CONCAT/SHARDED
- Para 15 LLMs (GPT-4, Claude, Gemini etc.), cada combinação foi simulada 10 vezes, gerando mais de 200 mil dados experimentais
- Todos os experimentos foram executados com temperature 1 (sampling), e experimentos adicionais (7.2) também analisam o efeito da temperature
- Esse enorme volume de simulação permite identificar os principais padrões e causas da queda de desempenho e do comportamento dos LLMs em conversas multi-turno subespecificadas
Lost in Conversation Experiment
- Na sequência do artigo, os autores detalham a configuração experimental, os resultados por modelo, a análise das causas da queda de desempenho, tentativas de mitigação com RECAP/SNOWBALL e as implicações práticas com recomendações concretas para uso profissional
1 comentários
Comentários do Hacker News
Fico feliz em ver um artigo confirmando algo que qualquer pessoa que realmente usou ferramentas de LLM já sabe empiricamente. A noção de “conversa” foi criada pela interface do produto. Manter o contexto limpo é importante. Quando o contexto é contaminado, não se recupera, então é preciso recomeçar em uma nova conversa
Isso vem da combinação entre a conhecida tendência de excesso de confiança dos LLMs, a falta de autorreflexão e a incapacidade de perceber quando deveriam pedir mais informação. Quando olho os resultados de modelos de raciocínio, vejo que, em situações confusas, o LLM não pede esclarecimentos adicionais e apenas continua chutando o que o usuário quis dizer. Isso mostra o limite prático da ideia de substituir programadores humanos, porque a parte realmente difícil é a “interação com stakeholders” para transformar requisitos ambíguos em algo claro
Gosto de fazer o LLM resumir o que foi discutido até ali em formato de prompt conciso, depois revisar/editar eu mesmo e iniciar uma nova conversa. Esse método funcionou bem para mim, e acho que logo será automatizado
Eu mesmo criei o TSCE (Two-Step Contextual Enrichment). Ao usar em 300 tarefas com o GPT-35-turbo, o desempenho melhorou em +30 pp. Está disponível livremente como framework aberto. Também fiz mais 300 experimentos com o gpt-4.1. No baseline, ele falhou 149/300 vezes em remover em-dash; com TSCE, falhou 18/300 vezes. Também publiquei todos os dados e scripts
text.replace("—", "-")Já resolvi problemas usando dois sistemas (LMM + curador automático). Um era o próprio LLM; o outro era um “curador do pensamento” que trocava dinamicamente partes do contexto. Não era baseado em regras claras, mas na capacidade do LLM de preencher lacunas. Isso ajuda a quebrar o problema em partes menores, e a soma desses resultados leva ao objetivo final
Acho curioso que branching/forking ainda não seja algo básico nas principais ferramentas de chat. Dá para editar respostas, mas nesse caso muito do outro contexto se perde. Meu fluxo de trabalho é: 1. planejar 2. construir 3. criar branch 4. iterar. Acho que podar/ramificar prompts deveria ser uma ferramenta central no uso de LLM
Problemas surgem quando interfaces de LLM são projetadas com foco em conversa de turno único. A maioria dos usuários espera um diálogo linear. Por isso criei o bot do Telegram experai_bot como uma UI universal para LLM, usando a abordagem “se não for resposta, é nova conversa”. Para manter o contexto, é preciso continuar pela estrutura em árvore de respostas. Pessoas não técnicas têm dificuldade para entender isso. Além disso, nos modelos da OpenAI (3.5, 4o), quanto mais a mesma pergunta é repetida, mais os espaços em branco ou opções vão ficando curtos e o resultado vai perdendo precisão. Mantendo a system message no mínimo, o resultado se preserva relativamente melhor. Se necessário, dá para adicionar system message como opção
O principal motivo de eu ter criado o promptdown foi permitir a edição completa de todo o histórico do chat a cada turno. A estrutura append-only das interfaces padrão dificulta esse tipo de coisa
Neste momento, a área de LLM parece um lugar em que todo mundo está resolvendo repetidamente o mesmo problema
LLM é mesmo como um gênio preso na garrafa. Ele responde a três perguntas, e depois disso só começa a falar bobagem