Expressões emocionais mudam o desempenho da IA? — O efeito real do enquadramento emocional em prompts

(arxiv.org)

4 pontos por darjeeling 25 일 전 | 1 comentários | Compartilhar no WhatsApp

> "Se eu perguntar com raiva, a IA responde melhor?" Em um experimento com 6 benchmarks, pesquisadores de Harvard constataram que expressões emocionais quase não afetam o desempenho de LLMs. Ainda assim, a principal descoberta é que selecionar emoções de forma adaptativa para cada pergunta pode gerar ganhos consistentes de desempenho.

Visão geral do estudo

Fonte: arXiv:2604.02236v1 (2 de abril de 2026)
Autores: Minda Zhao, Yutong Yang e outros (estudo conjunto de Harvard e Bryn Mawr College)
Pergunta central: incluir expressões emocionais no prompt altera o desempenho de LLMs?

Resumo das principais descobertas

O tom emocional é onipresente na comunicação humana, mas seu impacto sobre o comportamento de LLMs ainda não está claro. Este estudo revelou os três pontos a seguir.

① Prefixos emocionais fixos têm efeito mínimo
Na maioria das combinações de tarefa e modelo, o enquadramento emocional não melhorou nem piorou de forma significativa o desempenho em relação à linha de base neutra. Prompting emocional estático não funciona como um método geral de melhoria de desempenho.

② Aumentar a intensidade emocional também não muda muito
Mesmo ao elevar a intensidade com expressões como "estou muito irritado" ou "estou extremamente assustado", a acurácia variou apenas levemente entre os níveis de intensidade, e expressões mais fortes não provocaram piora consistente no desempenho.

③ Seleção adaptativa de emoção (EmotionRL) funciona
Uma única emoção fixa é grosseira demais para ser confiável, mas uma política condicionada ao input pode produzir melhorias de desempenho mais consistentes.

Desenho experimental

6 emoções testadas

Com base na teoria das emoções básicas de Plutchik, foram usadas 6 emoções: felicidade, tristeza, medo, raiva, nojo e surpresa.

6 benchmarks de avaliação

Benchmark	Habilidade medida
GSM8K	raciocínio matemático
BIG-Bench Hard	raciocínio geral
MedQA	conhecimento médico especializado
BoolQ	compreensão de leitura
OpenBookQA	raciocínio de senso comum
SocialIQA	raciocínio social

Modelos usados

Foram avaliados, sem fine-tuning e em ambiente de inferência zero-shot, três modelos open source: Qwen3-14B, Llama 3.3-70B e DeepSeek-V3.2.

Resultados detalhados

Diferenças na sensibilidade emocional por tarefa

GSM8K e MedQA-US permaneceram muito próximos da linha de base em praticamente todas as emoções, sugerindo que prefixos emocionais curtos têm influência limitada sobre raciocínio rigidamente restrito e previsões objetivas de múltipla escolha especializadas por domínio.

O desvio mais marcante em termos de estabilidade geral apareceu em SocialIQA. Nesse caso, a variância entre modelos e emoções foi visivelmente maior, e a direção do efeito também não foi consistente. Isso indica que o contexto emocional interage com mais força em tarefas que exigem raciocínio interpessoal.

Emoções escritas por humanos vs. emoções geradas por LLM

Ao comparar prefixos escritos por humanos com prefixos gerados por LLM, os resultados mostraram acurácia praticamente idêntica entre as duas origens em todas as condições, sem vantagem consistente para qualquer um dos lados.

EmotionRL: framework de seleção adaptativa de emoção

Para cada pergunta de entrada, um agente escolhe uma emoção do conjunto {raiva, nojo, medo, felicidade, tristeza, surpresa}, acrescenta essa expressão emocional ao início do prompt original e o envia ao LLM congelado.

A estrutura central tem duas etapas.

Treinamento offline: para cada pergunta, testa-se as 6 emoções para construir um vetor de recompensa e treinar uma policy network MLP leve.
Inferência online: quando chega uma nova entrada, a política treinada escolhe a emoção e faz apenas uma única chamada ao LLM.

O fraco efeito médio dos prompts emocionais fixos não significa que não exista sinal útil no enquadramento emocional. O EmotionRL igualou ou superou de forma contínua a linha de base média de emoções estáticas em cinco tarefas.

Conclusão e implicações

Nossos experimentos sustentam uma visão mais conservadora sobre prompting emocional do que sugerem alguns casos positivos fragmentados. Em benchmarks padrão baseados em acurácia, prefixos emocionais fixos geralmente são fracos e heterogêneos demais para servir como uma intervenção confiável de desempenho.

Os pesquisadores propõem redefinir prompting emocional não como um "template universal", mas como um "problema de roteamento adaptativo".

Limitações

Este estudo se concentrou em prefixos curtos, prompting de turno único e benchmarks centrados em acurácia. Em avaliações nas quais calibração, estilo e empatia são tão importantes quanto acurácia — como interações multi-turno, geração aberta e conversas sensíveis à segurança — podem surgir efeitos maiores ou qualitativamente diferentes.

Original: "Do Emotions in Prompts Matter? Effects of Emotional Framing on Large Language Models" — arXiv:2604.02236v1

1 comentários

huiya 24 일 전

Ué, então ficar bravo até agora não adiantou nada...?? Jurava que quando eu xingava ele fazia algo caprichadíssimo