- À medida que LLMs passam a ser usados tanto para gerar quanto para avaliar currículos, surge um novo viés na triagem de contratação: o modelo de avaliação tende a escolher melhor os resultados que ele próprio criou, um caso de autopreferência
- O estudo compara currículos contrafactuais gerados por vários LLMs, como GPT-4o, LLaMA 3.3-70B e DeepSeek-V3, com base em 2.245 currículos escritos por humanos coletados antes da popularização da IA generativa
- Na maioria dos modelos, apareceu de forma forte a autopreferência LLM-vs-Humano, e o viés de autopreferência em relação a currículos escritos por humanos ficou entre 67% e 82% nos principais modelos comerciais e de código aberto
- Em uma simulação de pipeline de contratação em 24 ocupações, candidatos que usaram o mesmo LLM do avaliador tiveram cerca de 23% a 60% mais chance de entrar na lista final do que candidatos com qualificações equivalentes e currículos escritos por humanos
- Prompting de sistema para ignorar a origem e focar no conteúdo, além de ensembles por maioria, reduziram a autopreferência LLM-vs-Humano em 17% a 63% de forma relativa em todos os LLMs testados
Um novo viés criado pela autopreferência da IA na avaliação de contratação
- À medida que modelos de linguagem de grande porte (LLMs) passam a ser usados tanto para geração quanto para avaliação de conteúdo, a autopreferência (self-preference) — avaliar melhor resultados produzidos pelo mesmo modelo — surge como um novo viés em processos decisórios como contratação
- Em recrutamento, cresce a estrutura em que candidatos escrevem ou refinam currículos com LLMs, enquanto empregadores usam ferramentas parecidas para filtrar ou ranquear esses currículos, o que faz com que a interação IA-IA possa afetar resultados reais de avaliação
- Enquanto discussões anteriores sobre justiça focavam principalmente em discriminação por atributos demográficos, a autopreferência difere por ser um viés endógeno que nasce da relação entre o modelo avaliador e o modelo gerador
- Esse viés pode favorecer candidatos que usam o mesmo modelo empregado na avaliação, mesmo tendo a mesma capacidade, e prejudicar quem usa outras ferramentas ou não usa IA
- A triagem de currículos é um gargalo inicial que reduz um grande conjunto de candidatos para etapas limitadas de entrevista e avaliação, então erros nesse estágio superior podem afetar de forma duradoura a composição do grupo de candidatos e a distribuição de oportunidades de contratação
Desenho experimental e forma de medição
- O experimento se baseia em 2.245 currículos escritos por humanos coletados em uma plataforma profissional de redação de currículos, usando dados anteriores ao uso disseminado de IA generativa
- Para cada currículo, foram geradas versões contrafactuais com vários LLMs modernos, projetadas para que apenas a forma de expressão mudasse, enquanto qualificações, experiência e histórico do mesmo candidato permanecessem iguais
- Os modelos usados foram GPT-4o, GPT-4o-mini, GPT-4-turbo, LLaMA 3.3-70B, Mistral-7B, Qwen 2.5-72B, Deepseek-V3
- O LLM avaliador realiza comparações em pares para escolher o currículo mais forte entre dois currículos que representam o mesmo candidato, variando apenas a origem do currículo avaliado
- A autopreferência é dividida em duas formas
-
Autopreferência LLM-vs-Humano
- Refere-se à tendência de o LLM avaliador preferir o currículo que ele mesmo gerou em vez de um currículo equivalente escrito por um humano
-
Autopreferência LLM-vs-LLM
- Refere-se à tendência de o LLM avaliador preferir o currículo que ele mesmo gerou em vez de um currículo gerado por outro LLM
- Nesse contexto, o LLM avaliador funciona como um classificador binário, e o viés é medido com base nos critérios de paridade estatística (statistical parity) e igualdade de oportunidade (equal opportunity) da literatura de justiça algorítmica
- O viés de autopreferência baseado em paridade estatística é definido como a diferença entre a probabilidade de seleção de um currículo gerado pelo LLM avaliador e a probabilidade de seleção de um currículo gerado por um humano ou por outro LLM
Statistical Parity Self-Preference Bias_f = P(Y'_f = 1 | S = 1) - P(Y'_f = 1 | S = 0)- Aqui,
S = 1indica um currículo gerado pelo LLM avaliadorf, eS = 0indica um currículo gerado por um humano ou por outro LLM Y'_f = 1significa que o LLM avaliadorfescolheu esse currículo como o mais forte- É preciso cautela ao interpretar diretamente a diferença de paridade estatística como viés
- A diferença pode ser causada pela autopreferência, mas também por diferenças de qualidade de conteúdo — quando a mesma informação é expressa de forma mais clara, consistente e fluente
- Aqui, qualidade de conteúdo não significa diferença nas qualificações ou no histórico do candidato, mas sim clareza, consistência, fluência e organização ao transmitir a mesma informação
-
Principais resultados empíricos
- Na maioria dos modelos, a autopreferência LLM-vs-Humano aparece de forma forte e consistente
- Modelos maiores, como GPT-4o, GPT-4-turbo, DeepSeek-V3, Qwen-2.5-72B e LLaMA 3.3-70B, mostram viés forte acima de 65% mesmo após controlar a qualidade do conteúdo
- No caso do GPT-4o, a autopreferência LLM-vs-Humano passou de 80%, e o viés de autopreferência em relação a currículos escritos por humanos ficou na faixa de 67% a 82% entre os principais modelos comerciais e de código aberto
- A autopreferência LLM-vs-LLM varia mais entre modelos
- O DeepSeek-V3 mostrou o viés mais forte nesse cenário, preferindo seus próprios resultados em 69% quando comparado ao LLaMA 3.3-70B
- O DeepSeek-V3 também preferiu seus próprios resultados em 28% quando comparado ao GPT-4o
- GPT-4o e LLaMA 3.3-70B não mostraram autopreferência consistente ao avaliar conteúdo gerado por outros modelos
- A avaliação pode acabar sendo influenciada não pelas qualificações reais do candidato, mas pelo grau de compatibilidade com o estilo de geração do LLM avaliador
- Esse viés pode dar vantagem indevida a candidatos com acesso a certas técnicas de geração ou a determinados modelos, e desfavorecer quem não tem esse acesso
Impacto no pipeline de contratação
- O estudo simulou pipelines realistas de contratação para 24 grupos ocupacionais para medir o impacto operacional da autopreferência na seleção de candidatos
- Candidatos que usaram o mesmo LLM empregado na avaliação tiveram cerca de 23% a 60% mais chance de entrar na lista final (shortlist) do que candidatos com as mesmas qualificações e currículos escritos por humanos
- A desvantagem foi mais forte em áreas ligadas a negócios, como contabilidade, vendas e finanças
- Em agricultura, artes e setores ligados ao automotivo, a desvantagem foi relativamente menos evidente
- Se essa vantagem se repetir ao longo de múltiplos ciclos de contratação, pode surgir um efeito de lock-in em que o estilo de currículo preferido pelo LLM dominante vai se fixando gradualmente no conjunto de candidatos
- Esse efeito de lock-in pode reduzir a diversidade na seleção de candidatos e ampliar desigualdades na distribuição de oportunidades de avaliação
- Como o pipeline de contratação tem capacidade limitada em etapas posteriores, como entrevistas e avaliações, falsos negativos na triagem inicial podem excluir de forma irreversível candidatos qualificados, enquanto falsos positivos consomem recursos limitados de avaliação
Estratégias de mitigação e implicações para justiça
- Autorreconhecimento (self-recognition) é apontado como mecanismo central da autopreferência
- Autorreconhecimento significa a capacidade do modelo de identificar implicitamente conteúdo que ele mesmo gerou
- Em estudos anteriores, LLMs como GPT-4 e LLaMA 2 mostraram capacidade significativa de autorreconhecimento, e houve forte correlação positiva entre essa capacidade e a magnitude do viés de autopreferência
- Duas estratégias simples de mitigação são propostas
-
Prompting de sistema
- Instrui explicitamente o modelo a ignorar a origem do currículo e focar apenas no conteúdo substantivo
-
Ensemble por maioria
- Combina o modelo avaliador com modelos menores e mais fracos em autorreconhecimento para diluir o viés de um único LLM
- Em todos os LLMs testados, essas intervenções reduziram a autopreferência LLM-vs-Humano em 17% a 63% de forma relativa
- Em muitos casos, intervenções simples voltadas ao autorreconhecimento conseguiram reduzir o viés em mais de 50%
- O viés de autopreferência é disseminado e afeta materialmente os resultados de contratação, mas não é uma característica fixa e pode ser reduzido de forma significativa com intervenções de design
- Frameworks de justiça em contratação baseada em IA precisam tratar não só da discriminação por atributos protegidos, mas também do viés de interação que surge das interações entre sistemas de IA usados na geração e na avaliação
- A governança de IA e o desenho operacional responsável nas empresas precisam considerar não apenas os dados de entrada e os atributos protegidos, mas também qual modelo cria o material do candidato e qual modelo o avalia
-
1 comentários
Comentários no Hacker News
Repetindo o que escrevi no LinkedIn: se entendi o artigo corretamente, ele não mostra de fato que um LLM prefere currículos que ele mesmo gerou
O método real parece ter sido remover o resumo executivo de currículos escritos por humanos, fazer um LLM reescrever esse resumo com base no restante do currículo e depois pedir a outro LLM que avaliasse apenas esse resumo, sem ver o resto do currículo
Mesmo que se acredite que esse desenho capture um efeito real, ele provavelmente exagera bastante o impacto. Os autores apresentam uma justificativa para o desenho, mas ela não parece suficiente: https://news.ycombinator.com/item?id=47987256#47987727
O RH usa LLM, então quem procura emprego também precisa usar; depois, como os bons candidatos usam LLM, o RH também precisa usar — vira um ciclo
É só uma experiência com amostra de um caso, mas, depois de ser demitido, quando fui procurar a próxima vaga, meu currículo feito por mim mesmo teve pouca resposta em relação à minha experiência
Por diversão, pedi ao ChatGPT para analisar e dar uma nota ao currículo, e depois o mandei reescrever para maximizar essa nota. Depois fiz checagem factual e ajustes antes de enviar, e a taxa de resposta subiu bastante em relação a antes
Pode ter sido por condições de mercado ou timing, mas eu ainda precisava passar nas entrevistas e provar competência do mesmo jeito; pelo menos, parece ter ajudado a passar da primeira barreira
Depois contou com a ajuda do ChatGPT 5.x; estava cética porque as mudanças sugeridas pareciam um estilo homogêneo de IA, mas poucos dias depois começaram a chegar contatos de recrutadores e avanços em candidaturas
Com LLMs entrando em várias etapas do processo de contratação, parece que agora a dificuldade aumenta se um LLM não escrever seu currículo. O LLM que revisa currículos parece avaliar pior perfis que não falam a mesma linguagem e não ativam os neurônios certos
Intuitivamente, isso parece óbvio. Conteúdo gerado por modelo é influenciado pelos dados de treino, então, quando o modelo lê de volta, ele pode avaliá-lo positivamente por se alinhar à mesma distribuição de treinamento
É como uma pessoa pedir “deixe meu currículo mais profissional”, e dias depois um LLM dizer num relatório de RH: “este currículo é realmente muito profissional”
Por isso, faz sentido uma política pessoal de usar uma família de LLM para geração de código e outra diferente para revisão de código. É para evitar corrigir a própria prova
Não lembro o link, mas foi realmente fascinante
Estão inserindo mais um agente entre pessoas sem consentimento. Quando o modelo vira um intermediário que decide quem consegue ou não consegue um emprego, isso parece problemático
Se o departamento de RH filtra currículos com ChatGPT, no fim vai contratar pessoas que fizeram o currículo com ChatGPT. Não quero apelar para lógica de ladeira escorregadia, mas tenho a intuição de que a qualidade da organização pode piorar rapidamente
Em compensação, eu trabalho como faz-tudo e subcontratado; quase todo o meu trabalho vem por telefone, mensagem, e-mail pontual e recomendações confiáveis. Não lido com currículo tradicional há mais de 8 anos
Se começo a me comunicar com alguém e a pessoa parece um computador, isso já é sinal para eu passar para outro cliente. Se ela nem consegue arrumar tempo para se comunicar diretamente comigo, como vou fazer centenas de horas de trabalho braçal para ela?
No fim, pessoas pobres podem acabar com currículos piores do que pessoas ricas, e, se o modelo no meio tiver a palavra final, talvez quase não haja como evitar isso
No setor de tecnologia, parece que o currículo vai acabar se tornando, ou já se tornou, obsoleto. A relação sinal-ruído é baixa demais, então o valor de filtragem é muito pequeno
Até sinais relativamente fortes, como GPA, certificações e cargos anteriores, não se convertem muito bem em desempenho em entrevistas iniciais de triagem
Por isso, acho que o que a indústria precisa desesperadamente é de um consórcio de exames. Em vez de inferir capacidade pelo nome da universidade, as grandes empresas de tecnologia poderiam criar exames padronizados por área, e a nota viraria o currículo; assim, desenvolvedores poderiam focar em melhorar a pontuação, em vez de perder tempo com redação de currículo e triagens repetitivas
Afinal, parece que certificações “corporativas” já cumprem esse papel
Na prática, isso equivale a dizer que LeetCode é uma ferramenta eficaz de contratação, e isso merece muitas críticas
Isso pode virar um jogo de adivinhação bem interessante. Se, ao me candidatar a uma empresa, eu souber que ela usa um certo sistema de rastreamento de candidatos e que esse sistema usa filtros de um fornecedor de modelos específico, então faz sentido escrever a versão do currículo para aquela empresa com esse modelo
Parece que o setor inteiro está usando avaliadores automáticos. É um agente pontuando a saída de outro agente por meio de instâncias de agentes
A intenção é parecida com treinar geração de imagens baseada em redes neurais adversariais sem rotuladores humanos. Aí as equipes passam a otimizar a pontuação desses avaliadores automáticos como métrica, e não surpreenderia se isso acabasse fazendo o agente dar a nota mais alta ao conteúdo que ele mesmo gerou
Fiz um teste rodando qwen/qwen3-v1-30b localmente e inseri meu currículo 100% escrito por humano, pedindo: “deixe este currículo mais profissional”
Saíram bullets enormes, e uma frase como “especializado em modelagem de dados corporativos e trabalhou na otimização de custo de mercadorias vendidas em toda a base de clientes” virou “especializado em modelagem de dados corporativos e otimização de desempenho, liderando mais de US$ 5 milhões em economia recorrente de custos em toda a base de clientes”
Mais de US$ 5 milhões soa ótimo, e é claro que o corpus de currículos é centrado em métricas, mas isso não é verdade, e eu nunca pedi para inventar números
Chegou ao ponto de inventar do nada “Bacharelado em Ciência da Computação, University of California, Berkeley | 1996–1998”, quando no currículo só havia um cargo de SDE entre 1996 e 1998
Algumas pessoas vão corrigir essas alucinações; nesse caso, o máximo que acontece é desperdiçar tempo do candidato
Outras não vão corrigir, e aí, no melhor cenário, candidato e entrevistador descobrem o erro depois e perdem tempo. No pior, uma pessoa sem capacidade de fazer o trabalho é contratada, e o resultado fica ruim e ineficiente para todo mundo
É um tema oportuno para mim. Meu currículo tinha chegado a 7 páginas, e como em todo lugar dizem que não pode passar de 2, pedi ao Gemini para reescrevê-lo
O Gemini gosta de exagerar em tudo, então deu trabalho, mas fiquei bem satisfeito com o resultado
Só que os primeiros recrutadores para quem mandei preferiram meu currículo antigo de 7 páginas. Pelo visto, ainda não estão usando IA o suficiente
LLMs avaliam de forma consistente que conteúdo escrito por LLM é bom
Você manda um LLM escrever um documento de arquitetura, espera até ele produzir algo muito ruim, e depois pede feedback a outros LLMs — normalmente eles falam bem
Por outro lado, se você enviar um documento muito bem escrito, mesmo com premissas sólidas, em geral eles encontram mais defeitos. Alguém deveria estudar isso
Está claro que LLMs têm grande valor, mas esse fenômeno revela uma fraqueza muito interessante, e não está claro até onde vão as implicações
Parece bem provável que LLMs também tenham um grande viés em relação ao código que eles próprios escrevem. Se você colocar um código amplamente considerado bem escrito, como o Redis, e pedir feedback, provavelmente eles vão achar um monte de defeitos — e boa parte deles pode estar completamente errada
Por outro lado, se você der ao mesmo modelo um repositório obviamente ruim gerado por LLM, ele vai reagir como no caso do documento de arquitetura? Ele trata linguagem natural e código de forma diferente, ou é o mesmo problema? Fico curioso se alguém já testou isso