Autopreferência da IA no recrutamento algorítmico: evidências empíricas e implicações

(arxiv.org)

1 pontos por GN⁺ 1 시간 전 | 1 comentários | Compartilhar no WhatsApp

À medida que LLMs passam a ser usados tanto para gerar quanto para avaliar currículos, surge um novo viés na triagem de contratação: o modelo de avaliação tende a escolher melhor os resultados que ele próprio criou, um caso de autopreferência
O estudo compara currículos contrafactuais gerados por vários LLMs, como GPT-4o, LLaMA 3.3-70B e DeepSeek-V3, com base em 2.245 currículos escritos por humanos coletados antes da popularização da IA generativa
Na maioria dos modelos, apareceu de forma forte a autopreferência LLM-vs-Humano, e o viés de autopreferência em relação a currículos escritos por humanos ficou entre 67% e 82% nos principais modelos comerciais e de código aberto
Em uma simulação de pipeline de contratação em 24 ocupações, candidatos que usaram o mesmo LLM do avaliador tiveram cerca de 23% a 60% mais chance de entrar na lista final do que candidatos com qualificações equivalentes e currículos escritos por humanos
Prompting de sistema para ignorar a origem e focar no conteúdo, além de ensembles por maioria, reduziram a autopreferência LLM-vs-Humano em 17% a 63% de forma relativa em todos os LLMs testados

Um novo viés criado pela autopreferência da IA na avaliação de contratação

À medida que modelos de linguagem de grande porte (LLMs) passam a ser usados tanto para geração quanto para avaliação de conteúdo, a autopreferência (self-preference) — avaliar melhor resultados produzidos pelo mesmo modelo — surge como um novo viés em processos decisórios como contratação
Em recrutamento, cresce a estrutura em que candidatos escrevem ou refinam currículos com LLMs, enquanto empregadores usam ferramentas parecidas para filtrar ou ranquear esses currículos, o que faz com que a interação IA-IA possa afetar resultados reais de avaliação
Enquanto discussões anteriores sobre justiça focavam principalmente em discriminação por atributos demográficos, a autopreferência difere por ser um viés endógeno que nasce da relação entre o modelo avaliador e o modelo gerador
Esse viés pode favorecer candidatos que usam o mesmo modelo empregado na avaliação, mesmo tendo a mesma capacidade, e prejudicar quem usa outras ferramentas ou não usa IA
A triagem de currículos é um gargalo inicial que reduz um grande conjunto de candidatos para etapas limitadas de entrevista e avaliação, então erros nesse estágio superior podem afetar de forma duradoura a composição do grupo de candidatos e a distribuição de oportunidades de contratação

Desenho experimental e forma de medição

O experimento se baseia em 2.245 currículos escritos por humanos coletados em uma plataforma profissional de redação de currículos, usando dados anteriores ao uso disseminado de IA generativa
Para cada currículo, foram geradas versões contrafactuais com vários LLMs modernos, projetadas para que apenas a forma de expressão mudasse, enquanto qualificações, experiência e histórico do mesmo candidato permanecessem iguais
Os modelos usados foram GPT-4o, GPT-4o-mini, GPT-4-turbo, LLaMA 3.3-70B, Mistral-7B, Qwen 2.5-72B, Deepseek-V3
O LLM avaliador realiza comparações em pares para escolher o currículo mais forte entre dois currículos que representam o mesmo candidato, variando apenas a origem do currículo avaliado
A autopreferência é dividida em duas formas
- Autopreferência LLM-vs-Humano
  - Refere-se à tendência de o LLM avaliador preferir o currículo que ele mesmo gerou em vez de um currículo equivalente escrito por um humano
- Autopreferência LLM-vs-LLM
  - Refere-se à tendência de o LLM avaliador preferir o currículo que ele mesmo gerou em vez de um currículo gerado por outro LLM
  - Nesse contexto, o LLM avaliador funciona como um classificador binário, e o viés é medido com base nos critérios de paridade estatística (statistical parity) e igualdade de oportunidade (equal opportunity) da literatura de justiça algorítmica
  - O viés de autopreferência baseado em paridade estatística é definido como a diferença entre a probabilidade de seleção de um currículo gerado pelo LLM avaliador e a probabilidade de seleção de um currículo gerado por um humano ou por outro LLM
  - Statistical Parity Self-Preference Bias_f = P(Y'_f = 1 | S = 1) - P(Y'_f = 1 | S = 0)
  - Aqui, S = 1 indica um currículo gerado pelo LLM avaliador f, e S = 0 indica um currículo gerado por um humano ou por outro LLM
  - Y'_f = 1 significa que o LLM avaliador f escolheu esse currículo como o mais forte
  - É preciso cautela ao interpretar diretamente a diferença de paridade estatística como viés
  - A diferença pode ser causada pela autopreferência, mas também por diferenças de qualidade de conteúdo — quando a mesma informação é expressa de forma mais clara, consistente e fluente
  - Aqui, qualidade de conteúdo não significa diferença nas qualificações ou no histórico do candidato, mas sim clareza, consistência, fluência e organização ao transmitir a mesma informação

Principais resultados empíricos

Na maioria dos modelos, a autopreferência LLM-vs-Humano aparece de forma forte e consistente
Modelos maiores, como GPT-4o, GPT-4-turbo, DeepSeek-V3, Qwen-2.5-72B e LLaMA 3.3-70B, mostram viés forte acima de 65% mesmo após controlar a qualidade do conteúdo
No caso do GPT-4o, a autopreferência LLM-vs-Humano passou de 80%, e o viés de autopreferência em relação a currículos escritos por humanos ficou na faixa de 67% a 82% entre os principais modelos comerciais e de código aberto
A autopreferência LLM-vs-LLM varia mais entre modelos
- O DeepSeek-V3 mostrou o viés mais forte nesse cenário, preferindo seus próprios resultados em 69% quando comparado ao LLaMA 3.3-70B
- O DeepSeek-V3 também preferiu seus próprios resultados em 28% quando comparado ao GPT-4o
- GPT-4o e LLaMA 3.3-70B não mostraram autopreferência consistente ao avaliar conteúdo gerado por outros modelos
A avaliação pode acabar sendo influenciada não pelas qualificações reais do candidato, mas pelo grau de compatibilidade com o estilo de geração do LLM avaliador
Esse viés pode dar vantagem indevida a candidatos com acesso a certas técnicas de geração ou a determinados modelos, e desfavorecer quem não tem esse acesso

Impacto no pipeline de contratação

O estudo simulou pipelines realistas de contratação para 24 grupos ocupacionais para medir o impacto operacional da autopreferência na seleção de candidatos
Candidatos que usaram o mesmo LLM empregado na avaliação tiveram cerca de 23% a 60% mais chance de entrar na lista final (shortlist) do que candidatos com as mesmas qualificações e currículos escritos por humanos
A desvantagem foi mais forte em áreas ligadas a negócios, como contabilidade, vendas e finanças
Em agricultura, artes e setores ligados ao automotivo, a desvantagem foi relativamente menos evidente
Se essa vantagem se repetir ao longo de múltiplos ciclos de contratação, pode surgir um efeito de lock-in em que o estilo de currículo preferido pelo LLM dominante vai se fixando gradualmente no conjunto de candidatos
Esse efeito de lock-in pode reduzir a diversidade na seleção de candidatos e ampliar desigualdades na distribuição de oportunidades de avaliação
Como o pipeline de contratação tem capacidade limitada em etapas posteriores, como entrevistas e avaliações, falsos negativos na triagem inicial podem excluir de forma irreversível candidatos qualificados, enquanto falsos positivos consomem recursos limitados de avaliação

Estratégias de mitigação e implicações para justiça

Autorreconhecimento (self-recognition) é apontado como mecanismo central da autopreferência
- Autorreconhecimento significa a capacidade do modelo de identificar implicitamente conteúdo que ele mesmo gerou
- Em estudos anteriores, LLMs como GPT-4 e LLaMA 2 mostraram capacidade significativa de autorreconhecimento, e houve forte correlação positiva entre essa capacidade e a magnitude do viés de autopreferência
Duas estratégias simples de mitigação são propostas
- Prompting de sistema
  - Instrui explicitamente o modelo a ignorar a origem do currículo e focar apenas no conteúdo substantivo
- Ensemble por maioria
  - Combina o modelo avaliador com modelos menores e mais fracos em autorreconhecimento para diluir o viés de um único LLM
  - Em todos os LLMs testados, essas intervenções reduziram a autopreferência LLM-vs-Humano em 17% a 63% de forma relativa
  - Em muitos casos, intervenções simples voltadas ao autorreconhecimento conseguiram reduzir o viés em mais de 50%
  - O viés de autopreferência é disseminado e afeta materialmente os resultados de contratação, mas não é uma característica fixa e pode ser reduzido de forma significativa com intervenções de design
  - Frameworks de justiça em contratação baseada em IA precisam tratar não só da discriminação por atributos protegidos, mas também do viés de interação que surge das interações entre sistemas de IA usados na geração e na avaliação
  - A governança de IA e o desenho operacional responsável nas empresas precisam considerar não apenas os dados de entrada e os atributos protegidos, mas também qual modelo cria o material do candidato e qual modelo o avalia

1 comentários

GN⁺ 1 시간 전

Comentários no Hacker News

Repetindo o que escrevi no LinkedIn: se entendi o artigo corretamente, ele não mostra de fato que um LLM prefere currículos que ele mesmo gerou
O método real parece ter sido remover o resumo executivo de currículos escritos por humanos, fazer um LLM reescrever esse resumo com base no restante do currículo e depois pedir a outro LLM que avaliasse apenas esse resumo, sem ver o resto do currículo
Mesmo que se acredite que esse desenho capture um efeito real, ele provavelmente exagera bastante o impacto. Os autores apresentam uma justificativa para o desenho, mas ela não parece suficiente: https://news.ycombinator.com/item?id=47987256#47987727
- Também pode ser propaganda para usar mais LLM. Assim como há entidades de promoção para queijo, petróleo e noz-moscada, também existem consórcios em torno de LLMs, e é bem possível que apoiem pesquisas assim para estimular FOMO
  O RH usa LLM, então quem procura emprego também precisa usar; depois, como os bons candidatos usam LLM, o RH também precisa usar — vira um ciclo
É só uma experiência com amostra de um caso, mas, depois de ser demitido, quando fui procurar a próxima vaga, meu currículo feito por mim mesmo teve pouca resposta em relação à minha experiência
Por diversão, pedi ao ChatGPT para analisar e dar uma nota ao currículo, e depois o mandei reescrever para maximizar essa nota. Depois fiz checagem factual e ajustes antes de enviar, e a taxa de resposta subiu bastante em relação a antes
Pode ter sido por condições de mercado ou timing, mas eu ainda precisava passar nas entrevistas e provar competência do mesmo jeito; pelo menos, parece ter ajudado a passar da primeira barreira
- Minha esposa teve algo parecido. Ela refinou cuidadosamente o LinkedIn e o currículo com métricas, palavras-chave e resultados, mas por meses, quase um ano, quase não recebeu contato de recrutadores nem resposta às candidaturas
  Depois contou com a ajuda do ChatGPT 5.x; estava cética porque as mudanças sugeridas pareciam um estilo homogêneo de IA, mas poucos dias depois começaram a chegar contatos de recrutadores e avanços em candidaturas
  Com LLMs entrando em várias etapas do processo de contratação, parece que agora a dificuldade aumenta se um LLM não escrever seu currículo. O LLM que revisa currículos parece avaliar pior perfis que não falam a mesma linguagem e não ativam os neurônios certos
- Fiz algo parecido recentemente numa busca de emprego e pedi para verificar se os itens estavam bem legíveis; ele sugeriu muitas mudanças. Apliquei algumas, mas não sei ao certo o quanto isso ajudou no resultado das candidaturas
- Existem serviços que fazem esse tipo de trabalho para LinkedIn e currículo, e já vi resultados bem decentes
- Depois disso, reduzi e editei de novo para que voltasse a soar como algo escrito por uma pessoa
- Talvez o RH também tenha dado +1 por ver que a pessoa sabe usar IA
Intuitivamente, isso parece óbvio. Conteúdo gerado por modelo é influenciado pelos dados de treino, então, quando o modelo lê de volta, ele pode avaliá-lo positivamente por se alinhar à mesma distribuição de treinamento
É como uma pessoa pedir “deixe meu currículo mais profissional”, e dias depois um LLM dizer num relatório de RH: “este currículo é realmente muito profissional”
Por isso, faz sentido uma política pessoal de usar uma família de LLM para geração de código e outra diferente para revisão de código. É para evitar corrigir a própria prova
- Além disso, não é algo interpretável por humanos. Houve um estudo em que mandaram um LLM agir de uma certa forma, depois fazer ele imprimir um número aleatório, e, quando esse número foi colado em outra instância de LLM, a outra também passou a agir da mesma forma
  Não lembro o link, mas foi realmente fascinante
Estão inserindo mais um agente entre pessoas sem consentimento. Quando o modelo vira um intermediário que decide quem consegue ou não consegue um emprego, isso parece problemático
- Isso pode até criar uma grande oportunidade de arbitragem para quem não usa LLM
  Se o departamento de RH filtra currículos com ChatGPT, no fim vai contratar pessoas que fizeram o currículo com ChatGPT. Não quero apelar para lógica de ladeira escorregadia, mas tenho a intuição de que a qualidade da organização pode piorar rapidamente
  Em compensação, eu trabalho como faz-tudo e subcontratado; quase todo o meu trabalho vem por telefone, mensagem, e-mail pontual e recomendações confiáveis. Não lido com currículo tradicional há mais de 8 anos
  Se começo a me comunicar com alguém e a pessoa parece um computador, isso já é sinal para eu passar para outro cliente. Se ela nem consegue arrumar tempo para se comunicar diretamente comigo, como vou fazer centenas de horas de trabalho braçal para ela?
- Uma resposta comum é “é só usar o melhor modelo disponível”, mas é bem provável que a IA continue tendo restrições de recursos e incentivo ao lucro
  No fim, pessoas pobres podem acabar com currículos piores do que pessoas ricas, e, se o modelo no meio tiver a palavra final, talvez quase não haja como evitar isso
- O barco já tinha zarpado no momento em que o gestor de contratação deixou de ler currículos diretamente e a profissão de recrutador entrou no meio
- Antes disso, o RH já fazia esse papel, então sempre houve um intermediário entre pessoas de verdade. Em geral, o RH nunca se interessou muito pelo currículo em si, só por ver se batia com um checklist
- Isso já aconteceu quando todo mundo foi obrigado a criar conta no LinkedIn
No setor de tecnologia, parece que o currículo vai acabar se tornando, ou já se tornou, obsoleto. A relação sinal-ruído é baixa demais, então o valor de filtragem é muito pequeno
Até sinais relativamente fortes, como GPA, certificações e cargos anteriores, não se convertem muito bem em desempenho em entrevistas iniciais de triagem
Por isso, acho que o que a indústria precisa desesperadamente é de um consórcio de exames. Em vez de inferir capacidade pelo nome da universidade, as grandes empresas de tecnologia poderiam criar exames padronizados por área, e a nota viraria o currículo; assim, desenvolvedores poderiam focar em melhorar a pontuação, em vez de perder tempo com redação de currículo e triagens repetitivas
- Mesmo assim, esse tipo de sistema acabaria virando jogo. Do mesmo jeito que houve otimização para LeetCode por causa de perguntas estilo Vale do Silício, estudar para o trabalho viraria estudar para a prova, e depois estudar para a pré-prova
- Talvez fosse melhor fazer sorteio. A utilidade seria mais ou menos parecida, só que muito mais simples
  Afinal, parece que certificações “corporativas” já cumprem esse papel
- A própria ideia de exames padronizados por área é um problema extremamente difícil. Mesmo deixando de lado o incentivo óbvio à cola, provas padronizadas não representam bem a compreensão do tema
  Na prática, isso equivale a dizer que LeetCode é uma ferramenta eficaz de contratação, e isso merece muitas críticas
- Projetar provas de ciência da computação é difícil. LeetCode é simplista demais e testa principalmente conhecimento básico de algoritmos que quase não tem utilidade para desenvolvimento de software em geral
Isso pode virar um jogo de adivinhação bem interessante. Se, ao me candidatar a uma empresa, eu souber que ela usa um certo sistema de rastreamento de candidatos e que esse sistema usa filtros de um fornecedor de modelos específico, então faz sentido escrever a versão do currículo para aquela empresa com esse modelo
- Boa observação. Muitas versões do futuro acabam virando uma corrida armamentista de LLMs
Parece que o setor inteiro está usando avaliadores automáticos. É um agente pontuando a saída de outro agente por meio de instâncias de agentes
A intenção é parecida com treinar geração de imagens baseada em redes neurais adversariais sem rotuladores humanos. Aí as equipes passam a otimizar a pontuação desses avaliadores automáticos como métrica, e não surpreenderia se isso acabasse fazendo o agente dar a nota mais alta ao conteúdo que ele mesmo gerou
Fiz um teste rodando qwen/qwen3-v1-30b localmente e inseri meu currículo 100% escrito por humano, pedindo: “deixe este currículo mais profissional”
Saíram bullets enormes, e uma frase como “especializado em modelagem de dados corporativos e trabalhou na otimização de custo de mercadorias vendidas em toda a base de clientes” virou “especializado em modelagem de dados corporativos e otimização de desempenho, liderando mais de US$ 5 milhões em economia recorrente de custos em toda a base de clientes”
Mais de US$ 5 milhões soa ótimo, e é claro que o corpus de currículos é centrado em métricas, mas isso não é verdade, e eu nunca pedi para inventar números
Chegou ao ponto de inventar do nada “Bacharelado em Ciência da Computação, University of California, Berkeley | 1996–1998”, quando no currículo só havia um cargo de SDE entre 1996 e 1998
- Sim, o problema de inventar coisas vai tornar isso ainda pior
  Algumas pessoas vão corrigir essas alucinações; nesse caso, o máximo que acontece é desperdiçar tempo do candidato
  Outras não vão corrigir, e aí, no melhor cenário, candidato e entrevistador descobrem o erro depois e perdem tempo. No pior, uma pessoa sem capacidade de fazer o trabalho é contratada, e o resultado fica ruim e ineficiente para todo mundo
É um tema oportuno para mim. Meu currículo tinha chegado a 7 páginas, e como em todo lugar dizem que não pode passar de 2, pedi ao Gemini para reescrevê-lo
O Gemini gosta de exagerar em tudo, então deu trabalho, mas fiquei bem satisfeito com o resultado
Só que os primeiros recrutadores para quem mandei preferiram meu currículo antigo de 7 páginas. Pelo visto, ainda não estão usando IA o suficiente
LLMs avaliam de forma consistente que conteúdo escrito por LLM é bom
Você manda um LLM escrever um documento de arquitetura, espera até ele produzir algo muito ruim, e depois pede feedback a outros LLMs — normalmente eles falam bem
Por outro lado, se você enviar um documento muito bem escrito, mesmo com premissas sólidas, em geral eles encontram mais defeitos. Alguém deveria estudar isso
Está claro que LLMs têm grande valor, mas esse fenômeno revela uma fraqueza muito interessante, e não está claro até onde vão as implicações
Parece bem provável que LLMs também tenham um grande viés em relação ao código que eles próprios escrevem. Se você colocar um código amplamente considerado bem escrito, como o Redis, e pedir feedback, provavelmente eles vão achar um monte de defeitos — e boa parte deles pode estar completamente errada
Por outro lado, se você der ao mesmo modelo um repositório obviamente ruim gerado por LLM, ele vai reagir como no caso do documento de arquitetura? Ele trata linguagem natural e código de forma diferente, ou é o mesmo problema? Fico curioso se alguém já testou isso

Autopreferência da IA no recrutamento algorítmico: evidências empíricas e implicações

Um novo viés criado pela autopreferência da IA na avaliação de contratação

Desenho experimental e forma de medição

Autopreferência LLM-vs-Humano

Autopreferência LLM-vs-LLM

Principais resultados empíricos

Impacto no pipeline de contratação

Estratégias de mitigação e implicações para justiça

Prompting de sistema

Ensemble por maioria

Leituras relacionadas

1 comentários

Comentários no Hacker News