Pegar cola com IA por US$ 0,42 por aluno: o experimento de prova oral com IA de um professor da NYU

(aisparkup.com)

11 pontos por davespark 2026-01-08 | Ainda não há comentários. | Compartilhar no WhatsApp

Experimento de prova oral com IA de um professor da NYU

Contexto

Limites da avaliação tradicional de trabalhos na era da IA: estudantes entregam trabalhos perfeitamente escritos com IA, mas revelam falta de compreensão real
Professor Panos Ipeirotis (Stern School of Business da NYU): experimento de lógica inversa para combater cola com IA usando IA

Visão geral do experimento

Disciplina: gestão de produto de AI/ML
Público: 36 estudantes
Método: prova oral com agente de voz por IA da ElevenLabs
Conteúdo: perguntas sobre o projeto dos estudantes + perguntas sobre estudos de caso da disciplina
Período: 9 dias, média de 25 minutos por estudante
Custo total: US$ 15 (US$ 0,42 por estudante)
- Claude: US$ 8, Gemini: US$ 2, OpenAI: US$ 0,30, ElevenLabs: US$ 5

Comparação de custos

Problemas iniciais

Tom do agente: percebido como rígido e arrogante (reclamação de estudante: "gritou comigo")
Problemas de comportamento: fazia várias perguntas ao mesmo tempo, reformulava ao repetir, interrompia rápido demais
Viés na aleatoriedade: mesmo com a instrução de "seleção aleatória", houve viés para um caso específico (Zillow 88%)
- Motivo: os dados de treinamento dos LLMs refletem vieses humanos

Método de correção

Método: aplicação do "Council of LLMs" de Andrej Karpathy
- Claude, Gemini e ChatGPT avaliam de forma independente → fazem revisão cruzada → revisam suas notas
Resultado: embora a diferença inicial de notas fosse grande (Gemini 17 vs Claude 13,4), após a revisão 60% convergiram para até 1 ponto de diferença
Qualidade do feedback: a IA foi superior à humana (resumo estruturado + citações diretas)

Descobertas

Diferença por tema: fraqueza no tema "experimentos" (média de 1,94/4) → o professor reconheceu problema pedagógico (negligência com A/B testing)
Duração da prova e nota: sem correlação (a mais curta, 9 min, teve a maior nota; a mais longa, 64 min, teve nota comum)

Avaliação dos estudantes

Preferência pelo formato com IA: 13% (o dobro da preferência por humanos)
Estresse: 83% mais alto
Justiça: 70% concordaram que avaliava a compreensão real (item mais bem avaliado)

Conclusão

Provas orais com IA: escaláveis, baratas e justas
Vantagens: perguntas geradas de novo a cada vez (sem problema de vazamento), possibilidade de prática
Ironia: uma solução com IA para cola feita com IA
O experimento sugere uma possível mudança na avaliação educacional, ao mesmo tempo em que expõe limitações

Leituras relacionadas