Pegar cola com IA por US$ 0,42 por aluno: o experimento de prova oral com IA de um professor da NYU
(aisparkup.com)Experimento de prova oral com IA de um professor da NYU
Contexto
- Limites da avaliação tradicional de trabalhos na era da IA: estudantes entregam trabalhos perfeitamente escritos com IA, mas revelam falta de compreensão real
- Professor Panos Ipeirotis (Stern School of Business da NYU): experimento de lógica inversa para combater cola com IA usando IA
Visão geral do experimento
- Disciplina: gestão de produto de AI/ML
- Público: 36 estudantes
- Método: prova oral com agente de voz por IA da ElevenLabs
- Conteúdo: perguntas sobre o projeto dos estudantes + perguntas sobre estudos de caso da disciplina
- Período: 9 dias, média de 25 minutos por estudante
- Custo total: US$ 15 (US$ 0,42 por estudante)
- Claude: US$ 8, Gemini: US$ 2, OpenAI: US$ 0,30, ElevenLabs: US$ 5
Comparação de custos
- Prova com IA: US$ 15
- Correção humana: US$ 750 (36 estudantes × 25 min × 2 pessoas × US$ 25/hora)
- Vantagem: torna provas orais viáveis em turmas grandes
Problemas iniciais
- Tom do agente: percebido como rígido e arrogante (reclamação de estudante: "gritou comigo")
- Problemas de comportamento: fazia várias perguntas ao mesmo tempo, reformulava ao repetir, interrompia rápido demais
- Viés na aleatoriedade: mesmo com a instrução de "seleção aleatória", houve viés para um caso específico (Zillow 88%)
- Motivo: os dados de treinamento dos LLMs refletem vieses humanos
Método de correção
- Método: aplicação do "Council of LLMs" de Andrej Karpathy
- Claude, Gemini e ChatGPT avaliam de forma independente → fazem revisão cruzada → revisam suas notas
- Resultado: embora a diferença inicial de notas fosse grande (Gemini 17 vs Claude 13,4), após a revisão 60% convergiram para até 1 ponto de diferença
- Qualidade do feedback: a IA foi superior à humana (resumo estruturado + citações diretas)
Descobertas
- Diferença por tema: fraqueza no tema "experimentos" (média de 1,94/4) → o professor reconheceu problema pedagógico (negligência com A/B testing)
- Duração da prova e nota: sem correlação (a mais curta, 9 min, teve a maior nota; a mais longa, 64 min, teve nota comum)
Avaliação dos estudantes
- Preferência pelo formato com IA: 13% (o dobro da preferência por humanos)
- Estresse: 83% mais alto
- Justiça: 70% concordaram que avaliava a compreensão real (item mais bem avaliado)
Conclusão
- Provas orais com IA: escaláveis, baratas e justas
- Vantagens: perguntas geradas de novo a cada vez (sem problema de vazamento), possibilidade de prática
- Ironia: uma solução com IA para cola feita com IA
- O experimento sugere uma possível mudança na avaliação educacional, ao mesmo tempo em que expõe limitações
Ainda não há comentários.