11 pontos por davespark 2026-01-08 | Ainda não há comentários. | Compartilhar no WhatsApp

Experimento de prova oral com IA de um professor da NYU

Contexto

  • Limites da avaliação tradicional de trabalhos na era da IA: estudantes entregam trabalhos perfeitamente escritos com IA, mas revelam falta de compreensão real
  • Professor Panos Ipeirotis (Stern School of Business da NYU): experimento de lógica inversa para combater cola com IA usando IA

Visão geral do experimento

  • Disciplina: gestão de produto de AI/ML
  • Público: 36 estudantes
  • Método: prova oral com agente de voz por IA da ElevenLabs
  • Conteúdo: perguntas sobre o projeto dos estudantes + perguntas sobre estudos de caso da disciplina
  • Período: 9 dias, média de 25 minutos por estudante
  • Custo total: US$ 15 (US$ 0,42 por estudante)
    • Claude: US$ 8, Gemini: US$ 2, OpenAI: US$ 0,30, ElevenLabs: US$ 5

Comparação de custos

  • Prova com IA: US$ 15
  • Correção humana: US$ 750 (36 estudantes × 25 min × 2 pessoas × US$ 25/hora)
  • Vantagem: torna provas orais viáveis em turmas grandes

Problemas iniciais

  • Tom do agente: percebido como rígido e arrogante (reclamação de estudante: "gritou comigo")
  • Problemas de comportamento: fazia várias perguntas ao mesmo tempo, reformulava ao repetir, interrompia rápido demais
  • Viés na aleatoriedade: mesmo com a instrução de "seleção aleatória", houve viés para um caso específico (Zillow 88%)
    • Motivo: os dados de treinamento dos LLMs refletem vieses humanos

Método de correção

  • Método: aplicação do "Council of LLMs" de Andrej Karpathy
    • Claude, Gemini e ChatGPT avaliam de forma independente → fazem revisão cruzada → revisam suas notas
  • Resultado: embora a diferença inicial de notas fosse grande (Gemini 17 vs Claude 13,4), após a revisão 60% convergiram para até 1 ponto de diferença
  • Qualidade do feedback: a IA foi superior à humana (resumo estruturado + citações diretas)

Descobertas

  • Diferença por tema: fraqueza no tema "experimentos" (média de 1,94/4) → o professor reconheceu problema pedagógico (negligência com A/B testing)
  • Duração da prova e nota: sem correlação (a mais curta, 9 min, teve a maior nota; a mais longa, 64 min, teve nota comum)

Avaliação dos estudantes

  • Preferência pelo formato com IA: 13% (o dobro da preferência por humanos)
  • Estresse: 83% mais alto
  • Justiça: 70% concordaram que avaliava a compreensão real (item mais bem avaliado)

Conclusão

  • Provas orais com IA: escaláveis, baratas e justas
  • Vantagens: perguntas geradas de novo a cada vez (sem problema de vazamento), possibilidade de prática
  • Ironia: uma solução com IA para cola feita com IA
  • O experimento sugere uma possível mudança na avaliação educacional, ao mesmo tempo em que expõe limitações

Ainda não há comentários.

Ainda não há comentários.