Estudo da Stanford Law mostra que IA teve desempenho melhor que professores de direito
(law.stanford.edu)- Em um estudo da Stanford Law School, professores de direito preferiram de forma esmagadora respostas geradas por IA às respostas de professores colegas para perguntas de alunos, indicando resultados que podem influenciar a forma como o ensino jurídico é oferecido
- Em uma avaliação cega com 16 professores de direito de faculdades de direito dos EUA, foram realizadas cerca de 3.000 comparações anônimas, e a IA registrou 75% de vitórias em confrontos diretos com respostas de professores
- Os participantes criaram 40 perguntas que um aluno provavelmente faria após a aula de direito contratual ou no horário de atendimento, responderam elas próprios e depois avaliaram respostas da IA e de colegas sem saber a origem
- Os professores marcaram respostas da IA como pedagogicamente prejudiciais em 3,5% dos casos, enquanto respostas de colegas receberam 12%, e o sistema de IA apresentou desempenho semelhante ao melhor instrutor humano do estudo
- Os resultados não sustentam a adoção total de tutores de IA, mas oferecem base para discutir formas responsáveis de implementação mesmo em áreas como o direito, nas quais o julgamento é crucial
Desenho do estudo e principais resultados
- O estudo “Law Professors Prefer AI Over Peer Answers”, liderado pelo professor da Stanford Law School Julian Nyarko, investigou se grandes modelos de linguagem podem atuar como tutores eficazes em aulas de direito contratual
- Participaram do estudo 16 professores de direito de faculdades de direito dos EUA, e os participantes criaram 40 perguntas representativas de direito contratual que um aluno poderia fazer após a aula ou no horário de atendimento, respondendo-as diretamente
- Os professores avaliaram as respostas sem saber se vinham da IA ou de outro professor participante, e, em cerca de 3.000 comparações anônimas, as respostas da IA obtiveram taxa de vitória de 75% em comparações diretas
- Os pesquisadores ajustaram o comprimento e a estrutura das respostas da IA para corresponder às respostas humanas, usaram vários métodos de avaliação e também pediram aos professores que avaliassem se as respostas poderiam induzir os alunos ao erro ou à confusão
- O sistema de IA teve desempenho semelhante ao melhor instrutor humano do estudo, e a taxa de respostas marcadas pelos professores como pedagogicamente prejudiciais foi de 3,5% para a IA e 12% para respostas de colegas
Significado e limitações para o ensino jurídico
- No direito, muitas vezes não há uma resposta claramente correta, e argumentos conflitantes podem ser ambos persuasivos, por isso julgamento, raciocínio sutil e capacidade de lidar com ambiguidades são importantes
- Os pesquisadores também examinaram vários modelos de IA, incluindo sistemas comerciais de tutoria e o NotebookLM do Google, e houve diferenças de desempenho entre os modelos
- Mesmo quando limitações de contexto afetaram as respostas da IA, os professores frequentemente preferiram essas respostas às alternativas escritas por humanos
- As faculdades de direito precisam manter padrões acadêmicos rigorosos ao discutir a integração de ferramentas de IA ao ensino jurídico, além de considerar riscos como alucinações, dependência excessiva e enfraquecimento da capacidade de pensamento crítico
- O estudo avaliou a qualidade das respostas produzidas pelas ferramentas de IA, mas a forma de implementação que melhora o aprendizado dos alunos com maior eficácia ainda é uma questão em aberto, e o debate deve mudar de se a IA pode fornecer respostas precisas e de alta qualidade para como implantá-la de maneira responsável para beneficiar os estudantes
1 comentários
Comentários do Hacker News
Este estudo parece bem suspeito. Precisa ser investigado mais a fundo, mas qualquer leitor deveria ouvir sinais de alerta bem altos
A Figura 2 (página 6) parece problemática. São só 16 professores, mas cada um com 3 mil comparações, e os resultados por professor também são bem irregulares. A variância é muito alta, o que parece sinal de que o estudo não tem poder estatístico significativo
Além disso, nos resultados principais aparecem apenas modelos do Google, o que também sugere um viés evidente. Outros modelos aparecem em outras partes, então fica a dúvida de por que foram excluídos dos resultados centrais
Não sou especialista em direito, mas entendo bastante de estatística, e posso dizer com segurança que este artigo cheira mal. Não dá para afirmar que é bobagem, mas há sinais de perigo por todos os lados
Os professores, como avaliadores, realizaram 2.918 comparações cegas de escolha forçada, com mediana de 200 por avaliador, e em cada caso escolhiam, entre uma resposta anonimizada do instrutor e uma resposta do LLM, qual gostariam de dar ao aluno
Já vi até artigo que chamava de “metodologia” o ato de jogar entrevistas e protocolos no ChatGPT e tirar um resultado. Passou por revisão por pares e foi publicado
Talvez isso possa ser explicado de forma parecida com filmes de Hollywood. Quando um filme é feito para satisfazer o maior número possível de pessoas, ele tende a ser escolhido com mais frequência do que outros filmes
Professores humanos de direito deixam transparecer sua personalidade, crenças e opiniões no texto, enquanto os LLMs são treinados para agradar o público mais amplo possível. Isso não significa que a resposta seja melhor. É como dizer que Captain America é necessariamente um filme melhor do que American Beauty
Como engenheiro de software, tenho certa intuição sobre que tipo de tarefa é arriscado delegar a um agente
Mas, quando peço à IA para redigir um rascunho de documento jurídico, não tenho a mesma intuição calibrada sobre o que pode dar errado. Algo como redigir um testamento parece inofensivo à primeira vista, mas na verdade não tenho tanta certeza. O sistema jurídico é notoriamente cheio de armadilhas
Ela facilmente insere uma citação plausível de outro caso que parece provar perfeitamente o argumento desejado, e até inventa nomes de casos com cara de reais, como United States v. Shenzhou Electronics Inc. Aí você revisa algumas vezes, não encontra nenhuma citação falsa e relaxa, mas na petição seguinte ela de repente coloca três
Ainda assim, o advogado que não usa LLM em pesquisa jurídica está ficando para trás. É incrivelmente boa em encontrar precedentes de nicho que eu jamais encontraria sozinho. Antes, havia muita dependência de correspondência exata de termos de busca, o que muitas vezes é essencialmente inútil em pesquisa jurídica. Você precisa de algo que permita buscar com critérios mais vagos, e a IA faz isso muito bem. Mas os resultados precisam ser verificados sem falta. Os LLMs da Lexis Nexis ou da Westlaw provavelmente são melhores do que modelos de uso geral
LLM é um excelente assistente jurídico. Se você trabalha com direito, deveria usá-la nem que seja só para jogar ideias. Também é útil pedir que faça o papel de advogado do diabo do lado oposto. Um amigo meu sempre manda a IA atuar como advogada da parte contrária para conferir todas as objeções que podem surgir
É igual ao desenvolvimento de software. Se o resultado produzido importa, você precisa verificar a saída
É como comparar o que eu pesquiso como administrador de sistemas com o que a Jane do financeiro pesquisaria. Um usuário final não técnico tem muito mais chance de piorar o problema ou instalar algo suspeito a partir de um resultado de busca cheio de anúncios. Eu ou alguém do help desk temos bem menos chance de fazer isso
Eu não confiaria em redigir um documento jurídico importante com IA sem orientação de um advogado. Do mesmo modo, eu também não gostaria de depender do meu advogado para escrever meu código com IA
Documentos jurídicos não têm testes automatizados, tipagem estática, ambiente de testes, instrumentação de logging/observabilidade nem sandboxing
O intervalo entre a redação e o “deploy” também torna o ciclo de depuração muito menos eficaz e mais caro. Código pode ser colocado em produção em segundos, você vê o erro nos logs e depura na hora. Mas erros em contratos ou peças protocoladas em juízo costumam ser descobertos só dias depois, e muitas vezes anos depois; quando isso acontece, frequentemente já não dá mais para corrigir. Por isso, os erros são mais difíceis tanto de detectar quanto de resolver
As consequências dos erros também tendem a ser muito maiores. Muitas vezes são impossíveis de corrigir, e um erro jurídico pode colocar em risco a vida, a liberdade ou um patrimônio substancial de alguém. Claro, bugs em sistemas críticos de segurança podem ser tão ruins quanto, ou piores, que erros jurídicos, então não é uma divisão absoluta. Ainda assim, em geral, a maioria dos softwares envolve menos risco do que a maioria dos documentos jurídicos
Por outro lado, os LLMs parecem se sair melhor com o estilo e a estrutura básicos de documentos jurídicos do que com código. Coisas como seguir o formato IRAC, anexar citações a proposições jurídicas e escrever frases compreensíveis. Claro, alucinações continuam sendo um problema. No código, isso seria equivalente a boas práticas como bons comentários, coesão, uso consistente de padrões de projeto, cobertura de testes, nomes de variáveis claros e DRY
Esse melhor desempenho nesses indicadores qualitativos pode ser porque mesmo os documentos jurídicos mais longos geralmente têm estrutura mais simples e menos linhas de texto do que uma codebase grande e complexa. Ou pode ser porque os LLMs foram treinados mais em texto de linguagem natural do que em código, ou porque linguagem natural tolera mais variações do que código. Pequenas diferenças de formulação ou gramática provavelmente não mudam muito a interpretação de um documento, mas um erro de um único caractere no código pode ter um impacto enorme
Mesmo que este estudo específico seja ruim, isso não é surpreendente no panorama geral
Há áreas do trabalho jurídico que envolvem analisar grandes volumes de texto, chegar a conclusões e depois escrever outros textos com base nisso. Isso é literalmente o ponto forte dos LLMs
Esse tipo de advogado deveria estar na linha de frente da fila do desemprego. Não os programadores, nem tem comparação
Dá para executar lógica e montar loops com a saída. É mais fácil configurar aprendizado por reforço mais útil e também criar dados sintéticos de treinamento. O uso de ferramentas e a paralelização de agentes também são naturalmente suportados. Integrar APIs também é mais fácil, em comparação com as poucas APIs que o sistema judicial oferece
Como a programação codifica explicitamente abstrações no nível de funções e módulos, é mais fácil transformá-la em grafo de conhecimento, raciocinar sobre ela e construir em cima disso do que com pedaços de texto
A IA é como uma casquinha sobre uma ferida. Ela tapa lacunas temporariamente e corre para preencher vazios, mas provavelmente não será a solução final
Os modelos mostraram que havia uma enorme demanda reprimida por letramento, tanto em software quanto em direito. Agora a escolha é resolver as causas estruturais dessa demanda reprimida ou encobri-la com camadas e mais camadas de casquinhas de IA
É muito mais focado em analisar e resumir textos existentes, e esses próprios textos também podem ser usados com mais facilidade no treinamento de LLMs. Coisas como leis, precedentes, periódicos jurídicos e livros didáticos
Então provavelmente é o tipo de trabalho jurídico mais fácil de transformar em LLM, mas ao mesmo tempo também pode ser o de menor valor. Professores de direito não recebem o mesmo que advogados de BigLaw. Essa abordagem não vai escalar diretamente. Isso não quer dizer que a IA não consiga entrar em BigLaw, mas esse seria outro desafio
Entendo por que a discussão deste post está indo nessa direção, mas o estudo em si se concentra na possibilidade de LLMs funcionarem como tutores de direito. Expandir isso para se vão substituir advogados é interessante, mas não era o que o estudo tratava
Se o enquadramento for usar LLMs como tutores jurídicos e reduzir o custo da educação em direito, isso parece um resultado socialmente positivo. Indo além, se sistemas LLM modernos puderem acessar materiais de referência jurídicos, então parece intuitivamente plausível que consigam responder de forma abrangente a perguntas feitas por estudantes e fornecer pistas ou referências diretas para materiais didáticos ou fontes primárias. Os resultados do estudo parecem apontar nessa direção
Os autores enfatizam de forma explícita e intencional que muitas perguntas jurídicas não exigem uma resposta calculada isolada, mas sim contextualização. Os resultados sugerem que sistemas baseados em LLM podem, por meio da “geração algorítmica de melhor ajuste probabilístico” dos modelos de linguagem modernos, contextualizar adequadamente a pergunta de um estudante, explicar os trade-offs ou complexidades inerentes à pergunta e, de forma crucial, explicar essa complexidade ao estudante de um modo que atenda ao padrão profissional de educadores jurídicos
Na prática, espero que esses resultados deem aos leitores do HN um pouco mais de confiança de que, ao fazer perguntas jurídicas a um LLM, podem esperar respostas que expliquem as complexidades do direito relacionadas à questão. É uma boa notícia e, se o tempo permitir, provavelmente representa o mínimo de trabalho prévio que deveríamos fazer antes de consultar um advogado de verdade
Por outro lado, não acho que este estudo sinalize que os LLMs já estejam prontos para oferecer aconselhamento jurídico direto. É parecido com o fato de um livro didático de direito não substituir orientação jurídica ou, mais precisamente, com o fato de encontrar por acaso um caso jurídico mais ou menos semelhante à sua situação não garantir o mesmo resultado
A Figure I.1 diz muita coisa. O tamanho da resposta aparece como o preditor mais forte da taxa de vitória. Isso pode ser por causa de uma falha metodológica do estudo
Os professores foram instruídos a responder de forma concisa. Algo como “escreva de forma concisa. Espera-se que cada resposta não leve mais de 3 minutos para ser redigida”, então provavelmente houve um viés em favor de textos curtos. Já que estavam tentando ser concisos, pode ser que os professores também não tenham colocado muito esforço nas respostas escritas. Esse não é o tipo de manchete que os autores imaginam
Surpreende que Stanford Law tenha concordado com um título de press release tão exagerado. Algo como “Para perguntas gerais de contratos do 1º ano, professores de direito preferiram respostas geradas por IA a respostas geradas por professores” não seria mais correto?
Meu melhor palpite é que o Gemini foi treinado com o livro didático que as perguntas queriam testar e, por isso, talvez tivesse mais força em recordação explícita dessas perguntas ou de perguntas relacionadas
Pelo que está na metodologia do artigo, parece ser um curso introdutório bem limitado
Correção: acabei de descobrir que o Google é um dos principais doadores do HAI. Então este estudo foi, pelo menos em parte, financiado pelo Google. Esse provavelmente também é o motivo pelo qual os autores não puderam declarar ausência de conflito de interesses
A área jurídica, por natureza, combina idealmente com modelos de linguagem de IA. No fundo, tudo se baseia em texto interconectado
Acho que pode haver uma onda de demissões ainda maior aqui do que em TI. Só que provavelmente haverá um lobby mais forte em ação, tentando inflar muito o valor do próprio trabalho e barrar a entrada de agentes externos
Mas essa onda já começou e vai ser enorme. Clientes corporativos estão exigindo uso de IA. Eles não querem pagar para um associado gastar horas escrevendo um rascunho e um sócio revisar. Querem que o sócio principal use IA e faça só a revisão final
O que os LLMs não conseguem fazer é explicar por que disseram aquilo quando são submetidos a contraditório. Eles apenas alucinam a melhor explicação possível para por que alguém teria dito o que disse, e também conseguem apresentar de forma plausível por que outra pessoa teria dito algo diferente
A pergunta “por que disse isto e não aquilo?” não faz com que os fundamentos da fala sejam explicitados; ela apenas leva à criação de uma nova afirmação mais complexa
Mas existem técnicas de construção de contexto para LLMs que fixam o resultado final em uma estrutura de dados. Essa estrutura mantém a organização das afirmações que sustentam a conclusão contida no texto final. Organizar a lógica dentro da linguagem é uma área rica, com vários padrões, e o meu favorito era algo chamado Claim Dependency Graph, que modela como arestas de um grafo as relações entre afirmações atômicas
Há muitas operações que podem ser executadas sobre essa estrutura, e “reconstruir como se chegou a essa conclusão” claramente é uma delas
Mesmo no caso de pensamentos mais refletidos, com sorte conseguimos lembrar o “rastro de raciocínio”, mas nossa autoinspeção vai só até aí. A menos que você seja neurocientista, provavelmente nem sabe quantos neurônios temos, muito menos como eles produzem pensamentos
O raciocínio motivado atrapalha ainda mais a autoinspeção e, somado à desonestidade e a falhas de comunicação, faz com que nem mesmo a informação limitada que resta seja transmitida adequadamente entre as pessoas
A pesquisa em interpretabilidade de modelos avançou bastante. De forma controversa, já dá até para argumentar que conseguimos explicar melhor a tomada de decisão da IA do que a do cérebro humano
Pedir que um LLM anote as fontes, como se faz com humanos, pode aumentar bastante a correspondência de padrões que imita de perto a lógica
Entendo o que significa a pergunta “por que disse isto e não aquilo?”. Só que também já vi outras formas de perguntar isso sem fazer o LLM reagir de forma excessiva na direção oposta