Quantas das 170 mil palavras em inglês você conhece?
(vocabowl-870366514258.us-west1.run.app)- VocabOwl é uma ferramenta de Scientific Word Count que estima quantas das 171.476 palavras em inglês o usuário realmente conhece
- Para ver o resultado, é preciso completar o desafio de 100 perguntas, um método que estima o tamanho total do vocabulário com base em um teste curto
- É informado que a composição das perguntas usa o método de amostragem estratificada (stratified sampling)
- O site destaca o uso do Gemini 3 Flash AI e inclui IA na forma como gera e opera o teste de palavras
- É um projeto inspirado no podcast The Rest Is Science e em Prof. Hannah Fry e Michael Stevens
O teste oferecido pelo VocabOwl
- O VocabOwl é um serviço de estimativa de vocabulário em inglês centrado na pergunta: “How many of the 171,476 English words do you actually know?”
- O usuário pode completar um desafio com 100 perguntas e verificar quantas palavras em inglês conhece
- É informado que as perguntas do teste foram estruturadas de forma scientifically stratified
Como funciona e de onde veio a inspiração
- No site, Stratified Sampling aparece como o método principal
- Gemini 3 Flash AI é mostrado como a tecnologia utilizada
- Como fontes de inspiração, aparecem o podcast The Rest Is Science, Prof. Hannah Fry e Michael Stevens
1 comentários
Comentários do Hacker News
Há cliques demais por palavra. Gosto desse tipo de quiz de “quantas palavras você conhece”, então fui até o fim, mas no geral a classificação parece duvidosa
Existe um fluxo geral em que as palavras do começo são fáceis e as do fim são difíceis, mas a dificuldade intermediária está bastante misturada. breviary é muito mais rara do que seria de se esperar para nível intermediário, e um termo de fobia como Hippopotomonstrosesquippedaliophobia parece mais uma brincadeira que um aluno do ensino fundamental mostraria após procurar no dicionário do que uma palavra de uso real. Também é difícil entender por que metamorphosis e kinetic foram colocadas como expert
As definições em geral eram reconhecíveis, mas definir lethargy como “estado de apatia” é óbvio, tratar complacent como “arrogância autoindulgente” é exagerado, magnanimous não precisa necessariamente de um “rival”, e em gauche a simples ideia de “desajeitado socialmente” perde a nuance de tactless
Diz que é “científico”, mas só mostra uma fórmula por cima e não explica como as palavras foram estratificadas no início. Se amostragem estratificada é um método formalmente reconhecido para isso, seria bom haver links para referências reais. Acho que conheço muitas palavras, mas é difícil confiar na estimativa de mais de 75k que este app me deu
Hippopotomonstrosesquippedaliophobia parece ser menos para decorar a palavra inteira e mais para inferir o sentido a partir dos componentes. Eu conhecia sesquippedalian, phobia é fácil de reconhecer, e até hippo dava para supor, pela raiz latina, como algo próximo de “grande” em vez do animal
Também já ouvi complacent e gauche usados assim, e num dicionário isso seria, na pior hipótese, a segunda ou terceira definição, então não me incomoda. Já fui bem em spelling bee, e se eu tivesse mantido a disciplina de estudar dicionário por algumas horas todo fim de semana, talvez fosse ainda mais longe
Seria muito melhor se houvesse um resumo mostrando quais respostas que escolhi estavam certas e quais estavam erradas
Ainda assim, nesses casos eles também analisam smug como algo próximo de self-satisfied ou self-complacent, então talvez a parte divergente esteja no significado de smug. Pela minha intuição, smug é menos simplesmente “auto-” e mais relacional, com a sensação de gostar de estar acima de alguém. Complacent é basicamente estar satisfeito com a própria situação, mas muitas vezes vem com a implicação negativa de não agir para melhorar quando deveria
Havia cliques demais por palavra, então levou muito tempo para terminar, e como havia alternativas, ficou fácil demais chutar até as que eu não conhecia
O conceito é interessante, mas ter que responder 100 palavras é bastante coisa. Foi entediante passar pelas palavras fáceis do começo, e acabei perdendo o interesse antes de chegar nas mais interessantes
Um sistema assim pode se ajustar muito mais rápido internamente com pontuação e confiança. No início a confiança é baixa e vai aumentando com o tempo; nas primeiras questões os acertos e erros movem a pontuação rapidamente, e depois ela vai se estabilizando
Na prática, começaria mostrando palavras cada vez menos comuns, e ao errar voltaria para palavras mais fáceis; quando a pessoa voltasse a acertar, o sistema acabaria orbitando palavras próximas do nível dela. E também há cliques demais por palavra. Como é um teste casual, bastaria processar logo após um clique na definição, e se houver preocupação com toques errados, é só colocar um botão de desfazer
Seria bom se cada opção tivesse uma letra ou número para permitir escolha pelo teclado. Havia um serviço de formulários assim que funcionava muito bem; acho que era o Typeform. Fui conferir e agora está tudo coberto de menções a IA, então perdi o interesse em verificar
Além de outras críticas, há um erro estrutural que faz com que o cálculo só esteja certo pela metade. Dependendo da forma de contar, dá até para dizer que está 100% errado
Sou falante nativo de inglês, um esquisitão que lê muitos livros, tirei nota máxima no SAT e acertei todas as 100 sem pesquisar. Mesmo assim, a “SCIENTIFIC ESTIMATE” mostrou apenas que eu conheço 85.000 de 170.000, o que foi confuso
Na página final “How is this calculated”, dizem que há cerca de 171.476 palavras em uso atual com base no Oxford English Dictionary Second Edition, e dividem por faixas de dificuldade: Core Basics 3.000, Intermediate 7.000, Advanced 10.000, Expert 25.000, The Obscure 40.000+. A pontuação total seria a soma de precisão em cada faixa × tamanho da faixa
Só que, somando todas essas faixas, dá apenas 85.000, então mesmo com pontuação perfeita o resultado máximo é 50%. Além disso, estão usando um subconjunto muito limitado da língua e que talvez represente mal a dificuldade. É bonitinho, mas está errado de várias formas
Como costuma acontecer em testes de vocabulário em inglês, saber grego ajuda nas palavras difíceis
Tem alguns termos técnicos, mas a maioria são palavras que você provavelmente ouviria até numa conversa comum da Radio 4
Deu 78.000, o que é bem bom para uma segunda língua. O valor máximo deste teste parece ser 85.000
As opções parecem ter sido geradas por LLM, e há alguns padrões, como “now” e “forever” aparecendo com frequência
Há alguns anos joguei algo parecido, em que você podia continuar jogando: se acertasse o suficiente em sequência, subia de nível, e se errasse uma, descia. Nos níveis muito altos, na verdade ficava mais fácil, porque apareciam palavras do inglês antigo, e elas eram praticamente iguais às da minha língua materna, o neerlandês. Acho que também tinha um elemento beneficente e provavelmente era https://freerice.com/, mas parece que hoje o jogo foi simplificado
A Ghent University, na Bélgica, também tinha um teste interessante, que avaliava a proficiência comparando com a pontuação média de determinados níveis de escolaridade. Lá eu tirei algo em torno de 41.000, e acho que isso me colocava na média de falantes nativos de inglês com nível universitário. Na atualização no fim de https://languagehat.com/ghent-vocabulary-test/ há informações sobre para onde esse teste foi e algumas alternativas
É bem divertido
Seria melhor remover o botão de enviar: ao clicar numa opção, poderia mostrar se estava certa e, depois de uns 1 segundo, passar para a próxima. Esse fluxo de ter que apertar enviar duas vezes quebra a imersão
E, nas palavras que eu vi, entre as 4 opções havia uma correta, uma antônima da correta e as outras duas quase aleatórias. Na prática, dava até para pular as alternativas em que não aparecia um antônimo junto
Primeiro, eu podia eliminar respostas que decompunham a palavra em termos comuns do inglês. Se a palavra pudesse ser decomposta tão facilmente, dificilmente seria obscure para começo de conversa
Escrever alternativas erradas para questões de múltipla escolha é difícil. Entre as provas que conheço, tirando as que exigem cálculo ou memorização, o exame nacional polonês para médicos, o LEK, faz isso de forma quase cruel. É praticamente impossível alguém de fora da área acertar no chute acima do acaso
Deveria ser possível responder com “não sei”. É injusto acertar com 1/4 de chance quando você realmente não sabe, e com truques comuns de múltipla escolha dá para acertar ainda mais
Algumas palavras que eu teria aceitado tranquilamente errar acabaram entrando como certas
Também seria bom misturar um pouco a dificuldade. As últimas 30 pareceram trabalho repetitivo e chato. A ideia em si é legal
Mesmo no pior caso, dá para corrigir a probabilidade de 25% de acertar por acaso
Dá para explorar o teste com bastante facilidade. Muitas alternativas não parecem definições de palavra, a estrutura “resposta certa + oposto + 2 irrelevantes” aparece com frequência e, na parte final, a resposta mais longa muitas vezes era a correta. O desenho dos distratores é ruim
A amostra de palavras também está fortemente enviesada para conceitos ligados a palavras, fala, falantes e persuasão. Provavelmente um LLM recebeu um prompt para a tarefa de selecionar palavras e acabou escolhendo coisas relacionadas a “palavra”
Para dar contexto, sou falante de segunda língua, nerd de linguística, e uso inglês principalmente em contextos acadêmicos e profissionais. Misturando essas manhas, deu 75.400, mas na prática talvez eu esteja mais perto de 10~15k
O design também é, como qualquer um pode ver, dolorosamente parecido com o Duolingo
Acho que quase toda língua tem uma palavra para esse tipo de dor, e quem já tem certa idade provavelmente vai concordar
Acertei 88 de 100, mas a única coisa que aprendi com isso foi que sou muito bom de chute. Em umas 20, consegui chegar à resposta eliminando opções pouco plausíveis ou inferindo pelo sentido de partes da palavra
Para avaliar com mais honestidade quantas palavras eu realmente conheço e quantas consigo acertar, eu queria que houvesse uma opção “não sei”
Para encontrar o nível mais rápido, deveria usar pontuação ELO. Ficar penando para resolver 100 palavras básicas não faz sentido
Está usando de forma imprecisa o número 171.476 do OED, além de partir de uma grande incompreensão sobre dicionários e sobre a própria língua
Esse número se refere à quantidade de entradas completas definidas como de “current use” na Second Edition de 20 volumes do Oxford English Dictionary. Não significa número de palavras. Também não inclui variantes ortográficas, formas flexionadas, expressões nem entradas run-on do OED
Além disso, o OED está longe de ser uma lista completa do inglês. Na verdade, como o ciclo de atualização é muito lento, é bem possível que estejam faltando centenas de milhares de palavras. Como editor de dicionário e lexicógrafo, uso o OED todos os dias, e quem o faz também sabe disso