Word2Vec recebeu quatro avaliações de 'rejeição forte' na ICLR2013

(openreview.net)

1 pontos por GN⁺ 2023-12-19 | 1 comentários | Compartilhar no WhatsApp

Estimativa eficiente de representações vetoriais de palavras

Os pesquisadores propõem duas novas arquiteturas de modelo para calcular representações vetoriais contínuas de palavras em conjuntos de dados muito grandes.
A qualidade dessas representações é medida em tarefas de similaridade entre palavras e comparada com vários tipos de técnicas baseadas em redes neurais que antes apresentavam o melhor desempenho.
A equipe observou uma melhora significativa de precisão com custo computacional muito menor. Ou seja, em um conjunto de dados de 1,6 bilhão de palavras, é possível derivar vetores de alta qualidade de 300 dimensões para um vocabulário de 1 milhão de palavras em menos de um dia usando uma única CPU.
Também mostram que esses vetores oferecem desempenho de ponta em conjuntos de teste para medir vários tipos de similaridade entre palavras.
Pretendem disponibilizar publicamente esse conjunto de teste para uso da comunidade de pesquisa.

Opiniões

Os revisores apontaram que faltava uma motivação clara sobre como o modelo proposto difere dos modelos existentes e por que ele é superior.
A explicação do modelo é mínima, dificultando determinar como ele difere de trabalhos anteriores.
Os revisores enfatizaram que o artigo inclui comparações inconsistentes entre modelos treinados em diferentes conjuntos de dados e com diferentes dimensões, algo necessário para tornar os argumentos do artigo convincentes.

Opinião do GN⁺

Este estudo propõe uma nova técnica para estimar vetores de palavras com eficiência, o que representa um avanço importante na área de processamento de linguagem natural.
O modelo proposto pode ser treinado muito mais rapidamente do que os modelos complexos de redes neurais existentes, o que pode ser útil para pesquisas que lidam com dados linguísticos em grande escala.
O artigo também apresenta uma nova forma de avaliar a qualidade dos vetores de palavras, que pode vir a se consolidar como padrão para medir similaridade entre palavras em pesquisas futuras.

1 comentários

GN⁺ 2023-12-19

Comentários do Hacker News

Há mais detalhes em uma publicação recente do Tomas Mikolov (autor do word2vec) no FB: https://www.facebook.com/share/p/kXYaYaRvRCr5K2Ze
O ponto interessante e também amargo é que até especialistas cometem erros. Havia desde reações ao estilo Geoff Hinton, do tipo “eu também sabia disso, mas esqueci de apresentar”, sobre analogias de palavras, até gente que dizia “isso é um truque total, não tem como funcionar” sem nem ler o artigo ou testar por conta própria. Também é mencionado que Ian Goodfellow ficou bravo no Twitter
- Tomas diz que foi ele quem teve a ideia de encoder-decoder (seq-to-seq), e que, depois que foi para o Facebook, Ilya e Quoc deram continuidade
  Mas Quoc diz que isso não é verdade: https://twitter.com/quocleix/status/1736523075943125029
  Pelo lado do Quoc, a lembrança é de que Tomas não propôs a ideia; ao contrário, quando lhe compartilharam a ideia de tradução ponta a ponta, ele foi bastante cético, e eles trabalharam para fazê-la funcionar apesar desse ceticismo. Em vez de alguém estar mentindo, parece mais que um dos lados está se lembrando errado, mas o gosto que fica não é bom
- Sendo justo, também lembro que o artigo e as técnicas ao redor na época eram bem fracos. Implementações amplamente usadas na prática funcionavam de forma diferente do que o artigo descrevia, e a técnica não era lá grandes coisas para muito além de comparações no nível de palavras
  Dar pesos tf-idf a palavras específicas ajudava um pouco, mas um conjunto de palavras com pesos tf-idf também era parecido em força. A ideia de usar similaridade de cosseno sobre a soma de vários vetores de palavras hoje soa realmente tola
- Perguntei em outro fio de que forma exatamente o Goodfellow teria ficado bravo, e isso foi tudo o que encontrei: https://twitter.com/goodfellow_ian/status/113352818965167718...
  Se for isso mesmo, sinceramente passa a impressão de que o Mikolov parece bem instável
- Sinceramente, aquele texto soa como uma ladainha porque tem frases demais cutucando várias pessoas. Dava para ter escrito com muito mais elegância
  Ainda assim, é crível que a maioria dos pesquisadores também seja humana e seja bastante influenciada por ego e dinheiro, em vez de colocar o avanço do conhecimento compartilhado acima de tudo. cof OpenAI cof
- Aquele texto combinaria mais com o Twitter do que com o FB “esquecido”. Assim as pessoas e organizações mencionadas ou insinuadas teriam tido a chance de ver a publicação e compartilhar sua própria visão
  Caso contrário, soa só como um post de reclamação
Acho que os revisores fizeram um trabalho bem bom. O conteúdo das revisões também parece bastante razoável. O processo de revisão deveria avaliar a qualidade do artigo, não o quanto ele poderá ser influente no futuro
Nem todo artigo influente é, de fato, um bom artigo
- Concordo. O artigo mais influente que escrevi também recebeu uma rejeição forte na primeira submissão, e olhando para trás acho que foi justo
  Faltava motivação, a contribuição não estava apresentada com clareza, e a explicação era muito confusa. O núcleo da ideia quase não mudou, mas o artigo que acabou sendo publicado ficou muito melhor, e isso aconteceu porque a primeira revisão foi dura. A revisão em si não era particularmente perspicaz, era mais um “está confuso, não entendo o que você está fazendo nem por quê”, mas às vezes esse olhar externo é exatamente o que faz falta
  Eu também já revisei e rejeitei artigos em que dava para ver a semente de uma ótima ideia, mas o artigo em si, como texto escrito, não era bom. Sempre fico feliz quando esses artigos depois saem publicados em uma forma muito melhor
- Concordo que, na prática, os artigos muitas vezes são avaliados assim, mas discordo fortemente de que deveriam ser. Isso é como o problema de procurar a chave não onde ela foi perdida, mas debaixo do poste de luz
  A pergunta não deveria ser “este artigo marca as caixinhas?”, mas sim “este artigo faz a área avançar e por isso merece mais exposição?”. O fato de a primeira pergunta não levar bem à segunda é uma falha do sistema
  É parecido com uma cultura de contratação que escolhe candidatos de cabelo arrumado e com o jargão certo, mas deixa passar quem realmente teria impacto no lucro
  Um artigo ‘bom’, muito rigoroso, mas que não leva a nada, é realmente um bom artigo? Se virmos o progresso científico como se artigos rigorosos fossem dados com alta probabilidade de sucesso e artigos menos rigorosos fossem dados com baixa probabilidade, então bastaria procurar só os rigorosos. Aí a conclusão seria que o word2vec, com seu baixo rigor, ter produzido avanço foi “apenas muita sorte” e não precisava ter sido bem avaliado
  Mas o word2vec também foi muito inovador, e isso deveria contar positivamente na revisão. Aliás, acho que artigos inovadores tendem a ser difíceis de tornar muito rigorosos justamente porque a definição de rigor naquela área ainda não está consolidada. Na fronteira extrema, eu diria até que rigor e inovação têm correlação negativa
- “O ensaio de oito partes era necessário para que, no passado, candidatos aos exames imperiais demonstrassem as qualidades exigidas para cargos públicos… Em termos de estrutura e estilo, o ensaio de oito partes era restritivo e rígido. Havia várias regras sobre número de frases, número de palavras, forma e estrutura, e até técnicas de rima.”
  https://en.wikipedia.org/wiki/Eight-legged_essay#Viewpoints
- Nesse caso, não entendo por que se coloca tanto foco e esforço no sistema de revisão por pares
  Se perguntar a quem financia a pesquisa, é bem provável que prefiram investir em ideias influentes a produzir artigos ‘de alta qualidade’ sem impacto
- Essa é a interpretação correta. Tem gente que vai querer transformar isso em “os revisores são burros”, mas não é isso
Mais tarde, notei que o comentário do revisor f5bf era interessante. Ele disse que seria bom explicar como esses modelos lidam com similaridade semântica não transitiva, como em “river”, “bank” e “bailout”, e mencionou que pessoas como Tversky criticavam modelos de espaço semântico por não modelarem adequadamente esse tipo de similaridade
O que chama atenção nos modelos mais recentes (GPT, modelos de difusão de imagem etc.) é a capacidade de brincar com palavras quando há significados ambíguos. Antes isso parecia uma habilidade muito humana, mas agora parece ter entrado na caixa de ferramentas dos modelos generativos. Imagino que a maioria use algo parecido com word2vec para obter vetores de embedding a partir de prompts
Não sei se a ambiguidade do word2vec contribui para a capacidade de fazer trocadilhos, mas isso mostra uma situação de recurso versus bug em que essa ambiguidade é um recurso para fins criativos e um bug se quisermos modelar o espaço semântico como um espaço vetorial estrito
Interpreto que os embeddings de palavras/prompts dos modelos atuais são grandes demais, supercarregados com dimensões redundantes, e provavelmente não satisfazem nenhum formalismo matemático de algo como um espaço vetorial bem-comportado
- A diferença central talvez seja o que se pode chamar de embeddings sem contexto versus embeddings contextuais. Abordagens parecidas com word2vec, por construção, precisam atribuir exatamente o mesmo vetor a toda ocorrência de “bank” em qualquer frase
  Já modelos posteriores, como a família Transformer, BERT, GPT etc., atribuem vetores completamente diferentes a esse “bank” dependendo do contexto das palavras ao redor
- Mesmo modelos pequenos (por exemplo, dimensão oculta 32) deveriam conseguir lidar com a ambiguidade de tokens se tiverem atenção. Há muito mais informação no contexto do que no próprio token
Parece que as versões iniciais do artigo foram rejeitadas e depois houve atualizações e reforço das explicações com base nas revisões. No fim, isso foi útil e parece a forma como o processo de revisão deveria funcionar
Como este artigo foi um trabalho inovador, faz sentido dedicar mais esforço para explicar por que funciona, em vez de se apoiar apenas em bons resultados de benchmark
Olhando agora, os revisores anônimos que pareciam inteligentes talvez hoje pareçam bem tolos
A revisão por pares não funciona bem para ideias novas. Ninguém tem tempo ou disposição para passar horas e mais horas tentando entender algo realmente novo
- Vale notar que a maior parte da melhor ciência surgiu antes de a revisão por pares se tornar dominante
  Li um texto sobre isso no passado, difícil de encontrar agora, que resumia mais ou menos a história do sistema atual de revisão por pares. A revisão por pares como a conhecemos hoje surgiu principalmente nos anos 1970, como resposta a várias crises de financiamento na academia. A ideia era uma estratégia para fazer a pesquisa parecer mais confiável
  A crítica mais devastadora à revisão por pares é, claro, que ela fracassou completamente em impedir a crise de reprodutibilidade e talvez até tenha ajudado. A academia é um sistema cujo principal incentivo é garantir financiamento por meio de uma imagem de confiabilidade e, em princípio, isso é uma receita para fraude em larga escala
- Terminei um doutorado em IA no último ano e posso dizer que realmente existem revisores que gastam horas para fazer uma revisão direito. É verdade que hoje em dia há uma boa chance de pegar um revisor preguiçoso e dar azar, mas este artigo não parece ser um desses casos
  Por exemplo, a revisão de f5bf resume CBOW e skip-gram e observa que a explicação do modelo é muito minimalista, o que dificulta avaliar o quanto ele difere dos modelos anteriores. Seria bom incluir mais representação gráfica ou detalhes matemáticos, e isso seria perfeitamente possível com o quase uma página de espaço restante, em vez de gastar tanto espaço com equações meio desnecessárias sobre o número de parâmetros
  Essas revisões levaram a mudanças consideráveis no artigo, embora aparentemente não grandes o suficiente: https://openreview.net/forum?id=idpCdOWtqXd60&noteId=C8Vn84f...
  Foram revisões de boa qualidade e, pessoalmente, acho que o artigo se beneficiou ao passar por esse processo
- No último ano, fiquei bastante decepcionado com as trilhas de conferências de aprendizado de máquina. Há artigos demais e revisores de menos, então existe um número anormalmente alto de doutorandos atuando como revisores
  Recebi revisões realmente absurdas, incluindo pecados contra o espírito científico. Por exemplo, houve revisor que basicamente insistia que, sem uma ideia nova de arquitetura e resultados de estado da arte, o trabalho não merecia publicação. Como se entender melhor e simplificar ferramentas já existentes fosse algo que nunca devesse acontecer
- Essa não foi a conclusão a que cheguei. O processo de revisão melhorou o artigo e o tornou mais rigoroso. Não vejo por que isso seria algo ruim
  Claro, às vezes os revisores focam em outros pontos em vez de “isso vai revolucionar A, B e C?”
- O problema aqui não era que os revisores não conseguiam lidar com uma ideia nova. Eles estavam todos muito familiarizados tanto com embeddings de palavras quanto com a forma de gerá-los
  O word2vec não introduzia um grande número de conceitos novos; a diferença era que era simples, rápido e de boa qualidade. O software e os vetores pré-treinados eram mais acessíveis e fáceis de usar do que as abordagens anteriores
Há quatro “strong reject”, mas todos parecem ter sido escritos pelo mesmo revisor, no mesmo horário e com o mesmo conteúdo. Isso não é apenas uma rejeição?
E também fico me perguntando por que só a nota desse revisor aparece
Fico curioso para saber quantas das pessoas que falam tão categoricamente aqui sobre o valor ou a falta de valor da revisão por pares realmente já participaram dos dois lados, como autores e revisores. Mais ainda: quantas já exerceram o papel de editor, integrando e sintetizando várias revisões em uma recomendação única
Existem muitos espaços para compartilhar pesquisa ou ideias sem revisão formal por pares, e arXiv/bioRxiv são exemplos óbvios. Se a pessoa rejeita a própria revisão por pares, parece haver alternativas suficientes
- Como é a internet, uma boa parte das opiniões mais categóricas sobre qualquer tema vem de gente com pouca experiência ou capacidade real naquela área
  Por ser o HN, talvez fique um pouco acima da média, mas ao mesmo tempo também tende para pessoas procrastinando. Basta levar isso em conta
Na faculdade, fiz como trabalho de disciplina um sistema simples que corrigia texto com base em algumas heurísticas.
O professor dessa disciplina sugeriu, no verão, submeter a um congresso regional um artigo descrevendo o sistema e os resultados; escrevi com ajuda dele, mas foi rejeitado imediatamente por algo como a gramática é ruim. O congresso era no Brasil, mas o artigo precisava ser em inglês. Eu era estudante e achava que meu inglês era realmente ruim.
O professor disse para mandar um e-mail ao revisor pedindo feedback e tentar submeter de novo depois de revisar. Então perguntei especificamente quais parágrafos estavam confusos, e ele enviou trechos de frases claramente errados. Só que aquilo eram as frases antes da correção nos exemplos que mostravam o antes/depois do meu sistema.
Tentei explicar que eram partes que tinham de estar gramaticalmente erradas, mas a resposta foi “corrija os erros de inglês e submeta novamente”. Depois de tentar mais duas ou três vezes, acabei desistindo.
- Isso me faz lembrar dos relatos do Feynman sobre o que viveu no Brasil. Em especial, basta procurar por “I was invited to give a talk at the Brazilian Academy of Sciences”, mas, se você ainda não leu, vale a pena ler tudo.
  https://southerncrossreview.org/81/feynman-brazil.html
- Dá para imaginar perfeitamente, a ponto de revirar os olhos. Mesmo assim, se você ainda quiser publicar, pode colocar no arXiv e pedir à inteligência coletiva do HN recomendações de venues adequados.
  Se não tiver acesso ao arXiv, basta encontrar um endossante: <https://info.arxiv.org/help/endorsement.html>. Mande um e-mail curto e educado, priorizando a concisão acima da formalidade. Algo como: “Em yyyy escrevi na universidade um artigo sobre correção gramatical automática, e ele foi rejeitado por um venue por causa dos erros gramaticais nas figuras. Ainda quero publicá-lo. Você poderia endossar minha conta no arXiv? E também recomendar um venue adequado para submissão?” Ao pedir o endosso, siga as instruções no site do arXiv.
- Já fui revisor e às vezes escrevi avaliações parecidas.
  Artigos são um exercício de transmitir informação ao leitor. Se a escrita torna muito difícil para o leitor entender essa informação, então, independentemente da qualidade das ideias internas, o artigo tem pouca utilidade e não é adequado para publicação.
  Não é trabalho do revisor reescrever o artigo para torná-lo compreensível. Eles não têm tempo, e isso também não faz parte da função deles.
  Escrever não é fácil, e redigir artigos técnicos é uma habilidade realmente difícil de aprender. Mas isso é necessário para que a pesquisa se torne útil.
  Sinceramente, parece que o professor que sugeriu que você escrevesse o artigo não cumpriu direito o próprio papel e acabou fazendo você perder tempo. Se aquele trabalho valia a pena publicar, ele deveria ter investido tempo em ajudá-lo a chegar a uma forma publicável; se não, nem deveria ter sugerido isso para começo de conversa.
Sinalizei o título por ser enganoso. Os quatro strong reject vieram de um único autor.
Por algum motivo desconhecido, eles aparecem listados quatro vezes, mas isso provavelmente é um comportamento estranho do OpenReview. O estado real mostrado na página é: 2 unknown com texto longo, 1 weak reject e 1 strong reject.
A thread de reviews, se você começar de baixo e ler para cima, parece uma thread de Show HN que foi ficando negativa.
Quando o artigo inicialmente recebeu perguntas e feedback negativo, os autores publicaram uma atualização e acabaram irritando um pouco os revisores. Responderam: “Agradecemos a discussão… uma contribuição importante que algumas reviews parecem não ter percebido é que é possível calcular boas representações vetoriais de palavras mesmo com modelos muito rasos”.
A resposta a essa atualização foi: “A revisão e a réplica não resolveram os problemas levantados pelos revisores. Na forma atual, não considero que o artigo deva ser aceito. Avaliação de qualidade: Strong reject. Nível de confiança: o revisor tem conhecimento do assunto”.

Word2Vec recebeu quatro avaliações de 'rejeição forte' na ICLR2013

Estimativa eficiente de representações vetoriais de palavras

Opiniões

Opinião do GN⁺

Leituras relacionadas

1 comentários

Comentários do Hacker News