5 pontos por GN⁺ 2023-10-25 | 1 comentários | Compartilhar no WhatsApp
  • Artigo que discute o conceito da técnica chamada "embeddings", que converte conteúdo em matrizes de números de ponto flutuante para uso em várias aplicações.
  • O autor, Simon Willison, apresentou uma palestra sobre embeddings na PyBay 2023, e este artigo é uma versão aprimorada dessa apresentação.
  • Embeddings são usados no campo dos grandes modelos de linguagem que sustentam tecnologias como ChatGPT, Bard e Claude.
  • O autor explica como usar o modelo text-embedding-ada-002 da OpenAI para criar um recurso de "conteúdo relacionado" em seu blog.
  • O artigo também discute como usar embeddings para código com uma ferramenta chamada Symbex, que pode calcular embeddings para todas as funções de uma base de código e construir um mecanismo de busca de código.
  • O autor apresenta uma ferramenta chamada LLM (Large Language Models) que pode ser usada para trabalhar com embeddings e construir mecanismos de busca semântica.
  • O artigo também discute como usar embeddings para imagens com um modelo chamado CLIP, que pode incorporar texto e imagens no mesmo espaço vetorial.
  • O autor discute como usar embeddings para classificação, explicando como calcular a posição média de um grupo de embeddings e comparar novo conteúdo com essa posição para atribuir categorias.
  • O artigo termina com uma discussão sobre Retrieval-Augmented Generation (RAG), uma técnica que usa embeddings para responder perguntas com base em documentos pessoais ou documentos internos de empresas.
  • O artigo inclui uma sessão de perguntas e respostas em que o autor responde a questões sobre LangChain, funções de distância além da similaridade de cosseno, processamento de grandes volumes de dados e futuras melhorias nos modelos de embedding.

1 comentários

 
GN⁺ 2023-10-25
Comentários do Hacker News
  • O autor encontrou materiais adicionais para entender embeddings mais a fundo depois de publicar o artigo.
  • Embeddings se tornaram o método padrão para reconhecimento de lugares em visão computacional e algoritmos visuais de SLAM.
  • Um exemplo famoso de embeddings de palavras é King - Man + Women = Queen, mas isso não causa uma impressão visual marcante quando projetado em 2D.
  • Autoencoding funciona bem apesar da simplicidade, e há interesse em bons modelos de embeddings de documentos que possam rodar em hardware pessoal.
  • Embeddings puderam ser adicionados de forma surpreendentemente fácil aos recursos de busca especializada já existentes em apps de anotações, e o resultado foi mais poderoso do que o esperado.
  • Um modelo mental para embeddings em linguagem é imaginar muitos pontos em várias posições dentro de um espaço de dimensionalidade extremamente alta.
  • Há limitações nos modelos comerciais de embeddings ao construir para domínios específicos, e existe expectativa por ferramentas e literatura melhores sobre ajuste fino de modelos de embeddings.
  • O artigo foi útil e interessante até mesmo para pessoas com pouca ou nenhuma base em aprendizado de máquina.
  • Há dúvidas sobre por que o autor usa um método específico para calcular o produto escalar em vez de operações vetorizadas do numpy.
  • Há confusão em relação ao código de clustering usado no artigo, especialmente sobre como cada linha do banco de dados é convertida em um array do numpy e como os rótulos são gerados com o modelo MiniBatchKMeans.