30 pontos por xguru 2023-08-22 | 1 comentários | Compartilhar no WhatsApp
  • 10 principais desafios discutidos na área de LLMs, com uma coletânea de links para estudo adicional

Redução e medição de alucinações (Hallucination)

  • O maior obstáculo para a adoção de LLMs nas empresas são as alucinações
  • Desenvolver métricas para mitigar e medir alucinações é um tema de pesquisa popular, e muitas startups estão focadas nisso
  • Algumas dicas temporárias para reduzir alucinações incluem adicionar contexto ao prompt, Chain-Of-Thought, Self-Consistency e pedir ao modelo respostas concisas

Otimização do tamanho do contexto e da composição do contexto

  • A maioria das perguntas precisa de contexto
  • Segundo o artigo SituatedQA, uma parte considerável das perguntas de recuperação de informação tem respostas diferentes dependendo do contexto (16,5% do dataset NQ-Open se enquadra nisso)
  • Em casos de uso empresariais, isso provavelmente é muito maior (num chatbot de suporte ao cliente, por exemplo, o contexto inclui o histórico daquele cliente ou informações sobre o produto)
  • O tamanho do contexto é especialmente importante em RAG (Retrieval Augmented Generation)
  • O RAG funciona em 2 etapas
    • Chunking (indexação): coletar todos os documentos que serão usados no LLM. Gerar embeddings, dividir em chunks para inserir no LLM e armazenar os embeddings em um banco de dados vetorial
    • Query: quando o usuário envia uma consulta, o LLM converte a consulta em embedding. Em seguida, recupera no banco de dados vetorial os chunks mais semelhantes ao embedding
  • Quanto maior o contexto, mais chunks podem ser incluídos. Se o modelo puder acessar mais informação, a resposta não deveria ser melhor?
  • Nem sempre. A quantidade de contexto usada pelo modelo e o quão eficientemente ele usa esse contexto são questões diferentes
  • Junto com os esforços para aumentar o tamanho do contexto do modelo, também há esforços para tornar o contexto mais eficiente
    • Isso é chamado de prompt engineering ou prompt construction
    • Por exemplo, artigos recentes mostram que o modelo entende melhor informações no começo ou no fim do contexto do que no meio

Integração de outros formatos de dados (modalities)

  • Multimodality é muito poderosa, mas ainda subestimada
  • Razões pelas quais isso é importante
    • Há casos de uso que lidam com diversos tipos de dados, como medicina, robótica, comércio eletrônico, varejo, jogos e entretenimento
      • Previsões médicas exigem texto (anotações médicas, questionários) e imagens (CT, X-Ray, MRI)
      • Metadados de produtos incluem imagens, vídeo, descrições e dados tabulares
    • A multimodalidade deve trazer grandes melhorias no desempenho dos modelos
      • Modelos capazes de entender texto e imagem têm desempenho melhor do que modelos que entendem apenas texto
      • Como modelos baseados em texto exigem uma quantidade enorme de dados textuais, também existe a preocupação de que em breve os dados da internet necessários para treiná-los se esgotem
      • Se faltar texto, será preciso aproveitar outros formatos de dados
  • Algo especialmente promissor: permitir que pessoas com deficiência visual usem multimodalidade para navegar na internet e explorar o mundo real

Tornar os LLMs mais rápidos e baratos

  • Quando o GPT-3.5 saiu em novembro de 2022, muita gente se preocupou com latência e custo de uso em produção
  • Mas a análise de latência/custo mudou muito desde então
  • Em menos de meio ano, a comunidade encontrou formas de criar modelos que usam apenas 2% do espaço de memória do GPT-3.5 e chegam muito perto dele em desempenho
  • O ponto principal: se você fizer algo bom o suficiente, as pessoas vão descobrir como torná-lo rápido e barato
  • Quatro anos atrás, foram resumidas 4 técnicas principais para otimização/compressão de modelos
    • Quantization (quantização): o método mais comum de otimização de modelos. Reduz o tamanho do modelo usando menos bits para representar os parâmetros. Em vez de ponto flutuante de 32 bits, usa-se 16 bits, ou até 4 bits
    • Knowledge distillation (destilação de conhecimento): treinar um modelo pequeno (aluno) para imitar um modelo maior ou um ensemble de modelos (professor)
    • Low-rank factorization (fatoração de baixa ordem): substituir tensores de alta dimensão por tensores de baixa dimensão para reduzir o número de parâmetros. Por exemplo, decompor um tensor 3x3 no produto de tensores 3x1 e 1x3 para ter apenas 6 parâmetros em vez de 9
    • Pruning (poda)
  • Hoje essas 4 técnicas continuam relevantes e populares. Alpaca usou destilação de conhecimento, e QLoRA usou uma combinação de fatoração de baixa ordem e quantização

Projetar novas arquiteturas de modelo

  • Desde o AlexNet em 2012, muitas arquiteturas como LSTM e seq2seq ficaram em alta e depois desapareceram
  • Em comparação, o Transformer tem sido muito persistente. Surgiu em 2017, e fica a dúvida até quando continuará dominante
  • Desenvolver uma nova arquitetura que supere o Transformer não é fácil. Ele foi otimizado intensamente nos últimos 6 anos
  • Uma nova arquitetura precisa apresentar desempenho em escala suficiente para atrair interesse hoje
    • O Transformer foi originalmente projetado para rodar rápido em TPUs e depois foi otimizado para GPUs
  • Em 2021, houve muito entusiasmo em torno do S4 no laboratório de Chris Ré.
    Mesmo recentemente, ainda há investimento em novas arquiteturas, e mais recentemente foi desenvolvida a arquitetura Monarch Mixer em parceria com a startup Together

Desenvolver alternativas à GPU

  • Desde o AlexNet em 2012, a GPU é o hardware dominante para deep learning
  • Um dos motivos de o AlexNet ter se tornado famoso é que foi o primeiro artigo a usar GPUs com sucesso para treinar redes neurais
    Antes das GPUs, para treinar um modelo do porte do AlexNet era preciso usar milhares de CPUs
    Comparadas a milhares de CPUs, 2 GPUs eram muito mais acessíveis para doutorandos e pesquisadores, o que impulsionou o boom da pesquisa em deep learning
  • Nos últimos 10 anos, grandes empresas, startups e muitas outras companhias tentaram criar novo hardware para IA
  • Os casos mais notáveis são a TPU do Google, a IPU da Graphcore e a Cerebras
  • A SambaNova levantou mais de US$ 1 bilhão para desenvolver um novo chip de IA, mas fez pivot para uma plataforma de IA generativa
  • Por um tempo, houve muita expectativa em torno da computação quântica, com os seguintes principais players
    • QPU da IBM
    • O computador quântico do Google anunciou no início deste ano, na Nature, um marco importante em redução de erros quânticos. A máquina virtual quântica pode ser acessada pelo Google Colab
    • Centro de Engenharia Quântica do MIT, Instituto Max Planck de Óptica Quântica, Chicago Quantum Exchange, Oak Ridge National Laboratory e outros
  • Outra direção muito interessante são os chips fotônicos
    • Os chips atuais movem dados usando eletricidade, então consomem muita energia e também introduzem latência
    • Chips fotônicos movem dados usando fótons e aproveitam a velocidade da luz para uma computação mais rápida e eficiente
    • Várias startups da área levantaram centenas de milhões de dólares, incluindo Lightmatter ($270M), Ayar Labs ($220M), Lightelligence ($200M+) e Luminous Computing ($115M)

Tornar agentes utilizáveis

  • Agentes são LLMs capazes de executar tarefas como pesquisar na internet, enviar e-mails e fazer reservas
  • Em comparação com outras direções de pesquisa deste texto, esta pode ser considerada a mais inicial
  • Pela novidade e pelo enorme potencial, agentes têm despertado um entusiasmo enorme
  • Auto-GPT agora é o 25º repositório mais popular no GitHub por número de stars
  • GPT-Engineering também é outro repositório popular
  • Apesar do entusiasmo, ainda há dúvidas sobre se os LLMs são confiáveis e competentes o bastante para receber delegação de autoridade para agir
  • A startup mais notável nessa área é a Adept
    • Fundada por 2 coautores do Transformer e um ex-VP da OpenAI, já levantou quase US$ 500 milhões

Melhorar o aprendizado a partir de Human Preference

  • RLHF, Reinforcement Learning from Human Preference, é interessante, mas um tanto hacky
    Não seria surpresa se as pessoas encontrassem formas melhores de treinar LLMs. O RLHF ainda tem questões em aberto, como:
    • Como representar matematicamente as preferências humanas?
      • Atualmente, as preferências humanas são determinadas por comparação
      • Rotuladores humanos decidem se a resposta A é melhor que a resposta B, mas não consideram o quanto A é melhor do que B
    • Quais preferências humanas?
      • A Anthropic mediu a qualidade das respostas do modelo em três eixos: utilidade, honestidade e inocuidade
      • A DeepMind tenta gerar respostas que agradem à maioria das pessoas
      • Queremos uma IA capaz de tomar posição, ou uma IA sem graça que evite temas potencialmente controversos?
    • Considerando diferenças de cultura, religião e posicionamento político, de quem são as preferências “humanas”?
  • Há muitas dificuldades para obter dados de treinamento que representem adequadamente todos os usuários em potencial
    Por exemplo, no caso dos dados do InstructGPT da OpenAI, não havia nenhum rotulador com mais de 65 anos. Os rotuladores eram majoritariamente filipinos e bangladeshianos
  • Esforços liderados pela comunidade, embora bem-intencionados, também podem resultar em dados enviesados
    Por exemplo, no dataset OpenAssistant, 201 de 222 respondentes (90,5%) declararam ser homens

Melhorar a eficiência da interface de chat

  • Desde o ChatGPT, houve várias discussões sobre se o chat é uma interface adequada para tarefas diversas
  • Isso não é uma discussão nova; na Ásia, o chat já vem sendo usado como interface de superapps há cerca de 10 anos
  • Pessoalmente, gosto de interfaces de chat por estes motivos
    • O chat é uma interface que pode ser aprendida rapidamente, inclusive por pessoas que antes talvez não tivessem contato com computadores ou com a internet
    • Interfaces de chat são acessíveis. Se as mãos estiverem ocupadas, dá para usar voz em vez de texto
    • O chat é uma interface incrivelmente poderosa. Você pode fazer qualquer pedido e, mesmo que a resposta não seja boa, ele ainda fornece uma resposta
  • Mas ainda há áreas em que a interface de chat pode ser melhorada
    • Várias mensagens por turno
    • Entrada multimodal
    • Integração de IA generativa aos fluxos de trabalho
    • Edição e exclusão de mensagens

Construir LLMs para línguas não inglesas

  • Hoje, LLMs English-First não funcionam bem para outros idiomas em termos de desempenho, latência e velocidade
  • Alguns leitores iniciais deste texto disseram que não achavam que essa direção deveria ser incluída
    • Isso estaria mais próximo de um problema de logística do que de pesquisa. Já sabemos como fazer, bastaria investir dinheiro e esforço
      Mas isso não é verdade. A maioria das línguas tem poucos recursos. Há muito menos dados de alta qualidade do que em inglês ou chinês, e treinar modelos em larga escala pode exigir técnicas diferentes
    • Os mais pessimistas dizem até que, no futuro, muitas línguas desaparecerão e a internet será formada por dois mundos, um em inglês e outro em mandarim. Alguém ainda se lembra do Esperanto?
  • O impacto de ferramentas de IA, como tradução automática e chatbots, no aprendizado de idiomas ainda não está claro
    Elas vão ajudar as pessoas a aprender novas línguas mais rápido, ou eliminar completamente a necessidade de aprendê-las?

1 comentários

 
joone 2023-08-31

A pessoa que escreveu este texto é a autora do livro Designing Machine Learning Systems, publicado pela O'Reilly.
A edição traduzida foi publicada pela Hanbit Publishing.
https://m.hanbit.co.kr/store/books/book_view.html?p_code=B1811121220