Desafios em aberto na pesquisa com LLMs

xguru · 2023-08-22T11:22:02+09:00

10 principais desafios discutidos na área de LLMs, com uma coletânea de links para estudo adicional Redução e medição de alucinações (Hallucination) O maior obstáculo para a adoção de LLMs nas empresas são as alucinações Desenvolver métricas para mitigar e medir alucinações é um tema de pesquisa popular, e muitas startups estão focadas nisso Algumas dicas temporárias para reduzir alucinações incluem adicionar contexto ao prompt, Chain-Of-Thought, Self-Consistency e pedir ao modelo respostas concisas Otimização do tamanho do contexto e da composição do contexto A maioria das perguntas precisa de contexto Segundo o artigo SituatedQA, uma parte considerável das perguntas de recuperação de informação tem respostas diferentes dependendo do contexto (16,5% do dataset NQ-Open se enquadra nisso) Em casos de uso empresariais, isso provavelmente é muito maior (num chatbot de suporte ao cliente, por exemplo, o contexto inclui o histórico daquele cliente ou informações sobre o produto) O tamanho do contexto é especialmente importante em RAG (Retrieval Augmented Generation) O RAG funciona em 2 etapas Chunking (indexação): coletar todos os documentos que serão usados no LLM. Gerar embeddings, dividir em chunks para inserir no LLM e armazenar os embeddings em um banco de dados vetorial Query: quando o usuário envia uma consulta, o LLM converte a consulta em embedding. Em seguida, recupera no banco de dados vetorial os chunks mais semelhantes ao embedding Quanto maior o contexto, mais chunks podem ser incluídos. Se o modelo puder acessar mais informação, a resposta não deveria ser melhor? Nem sempre. A quantidade de contexto usada pelo modelo e o quão eficientemente ele usa esse contexto são questões diferentes Junto com os esforços para aumentar o tamanho do contexto do modelo, também há esforços para tornar o contexto mais eficiente Isso é chamado de prompt engineering ou prompt construction Por exemplo, artigos recentes mostram que o modelo entende melhor informações no começo ou no fim do contexto do que no meio Integração de outros formatos de dados (modalities) Multimodality é muito poderosa, mas ainda subestimada Razões pelas quais isso é importante Há casos de uso que lidam com diversos tipos de dados, como medicina, robótica, comércio eletrônico, varejo, jogos e entretenimento Previsões médicas exigem texto (anotações médicas, questionários) e imagens (CT, X-Ray, MRI) Metadados de produtos incluem imagens, vídeo, descrições e dados tabulares A multimodalidade deve trazer grandes melhorias no desempenho dos modelos Modelos capazes de entender texto e imagem têm desempenho melhor do que modelos que entendem apenas texto Como modelos baseados em texto exigem uma quantidade enorme de dados textuais, também existe a preocupação de que em breve os dados da internet necessários para treiná-los se esgotem Se faltar texto, será preciso aproveitar outros formatos de dados Algo especialmente promissor: permitir que pessoas com deficiência visual usem multimodalidade para navegar na internet e explorar o mundo real Tornar os LLMs mais rápidos e baratos Quando o GPT-3.5 saiu em novembro de 2022, muita gente se preocupou com latência e custo de uso em produção Mas a análise de latência/custo mudou muito desde então Em menos de meio ano, a comunidade encontrou formas de criar modelos que usam apenas 2% do espaço de memória do GPT-3.5 e chegam muito perto dele em desempenho O ponto principal: se você fizer algo bom o suficiente, as pessoas vão descobrir como torná-lo rápido e barato Quatro anos atrás, foram resumidas 4 técnicas principais para otimização/compressão de modelos Quantization (quantização): o método mais comum de otimização de modelos. Reduz o tamanho do modelo usando menos bits para representar os parâmetros. Em vez de ponto flutuante de 32 bits, usa-se 16 bits, ou até 4 bits Knowledge distillation (destilação de conhecimento): treinar um modelo pequeno (aluno) para imitar um modelo maior ou um ensemble de modelos (professor) Low-rank factorization (fatoração de baixa ordem): substituir tensores de alta dimensão por tensores de baixa dimensão para reduzir o número de parâmetros. Por exemplo, decompor um tensor 3x3 no produto de tensores 3x1 e 1x3 para ter apenas 6 parâmetros em vez de 9 Pruning (poda) Hoje essas 4 técnicas continuam relevantes e populares. Alpaca usou destilação de conhecimento, e QLoRA usou uma combinação de fatoração de baixa ordem e quantização Projetar novas arquiteturas de modelo Desde o AlexNet em 2012, muitas arquiteturas como LSTM e seq2seq ficaram em alta e depois desapareceram Em comparação, o Transformer tem sido muito persistente. Surgiu em 2017, e fica a dúvida até quando continuará dominante Desenvolver uma nova arquitetura que supere o Transformer não é fácil. Ele foi otimizado intensamente nos últimos 6 anos Uma nova arquitetura precisa apresentar desempenho em escala suficiente para atrair interesse hoje O Transformer foi originalmente projetado para rodar rápido em TPUs e depois foi otimizado para GPUs Em 2021, houve muito entusiasmo em torno do S4 no laboratório de Chris Ré. Mesmo recentemente, ainda há investimento em novas arquiteturas, e mais recentemente foi desenvolvida a arquitetura Monarch Mixer em parceria com a startup Together Desenvolver alternativas à GPU Desde o AlexNet em 2012, a GPU é o hardware dominante para deep learning Um dos motivos de o AlexNet ter se tornado famoso é que foi o primeiro artigo a usar GPUs com sucesso para treinar redes neurais Antes das GPUs, para treinar um modelo do porte do AlexNet era preciso usar milhares de CPUs Comparadas a milhares de CPUs, 2 GPUs eram muito mais acessíveis para doutorandos e pesquisadores, o que impulsionou o boom da pesquisa em deep learning Nos últimos 10 anos, grandes empresas, startups e muitas outras companhias tentaram criar novo hardware para IA Os casos mais notáveis são a TPU do Google, a IPU da Graphcore e a Cerebras A SambaNova levantou mais de US$ 1 bilhão para desenvolver um novo chip de IA, mas fez pivot para uma plataforma de IA generativa Por um tempo, houve muita expectativa em torno da computação quântica, com os seguintes principais players QPU da IBM O computador quântico do Google anunciou no início deste ano, na Nature, um marco importante em redução de erros quânticos. A máquina virtual quântica pode ser acessada pelo Google Colab Centro de Engenharia Quântica do MIT, Instituto Max Planck de Óptica Quântica, Chicago Quantum Exchange, Oak Ridge National Laboratory e outros Outra direção muito interessante são os chips fotônicos Os chips atuais movem dados usando eletricidade, então consomem muita energia e também introduzem latência Chips fotônicos movem dados usando fótons e aproveitam a velocidade da luz para uma computação mais rápida e eficiente Várias startups da área levantaram centenas de milhões de dólares, incluindo Lightmatter ($270M), Ayar Labs ($220M), Lightelligence ($200M+) e Luminous Computing ($115M) Tornar agentes utilizáveis Agentes são LLMs capazes de executar tarefas como pesquisar na internet, enviar e-mails e fazer reservas Em comparação com outras direções de pesquisa deste texto, esta pode ser considerada a mais inicial Pela novidade e pelo enorme potencial, agentes têm despertado um entusiasmo enorme Auto-GPT agora é o 25º repositório mais popular no GitHub por número de stars GPT-Engineering também é outro repositório popular Apesar do entusiasmo, ainda há dúvidas sobre se os LLMs são confiáveis e competentes o bastante para receber delegação de autoridade para agir A startup mais notável nessa área é a Adept Fundada por 2 coautores do Transformer e um ex-VP da OpenAI, já levantou quase US$ 500 milhões Melhorar o aprendizado a partir de Human Preference RLHF, Reinforcement Learning from Human Preference, é interessante, mas um tanto hacky Não seria surpresa se as pessoas encontrassem formas melhores de treinar LLMs. O RLHF ainda tem questões em aberto, como: Como representar matematicamente as preferências humanas? Atualmente, as preferências humanas são determinadas por comparação Rotuladores humanos decidem se a resposta A é melhor que a resposta B, mas não consideram o quanto A é melhor do que B Quais preferências humanas? A Anthropic mediu a qualidade das respostas do modelo em três eixos: utilidade, honestidade e inocuidade A DeepMind tenta gerar respostas que agradem à maioria das pessoas Queremos uma IA capaz de tomar posição, ou uma IA sem graça que evite temas potencialmente controversos? Considerando diferenças de cultura, religião e posicionamento político, de quem são as preferências “humanas”? Há muitas dificuldades para obter dados de treinamento que representem adequadamente todos os usuários em potencial Por exemplo, no caso dos dados do InstructGPT da OpenAI, não havia nenhum rotulador com mais de 65 anos. Os rotuladores eram majoritariamente filipinos e bangladeshianos Esforços liderados pela comunidade, embora bem-intencionados, também podem resultar em dados enviesados Por exemplo, no dataset OpenAssistant, 201 de 222 respondentes (90,5%) declararam ser homens Melhorar a eficiência da interface de chat Desde o ChatGPT, houve várias discussões sobre se o chat é uma interface adequada para tarefas diversas Isso não é uma discussão nova; na Ásia, o chat já vem sendo usado como interface de superapps há cerca de 10 anos Pessoalmente, gosto de interfaces de chat por estes motivos O chat é uma interface que pode ser aprendida rapidamente, inclusive por pessoas que antes talvez não tivessem contato com computadores ou com a internet Interfaces de chat são acessíveis. Se as mãos estiverem ocupadas, dá para usar voz em vez de texto O chat é uma interface incrivelmente poderosa. Você pode fazer qualquer pedido e, mesmo que a resposta não seja boa, ele ainda fornece uma resposta Mas ainda há áreas em que a interface de chat pode ser melhorada Várias mensagens por turno Entrada multimodal Integração de IA generativa aos fluxos de trabalho Edição e exclusão de mensagens Construir LLMs para línguas não inglesas Hoje, LLMs English-First não funcionam bem para outros idiomas em termos de desempenho, latência e velocidade Alguns leitores iniciais deste texto disseram que não achavam que essa direção deveria ser incluída Isso estaria mais próximo de um problema de logística do que de pesquisa. Já sabemos como fazer, bastaria investir dinheiro e esforço Mas isso não é verdade. A maioria das línguas tem poucos recursos. Há muito menos dados de alta qualidade do que em inglês ou chinês, e treinar modelos em larga escala pode exigir técnicas diferentes Os mais pessimistas dizem até que, no futuro, muitas línguas desaparecerão e a internet será formada por dois mundos, um em inglês e outro em mandarim. Alguém ainda se lembra do Esperanto? O impacto de ferramentas de IA, como tradução automática e chatbots, no aprendizado de idiomas ainda não está claro Elas vão ajudar as pessoas a aprender novas línguas mais rápido, ou eliminar completamente a necessidade de aprendê-las?

(huyenchip.com)

30 pontos por xguru 2023-08-22 | 1 comentários | Compartilhar no WhatsApp

10 principais desafios discutidos na área de LLMs, com uma coletânea de links para estudo adicional

Redução e medição de alucinações (Hallucination)

O maior obstáculo para a adoção de LLMs nas empresas são as alucinações
Desenvolver métricas para mitigar e medir alucinações é um tema de pesquisa popular, e muitas startups estão focadas nisso
Algumas dicas temporárias para reduzir alucinações incluem adicionar contexto ao prompt, Chain-Of-Thought, Self-Consistency e pedir ao modelo respostas concisas

Otimização do tamanho do contexto e da composição do contexto

A maioria das perguntas precisa de contexto
Segundo o artigo SituatedQA, uma parte considerável das perguntas de recuperação de informação tem respostas diferentes dependendo do contexto (16,5% do dataset NQ-Open se enquadra nisso)
Em casos de uso empresariais, isso provavelmente é muito maior (num chatbot de suporte ao cliente, por exemplo, o contexto inclui o histórico daquele cliente ou informações sobre o produto)
O tamanho do contexto é especialmente importante em RAG (Retrieval Augmented Generation)
O RAG funciona em 2 etapas
- Chunking (indexação): coletar todos os documentos que serão usados no LLM. Gerar embeddings, dividir em chunks para inserir no LLM e armazenar os embeddings em um banco de dados vetorial
- Query: quando o usuário envia uma consulta, o LLM converte a consulta em embedding. Em seguida, recupera no banco de dados vetorial os chunks mais semelhantes ao embedding
Quanto maior o contexto, mais chunks podem ser incluídos. Se o modelo puder acessar mais informação, a resposta não deveria ser melhor?
Nem sempre. A quantidade de contexto usada pelo modelo e o quão eficientemente ele usa esse contexto são questões diferentes
Junto com os esforços para aumentar o tamanho do contexto do modelo, também há esforços para tornar o contexto mais eficiente
- Isso é chamado de prompt engineering ou prompt construction
- Por exemplo, artigos recentes mostram que o modelo entende melhor informações no começo ou no fim do contexto do que no meio

Integração de outros formatos de dados (modalities)

Multimodality é muito poderosa, mas ainda subestimada
Razões pelas quais isso é importante
- Há casos de uso que lidam com diversos tipos de dados, como medicina, robótica, comércio eletrônico, varejo, jogos e entretenimento
  - Previsões médicas exigem texto (anotações médicas, questionários) e imagens (CT, X-Ray, MRI)
  - Metadados de produtos incluem imagens, vídeo, descrições e dados tabulares
- A multimodalidade deve trazer grandes melhorias no desempenho dos modelos
  - Modelos capazes de entender texto e imagem têm desempenho melhor do que modelos que entendem apenas texto
  - Como modelos baseados em texto exigem uma quantidade enorme de dados textuais, também existe a preocupação de que em breve os dados da internet necessários para treiná-los se esgotem
  - Se faltar texto, será preciso aproveitar outros formatos de dados
Algo especialmente promissor: permitir que pessoas com deficiência visual usem multimodalidade para navegar na internet e explorar o mundo real

Tornar os LLMs mais rápidos e baratos

Quando o GPT-3.5 saiu em novembro de 2022, muita gente se preocupou com latência e custo de uso em produção
Mas a análise de latência/custo mudou muito desde então
Em menos de meio ano, a comunidade encontrou formas de criar modelos que usam apenas 2% do espaço de memória do GPT-3.5 e chegam muito perto dele em desempenho
O ponto principal: se você fizer algo bom o suficiente, as pessoas vão descobrir como torná-lo rápido e barato
Quatro anos atrás, foram resumidas 4 técnicas principais para otimização/compressão de modelos
- Quantization (quantização): o método mais comum de otimização de modelos. Reduz o tamanho do modelo usando menos bits para representar os parâmetros. Em vez de ponto flutuante de 32 bits, usa-se 16 bits, ou até 4 bits
- Knowledge distillation (destilação de conhecimento): treinar um modelo pequeno (aluno) para imitar um modelo maior ou um ensemble de modelos (professor)
- Low-rank factorization (fatoração de baixa ordem): substituir tensores de alta dimensão por tensores de baixa dimensão para reduzir o número de parâmetros. Por exemplo, decompor um tensor 3x3 no produto de tensores 3x1 e 1x3 para ter apenas 6 parâmetros em vez de 9
- Pruning (poda)
Hoje essas 4 técnicas continuam relevantes e populares. Alpaca usou destilação de conhecimento, e QLoRA usou uma combinação de fatoração de baixa ordem e quantização

Projetar novas arquiteturas de modelo

Desde o AlexNet em 2012, muitas arquiteturas como LSTM e seq2seq ficaram em alta e depois desapareceram
Em comparação, o Transformer tem sido muito persistente. Surgiu em 2017, e fica a dúvida até quando continuará dominante
Desenvolver uma nova arquitetura que supere o Transformer não é fácil. Ele foi otimizado intensamente nos últimos 6 anos
Uma nova arquitetura precisa apresentar desempenho em escala suficiente para atrair interesse hoje
- O Transformer foi originalmente projetado para rodar rápido em TPUs e depois foi otimizado para GPUs
Em 2021, houve muito entusiasmo em torno do S4 no laboratório de Chris Ré.
Mesmo recentemente, ainda há investimento em novas arquiteturas, e mais recentemente foi desenvolvida a arquitetura Monarch Mixer em parceria com a startup Together

Desenvolver alternativas à GPU

Desde o AlexNet em 2012, a GPU é o hardware dominante para deep learning
Um dos motivos de o AlexNet ter se tornado famoso é que foi o primeiro artigo a usar GPUs com sucesso para treinar redes neurais
Antes das GPUs, para treinar um modelo do porte do AlexNet era preciso usar milhares de CPUs
Comparadas a milhares de CPUs, 2 GPUs eram muito mais acessíveis para doutorandos e pesquisadores, o que impulsionou o boom da pesquisa em deep learning
Nos últimos 10 anos, grandes empresas, startups e muitas outras companhias tentaram criar novo hardware para IA
Os casos mais notáveis são a TPU do Google, a IPU da Graphcore e a Cerebras
A SambaNova levantou mais de US$ 1 bilhão para desenvolver um novo chip de IA, mas fez pivot para uma plataforma de IA generativa
Por um tempo, houve muita expectativa em torno da computação quântica, com os seguintes principais players
- QPU da IBM
- O computador quântico do Google anunciou no início deste ano, na Nature, um marco importante em redução de erros quânticos. A máquina virtual quântica pode ser acessada pelo Google Colab
- Centro de Engenharia Quântica do MIT, Instituto Max Planck de Óptica Quântica, Chicago Quantum Exchange, Oak Ridge National Laboratory e outros
Outra direção muito interessante são os chips fotônicos
- Os chips atuais movem dados usando eletricidade, então consomem muita energia e também introduzem latência
- Chips fotônicos movem dados usando fótons e aproveitam a velocidade da luz para uma computação mais rápida e eficiente
- Várias startups da área levantaram centenas de milhões de dólares, incluindo Lightmatter ($270M), Ayar Labs ($220M), Lightelligence ($200M+) e Luminous Computing ($115M)

Tornar agentes utilizáveis

Agentes são LLMs capazes de executar tarefas como pesquisar na internet, enviar e-mails e fazer reservas
Em comparação com outras direções de pesquisa deste texto, esta pode ser considerada a mais inicial
Pela novidade e pelo enorme potencial, agentes têm despertado um entusiasmo enorme
Auto-GPT agora é o 25º repositório mais popular no GitHub por número de stars
GPT-Engineering também é outro repositório popular
Apesar do entusiasmo, ainda há dúvidas sobre se os LLMs são confiáveis e competentes o bastante para receber delegação de autoridade para agir
A startup mais notável nessa área é a Adept
- Fundada por 2 coautores do Transformer e um ex-VP da OpenAI, já levantou quase US$ 500 milhões

Melhorar o aprendizado a partir de Human Preference

RLHF, Reinforcement Learning from Human Preference, é interessante, mas um tanto hacky
Não seria surpresa se as pessoas encontrassem formas melhores de treinar LLMs. O RLHF ainda tem questões em aberto, como:
- Como representar matematicamente as preferências humanas?
  - Atualmente, as preferências humanas são determinadas por comparação
  - Rotuladores humanos decidem se a resposta A é melhor que a resposta B, mas não consideram o quanto A é melhor do que B
- Quais preferências humanas?
  - A Anthropic mediu a qualidade das respostas do modelo em três eixos: utilidade, honestidade e inocuidade
  - A DeepMind tenta gerar respostas que agradem à maioria das pessoas
  - Queremos uma IA capaz de tomar posição, ou uma IA sem graça que evite temas potencialmente controversos?
- Considerando diferenças de cultura, religião e posicionamento político, de quem são as preferências “humanas”?
Há muitas dificuldades para obter dados de treinamento que representem adequadamente todos os usuários em potencial
Por exemplo, no caso dos dados do InstructGPT da OpenAI, não havia nenhum rotulador com mais de 65 anos. Os rotuladores eram majoritariamente filipinos e bangladeshianos
Esforços liderados pela comunidade, embora bem-intencionados, também podem resultar em dados enviesados
Por exemplo, no dataset OpenAssistant, 201 de 222 respondentes (90,5%) declararam ser homens

Melhorar a eficiência da interface de chat

Desde o ChatGPT, houve várias discussões sobre se o chat é uma interface adequada para tarefas diversas
Isso não é uma discussão nova; na Ásia, o chat já vem sendo usado como interface de superapps há cerca de 10 anos
Pessoalmente, gosto de interfaces de chat por estes motivos
- O chat é uma interface que pode ser aprendida rapidamente, inclusive por pessoas que antes talvez não tivessem contato com computadores ou com a internet
- Interfaces de chat são acessíveis. Se as mãos estiverem ocupadas, dá para usar voz em vez de texto
- O chat é uma interface incrivelmente poderosa. Você pode fazer qualquer pedido e, mesmo que a resposta não seja boa, ele ainda fornece uma resposta
Mas ainda há áreas em que a interface de chat pode ser melhorada
- Várias mensagens por turno
- Entrada multimodal
- Integração de IA generativa aos fluxos de trabalho
- Edição e exclusão de mensagens

Construir LLMs para línguas não inglesas

Hoje, LLMs English-First não funcionam bem para outros idiomas em termos de desempenho, latência e velocidade
Alguns leitores iniciais deste texto disseram que não achavam que essa direção deveria ser incluída
- Isso estaria mais próximo de um problema de logística do que de pesquisa. Já sabemos como fazer, bastaria investir dinheiro e esforço
  Mas isso não é verdade. A maioria das línguas tem poucos recursos. Há muito menos dados de alta qualidade do que em inglês ou chinês, e treinar modelos em larga escala pode exigir técnicas diferentes
- Os mais pessimistas dizem até que, no futuro, muitas línguas desaparecerão e a internet será formada por dois mundos, um em inglês e outro em mandarim. Alguém ainda se lembra do Esperanto?
O impacto de ferramentas de IA, como tradução automática e chatbots, no aprendizado de idiomas ainda não está claro
Elas vão ajudar as pessoas a aprender novas línguas mais rápido, ou eliminar completamente a necessidade de aprendê-las?

1 comentários

joone 2023-08-31

A pessoa que escreveu este texto é a autora do livro Designing Machine Learning Systems, publicado pela O'Reilly.
A edição traduzida foi publicada pela Hanbit Publishing.
https://m.hanbit.co.kr/store/books/book_view.html?p_code=B1811121220