17] Principais artigos de ML desta semana (Top ML Papers of the Week)

(discuss.pytorch.kr)

2 pontos por ninebow 2023-12-18 | Ainda não há comentários. | Compartilhar no WhatsApp

Visão geral

Fizemos uma tradução automática dos artigos sobre papers de ML publicados semanalmente pela DAIR.AI.
Ao observar os artigos selecionados desta semana, chama a atenção o fato de que as pesquisas sobre LLM (Large Language Models) predominam. Mais especificamente, parece ter havido análises sobre a utilização e a melhoria de desempenho dos LLMs em uma ampla variedade de temas, incluindo descobertas na área de matemática, problemas de generalização, aplicações na medicina e métodos de aprendizado que vão além dos dados humanos.
Essa tendência reflete como os avanços dos LLMs vêm ganhando destaque no campo da inteligência artificial nos últimos anos. Em particular, com o surgimento de grandes modelos de linguagem como o GPT-3 da OpenAI, expandiu-se muito a possibilidade de aplicar esses modelos em diversas áreas. Isso sugere que os LLMs podem desempenhar um papel importante não apenas no processamento de texto, mas também na resolução de problemas complexos, e os artigos desta semana mostram essa influência se estendendo até áreas tradicionais como matemática e medicina. Além disso, a tendência de valorizar transparência e abertura enfatiza a importância da confiabilidade e da colaboração nas áreas de pesquisa e aplicação.
Além disso, artigos como Weak-to-strong Generalization e Beyond Human Data for LLMs sugerem pesquisas sobre a capacidade de generalização e as metodologias de aprendizado dos LLMs, o que pode ser visto como uma tentativa de ir além do ambiente de aprendizado atualmente limitado desses modelos e desenvolver mecanismos de aprendizado mais robustos. Essa tendência mostra que a pesquisa em LLMs está avançando para além do simples foco em melhoria de desempenho, buscando aumentar de forma significativa a capacidade de generalização e a utilidade dos modelos.

LLM para descobertas nas ciências matemáticas / LLMs for Discoveries in Mathematical Sciences

Apresentação do artigo

Uso de LLMs para encontrar novas soluções em matemática e ciência da computação; propõe o funsearch, que combina um LLM pré-treinado com um avaliador sistemático e repete esse processo para evoluir programas com baixa pontuação em programas com alta pontuação capazes de descobrir novo conhecimento; um dos principais resultados deste estudo é que se proteger contra alucinações de LLM é importante para produzir descobertas matemáticas e resolver outros problemas do mundo real.

Uses llms to search for new solutions in mathematics & computer science; proposes funsearch which combines a pre-trained llm with a systematic evaluator and iterates over them to evolve low-scoring programs into high-scoring ones discovering new knowledge; one of the key findings in this work is that safeguarding against llm hallucinations is important to produce mathematical discoveries and other real-world problems.

Link do artigo

https://www.nature.com/articles/s41586-023-06924-6

Generalização de fraco para forte / Weak-to-strong Generalization

Apresentação do artigo

Estuda se a supervisão de um modelo fraco pode extrair todas as capacidades de um modelo mais forte, e descobre que, ao ajustar ingenuamente modelos fortes pré-treinados com rótulos gerados por modelos fracos, eles podem apresentar desempenho melhor que seus supervisores fracos; também relata que, ao ajustar o GPT-4 com um supervisor no nível do GPT-2, é possível recuperar um desempenho próximo ao nível do GPT-3.5 em tarefas de NLP.

Studies whether weak model supervision can elicit the full capabilities of stronger models; finds that when naively fine-tuning strong pretrained models on weak model generated labels they can perform better than their weak supervisors; reports that finetuning gpt-4 with a gpt-2-level supervisor it’s possible to recover close to gpt-3.5-level performance on nlp tasks.

Link do artigo

https://cdn.openai.com/papers/weak-to-strong-generalization.pdf

Audiobox

Apresentação do artigo

Um modelo unificado baseado em flow-matching capaz de gerar diversas modalidades de áudio; projeta prompts baseados em descrição e em exemplos para aumentar a controlabilidade e unificar os paradigmas de geração de fala e som; adapta um objetivo de infilling autossupervisionado para pré-treinamento em grandes quantidades de áudio não rotulado; apresenta bom desempenho na geração de fala e sons e abre novos métodos para gerar áudio com estilos vocais e acústicos inéditos.

A unified model based on flow-matching capable of generating various audio modalities; designs description-based and example-based prompting to enhance controllability and unify speech and sound generation paradigms; adapts a self-supervised infilling objective to pre-train on large quantities of unlabeled audio; performs well on speech and sound generation and unlocks new methods for generating audio with novel vocal and acoustic styles.

Link do artigo

https://ai.meta.com/research/publications/…

Modelos de linguagem matemáticos: uma pesquisa / Mathematical Language Models: A Survey

Apresentação do artigo

Uma pesquisa sobre o progresso dos LLMs em tarefas matemáticas; cobre artigos e recursos sobre pesquisas em LLM relacionadas a técnicas de prompting e tarefas como resolução de problemas matemáticos em linguagem natural e prova de teoremas.

A survey on the progress of llms on mathematical tasks; covers papers and resources on llm research around prompting techniques and tasks such as math word problem-solving and theorem proving.

Resumo do artigo

Nos últimos anos, houve um progresso notável no uso de modelos de linguagem (LMs), abrangendo modelos de linguagem pré-treinados (PLMs) e modelos de linguagem de grande escala (LLMs), no domínio da matemática. Este artigo realiza uma pesquisa abrangente sobre LMs matemáticos, categorizando sistematicamente os principais esforços de pesquisa a partir de duas perspectivas distintas: tarefas e metodologias. O panorama revela um grande número de LLMs matemáticos propostos, que são ainda subdivididos em aprendizado por instrução, métodos baseados em ferramentas, técnicas fundamentais de CoT e metodologias avançadas de CoT. Além disso, esta pesquisa envolve a compilação de mais de 60 conjuntos de dados matemáticos, incluindo conjuntos de treinamento, benchmarks e conjuntos de dados aumentados. Ao abordar os principais desafios e delinear trajetórias futuras no campo dos LMs matemáticos, esta pesquisa se posiciona como um recurso valioso, pronto para facilitar e inspirar futuras inovações entre pesquisadores dedicados ao avanço dessa área.

In recent years, there has been remarkable progress in leveraging Language Models (LMs), encompassing Pre-trained Language Models (PLMs) and Large-scale Language Models (LLMs), within the domain of mathematics. This paper conducts a comprehensive survey of mathematical LMs, systematically categorizing pivotal research endeavors from two distinct perspectives: tasks and methodologies. The landscape reveals a large number of proposed mathematical LLMs, which are further delineated into instruction learning, tool-based methods, fundamental CoT techniques, and advanced CoT methodologies. In addition, our survey entails the compilation of over 60 mathematical datasets, including training datasets, benchmark datasets, and augmented datasets. Addressing the primary challenges and delineating future trajectories within the field of mathematical LMs, this survey is positioned as a valuable resource, poised to facilitate and inspire future innovation among researchers invested in advancing this domain.

Link do artigo

https://arxiv.org/abs/2312.07622

LLM360: rumo a LLMs open source totalmente transparentes / LLM360: Towards Fully Transparent Open-Source LLMs

Introdução do artigo

Propõe o LLM360 para apoiar uma pesquisa em IA aberta e colaborativa, tornando o processo de treinamento de LLM de ponta a ponta transparente e reproduzível; lança os LLMs de 7B parâmetros pré-treinados do zero, Amber e CrystalCoder, incluindo seu código de treinamento, dados, checkpoints intermediários e análises.

Proposes llm360 to support open and collaborative ai research by making the end-to-end llm training process transparent and reproducible; releases 7b parameter llms pre-trained from scratch, amber and crystalcoder, including their training code, data, intermediate checkpoints, and analyses.

Resumo do artigo

O recente aumento de modelos de linguagem de grande escala (LLMs) open source, como LLaMA, Falcon e Mistral, oferece opções diversas para profissionais e pesquisadores de IA. No entanto, a maioria dos LLMs divulga apenas artefatos parciais, como os pesos finais do modelo ou o código de inferência, e os relatórios técnicos vêm limitando cada vez mais seu escopo a escolhas de design de alto nível e estatísticas superficiais. Essas escolhas dificultam o progresso no campo ao reduzir a transparência sobre o treinamento dos LLMs e forçar as equipes a redescobrirem muitos detalhes do processo de treinamento. A Unity apresenta o LLM360, uma iniciativa para tornar os LLMs totalmente open source, defendendo que todo o código e os dados de treinamento, checkpoints do modelo e resultados intermediários sejam disponibilizados para a comunidade. O objetivo do LLM360 é apoiar uma pesquisa em IA aberta e colaborativa, tornando o processo de treinamento de LLM de ponta a ponta transparente e reproduzível para todos. Como primeiro passo do LLM360, a Unity libera dois LLMs de 7B parâmetros pré-treinados do zero, Amber e CrystalCoder, incluindo seu código de treinamento, dados, checkpoints intermediários e análises (em https://www.llm360.ai). A Unity está comprometida em continuar expandindo os limites dos LLMs por meio desse esforço open source. Modelos maiores e mais poderosos estão em desenvolvimento e serão lançados no futuro.

The recent surge in open-source Large Language Models (LLMs), such as LLaMA, Falcon, and Mistral, provides diverse options for AI practitioners and researchers. However, most LLMs have only released partial artifacts, such as the final model weights or inference code, and technical reports increasingly limit their scope to high-level design choices and surface statistics. These choices hinder progress in the field by degrading transparency into the training of LLMs and forcing teams to rediscover many details in the training process. We present LLM360, an initiative to fully open-source LLMs, which advocates for all training code and data, model checkpoints, and intermediate results to be made available to the community. The goal of LLM360 is to support open and collaborative AI research by making the end-to-end LLM training process transparent and reproducible by everyone. As a first step of LLM360, we release two 7B parameter LLMs pre-trained from scratch, Amber and CrystalCoder, including their training code, data, intermediate checkpoints, and analyses (at https://www.llm360.ai). We are committed to continually pushing the boundaries of LLMs through this open-source effort. More large-scale and stronger models are underway and will be released in the future.

Link do artigo

https://arxiv.org/abs/2312.06550

Uma pesquisa sobre modelos de linguagem de grande escala na medicina: princípios, aplicações e desafios / A Survey of Large Language Models in Medicine: Principles, Applications, and Challenges

Introdução do artigo

Uma pesquisa abrangente sobre machine learning na área médica, com análise de mais de 300 artigos, incluindo uma visão geral dos princípios, aplicações e desafios enfrentados pelo machine learning na medicina.

A comprehensive survey (analyzing 300+ papers) on llms in medicine; includes an overview of the principles, applications, and challenges faced by llms in medicine.

Resumo do artigo

Modelos de linguagem de grande porte (LLMs), como o ChatGPT, têm recebido atenção significativa devido às suas impressionantes capacidades de compreensão e geração de linguagem humana. Por isso, a aplicação de LLMs na medicina para auxiliar médicos e o cuidado com pacientes vem surgindo como uma direção de pesquisa promissora tanto na inteligência artificial quanto na medicina clínica. Refletindo essa tendência, esta pesquisa apresenta uma visão abrangente dos princípios, aplicações e desafios enfrentados pelos LLMs na medicina. Especificamente, busca responder às seguintes perguntas: 1) como LLMs médicos podem ser construídos? 2) quais são os desempenhos downstream dos LLMs médicos? 3) como os LLMs médicos podem ser utilizados na prática clínica real? 4) quais desafios surgem com o uso de LLMs médicos? e 5) como podemos construir e utilizar melhor os LLMs médicos? Como resultado, esta pesquisa pretende fornecer insights sobre as oportunidades e os desafios dos LLMs na medicina e servir como um recurso valioso para a construção de LLMs médicos práticos e eficazes. Uma lista atualizada regularmente de guias práticos sobre LLMs médicos pode ser encontrada em https://github.com/AI-in-Health/MedLLMsPracticalGuide.

Large language models (LLMs), such as ChatGPT, have received substantial attention due to their impressive human language understanding and generation capabilities. Therefore, the application of LLMs in medicine to assist physicians and patient care emerges as a promising research direction in both artificial intelligence and clinical medicine. To reflect this trend, this survey provides a comprehensive overview of the principles, applications, and challenges faced by LLMs in medicine. Specifically, we aim to address the following questions: 1) How can medical LLMs be built? 2) What are the downstream performances of medical LLMs? 3) How can medical LLMs be utilized in real-world clinical practice? 4) What challenges arise from the use of medical LLMs? and 5) How can we better construct and utilize medical LLMs? As a result, this survey aims to provide insights into the opportunities and challenges of LLMs in medicine and serve as a valuable resource for constructing practical and effective medical LLMs. A regularly updated list of practical guides on medical LLMs can be found at https://github.com/AI-in-Health/MedLLMsPracticalGuide.

Link do artigo

https://arxiv.org/abs/2311.05112

Além dos dados humanos: ampliando o autoaprendizado para resolução de problemas com modelos de linguagem / Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models

Apresentação do artigo

Propõe uma abordagem de autoaprendizado com feedback que pode reduzir substancialmente a dependência de dados gerados por humanos; os dados gerados pelo modelo, combinados com uma função de recompensa, melhoram o desempenho de LLMs em tarefas de resolução de problemas.

Proposes an approach for self-training with feedback that can substantially reduce dependence on human-generated data; the model-generated data combined with a reward function improves the performance of llms on problem-solving tasks.

Resumo do artigo

O fine-tuning de modelos de linguagem (LMs) com dados gerados por humanos continua sendo uma prática amplamente utilizada. No entanto, o desempenho desses modelos muitas vezes é limitado pela quantidade e diversidade de dados humanos de alta qualidade. Neste artigo, os autores investigam se é possível ir além dos dados humanos em tarefas nas quais há acesso a feedback escalar, por exemplo, em problemas de matemática nos quais é possível verificar a correção. Para isso, eles analisam um método simples de autoaprendizado baseado em expectation-maximization, chamado ReST $^{EM}$, no qual (1) são geradas amostras a partir do modelo e filtradas com feedback binário, (2) o modelo é ajustado com essas amostras e (3) esse processo é repetido algumas vezes. Testando benchmarks avançados de raciocínio matemático MATH e de programação APPS com modelos PaLM-2, os autores descobriram que o ReST $^{EM}$ escala favoravelmente com o tamanho do modelo e supera de forma significativa o fine-tuning feito apenas com dados humanos. No geral, os resultados sugerem que o autoaprendizado com feedback pode reduzir substancialmente a dependência de dados gerados por humanos.

Fine-tuning language models(LMs) on human-generated data remains a prevalent practice. However, the performance of such models is often limited by the quantity and diversity of high-quality human data. In this paper, we explore whether we can go beyond human data on tasks where we have access to scalar feedback, for example, on math problems where one can verify correctness. To do so, we investigate a simple self-training method based on expectation-maximization, which we call ReST $^{EM}$, where we (1) generate samples from the model and filter them using binary feedback, (2) fine-tune the model on these samples, and (3) repeat this process a few times. Testing on advanced MATH reasoning and APPS coding benchmarks using PaLM-2 models, we find that ReST $^{EM}$ scales favorably with model size and significantly surpasses fine-tuning only on human data. Overall, our findings suggest self-training with feedback can substantially reduce dependence on human-generated data.

Link do artigo

https://arxiv.org/abs/2312.06585

Gaussian-SLAM

Apresentação do artigo

Um método de SLAM neural RGBD capaz de reconstruir cenas do mundo real com fotorrealismo sem comprometer velocidade e eficiência; ele estende a abordagem clássica de gaussianas 3D para representação de cenas, superando as limitações dos métodos anteriores.

A neural rgbd slam method capable of photorealistically reconstructing real-world scenes without compromising speed and efficiency; extends classical 3d gaussians for scene representation to overcome the limitations of the previous methods.

Link do artigo

https://vladimiryugay.github.io/gaussian_slam/

Pearl: um agente de aprendizado por reforço pronto para produção / Pearl: A Production-ready Reinforcement Learning Agent

Introdução ao artigo

Apresenta um novo pacote de software de agente de IA pronto para produção que permite a pesquisadores e profissionais desenvolver agentes de IA de aprendizado por reforço que se adaptam a ambientes com observabilidade limitada, feedback esparso e alta estocasticidade.

Introduces a new production-ready rl agent software package that enables researchers and practitioners to develop rl ai agents that adapt to environments with limited observability, sparse feedback, and high stochasticity.

Resumo do artigo

O aprendizado por reforço (RL) oferece uma estrutura versátil para alcançar objetivos de longo prazo. Sua generalidade permite formalizar uma ampla gama de problemas enfrentados por sistemas inteligentes no mundo real, como lidar com recompensas atrasadas, observabilidade parcial, o dilema entre exploração e aproveitamento, o uso de dados offline para melhorar o desempenho online e a garantia de cumprimento de restrições de segurança. Apesar do progresso considerável da comunidade de pesquisa em RL para enfrentar esses desafios, as bibliotecas open source de RL existentes tendem a se concentrar em uma parte estreita do pipeline de solução em RL, deixando outros aspectos em grande parte de lado. Este artigo apresenta o Pearl, um pacote de software de agente de RL pronto para produção explicitamente projetado para abraçar esses desafios de forma modular. Além de apresentar resultados preliminares de benchmark, o artigo destaca adoções do Pearl na indústria para demonstrar sua prontidão para uso em produção. O Pearl foi disponibilizado como open source no Github em github.com/facebookresearch/pearl, e seu site oficial está em pearlagent.github.io.

Reinforcement Learning (RL) offers a versatile framework for achieving long-term goals. Its generality allows us to formalize a wide range of problems that real-world intelligent systems encounter, such as dealing with delayed rewards, handling partial observability, addressing the exploration and exploitation dilemma, utilizing offline data to improve online performance, and ensuring safety constraints are met. Despite considerable progress made by the RL research community in addressing these issues, existing open-source RL libraries tend to focus on a narrow portion of the RL solution pipeline, leaving other aspects largely unattended. This paper introduces Pearl, a Production-ready RL agent software package explicitly designed to embrace these challenges in a modular fashion. In addition to presenting preliminary benchmark results, this paper highlights Pearl's industry adoptions to demonstrate its readiness for production usage. Pearl is open sourced on Github at github.com/facebookresearch/pearl and its official website is located at pearlagent.github.io.

Link do artigo

https://arxiv.org/abs/2312.03814

Quip / Quip

Introdução ao artigo

Comprime os pesos de modelos treinados em um formato de menor precisão para reduzir os requisitos de memória; a abordagem combina codebooks em rede e processamento de incoerência para criar modelos quantizados em 2 bits; reduz significativamente a diferença entre LLMs quantizados em 2 bits e modelos não quantizados de 16 bits.

Compresses trained model weights into a lower precision format to reduce memory requirements; the approach combines lattice codebooks with incoherence processing to create 2 bit quantized models; significantly closes the gap between 2 bit quantized llms and unquantized 16 bit models.

[2023/12/11 ~ 12/17] Principais artigos de ML desta semana (Top ML Papers of the Week)

Visão geral

LLM para descobertas nas ciências matemáticas / LLMs for Discoveries in Mathematical Sciences

Apresentação do artigo

Link do artigo

Leia mais

Generalização de fraco para forte / Weak-to-strong Generalization

Apresentação do artigo

Link do artigo

Leia mais

Audiobox

Apresentação do artigo

Link do artigo

Leia mais

Modelos de linguagem matemáticos: uma pesquisa / Mathematical Language Models: A Survey

Apresentação do artigo

Resumo do artigo

Link do artigo

Leia mais

LLM360: rumo a LLMs open source totalmente transparentes / LLM360: Towards Fully Transparent Open-Source LLMs

Introdução do artigo

Resumo do artigo

Link do artigo

Leia mais

Uma pesquisa sobre modelos de linguagem de grande escala na medicina: princípios, aplicações e desafios / A Survey of Large Language Models in Medicine: Principles, Applications, and Challenges

Introdução do artigo

Resumo do artigo

Link do artigo

Leia mais

Além dos dados humanos: ampliando o autoaprendizado para resolução de problemas com modelos de linguagem / Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models

Apresentação do artigo

Resumo do artigo

Link do artigo

Leia mais

Gaussian-SLAM

Apresentação do artigo

Link do artigo

Leia mais

Pearl: um agente de aprendizado por reforço pronto para produção / Pearl: A Production-ready Reinforcement Learning Agent

Introdução ao artigo

Resumo do artigo

Link do artigo

Leia mais

Quip / Quip

Introdução ao artigo

Link do artigo

Leia mais

Texto original

Leituras relacionadas

Ainda não há comentários.