[2023/10/16 ~ 10/22] Principais artigos de ML desta semana (Top ML Papers of the Week)
(discuss.pytorch.kr)Visão geral
-
Traduzi automaticamente um texto da DAIR.AI que apresenta, toda semana, artigos de ML.
-
As principais tendências dos artigos selecionados nesta semana se dividem, em grande parte, em duas: a primeira é sistemas de diálogo de domínio aberto (open domain dialog system) e artigos de pesquisa que buscam permitir que a inteligência artificial gere explicações por conta própria ou resolva problemas de forma autônoma.
-
Sistemas de diálogo de domínio aberto são tecnologias que permitem que sistemas de inteligência artificial conversem naturalmente com usuários, e esse tema apareceu em artigos como "OpenAgents", "LLMs for Software Engineering" e "Eliciting Human Preferences with LLMs". Esses trabalhos estudam formas de fazer com que sistemas de IA aprendam e evoluam por conta própria por meio da conversa com os usuários.
-
Além disso, pesquisas em que a inteligência artificial gera suas próprias explicações ou resolve problemas por conta própria foram abordadas em artigos como "A Study of LLM-Generated Self-Explanations", "Self-RAG" e "Retrieval-Augmentation for Long-form Question Answering". O principal objetivo desses trabalhos é tornar transparente, para o usuário, o processo pelo qual a IA resolve problemas ou gera explicações, para que ele possa entendê-lo. Essa tendência parece um movimento natural quando se considera a importância de pesquisas que buscam tornar a inteligência artificial uma tecnologia mais transparente e de uso mais amplo.
Llemma: um modelo de linguagem aberto para matemática / Llemma: An Open Language Model For Mathematics
Introdução ao artigo
- Modelo Llemma para matemática, obtido por treinamento contínuo do Code Llama sobre o dataset Proof-Pile-2. Apresenta desempenho superior aos modelos base abertos e ao Minerva não lançado em artigos científicos, dados da web com conteúdo matemático, datasets com código matemático e benchmarks de matemática; o modelo foi lançado junto com o dataset e o código para reproduzir os experimentos. #mathglm #
An llm for mathematics which is based on continued pretraining from code llama on the proof-pile-2 dataset; the dataset involves scientific paper, web data containing mathematics, and mathematical code; llemma outperforms open base models and the unreleased minerva on the math benchmark; the model is released, including dataset and code to replicate experiments.
Resumo do artigo
- Apresentamos o Llemma, um grande modelo de linguagem para matemática. Continuamos o pré-treinamento do Code Llama no Proof-Pile-2, uma mistura de artigos científicos, dados da web contendo matemática e código matemático, resultando no Llemma. No benchmark MATH, o Llemma superou todos os modelos base abertos conhecidos, bem como a família de modelos Minerva ainda não lançada, em igualdade de número de parâmetros. Além disso, o Llemma é capaz de usar ferramentas e realizar prova formal de teoremas sem qualquer ajuste fino adicional. Estamos disponibilizando publicamente todos os artefatos, incluindo os modelos de 7 bilhões e 34 bilhões de parâmetros, o Proof-Pile-2 e o código para reproduzir nossos experimentos.
We present Llemma, a large language model for mathematics. We continue pretraining Code Llama on the Proof-Pile-2, a mixture of scientific papers, web data containing mathematics, and mathematical code, yielding Llemma. On the MATH benchmark Llemma outperforms all known open base models, as well as the unreleased Minerva model suite on an equi-parameter basis. Moreover, Llemma is capable of tool use and formal theorem proving without any further finetuning. We openly release all artifacts, including 7 billion and 34 billion parameter models, the Proof-Pile-2, and code to replicate our experiments.
Link do artigo
https://arxiv.org/abs/2310.10631
Leia mais
https://x.com/zhangir_azerbay/status/1714098025956864031
Grandes modelos de linguagem para engenharia de software: survey e problemas em aberto / Large Language Models for Software Engineering: Survey and Open Problems
Introdução ao artigo
- Artigo de survey abrangente sobre LLMs para engenharia de software, incluindo desafios técnicos e de pesquisa em aberto.
A comprehensive survey of llms for software engineering, including open research and technical challenges.
Resumo do artigo
- Este artigo apresenta uma pesquisa sobre a área emergente de grandes modelos de linguagem (LLMs) para engenharia de software (SE). Também expõe desafios de pesquisa em aberto para a aplicação de LLMs a problemas técnicos enfrentados por engenheiros de software. As propriedades emergentes dos LLMs trazem novidade e criatividade para todo o espectro de atividades de engenharia de software, incluindo programação, design, requisitos, correção, refatoração, melhoria de desempenho, documentação e análise. No entanto, essas mesmas propriedades emergentes também impõem desafios técnicos significativos; precisamos de técnicas que consigam filtrar com confiabilidade soluções incorretas, como alucinações. Nossa pesquisa revela o papel central que técnicas híbridas (SE tradicional mais LLMs) precisam desempenhar no desenvolvimento e na implantação de SE baseada em LLMs que seja confiável, eficiente e eficaz.
This paper provides a survey of the emerging area of Large Language Models (LLMs) for Software Engineering (SE). It also sets out open research challenges for the application of LLMs to technical problems faced by software engineers. LLMs' emergent properties bring novelty and creativity with applications right across the spectrum of Software Engineering activities including coding, design, requirements, repair, refactoring, performance improvement, documentation and analytics. However, these very same emergent properties also pose significant technical challenges; we need techniques that can reliably weed out incorrect solutions, such as hallucinations. Our survey reveals the pivotal role that hybrid techniques (traditional SE plus LLMs) have to play in the development and deployment of reliable, efficient and effective LLM-based SE.
Link do artigo
https://arxiv.org/abs/2310.03533
Leia mais
https://x.com/omarsar0/status/1713940983199506910
Self-RAG: aprender a recuperar, gerar e criticar por meio de autorreflexão / Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection
Introdução ao artigo
- Apresenta um novo framework de geração aumentada por recuperação que melhora a qualidade e a factualidade de LMs por meio de recuperação e autorreflexão; treina um LM que recupera passagens de forma adaptativa sob demanda e gera e reflete sobre as passagens e suas próprias gerações usando tokens especiais de reflexão; supera significativamente LLMs sota (ChatGPT e Llama2-chat com recuperação aumentada) em tarefas de QA de domínio aberto, raciocínio e verificação de fatos, incluindo melhorias de factualidade. #rag
> Presents a new retrieval-augmented framework that enhances an lm’s quality and factuality through retrieval and self-reflection; trains an lm that adaptively retrieves passages on demand, and generates and reflects on the passages and its own generations using special reflection tokens; it significantly outperforms sota llms (chatgpt and retrieval-augmented llama2-chat) on open-domain qa, reasoning, and fact verification tasks, including factuality improvements.
Resumo do artigo
- Apesar de suas capacidades notáveis, os grandes modelos de linguagem (LLMs) frequentemente produzem respostas com imprecisões factuais devido à sua dependência exclusiva do conhecimento paramétrico que encapsulam. A Retrieval-Augmented Generation (RAG), uma abordagem ad hoc que reforça LMs com a recuperação de conhecimento relevante, reduz esses problemas. No entanto, recuperar e incorporar indiscriminadamente um número fixo de passagens recuperadas, independentemente de a recuperação ser necessária ou de as passagens serem relevantes, reduz a versatilidade do LM ou pode levar à geração de respostas pouco úteis. Introduzimos um novo framework chamado Self-Reflective Retrieval-Augmented Generation (Self-RAG), que melhora a qualidade e a factualidade de um LM por meio de recuperação e autorreflexão. O framework do Facebook treina um único LM arbitrário que recupera passagens de forma adaptativa sob demanda e gera e reflete sobre passagens recuperadas e suas próprias gerações usando tokens especiais, chamados reflection tokens. A geração de reflection tokens torna o LM controlável durante a fase de inferência, permitindo ajustar seu comportamento a diversos requisitos de tarefa. Os experimentos mostram que o Self-RAG (com 7B e 13B parâmetros) supera significativamente LLMs de ponta e modelos aumentados por recuperação em um conjunto diverso de tarefas. Especificamente, o Self-RAG supera o ChatGPT e o Llama2-chat com recuperação aumentada em tarefas de QA de domínio aberto, raciocínio e verificação de fatos, e mostra ganhos significativos na melhoria da factualidade e da precisão de citações em gerações longas em relação a esses modelos.
> Despite their remarkable capabilities, large language models (LLMs) often produce responses containing factual inaccuracies due to their sole reliance on the parametric knowledge they encapsulate. Retrieval-Augmented Generation (RAG), an ad hoc approach that augments LMs with retrieval of relevant knowledge, decreases such issues. However, indiscriminately retrieving and incorporating a fixed number of retrieved passages, regardless of whether retrieval is necessary, or passages are relevant, diminishes LM versatility or can lead to unhelpful response generation. We introduce a new framework called Self-Reflective Retrieval-Augmented Generation (Self-RAG) that enhances an LM's quality and factuality through retrieval and self-reflection. Our framework trains a single arbitrary LM that adaptively retrieves passages on-demand, and generates and reflects on retrieved passages and its own generations using special tokens, called reflection tokens. Generating reflection tokens makes the LM controllable during the inference phase, enabling it to tailor its behavior to diverse task requirements. Experiments show that Self-RAG (7B and 13B parameters) significantly outperforms state-of-the-art LLMs and retrieval-augmented models on a diverse set of tasks. Specifically, Self-RAG outperforms ChatGPT and retrieval-augmented Llama2-chat on Open-domain QA, reasoning and fact verification tasks, and it shows significant gains in improving factuality and citation accuracy for long-form generations relative to these models.
Link do artigo
https://arxiv.org/abs/2310.11511
Leia mais
https://x.com/AkariAsai/status/1715110277077962937
Entendendo a ampliação por recuperação para perguntas e respostas em formato longo / Understanding Retrieval Augmentation for Long-Form Question Answering
Introdução ao artigo
- Examina modelos de linguagem com recuperação aumentada em perguntas e respostas em formato longo; conclui que a recuperação é um componente importante, mas que os documentos de evidência devem ser adicionados ao LLM com cuidado; constata que erros de atribuição ocorrem com mais frequência quando os documentos recuperados não têm informações/evidências suficientes para responder à pergunta.
> Explores retrieval-augmented language models on long-form question answering; finds that retrieval is an important component but evidence documents should be carefully added to the llm; finds that attribution error happens more frequently when retrieved documents lack sufficient information/evidence for answering the question.
Resumo do artigo
- Apresenta um estudo sobre modelos de linguagem (LMs) com recuperação aumentada para respostas a perguntas em formato longo. A pesquisa analisa como a recuperação aumentada afeta diferentes LMs ao comparar respostas geradas por modelos usando os mesmos documentos de evidência, e como diferenças na qualidade do conjunto de documentos recuperados afetam as respostas geradas pelo mesmo LM. O estudo examina vários atributos das respostas geradas (por exemplo, fluência, comprimento, variância), com ênfase especial na atribuição das respostas longas geradas aos documentos de evidência no contexto. São coletadas anotações humanas sobre a atribuição das respostas e avaliados métodos para julgar automaticamente essa atribuição. Esta pesquisa oferece novos insights sobre como a recuperação aumentada afeta a geração de textos longos e ricos em conhecimento por LMs. Além disso, identifica padrões de atribuição na geração de textos longos e analisa os principais responsáveis por erros de atribuição. Em conjunto, essa análise revela como a recuperação aumentada impacta a geração de textos longos e ricos em conhecimento e aponta direções para trabalhos futuros.
> We present a study of retrieval-augmented language models (LMs) on long-form question answering. We analyze how retrieval augmentation impacts different LMs, by comparing answers generated from models while using the same evidence documents, and how differing quality of retrieval document set impacts the answers generated from the same LM. We study various attributes of generated answers (e.g., fluency, length, variance) with an emphasis on the attribution of generated long-form answers to in-context evidence documents. We collect human annotations of answer attribution and evaluate methods for automatically judging attribution. Our study provides new insights on how retrieval augmentation impacts long, knowledge-rich text generation of LMs. We further identify attribution patterns for long text generation and analyze the main culprits of attribution errors. Together, our analysis reveals how retrieval augmentation impacts long knowledge-rich text generation and provide directions for future work.
Link do artigo
https://arxiv.org/abs/2310.12150
Leia mais
https://x.com/omarsar0/status/1714986431859282144
GenBench
Apresentação do artigo
- Apresenta um framework para caracterizar e entender a pesquisa sobre generalização em NLP, incluindo uma meta-análise de 543 artigos e um conjunto de ferramentas para explorar e compreender melhor os estudos de generalização.
> Presents a framework for characterizing and understanding generalization research in nlp; involves a meta-analysis of 543 papers and a set of tools to explore and better understand generalization studies.
Link do artigo
https://nature.com/articles/s42256-023-00729-y/…
Leia mais
https://x.com/AIatMeta/status/1715041427283902793
Grandes modelos de linguagem conseguem explicar a si mesmos? Um estudo sobre autoexplicações geradas por LLMs / Can Large Language Models Explain Themselves? A Study of LLM-Generated Self-Explanations
Apresentação do artigo
- Avalia a capacidade de um LLM de gerar automaticamente explicações de atribuição de características. A autoexplicação é útil para melhorar o desempenho e a veracidade em LLMs, e essa capacidade pode ser usada em conjunto com prompts de chain-of-thought. #chain-of-thought
> Assesses an llm's capability to self-generate feature attribution explanations; self-explanation is useful to improve performance and truthfulness in llms; this capability can be used together with chain-of-thought prompting.
Resumo do artigo
- Grandes modelos de linguagem (LLMs), como o ChatGPT, demonstraram desempenho superior em uma variedade de tarefas de processamento de linguagem natural (NLP), incluindo análise de sentimento, raciocínio matemático e sumarização. Além disso, como esses modelos são ajustados por instruções com base em conversas humanas para produzir respostas "úteis", eles podem e frequentemente produzem explicações junto com a resposta, explicações essas que chamamos de autoexplicações. Por exemplo, ao analisar o sentimento de uma crítica de filme, o modelo pode gerar não apenas a polaridade do sentimento, mas também uma explicação (por exemplo, listando palavras carregadas de sentimento, como "fantástico" e "memorável", na crítica). Quão boas são essas autoexplicações geradas automaticamente? Neste artigo, investigamos essa questão na tarefa de análise de sentimento e para explicações de atribuição de características, um dos cenários mais comumente estudados na literatura de interpretabilidade (para modelos anteriores ao ChatGPT). Especificamente, estudamos diferentes maneiras de elicitar as autoexplicações, avaliamos sua fidelidade com base em um conjunto de métricas de avaliação e as comparamos com métodos tradicionais de explicação, como mapas de saliência por oclusão ou LIME. Por meio de um amplo conjunto de experimentos, descobrimos que as autoexplicações do ChatGPT têm desempenho comparável ao dos métodos tradicionais, mas são bastante diferentes deles de acordo com várias métricas de concordância, ao mesmo tempo em que são muito mais baratas de produzir (já que são geradas junto com a previsão). Além disso, identificamos várias características interessantes nelas, o que nos leva a repensar muitas práticas atuais de interpretabilidade de modelos na era dos LLMs no estilo ChatGPT.
Large language models (LLMs) such as ChatGPT have demonstrated superior performance on a variety of natural language processing (NLP) tasks including sentiment analysis, mathematical reasoning and summarization. Furthermore, since these models are instruction-tuned on human conversations to produce "helpful" responses, they can and often will produce explanations along with the response, which we call self-explanations. For example, when analyzing the sentiment of a movie review, the model may output not only the positivity of the sentiment, but also an explanation (e.g., by listing the sentiment-laden words such as "fantastic" and "memorable" in the review). How good are these automatically generated self-explanations? In this paper, we investigate this question on the task of sentiment analysis and for feature attribution explanation, one of the most commonly studied settings in the interpretability literature (for pre-ChatGPT models). Specifically, we study different ways to elicit the self-explanations, evaluate their faithfulness on a set of evaluation metrics, and compare them to traditional explanation methods such as occlusion or LIME saliency maps. Through an extensive set of experiments, we find that ChatGPT's self-explanations perform on par with traditional ones, but are quite different from them according to various agreement metrics, meanwhile being much cheaper to produce (as they are generated along with the prediction). In addition, we identified several interesting characteristics of them, which prompt us to rethink many current model interpretability practices in the era of ChatGPT(-like) LLMs.
Link do artigo
https://arxiv.org/abs/2310.11207
Leia mais
https://x.com/omarsar0/status/1714665747752923620
OpenAgents: uma plataforma aberta para agentes de linguagem em ambiente real / OpenAgents: An Open Platform for Language Agents in the Wild
Apresentação do artigo
- Uma plataforma para usar e hospedar agentes de linguagem abertos em ambiente real, incluindo três agentes: um agente de dados para análise de dados, um agente de plugins com mais de 200 ferramentas de API diárias e um agente web para navegação autônoma na web.
An open platform for using and hosting language agents in the wild; includes three agents, including a data agent for data analysis, a plugins agent with 200+ daily api tools, and a web agent for autonomous web browsing.
Resumo do artigo
- Agentes de linguagem mostram potencial para usar linguagem natural em tarefas variadas e complexas em ambientes diversos, especialmente quando construídos com base em grandes modelos de linguagem (LLMs). Os frameworks atuais de agentes de linguagem visam facilitar a construção de agentes de linguagem de prova de conceito, mas negligenciam o acesso de usuários não especialistas a esses agentes e dão pouca atenção ao design em nível de aplicação. Apresentamos o OpenAgents, uma plataforma aberta para usar e hospedar agentes de linguagem no cotidiano. O OpenAgents inclui três agentes: (1) Data Agent para análise de dados com Python/SQL e ferramentas de dados, (2) Plugins Agent com mais de 200 ferramentas de API do dia a dia, (3) Web Agent para navegação autônoma na web. Usuários em geral podem interagir com as funcionalidades dos agentes por meio de uma interface web otimizada para respostas rápidas e falhas comuns, enquanto desenvolvedores e pesquisadores contam com uma experiência de implantação fluida em ambientes locais, fornecendo uma base para criar agentes de linguagem inovadores e facilitar avaliações no mundo real. Explicamos os desafios e oportunidades com o objetivo de estabelecer uma base para futuras pesquisas e desenvolvimento de agentes de linguagem para uso no mundo real.
> Language agents show potential in being capable of utilizing natural language for varied and intricate tasks in diverse environments, particularly when built upon large language models (LLMs). Current language agent frameworks aim to facilitate the construction of proof-of-concept language agents while neglecting the non-expert user access to agents and paying little attention to application-level designs. We present OpenAgents, an open platform for using and hosting language agents in the wild of everyday life. OpenAgents includes three agents: (1) Data Agent for data analysis with Python/SQL and data tools; (2) Plugins Agent with 200+ daily API tools; (3) Web Agent for autonomous web browsing. OpenAgents enables general users to interact with agent functionalities through a web user interface optimized for swift responses and common failures while offering developers and researchers a seamless deployment experience on local setups, providing a foundation for crafting innovative language agents and facilitating real-world evaluations. We elucidate the challenges and opportunities, aspiring to set a foundation for future research and development of real-world language agents.
Link do artigo
https://arxiv.org/abs/2310.10634v1
Leia mais
https://x.com/ChengZhoujun/status/1714343204148113860
Elicitando preferências humanas com modelos de linguagem / Eliciting Human Preferences with Language Models
Introdução do artigo
- Usa modelos de linguagem para orientar o processo de especificação de tarefas e um framework de aprendizado para ajudar os modelos a elicitar e inferir o comportamento pretendido por meio de interação livre baseada em linguagem com os usuários; mostra que, ao gerar perguntas abertas, o sistema produz respostas mais informativas do que prompts escritos pelos usuários.
> Uses language models to guide the task specification process and a learning framework to help models elicit and infer intended behavior through free-form, language-based interaction with users; shows that by generating open-ended questions, the system generates responses that are more informative than user-written prompts.
Resumo do artigo
- Os modelos de linguagem (LMs) podem ser direcionados a executar tarefas-alvo usando exemplos rotulados ou prompts em linguagem natural. Mas selecionar exemplos ou escrever prompts pode ser desafiador — especialmente em tarefas que envolvem casos de borda incomuns, exigem a articulação precisa de preferências nebulosas ou requerem um modelo mental preciso do comportamento do LM. Propomos usar os próprios LMs para orientar o processo de especificação da tarefa. Neste artigo, apresentamos o Generative Active Task Elicitation (GATE): um framework de aprendizado no qual os modelos extraem e inferem o comportamento pretendido por meio de interação livre, baseada em linguagem, com usuários. Estudamos o GATE em três domínios: validação de e-mail, recomendação de conteúdo e raciocínio moral. Em experimentos pré-registrados, mostramos que LMs induzidos a realizar GATE (por exemplo, gerando perguntas abertas ou sintetizando casos de borda informativos) frequentemente obtêm respostas mais informativas do que prompts ou rótulos escritos pelos próprios usuários. Os usuários relatam que a elicitação interativa de tarefas exige menos esforço do que escrever prompts ou rotular exemplos e revela novas considerações que inicialmente não haviam sido previstas. Nossos resultados sugerem que a elicitação orientada por LMs pode ser uma ferramenta poderosa para alinhar modelos a preferências e valores humanos complexos.
> Language models (LMs) can be directed to perform target tasks by using labeled examples or natural language prompts. But selecting examples or writing prompts for can be challenging--especially in tasks that involve unusual edge cases, demand precise articulation of nebulous preferences, or require an accurate mental model of LM behavior. We propose to use LMs themselves to guide the task specification process. In this paper, we introduce Generative Active Task Elicitation (GATE): a learning framework in which models elicit and infer intended behavior through free-form, language-based interaction with users. We study GATE in three domains: email validation, content recommendation, and moral reasoning. In preregistered experiments, we show that LMs prompted to perform GATE (e.g., by generating open-ended questions or synthesizing informative edge cases) elicit responses that are often more informative than user-written prompts or labels. Users report that interactive task elicitation requires less effort than prompting or example labeling and surfaces novel considerations not initially anticipated by users. Our findings suggest that LM-driven elicitation can be a powerful tool for aligning models to complex human preferences and values.
Link do artigo
https://arxiv.org/abs/2310.11589
Leia mais
https://x.com/AlexTamkin/status/1715040019520569395
AutoMix: mistura automática de modelos de linguagem / AutoMix: Automatically Mixing Language Models
Introdução ao artigo
- Uma abordagem para rotear consultas para LLMs com base na correção de modelos de linguagem menores (feita por meio de autoverificação few-shot); um meta-verificador é introduzido para checar a saída do verificador (normalmente um modelo menor) e, se necessário, rotear a consulta para um modelo de linguagem maior. Experimentos em cinco datasets de raciocínio contextual usando llama2-13/70b demonstram que o AutoMix supera baselines estabelecidas, melhorando o benefício incremental por custo em até 89%.
> An approach to route queries to llms based on the correctness of smaller language models (done via few-shot self-verification); a meta-verifier is introduced to check the verifier's output (typically a smaller model) and route the query to a larger language model if needed. experiments using llama2-13/70b, on five context-grounded reasoning datasets demonstrate that automix surpasses established baselines, improving the incremental benefit per cost by up to 89%.
Resumo do artigo
- Grandes modelos de linguagem (LLMs) agora estão disponíveis em vários tamanhos e configurações por meio de provedores de API em nuvem. Embora essa diversidade ofereça um amplo espectro de escolhas, aproveitar essas opções de forma eficaz para otimizar custo computacional e desempenho continua sendo um desafio. Neste trabalho, apresentamos o AutoMix, uma abordagem que roteia estrategicamente consultas para LMs maiores com base na correção aproximada das saídas de um LM menor. O núcleo do AutoMix é um mecanismo de autoverificação few-shot, que estima a confiabilidade de suas próprias saídas sem exigir treinamento. Considerando que as verificações podem ser ruidosas, o AutoMix emprega um meta-verificador para refinar a precisão dessas avaliações. Resultados experimentais usando LLAMA2-13/70B em cinco conjuntos de dados de raciocínio contextual mostram que o AutoMix supera baselines estabelecidas, melhorando o benefício incremental por custo em até 89%. O código e os dados estão disponíveis em https://github.com/automix-llm/automix.
> Large language models (LLMs) are now available in various sizes and configurations from cloud API providers. While this diversity offers a broad spectrum of choices, effectively leveraging the options to optimize computational cost and performance remains challenging. In this work, we present AutoMix, an approach that strategically routes queries to larger LMs, based on the approximate correctness of outputs from a smaller LM. Central to AutoMix is a few-shot self-verification mechanism, which estimates the reliability of its own outputs without requiring training. Given that verifications can be noisy, we employ a meta verifier in AutoMix to refine the accuracy of these assessments. Our experiments using LLAMA2-13/70B, on five context-grounded reasoning datasets demonstrate that AutoMix surpasses established baselines, improving the incremental benefit per cost by up to 89%. Our code and data are available at https://github.com/automix-llm/automix.
Link do artigo
https://arxiv.org/abs/2310.12963
Leia mais
https://x.com/omarsar0/status/1715385477627334718
Planejamento de linguagem por vídeo / Video Language Planning
Introdução ao artigo
- O algoritmo proposto pode sintetizar planos complexos de vídeo de longo horizonte em diversos domínios da robótica por meio de um procedimento de busca em árvore que treina modelos visão-linguagem como políticas e funções de valor, e modelos texto-para-vídeo como modelos dinâmicos.
> Enables synthesizing complex long-horizon video plans across robotics domains; the proposed algorithm involves a tree search procedure that trains vision-language models to serve as policies and value functions, and text-to-video models as dynamic models.
Resumo do artigo
- Temos interesse em viabilizar o planejamento visual para tarefas complexas de longo horizonte no espaço de vídeos gerados e linguagem, aproveitando os avanços recentes em grandes modelos generativos pré-treinados com dados em escala de Internet. Para isso, apresentamos o video language planning (VLP), um algoritmo composto por um procedimento de busca em árvore, no qual treinamos (i) modelos visão-linguagem para atuar tanto como políticas quanto como funções de valor, e (ii) modelos texto-para-vídeo como modelos de dinâmica. O VLP recebe como entrada uma instrução de tarefa de longo horizonte e a observação atual da imagem, e produz um plano de vídeo longo que fornece especificações multimodais detalhadas (vídeo e linguagem) que descrevem como concluir a tarefa final. O VLP escala com o aumento do orçamento computacional, em que mais tempo de computação resulta em melhores planos de vídeo, e é capaz de sintetizar planos de vídeo de longo horizonte em diferentes domínios da robótica: de reorganização de múltiplos objetos a manipulação bimanual ágil com múltiplas câmeras. Os planos de vídeo gerados podem ser convertidos em ações reais de robôs por meio de políticas condicionadas por objetivo, condicionadas a cada quadro intermediário do vídeo gerado. Os experimentos mostram que o VLP melhora substancialmente as taxas de sucesso em tarefas de longo horizonte em comparação com métodos anteriores, tanto em robôs simulados quanto em robôs reais (em 3 plataformas de hardware).
> We are interested in enabling visual planning for complex long-horizon tasks in the space of generated videos and language, leveraging recent advances in large generative models pretrained on Internet-scale data. To this end, we present video language planning (VLP), an algorithm that consists of a tree search procedure, where we train (i) vision-language models to serve as both policies and value functions, and (ii) text-to-video models as dynamics models. VLP takes as input a long-horizon task instruction and current image observation, and outputs a long video plan that provides detailed multimodal (video and language) specifications that describe how to complete the final task. VLP scales with increasing computation budget where more computation time results in improved video plans, and is able to synthesize long-horizon video plans across different robotics domains: from multi-object rearrangement, to multi-camera bi-arm dexterous manipulation. Generated video plans can be translated into real robot actions via goal-conditioned policies, conditioned on each intermediate frame of the generated video. Experiments show that VLP substantially improves long-horizon task success rates compared to prior methods on both simulated and real robots (across 3 hardware platforms).
Link do artigo
https://arxiv.org/abs/2310.10625
Leia mais
https://x.com/du_yilun/status/1714297584842318157
Texto original
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-ff8
Ainda não há comentários.