[2023/09/11 ~ 09/17] Os principais artigos de ML desta semana (Top ML Papers of the Week)
(discuss.pytorch.kr)Visão geral
- Fizemos uma tradução automática do texto sobre os artigos de ML publicados semanalmente pela DAIR.AI.
- Os artigos selecionados nesta semana se concentram, em sua maioria, no tema LLM (Large Language Model). Em especial, chama atenção a diversidade de abordagens para lidar com LLMs. Esses artigos analisam os LLMs sob vários pontos de vista, como formas de treinamento de modelos de linguagem, potencial de evolução de LLMs baseados em agentes, refinamento de LLMs e capacidade de autoaprendizagem, além de uma série de estudos sobre LLMs.
- Essa tendência mostra que a forma de treinamento de modelos de linguagem vem sendo considerada importante nas áreas de inteligência artificial e aprendizado de máquina, e que, entre elas, os LLMs estão recebendo destaque. Além disso, a diversidade de formas de trabalhar com LLMs sugere o quão amplamente essa tecnologia pode ser aplicada, demonstrando seu potencial.
Só os livros didáticos bastam II: relatório técnico do PHI-1.5 / Textbooks Are All You Need II: phi-1.5 technical report
Apresentação do artigo
- Um novo modelo de 1,3 bilhão de parâmetros treinado com 30 bilhões de tokens; o conjunto de dados é composto por dados sintéticos de “qualidade de livro didático”; o phi-1.5 compete ou supera outros modelos maiores em tarefas de raciocínio, sugerindo que a qualidade dos dados desempenha um papel mais importante do que se pensava anteriormente. #llm #llm-alignment
A new 1.3 billion parameter model trained on 30 billion tokens; the dataset consists of "textbook-quality" synthetically generated data; phi-1.5 competes or outperforms other larger models on reasoning tasks suggesting that data quality plays a more important role than previously thought.
Resumo do artigo
- Damos continuidade à investigação sobre o poder de modelos de linguagem menores baseados em Transformer, iniciada por $TinyStories$, um modelo de 10 milhões de parâmetros capaz de produzir inglês coerente, e pelo trabalho subsequente sobre $phi-1$, um modelo de 1,3 bilhão de parâmetros com desempenho em codificação Python próximo ao estado da arte. O trabalho mais recente propôs usar modelos de linguagem de grande porte (LLMs) já existentes para gerar dados de “qualidade de livro didático” como forma de melhorar o processo de aprendizado em comparação com os dados tradicionais da web. Seguimos a abordagem “Só os livros didáticos bastam”, desta vez com foco em raciocínio de senso comum em linguagem natural, e criamos um novo modelo de 1,3 bilhão de parâmetros chamado \textbf{phi-1.5}, com desempenho em tarefas de linguagem natural comparável ao de modelos 5x maiores, e superando a maioria dos LLMs não de fronteira em tarefas de raciocínio mais complexas, como matemática de ensino fundamental e codificação básica. De forma mais geral, o $phi-1.5$ exibe muitas das características de LLMs muito maiores, tanto as boas — como a capacidade de “pensar passo a passo” ou realizar algum aprendizado em contexto rudimentar — quanto as ruins, incluindo alucinações e o potencial de gerar conteúdo tóxico e enviesado. De forma encorajadora, porém, estamos vendo melhora nesse aspecto graças à ausência de dados da web. Disponibilizamos o $phi-1.5$ como open source para promover pesquisas adicionais sobre esses temas urgentes.
We continue the investigation into the power of smaller Transformer-based language models as initiated by \textbf{TinyStories} -- a 10 million parameter model that can produce coherent English -- and the follow-up work on \textbf{phi-1}, a 1.3 billion parameter model with Python coding performance close to the state-of-the-art. The latter work proposed to use existing Large Language Models (LLMs) to generate
textbook quality" data as a way to enhance the learning process compared to traditional web data. We follow theTextbooks Are All You Need" approach, focusing this time on common sense reasoning in natural language, and create a new 1.3 billion parameter model named \textbf{phi-1.5}, with performance on natural language tasks comparable to models 5x larger, and surpassing most non-frontier LLMs on more complex reasoning tasks such as grade-school mathematics and basic coding. More generally, \textbf{phi-1.5} exhibits many of the traits of much larger LLMs, both good -- such as the ability to ``think step by step" or perform some rudimentary in-context learning -- and bad, including hallucinations and the potential for toxic and biased generations -- encouragingly though, we are seeing improvement on that front thanks to the absence of web data. We open-source \textbf{phi-1.5} to promote further research on these urgent topics.
Link do artigo
https://arxiv.org/abs/2309.05463
Leia mais
https://x.com/omarsar0/status/1701590130270601422
A ascensão e o potencial de agentes baseados em grandes modelos de linguagem: artigo de survey / The Rise and Potential of Large Language Model Based Agents: A Survey
Apresentação do artigo
- Uma visão geral abrangente sobre agentes baseados em LLM, cobrindo desde como construir esses agentes até como aproveitá-los de forma útil. #survey-paper
A comprehensive overview of llm based agents; covers from how to construct these agents to how to harness them for good.
Resumo do artigo
- A humanidade vem buscando há muito tempo uma inteligência artificial (IA) equivalente ou superior à humana, e os agentes de IA têm sido considerados um meio promissor para alcançar esse objetivo. Agentes de IA são entidades artificiais que percebem o ambiente, tomam decisões e executam ações. Muitos esforços têm sido feitos desde meados do século XX para desenvolver agentes de IA inteligentes. No entanto, esses esforços se concentraram principalmente em avanços em algoritmos ou estratégias de treinamento para melhorar capacidades específicas ou o desempenho em tarefas particulares. Na prática, o que falta à comunidade é um modelo suficientemente geral e poderoso para servir como ponto de partida no projeto de agentes de IA capazes de se adaptar a cenários diversos. Os grandes modelos de linguagem (LLMs), por causa de sua versatilidade e capacidades notáveis, são considerados possíveis faíscas da inteligência artificial geral (AGI), oferecendo esperança para a construção de agentes de IA gerais. Muitos esforços de pesquisa têm usado LLMs como base para construir agentes de IA e alcançaram progresso significativo. Primeiro, acompanha-se o conceito de agentes desde suas origens filosóficas até seu desenvolvimento na IA, explicando por que os LLMs são uma base adequada para agentes de IA. A partir disso, é apresentado um framework conceitual para agentes baseados em LLM, composto por três componentes principais: cérebro, percepção e ação, que pode ser adaptado para diferentes aplicações. Em seguida, são exploradas as amplas aplicações de agentes baseados em LLM em três aspectos: cenários de agente único, cenários com múltiplos agentes e cooperação entre humanos e agentes. Depois disso, o texto aprofunda o tema das sociedades de agentes, examinando o comportamento e a personalidade de agentes baseados em LLM, os fenômenos sociais que emergem quando eles formam sociedades e os insights que oferecem para a sociedade humana. Por fim, são discutidos diversos tópicos centrais e problemas em aberto da área.
For a long time, humanity has pursued artificial intelligence (AI) equivalent to or surpassing the human level, with AI agents considered a promising vehicle for this pursuit. AI agents are artificial entities that sense their environment, make decisions, and take actions. Many efforts have been made to develop intelligent AI agents since the mid-20th century. However, these efforts have mainly focused on advancement in algorithms or training strategies to enhance specific capabilities or performance on particular tasks. Actually, what the community lacks is a sufficiently general and powerful model to serve as a starting point for designing AI agents that can adapt to diverse scenarios. Due to the versatile and remarkable capabilities they demonstrate, large language models (LLMs) are regarded as potential sparks for Artificial General Intelligence (AGI), offering hope for building general AI agents. Many research efforts have leveraged LLMs as the foundation to build AI agents and have achieved significant progress. We start by tracing the concept of agents from its philosophical origins to its development in AI, and explain why LLMs are suitable foundations for AI agents. Building upon this, we present a conceptual framework for LLM-based agents, comprising three main components: brain, perception, and action, and the framework can be tailored to suit different applications. Subsequently, we explore the extensive applications of LLM-based agents in three aspects: single-agent scenarios, multi-agent scenarios, and human-agent cooperation. Following this, we delve into agent societies, exploring the behavior and personality of LLM-based agents, the social phenomena that emerge when they form societies, and the insights they offer for human society. Finally, we discuss a range of key topics and open problems within the field.
Link do artigo
https://arxiv.org/abs/2309.07864
Leia mais
https://x.com/omarsar0/status/1702736490067890239
EvoDiff
Apresentação do artigo
- Combina dados em escala evolutiva com modelos de difusão para geração controlável de proteínas no espaço de sequências; isso permite gerar proteínas inacessíveis a modelos baseados em estrutura. #diffusion
Combines evolutionary-scale data with diffusion models for controllable protein generation in sequence space; it can generate proteins inaccessible to structure-based models.
Link do artigo
https://www.biorxiv.org/content/10.1101/2023.09.11.556673v1
Leia mais
https://x.com/KevinKaichuang/status/1701953715312136302
RAIN: Seus modelos de linguagem podem se alinhar sozinhos sem fine-tuning / RAIN: Your Language Models Can Align Themselves without Finetuning
Apresentação do artigo
- Descobre que, ao integrar mecanismos de autoavaliação e retrocesso, llms não alinhados podem produzir diretamente respostas consistentes com as preferências humanas por meio de autoaperfeiçoamento.
Discovers that by integrating self-evaluation and rewind mechanisms, unaligned llms can directly produce responses consistent with human preferences via self-boosting.
Resumo do artigo
- Modelos de linguagem de grande porte (LLMs) frequentemente demonstram inconsistências com as preferências humanas. Pesquisas anteriores coletaram dados de preferência humana e então alinharam os modelos pré-treinados usando aprendizado por reforço ou instruction tuning, a chamada etapa de fine-tuning. Em contraste, alinhar LLMs congelados sem nenhum dado extra é mais atraente. Este trabalho explora o potencial dessa última configuração. Os autores descobriram que, ao integrar mecanismos de autoavaliação e retrocesso, LLMs não alinhados podem produzir diretamente respostas consistentes com as preferências humanas por meio de autoaperfeiçoamento. O Unity introduz um novo método de inferência, Rewindable Auto-regressive INference (RAIN), que permite que LLMs pré-treinados avaliem sua própria geração e usem os resultados dessa avaliação para orientar o retrocesso e a geração adiante em prol da segurança em IA. Notavelmente, o RAIN opera sem necessidade de dados extras para alinhamento do modelo e dispensa treinamento, cálculo de gradientes ou atualizações de parâmetros; durante a fase de autoavaliação, o modelo recebe orientação sobre com qual preferência humana deve se alinhar por meio de um prompt de template fixo, eliminando a necessidade de modificar o prompt inicial. Resultados experimentais avaliados por GPT-4 e por humanos demonstram a eficácia do RAIN. No conjunto de dados HH, o RAIN melhora a taxa de inocuidade do LLaMA 30B em relação à inferência vanilla de 82% para 97%, mantendo a taxa de utilidade. Sob o principal ataque adversarial
llm-attacksno Vicuna 33B, o RAIN estabelece uma nova linha de base de defesa ao reduzir a taxa de sucesso do ataque de 94% para 19%.Large language models (LLMs) often demonstrate inconsistencies with human preferences. Previous research gathered human preference data and then aligned the pre-trained models using reinforcement learning or instruction tuning, the so-called finetuning step. In contrast, aligning frozen LLMs without any extra data is more appealing. This work explores the potential of the latter setting. We discover that by integrating self-evaluation and rewind mechanisms, unaligned LLMs can directly produce responses consistent with human preferences via self-boosting. We introduce a novel inference method, Rewindable Auto-regressive INference (RAIN), that allows pre-trained LLMs to evaluate their own generation and use the evaluation results to guide backward rewind and forward generation for AI safety. Notably, RAIN operates without the need of extra data for model alignment and abstains from any training, gradient computation, or parameter updates; during the self-evaluation phase, the model receives guidance on which human preference to align with through a fixed-template prompt, eliminating the need to modify the initial prompt. Experimental results evaluated by GPT-4 and humans demonstrate the effectiveness of RAIN: on the HH dataset, RAIN improves the harmlessness rate of LLaMA 30B over vanilla inference from 82% to 97%, while maintaining the helpfulness rate. Under the leading adversarial attack llm-attacks on Vicuna 33B, RAIN establishes a new defense baseline by reducing the attack success rate from 94% to 19%.
Link do artigo
https://arxiv.org/abs/2309.07124
Leia mais
https://x.com/omarsar0/status/1702131444041011395
Aprendizado de parkour para robôs / Robot Parkour Learning
Apresentação do artigo
- Apresenta um sistema para aprender uma política de parkour visual de ponta a ponta, transferida para um robô quadrúpede usando sua câmera de profundidade ecocêntrica; mostra que robôs de baixo custo podem selecionar e executar automaticamente habilidades de parkour em um ambiente do mundo real.
Presents a system for learning end-to-end vision-based parkour policy which is transferred to a quadrupedal robot using its ecocentric depth camera; shows that low-cost robots can automatically select and execute parkour skills in a real-world environment.
Resumo do artigo
- Parkour é um grande desafio para a locomoção com pernas, exigindo que robôs superem rapidamente vários obstáculos em ambientes complexos. Os métodos existentes podem gerar habilidades de locomoção diversas, porém cegas, ou habilidades baseadas em visão, porém especializadas, usando dados de referência de animais ou recompensas complexas. No entanto, o parkour autônomo exige que os robôs aprendam habilidades generalizáveis que sejam ao mesmo tempo baseadas em visão e diversas, para perceber e reagir a vários cenários. Neste trabalho, propomos um sistema para aprender uma única política de parkour visual end-to-end com habilidades diversas de parkour usando uma recompensa simples, sem quaisquer dados de movimento de referência. Desenvolvemos um método de aprendizado por reforço inspirado em direct collocation para gerar habilidades de parkour, incluindo escalar obstáculos altos, saltar grandes vãos, rastejar sob barreiras baixas, passar por fendas estreitas e correr. Destilamos essas habilidades em uma única política de parkour baseada em visão e a transferimos para um robô quadrúpede usando sua câmera de profundidade egocêntrica. Demonstramos que nosso sistema pode permitir que dois robôs diferentes de baixo custo selecionem e executem autonomamente habilidades de parkour apropriadas para atravessar ambientes reais desafiadores.
Parkour is a grand challenge for legged locomotion that requires robots to overcome various obstacles rapidly in complex environments. Existing methods can generate either diverse but blind locomotion skills or vision-based but specialized skills by using reference animal data or complex rewards. However, autonomous parkour requires robots to learn generalizable skills that are both vision-based and diverse to perceive and react to various scenarios. In this work, we propose a system for learning a single end-to-end vision-based parkour policy of diverse parkour skills using a simple reward without any reference motion data. We develop a reinforcement learning method inspired by direct collocation to generate parkour skills, including climbing over high obstacles, leaping over large gaps, crawling beneath low barriers, squeezing through thin slits, and running. We distill these skills into a single vision-based parkour policy and transfer it to a quadrupedal robot using its egocentric depth camera. We demonstrate that our system can empower two different low-cost robots to autonomously select and execute appropriate parkour skills to traverse challenging real-world environments.
Link do artigo
https://arxiv.org/abs/2309.05665
Leia mais
https://x.com/zipengfu/status/1701316023612219445
Uma pesquisa sobre alucinação em grandes modelos fundacionais / A Survey of Hallucination in Large Foundation Models
Introdução ao artigo
- Classifica diferentes tipos de fenômenos de alucinação e fornece critérios de avaliação para analisar alucinação, juntamente com estratégias de mitigação. #survey-paper #foundation-model
Classifies different types of hallucination phenomena and provides evaluation criteria for assessing hallucination along with mitigation strategies.
Resumo do artigo
- Alucinação em um modelo fundacional (FM) refere-se à geração de conteúdo que se afasta da realidade factual ou inclui informações fabricadas. Este artigo de survey fornece uma visão geral extensa dos esforços recentes que buscam identificar, elucidar e enfrentar o problema da alucinação, com foco especial em ``Large'' Foundation Models (LFMs). O artigo classifica vários tipos de fenômenos de alucinação específicos de LFMs e estabelece critérios de avaliação para medir o grau de alucinação. Também examina estratégias existentes para mitigar alucinação em LFMs e discute possíveis direções para pesquisas futuras nessa área. Em essência, o artigo oferece um exame abrangente dos desafios e soluções relacionados à alucinação em LFMs.
Hallucination in a foundation model (FM) refers to the generation of content that strays from factual reality or includes fabricated information. This survey paper provides an extensive overview of recent efforts that aim to identify, elucidate, and tackle the problem of hallucination, with a particular focus on ``Large'' Foundation Models (LFMs). The paper classifies various types of hallucination phenomena that are specific to LFMs and establishes evaluation criteria for assessing the extent of hallucination. It also examines existing strategies for mitigating hallucination in LFMs and discusses potential directions for future research in this area. Essentially, the paper offers a comprehensive examination of the challenges and solutions related to hallucination in LFMs.
Link do artigo
https://arxiv.org/abs/2309.05922
Leia mais
https://x.com/omarsar0/status/1701970034711539839
Agents: um framework open source para agentes de linguagem autônomos / Agents: An Open-source Framework for Autonomous Language Agents
Introdução ao artigo
- É uma biblioteca open source para construir agentes de linguagem autônomos, com suporte a recursos como planejamento, memória, uso de ferramentas, comunicação multiagente e mais.
An open-source library for building autonomous language agents including support for features like planning, memory, tool usage, multi-agent communication, and more.
Resumo do artigo
- Avanços recentes em modelos de linguagem de grande porte (LLMs) permitem que pesquisadores e desenvolvedores criem agentes de linguagem autônomos capazes de resolver automaticamente diversas tarefas e interagir com ambientes, humanos e outros agentes usando interfaces em linguagem natural. Consideramos os agentes de linguagem uma direção promissora rumo à inteligência artificial geral e lançamos o Agents, uma biblioteca open source com o objetivo de levar esses avanços a um público não especializado mais amplo. O Agents foi cuidadosamente projetado para oferecer suporte a recursos importantes, incluindo planejamento, memória, uso de ferramentas, comunicação entre múltiplos agentes e controle simbólico granular. O Agents é amigável para usuários, pois permite que não especialistas construam, personalizem, testem, ajustem e implantem agentes de linguagem autônomos de ponta sem muita programação. A biblioteca também é amigável para pesquisa, já que seu design modular facilita a extensão por pesquisadores. O Agents está disponível em https://github.com/aiwaves-cn/agents.
Recent advances on large language models (LLMs) enable researchers and developers to build autonomous language agents that can automatically solve various tasks and interact with environments, humans, and other agents using natural language interfaces. We consider language agents as a promising direction towards artificial general intelligence and release Agents, an open-source library with the goal of opening up these advances to a wider non-specialist audience. Agents is carefully engineered to support important features including planning, memory, tool usage, multi-agent communication, and fine-grained symbolic control. Agents is user-friendly as it enables non-specialists to build, customize, test, tune, and deploy state-of-the-art autonomous language agents without much coding. The library is also research-friendly as its modularized design makes it easily extensible for researchers. Agents is available at https://github.com/aiwaves-cn/agents.
Link do artigo
https://arxiv.org/abs/2309.07870
Leia mais
https://x.com/arankomatsuzaki/status/1702497897395396960
Radiology-Llama2: modelo de linguagem de grande porte de melhor nível para radiologia / Radiology-Llama2: Best-in-Class Large Language Model for Radiology
Introdução ao artigo
- Fornece um LLM baseado no Llama 2 ajustado para radiologia, treinado em um grande conjunto de dados de laudos radiológicos para gerar impressões coerentes e clinicamente úteis a partir de achados radiológicos.
Presents an llm based on llama 2 tailored for radiology; it's tuned on a large dataset of radiology reports to generate coherent and clinically useful impressions from radiology findings.
Resumo do artigo
- Este artigo apresenta o Radiology-Llama2, um modelo de linguagem de grande porte especializado em radiologia por meio de um processo conhecido como instruction tuning. O Radiology-Llama2 é baseado na arquitetura Llama2 e foi treinado adicionalmente em um grande conjunto de dados de laudos radiológicos para gerar impressões coerentes e clinicamente úteis a partir de achados radiológicos. Avaliações quantitativas usando métricas ROUGE nos conjuntos de dados MIMIC-CXR e OpenI mostram que o Radiology-Llama2 alcança desempenho de estado da arte em comparação com outros modelos generativos de linguagem, com pontuação Rouge-1 de 0.4834 no MIMIC-CXR e 0.4185 no OpenI. Avaliações adicionais por especialistas em radiologia destacaram os pontos fortes do modelo em compreensibilidade, coerência, relevância, concisão e utilidade clínica. O trabalho ilustra o potencial de modelos de linguagem localizados, projetados e ajustados para domínios especializados como a radiologia. Quando avaliados e implantados adequadamente, esses modelos podem transformar áreas como a radiologia ao automatizar tarefas repetitivas e ampliar a expertise humana.
This paper introduces Radiology-Llama2, a large language model specialized for radiology through a process known as instruction tuning. Radiology-Llama2 is based on the Llama2 architecture and further trained on a large dataset of radiology reports to generate coherent and clinically useful impressions from radiological findings. Quantitative evaluations using ROUGE metrics on the MIMIC-CXR and OpenI datasets demonstrate that Radiology-Llama2 achieves state-of-the-art performance compared to other generative language models, with a Rouge-1 score of 0.4834 on MIMIC-CXR and 0.4185 on OpenI. Additional assessments by radiology experts highlight the model's strengths in understandability, coherence, relevance, conciseness, and clinical utility. The work illustrates the potential of localized language models designed and tuned for specialized domains like radiology. When properly evaluated and deployed, such models can transform fields like radiology by automating rote tasks and enhancing human expertise.
Link do artigo
https://arxiv.org/abs/2309.06419
Leia mais
https://x.com/omarsar0/status/1701774444052557965
Agentes comunicativos para desenvolvimento de software / Communicative Agents for Software Development
Introdução ao artigo
- Apresenta o chatdev, uma empresa virtual de desenvolvimento de software baseada em chat que reflete o modelo em cascata, e mostra a eficácia do agente na geração de software, chegando a concluir todo o processo de desenvolvimento em menos de sete minutos por menos de um dólar.
Presents chatdev, a virtual chat-powered software development company mirroring the waterfall model; shows the efficacy of the agent in software generation, even completing the entire software development process in less than seven minutes for less than one dollar.
Resumo do artigo
- Engenharia de software é um campo caracterizado por processos complexos de tomada de decisão, muitas vezes dependentes de intuição sutil e consulta. Avanços recentes em deep learning começaram a revolucionar as práticas de engenharia de software por meio de projetos sofisticados implementados em várias etapas do desenvolvimento de software. Neste artigo, é apresentado um paradigma inovador que aproveita grandes modelos de linguagem (LLMs) ao longo de todo o processo de desenvolvimento de software, simplificando e unificando processos-chave por meio de comunicação em linguagem natural, eliminando assim a necessidade de modelos especializados em cada fase. No centro desse paradigma está o ChatDev, uma empresa virtual de desenvolvimento de software baseada em chat que espelha o modelo cascata tradicional, dividindo meticulosamente o processo de desenvolvimento em quatro estágios cronológicos distintos: design, codificação, testes e documentação. Cada estágio envolve uma equipe de agentes, como programadores, revisores de código e engenheiros de teste, promovendo diálogo colaborativo e um fluxo de trabalho contínuo. A cadeia de chat atua como facilitadora, decompondo cada etapa em subtarefas atômicas. Isso permite um papel duplo, no qual soluções são propostas e validadas por meio de comunicação contextualizada, levando à resolução eficiente de subtarefas específicas. A análise instrumental do ChatDev destaca sua notável eficácia na geração de software, permitindo concluir todo o processo de desenvolvimento em menos de sete minutos, a um custo inferior a um dólar. Além disso, ele identifica e mitiga vulnerabilidades potenciais, bem como corrige possíveis alucinações, mantendo excelente eficiência e custo-benefício. O potencial do ChatDev revela novas possibilidades para integrar LLMs ao universo do desenvolvimento de software.
Software engineering is a domain characterized by intricate decision-making processes, often relying on nuanced intuition and consultation. Recent advancements in deep learning have started to revolutionize software engineering practices through elaborate designs implemented at various stages of software development. In this paper, we present an innovative paradigm that leverages large language models (LLMs) throughout the entire software development process, streamlining and unifying key processes through natural language communication, thereby eliminating the need for specialized models at each phase. At the core of this paradigm lies ChatDev, a virtual chat-powered software development company that mirrors the established waterfall model, meticulously dividing the development process into four distinct chronological stages: designing, coding, testing, and documenting. Each stage engages a team of agents, such as programmers, code reviewers, and test engineers, fostering collaborative dialogue and facilitating a seamless workflow. The chat chain acts as a facilitator, breaking down each stage into atomic subtasks. This enables dual roles, allowing for proposing and validating solutions through context-aware communication, leading to efficient resolution of specific subtasks. The instrumental analysis of ChatDev highlights its remarkable efficacy in software generation, enabling the completion of the entire software development process in under seven minutes at a cost of less than one dollar. It not only identifies and alleviates potential vulnerabilities but also rectifies potential hallucinations while maintaining commendable efficiency and cost-effectiveness. The potential of ChatDev unveils fresh possibilities for integrating LLMs into the realm of software development.
Link do artigo
https://arxiv.org/abs/2307.07924v3
Leia mais
https://x.com/KevinAFischer/status/1702355125418045860
MAmmoTH: Construindo modelos generalistas de matemática por meio de hybrid instruction tuning / MAmmoTH: Building Math Generalist Models through Hybrid Instruction Tuning
Introdução ao artigo
- Uma série de modelos de machine learning open source voltados para resolução geral de problemas matemáticos, treinados com um conjunto de dados cuidadosamente selecionado para instruction tuning, e que superam modelos open source existentes em vários conjuntos de dados de raciocínio matemático. #mathglm
A series of open-source llms tailored for general math problem-solving; the models are trained on a curated instruction tuning dataset and outperform existing open-source models on several mathematical reasoning datasets.
Resumo do artigo
- Apresentamos o MAmmoTH, uma série de grandes modelos de linguagem (LLMs) open source especialmente adaptados para a resolução geral de problemas matemáticos. Os modelos MAmmoTH são treinados com o MathInstruct, nosso conjunto de dados de ajuste por instruções cuidadosamente curado. O MathInstruct é compilado a partir de 13 conjuntos de dados de matemática com racionalizações intermediárias, seis dos quais incluem racionalizações recém-curadas por nós. Essa solução oferece um híbrido único de fundamentações chain-of-thought (CoT) e program-of-thought (PoT), além de cobrir amplamente diversos campos da matemática. A mistura de CoT e PoT não só libera o potencial do uso de ferramentas, como também permite diferentes processos de pensamento para diferentes problemas matemáticos. Como resultado, a série MAmmoTH supera substancialmente os modelos open source existentes em nove conjuntos de dados de raciocínio matemático, em todas as escalas, com ganho médio de acurácia entre 13% e 29%. Notavelmente, no MATH, um conjunto de dados de nível competitivo, o modelo MAmmoTH-7B atinge 35%, superando em 25% o melhor modelo open source 7B (WizardMath), e o modelo MAmmoTH-34B alcança 46% de acurácia no MATH, superando até mesmo o resultado de CoT do GPT-4. Este trabalho destaca a importância da cobertura diversa de problemas e do uso de fundamentações híbridas no desenvolvimento de modelos generalistas superiores para matemática.
We introduce MAmmoTH, a series of open-source large language models (LLMs) specifically tailored for general math problem-solving. The MAmmoTH models are trained on MathInstruct, our meticulously curated instruction tuning dataset. MathInstruct is compiled from 13 math datasets with intermediate rationales, six of which have rationales newly curated by us. It presents a unique hybrid of chain-of-thought (CoT) and program-of-thought (PoT) rationales, and also ensures extensive coverage of diverse fields in math. The hybrid of CoT and PoT not only unleashes the potential of tool use but also allows different thought processes for different math problems. As a result, the MAmmoTH series substantially outperform existing open-source models on nine mathematical reasoning datasets across all scales with an average accuracy gain between 13% and 29%. Remarkably, our MAmmoTH-7B model reaches 35% on MATH (a competition-level dataset), which exceeds the best open-source 7B model (WizardMath) by 25%, and the MAmmoTH-34B model achieves 46% accuracy on MATH, even surpassing GPT-4's CoT result. Our work underscores the importance of diverse problem coverage and the use of hybrid rationales in developing superior math generalist models.
Link do artigo
https://arxiv.org/abs/2309.05653
Leia mais
https://x.com/xiangyue96/status/1701710215442309323
Texto original
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-461
Ainda não há comentários.