07] Principais artigos de ML da semana (Top ML Papers of the Week)

(discuss.pytorch.kr)

5 pontos por ninebow 2023-11-08 | Ainda não há comentários. | Compartilhar no WhatsApp

Visão geral

Traduzimos automaticamente o texto semanal da DAIR.AI sobre artigos de ML divulgados a cada semana.
Os artigos submetidos nesta semana são estudos focados em grandes modelos de linguagem (Large Language Models, LLMs) e na avaliação de seu desempenho. Em especial, em artigos como 'Evaluating LLMs', 'LLMs for Chip Design', 'Efficient Context Window Extension of LLMs' e 'Enhancing LLMs by Emotion Stimuli', foi possível ver que estão sendo discutidas várias formas de aplicação e otimização de LLMs.
Essa tendência reflete o rápido aumento da importância dos LLMs no campo da inteligência artificial nos últimos anos. Em particular, como modelos líderes como a série GPT da OpenAI têm apresentado resultados impressionantes em diversas tarefas de processamento de linguagem natural (NLP), os pesquisadores estão concentrando seus esforços em avançar ainda mais esses modelos ou aplicá-los a novos problemas. Ao mesmo tempo, também vem crescendo o interesse em maneiras de melhorar a eficiência dos modelos e enriquecer ainda mais suas entradas e saídas usando elementos como emoções ou contexto situacional.
Além disso, em artigos como 'Next Generation AlphaFold', parece haver a busca por abordagens inovadoras ao aplicar metodologias de aprendizado de máquina em áreas especializadas, como a biologia estrutural, em contextos que não envolvem LLMs. Essa tendência de pesquisa sugere que as tecnologias de aprendizado de máquina e deep learning estão evoluindo, indo além de avanços puramente teóricos para aplicações concretas em diversos campos, como indústria, ciência e medicina.

Deep learning para previsões meteorológicas diárias a partir de observações esparsas / Deep Learning for Day Forecasts from Sparse Observations

Apresentação do artigo

Um modelo meteorológico neural de última geração que amplia tanto o intervalo de lead time quanto as variáveis que um modelo baseado em observações consegue prever bem; aprende com sensores de dados densos e esparsos e faz previsões com até 24 horas de antecedência para precipitação, vento, temperatura e ponto de orvalho.

A state-of-the-art neural weather model that extends both the lead time range and the variables that an observation-based model can predict well; learns from both dense and sparse data sensors and makes predictions up to 24 hours ahead for precipitation, wind, temperature, and dew point.

Resumo do artigo

Redes neurais profundas oferecem um paradigma alternativo para modelar condições meteorológicas. A capacidade dos modelos neurais de fazer uma previsão em menos de um segundo assim que os dados estão disponíveis, com resolução temporal e espacial muito alta, além da capacidade de aprender diretamente a partir de observações atmosféricas, são apenas algumas das vantagens exclusivas desses modelos. Até o momento, modelos neurais treinados com observações atmosféricas — os dados de maior fidelidade e menor latência — haviam alcançado bom desempenho apenas para um único variável, a precipitação, e somente com lead time de até 12 horas, quando comparados aos modelos probabilísticos de previsão numérica do tempo (NWP) mais avançados. Neste artigo, apresentamos o MetNet-3, que amplia significativamente tanto o intervalo de lead time quanto as variáveis que um modelo neural baseado em observações consegue prever bem. O MetNet-3 aprende com sensores de dados densos e esparsos e faz previsões com até 24 horas de antecedência para precipitação, vento, temperatura e ponto de orvalho. O MetNet-3 introduz uma técnica-chave de densificação que captura implicitamente a assimilação de dados e produz previsões espacialmente densas, apesar de a rede ser treinada com alvos extremamente esparsos. O MetNet-3 oferece alta resolução temporal e espacial de até 2 minutos e 1 km, respectivamente, além de baixa latência operacional. Verificamos que o MetNet-3 consegue superar os melhores modelos NWP de membro único e múltiplos membros, como HRRR e ENS, na região CONUS em previsões de até 24 horas, estabelecendo um novo marco de desempenho para modelos neurais baseados em observações. O MetNet-3 já está em operação, e suas previsões são exibidas na Busca do Google em conjunto com outros modelos.

Deep neural networks offer an alternative paradigm for modeling weather conditions. The ability of neural models to make a prediction in less than a second once the data is available and to do so with very high temporal and spatial resolution, and the ability to learn directly from atmospheric observations, are just some of these models' unique advantages. Neural models trained using atmospheric observations, the highest fidelity and lowest latency data, have to date achieved good performance only up to twelve hours of lead time when compared with state-of-the-art probabilistic Numerical Weather Prediction models and only for the sole variable of precipitation. In this paper, we present MetNet-3 that extends significantly both the lead time range and the variables that an observation based neural model can predict well. MetNet-3 learns from both dense and sparse data sensors and makes predictions up to 24 hours ahead for precipitation, wind, temperature and dew point. MetNet-3 introduces a key densification technique that implicitly captures data assimilation and produces spatially dense forecasts in spite of the network training on extremely sparse targets. MetNet-3 has a high temporal and spatial resolution of, respectively, up to 2 minutes and 1 km as well as a low operational latency. We find that MetNet-3 is able to outperform the best single- and multi-member NWPs such as HRRR and ENS over the CONUS region for up to 24 hours ahead setting a new performance milestone for observation based neural models. MetNet-3 is operational and its forecasts are served in Google Search in conjunction with other models.

Link do artigo

https://arxiv.org/abs/2306.06079

Avaliando grandes modelos de linguagem: uma pesquisa abrangente / Evaluating Large Language Models: A Comprehensive Survey

Apresentação do artigo

Fornece uma pesquisa abrangente (mais de 100 páginas) sobre avaliação de LLMs, incluindo discussões sobre diferentes tipos de avaliação, conjuntos de dados, técnicas e muito mais. #llm-survey #llm-evaluation

A comprehensive survey (100+ pages) on evaluating llms, including discussions about the different types of evaluations, datasets, techniques, and more.

Resumo do artigo

Os modelos de linguagem de grande porte (LLMs) demonstraram capacidades notáveis em uma ampla gama de tarefas. Eles atraíram grande atenção e foram implantados em inúmeras aplicações downstream. No entanto, como uma faca de dois gumes, os LLMs também apresentam riscos potenciais. Pode haver vazamento de dados privados, ou geração de conteúdo inadequado, nocivo ou enganoso. Além disso, o rápido progresso dos LLMs também levanta preocupações sobre a possível emergência de sistemas superinteligentes sem salvaguardas adequadas. Para aproveitar de forma eficaz as capacidades dos LLMs e garantir um desenvolvimento seguro e benéfico, é fundamental realizar uma avaliação rigorosa e abrangente dos LLMs. Esta survey busca oferecer uma perspectiva panorâmica sobre a avaliação de LLMs. Classificamos a avaliação de LLMs em três grandes grupos: avaliação de conhecimento e capacidades, avaliação de alinhamento e avaliação de segurança. Além de uma revisão abrangente das metodologias e benchmarks de avaliação nesses três aspectos, reunimos um compêndio de avaliações relacionadas ao desempenho dos LLMs em domínios especializados e discutimos a construção de plataformas de avaliação abrangentes que cubram capacidades, alinhamento, segurança e aplicabilidade dos LLMs. Esperamos que esta visão geral abrangente estimule mais pesquisas sobre a avaliação de LLMs e, em última instância, faça com que a avaliação sirva como pedra fundamental para orientar o desenvolvimento responsável de LLMs. Nossa expectativa é que isso direcione sua evolução para maximizar os benefícios sociais enquanto minimiza os riscos potenciais. Uma lista selecionada de artigos relacionados está disponível publicamente em https://github.com/tjunlp-lab/Awesome-LLMs-Evaluation-Papers.

Large language models (LLMs) have demonstrated remarkable capabilities across a broad spectrum of tasks. They have attracted significant attention and been deployed in numerous downstream applications. Nevertheless, akin to a double-edged sword, LLMs also present potential risks. They could suffer from private data leaks or yield inappropriate, harmful, or misleading content. Additionally, the rapid progress of LLMs raises concerns about the potential emergence of superintelligent systems without adequate safeguards. To effectively capitalize on LLM capacities as well as ensure their safe and beneficial development, it is critical to conduct a rigorous and comprehensive evaluation of LLMs. This survey endeavors to offer a panoramic perspective on the evaluation of LLMs. We categorize the evaluation of LLMs into three major groups: knowledge and capability evaluation, alignment evaluation and safety evaluation. In addition to the comprehensive review on the evaluation methodologies and benchmarks on these three aspects, we collate a compendium of evaluations pertaining to LLMs' performance in specialized domains, and discuss the construction of comprehensive evaluation platforms that cover LLM evaluations on capabilities, alignment, safety, and applicability. We hope that this comprehensive overview will stimulate further research interests in the evaluation of LLMs, with the ultimate goal of making evaluation serve as a cornerstone in guiding the responsible development of LLMs. We envision that this will channel their evolution into a direction that maximizes societal benefit while minimizing potential risks. A curated list of related papers has been publicly available at https://github.com/tjunlp-lab/Awesome-LLMs-Evaluation-Papers.

Link do artigo

https://arxiv.org/abs/2310.19736

Batalha dos backbones: uma comparação em larga escala de modelos pré-treinados em tarefas de visão computacional / Battle of the Backbones: A Large-Scale Comparison of Pretrained Models across Computer Vision Tasks

Apresentação do artigo

Um framework de benchmarking em larga escala para um conjunto diverso de tarefas de visão computacional; constatou que, embora vision transformers (ViT) e self-supervised learning (SSL) estejam se tornando cada vez mais populares, redes neurais convolucionais pré-treinadas de forma supervisionada em grandes conjuntos de treinamento apresentam o melhor desempenho na maioria das tarefas. #self-supervised #vision-transformer

A large benchmarking framework for a diverse suite of computer vision tasks; find that while vision transformers (vits) and self-supervised learning (ssl) are increasingly popular, convolutional neural networks pretrained in a supervised fashion on large training sets perform best on most tasks.

Resumo do artigo

Sistemas de visão computacional baseados em redes neurais geralmente são construídos sobre um backbone, um extrator de características pré-treinado ou inicializado aleatoriamente. Há alguns anos, a opção padrão era uma rede neural convolucional treinada no ImageNet. No entanto, nos últimos tempos surgiram inúmeros backbones pré-treinados usando diversos algoritmos e conjuntos de dados. Embora essa abundância de opções tenha levado a melhorias de desempenho em uma variedade de sistemas, é difícil para os profissionais tomar decisões bem fundamentadas sobre qual backbone escolher. Battle of the Backbones (BoB) facilita essa escolha ao avaliar, por meio de benchmarks, um conjunto diverso de modelos pré-treinados, incluindo modelos visão-linguagem, modelos treinados via aprendizado autossupervisionado e o backbone do Stable Diffusion, em um conjunto variado de tarefas de visão computacional que vão de classificação e detecção de objetos até generalização OOD e mais. Além disso, o BoB esclarece direções promissoras para a comunidade de pesquisa avançar a visão computacional ao evidenciar os pontos fortes e fracos das abordagens existentes por meio de uma análise abrangente conduzida em mais de 1.500 execuções de treinamento. Embora os vision transformers (ViTs) e o aprendizado autossupervisionado (SSL) estejam cada vez mais populares, constatamos que as redes neurais convolucionais pré-treinadas de forma supervisionada em grandes conjuntos de treinamento ainda apresentam o melhor desempenho na maioria das tarefas entre os modelos considerados. Além disso, em comparações equivalentes nas mesmas arquiteturas e com conjuntos de dados de pré-treinamento de tamanho semelhante, constatamos que os backbones de SSL são altamente competitivos, indicando que trabalhos futuros devem realizar pré-treinamento SSL com arquiteturas avançadas e conjuntos de dados de pré-treinamento maiores. Publicamos os resultados brutos dos nossos experimentos junto com código que permite aos pesquisadores testar seus próprios backbones aqui: https://github.com/hsouri/Battle-of-the-Backbones

Neural network based computer vision systems are typically built on a backbone, a pretrained or randomly initialized feature extractor. Several years ago, the default option was an ImageNet-trained convolutional neural network. However, the recent past has seen the emergence of countless backbones pretrained using various algorithms and datasets. While this abundance of choice has led to performance increases for a range of systems, it is difficult for practitioners to make informed decisions about which backbone to choose. Battle of the Backbones (BoB) makes this choice easier by benchmarking a diverse suite of pretrained models, including vision-language models, those trained via self-supervised learning, and the Stable Diffusion backbone, across a diverse set of computer vision tasks ranging from classification to object detection to OOD generalization and more. Furthermore, BoB sheds light on promising directions for the research community to advance computer vision by illuminating strengths and weakness of existing approaches through a comprehensive analysis conducted on more than 1500 training runs. While vision transformers (ViTs) and self-supervised learning (SSL) are increasingly popular, we find that convolutional neural networks pretrained in a supervised fashion on large training sets still perform best on most tasks among the models we consider. Moreover, in apples-to-apples comparisons on the same architectures and similarly sized pretraining datasets, we find that SSL backbones are highly competitive, indicating that future works should perform SSL pretraining with advanced architectures and larger pretraining datasets. We release the raw results of our experiments along with code that allows researchers to put their own backbones through the gauntlet here: https://github.com/hsouri/Battle-of-the-Backbones

Link do artigo

https://arxiv.org/abs/2310.19909

ChipNeMo: LLMs adaptados ao domínio para design de chips / ChipNeMo: Domain-Adapted LLMs for Chip Design

Introdução ao artigo

Propõe o uso de LLMs para design industrial de chips por meio de técnicas de adaptação ao domínio; avalia diferentes aplicações para design de chips, como chatbot assistente, automação de projeto eletrônico e sumarização de bugs; a adaptação ao domínio melhora significativamente o desempenho em relação a modelos de uso geral em uma variedade de tarefas de design; usar um LLM adaptado ao domínio para RAG melhora ainda mais a qualidade das respostas.

Proposes using llms for industrial chip design by leveraging domain adaptation techniques; evaluates different applications for chip design such as assistant chatbot, electronic design automation, and bug summarization; domain adaptation significantly improves performance over general-purpose models on a variety of design tasks; using a domain-adapted llm for rag further improves answer quality.

Resumo do artigo

O ChipNeMo tem como objetivo explorar as aplicações de grandes modelos de linguagem (LLMs) para o design industrial de chips. Em vez de implantar diretamente LLMs comerciais ou de código aberto prontos para uso, ele adota técnicas de adaptação de domínio, como tokenizadores personalizados, pré-treinamento contínuo adaptado ao domínio, ajuste fino supervisionado (SFT) com instruções específicas do domínio e modelos de recuperação adaptados ao domínio. Esses métodos são avaliados em três aplicações selecionadas de LLM para design de chips: chatbot assistente de engenharia, geração de scripts de EDA e resumo e análise de bugs. Os resultados mostram que, com essas técnicas de adaptação de domínio, o desempenho dos LLMs melhora significativamente em comparação com modelos-base de propósito geral nas três aplicações avaliadas, permitindo reduzir o tamanho do modelo em até 5 vezes com desempenho semelhante ou melhor em diversas tarefas de design. Além disso, os resultados deste estudo mostram que ainda há espaço para melhorias entre os resultados atuais e os resultados ideais. A Unity espera que pesquisas futuras sobre abordagens de LLM adequadas ao domínio ajudem a reduzir essa lacuna.

ChipNeMo aims to explore the applications of large language models (LLMs) for industrial chip design. Instead of directly deploying off-the-shelf commercial or open-source LLMs, we instead adopt the following domain adaptation techniques: custom tokenizers, domain-adaptive continued pretraining, supervised fine-tuning (SFT) with domain-specific instructions, and domain-adapted retrieval models. We evaluate these methods on three selected LLM applications for chip design: an engineering assistant chatbot, EDA script generation, and bug summarization and analysis. Our results show that these domain adaptation techniques enable significant LLM performance improvements over general-purpose base models across the three evaluated applications, enabling up to 5x model size reduction with similar or better performance on a range of design tasks. Our findings also indicate that there's still room for improvement between our current results and ideal outcomes. We believe that further investigation of domain-adapted LLM approaches will help close this gap in the future.

Link do artigo

https://arxiv.org/abs/2311.00176

YaRN: extensão eficiente da janela de contexto de grandes modelos de linguagem / YaRN: Efficient Context Window Extension of Large Language Models

Introdução ao artigo

Propõe um método computacionalmente eficiente para expandir a janela de contexto de llms além daquela em que foram pré-treinados; extrapola para além do contexto limitado de um conjunto de dados de ajuste fino, e os modelos foram reproduzidos com comprimento de contexto de até 128k. #yarn

Proposes a compute-efficient method for efficiently extending the context window of llms beyond what it was pretrained on; extrapolates beyond the limited context of a fine-tuning dataset and models have been reproduced up to 128k context length.

Resumo do artigo

Os embeddings posicionais rotativos (RoPE) demonstraram codificar de forma eficaz informações posicionais em modelos de linguagem baseados em transformers. No entanto, esses modelos não conseguem generalizar além do comprimento de sequência em que foram treinados. Como um método computacionalmente eficiente para expandir a janela de contexto desses modelos, é apresentado o YaRN (Yet another RoPE extensioN method), que requer 10 vezes menos tokens e 2,5 vezes menos etapas de treinamento do que métodos anteriores. Com o YaRN, mostra-se que os modelos LLaMA podem utilizar e extrapolar de forma eficaz para comprimentos de contexto muito maiores do que o permitido por seu pré-treinamento original, além de superar o estado da arte anterior em expansão de janela de contexto. Além disso, o YaRN também demonstrou a capacidade de extrapolar para além do contexto limitado de um conjunto de dados de ajuste fino. Os modelos ajustados com YaRN foram disponibilizados online e reproduzidos com comprimentos de contexto de até 128k em https://github.com/jquesnelle/yarn

Rotary Position Embeddings (RoPE) have been shown to effectively encode positional information in transformer-based language models. However, these models fail to generalize past the sequence length they were trained on. We present YaRN (Yet another RoPE extensioN method), a compute-efficient method to extend the context window of such models, requiring 10x less tokens and 2.5x less training steps than previous methods. Using YaRN, we show that LLaMA models can effectively utilize and extrapolate to context lengths much longer than their original pre-training would allow, while also surpassing previous the state-of-the-art at context window extension. In addition, we demonstrate that YaRN exhibits the capability to extrapolate beyond the limited context of a fine-tuning dataset. The models fine-tuned using YaRN has been made available and reproduced online up to 128k context length at https://github.com/jquesnelle/yarn

Link do artigo

https://arxiv.org/abs/2309.00071

Open DAC 2023: conjunto de dados e desafios para a descoberta de adsorventes em captura direta de ar / The Open DAC 2023 Dataset and Challenges for Sorbent Discovery in Direct Air Capture

Introdução ao artigo

Apresenta um conjunto de dados composto por mais de 38 milhões de cálculos de teoria do funcional da densidade (DFT) em mais de 8.800 materiais MOF contendo CO2 e/ou H2O adsorvidos; identifica diretamente no conjunto de dados propriedades relevantes para DAC; também treina modelos de ML de ponta com esse conjunto para aproximar cálculos no nível de DFT; isso pode se tornar uma base importante para esforços futuros de identificação de MOFs para uma ampla gama de aplicações, incluindo DAC.

Introduces a dataset consisting of more than 38m density functional theory (dft) calculations on more than 8,800 mof materials containing adsorbed co2 and/or h2o; properties for dac are identified directly in the dataset; also trains state-of-the-art ml models with the dataset to approximate calculations at the dft level; can lead to important baseline for future efforts to identify mofs for a wide range of applications, including dac.

Resumo do artigo

Para combater as mudanças climáticas globais, novos métodos de remoção de dióxido de carbono são urgentemente necessários. A captura direta do ar (DAC) é uma tecnologia emergente para capturar dióxido de carbono diretamente do ar ambiente. Estruturas metal-orgânicas (MOFs) têm sido amplamente estudadas como adsorventes potencialmente customizáveis para DAC. No entanto, descobrir adsorventes MOF promissores para DAC é desafiador devido ao vasto espaço químico a explorar e à necessidade de compreender os materiais em função da umidade e da temperatura. A Pure Storage explora uma abordagem computacional que se beneficia de inovações recentes em machine learning (ML) e apresenta um conjunto de dados chamado Open DAC 2023 (ODAC23), composto por mais de 38 milhões de cálculos de teoria do funcional da densidade (DFT) em mais de 8.800 materiais MOF contendo CO2 e/ou H2O adsorvidos. O ODAC23 é, de longe, o maior conjunto de dados atualmente disponível de cálculos de adsorção em MOFs com precisão em nível de DFT. Além de investigar propriedades das moléculas adsorvidas, o conjunto de dados é uma rica fonte de informações sobre o relaxamento estrutural de MOFs, o que pode ser útil em muitos contextos além das aplicações específicas de DAC. Um grande número de MOFs com propriedades promissoras para DAC foi identificado diretamente no ODAC23. Também treinamos modelos de machine learning de ponta com base nesse conjunto de dados para aproximar cálculos no nível de DFT. Este conjunto de dados open source e nossos modelos iniciais de ML fornecerão uma base importante para esforços futuros de identificação de MOFs para uma ampla gama de aplicações, incluindo DAC.

New methods for carbon dioxide removal are urgently needed to combat global climate change. Direct air capture (DAC) is an emerging technology to capture carbon dioxide directly from ambient air. Metal-organic frameworks (MOFs) have been widely studied as potentially customizable adsorbents for DAC. However, discovering promising MOF sorbents for DAC is challenging because of the vast chemical space to explore and the need to understand materials as functions of humidity and temperature. We explore a computational approach benefiting from recent innovations in machine learning (ML) and present a dataset named Open DAC 2023 (ODAC23) consisting of more than 38M density functional theory (DFT) calculations on more than 8,800 MOF materials containing adsorbed CO2 and/or H2O. ODAC23 is by far the largest dataset of MOF adsorption calculations at the DFT level of accuracy currently available. In addition to probing properties of adsorbed molecules, the dataset is a rich source of information on structural relaxation of MOFs, which will be useful in many contexts beyond specific applications for DAC. A large number of MOFs with promising properties for DAC are identified directly in ODAC23. We also trained state-of-the-art ML models on this dataset to approximate calculations at the DFT level. This open-source dataset and our initial ML models will provide an important baseline for future efforts to identify MOFs for a wide range of applications, including DAC.

Link do artigo

https://arxiv.org/abs/2311.00341

Estrutura unificada para aplicar, descobrir e promover simetria em machine learning / A Unified Framework to Enforce, Discover, and Promote Symmetry in Machine Learning

Apresentação do artigo

Apresenta uma estrutura metodológica unificada para aplicar, descobrir e promover simetria em machine learning; também discute como essas ideias podem ser aplicadas a modelos de ML, como perceptrons multicamadas e regressão por funções de base.

Presents a unified and methodological framework to enforce, discover, and promote symmetry in machine learning; also discusses how these ideas can be applied to ml models such as multilayer perceptions and basis function regression.

Resumo do artigo

A simetria está presente em toda a natureza e continua a desempenhar um papel cada vez mais central na física e no aprendizado de máquina. Simetrias fundamentais, como a invariância de Poincaré, permitem extrapolar leis físicas descobertas em laboratórios na Terra até os confins do universo. A simetria é essencial para alcançar esse poder de extrapolação em aplicações de aprendizado de máquina. Por exemplo, a invariância a translação na classificação de imagens permite que modelos com menos parâmetros, como redes neurais convolucionais, sejam treinados com conjuntos de dados menores e atinjam desempenho de ponta. Neste artigo, os autores apresentam um framework teórico e metodológico unificado para incorporar simetria em modelos de aprendizado de máquina de três maneiras: 1. impor uma simetria conhecida ao treinar um modelo; 2. descobrir simetrias desconhecidas de um determinado modelo ou conjunto de dados; e 3. promover a simetria durante o treinamento ao aprender um modelo que quebra simetrias dentro de um grupo de candidatos especificado pelo usuário quando há evidências suficientes nos dados. Mostra-se que essas tarefas podem ser formuladas dentro de um framework matemático comum cujo objeto central é a derivada de Lie associada a ações de grupos de Lie fibra-lineares em fibrados vetoriais. O trabalho estende e unifica vários resultados existentes ao mostrar que impor e descobrir simetria são tarefas de álgebra linear que são duais em relação à estrutura bilinear da derivada de Lie. Também é proposta uma nova forma de promover simetria por meio da introdução de uma classe de funções de regularização convexas baseadas na derivada de Lie e no relaxamento da norma nuclear para penalizar a quebra de simetria durante o treinamento de modelos de aprendizado de máquina. Os autores explicam como essas ideias podem ser aplicadas a uma ampla variedade de modelos de aprendizado de máquina, incluindo regressão com funções de base, descoberta de sistemas dinâmicos, perceptrons multicamadas e redes neurais que atuam em campos espaciais, como imagens.

Symmetry is present throughout nature and continues to play an increasingly central role in physics and machine learning. Fundamental symmetries, such as Poincar'{e} invariance, allow physical laws discovered in laboratories on Earth to be extrapolated to the farthest reaches of the universe. Symmetry is essential to achieving this extrapolatory power in machine learning applications. For example, translation invariance in image classification allows models with fewer parameters, such as convolutional neural networks, to be trained on smaller data sets and achieve state-of-the-art performance. In this paper, we provide a unifying theoretical and methodological framework for incorporating symmetry into machine learning models in three ways: 1. enforcing known symmetry when training a model; 2. discovering unknown symmetries of a given model or data set; and 3. promoting symmetry during training by learning a model that breaks symmetries within a user-specified group of candidates when there is sufficient evidence in the data. We show that these tasks can be cast within a common mathematical framework whose central object is the Lie derivative associated with fiber-linear Lie group actions on vector bundles. We extend and unify several existing results by showing that enforcing and discovering symmetry are linear-algebraic tasks that are dual with respect to the bilinear structure of the Lie derivative. We also propose a novel way to promote symmetry by introducing a class of convex regularization functions based on the Lie derivative and nuclear norm relaxation to penalize symmetry breaking during training of machine learning models. We explain how these ideas can be applied to a wide range of machine learning models including basis function regression, dynamical systems discovery, multilayer perceptrons, and neural networks acting on spatial fields such as images.

Link do artigo

https://arxiv.org/abs/2311.00212

AlphaFold de próxima geração / Next Generation AlphaFold

Apresentação do artigo

Relata o progresso de uma nova iteração do AlphaFold que amplia significativamente seu campo de aplicação; mostra capacidades de previsão conjunta da estrutura de complexos incluindo proteínas, ácidos nucleicos, pequenas moléculas, íons e resíduos modificados; demonstra maior precisão em interações proteína-ácido nucleico do que preditores especializados.

Reports progress on a new iteration of alphafold that greatly expands its range of applicability; shows capabilities of joint structure prediction of complexes including proteins, nucleic acids, small molecules, ions, and modified residue; demonstrates greater accuracy on protein-nucleic acid interactions than specialists predictors.

Link do artigo

https://storage.googleapis.com/deepmind-media/DeepMind.com/…

Grandes modelos de linguagem entendem e podem ser aprimorados por estímulos emocionais / Large Language Models Understand and Can be Enhanced by Emotional Stimuli

Apresentação do artigo

Usando diversas IAs, como Flan-T5-Large, Vicuna, Llama 2, BLOOM, ChatGPT e GPT-4, os autores realizam experimentos automáticos em 45 tarefas que abrangem aplicações determinísticas e generativas, representando cenários abrangentes de avaliação, e os resultados mostram que as IAs compreendem a inteligência emocional.

Explores the ability of llms to understand emotional stimuli; conducts automatic experiments on 45 tasks using various llms, including flan-t5-large, vicuna, llama 2, bloom, chatgpt, and gpt-4; the tasks span deterministic and generative applications that represent comprehensive evaluation scenarios; experimental results show that llms have a grasp of emotional intelligence.

Resumo do artigo

A inteligência emocional impacta significativamente nossos comportamentos e interações do dia a dia. Embora os modelos de linguagem de grande escala (LLMs) sejam cada vez mais vistos como um passo em direção à inteligência artificial geral, exibindo desempenho impressionante em inúmeras tarefas, ainda é incerto se os LLMs conseguem realmente compreender estímulos emocionais psicológicos. Entender e responder a sinais emocionais dá aos humanos uma vantagem distinta na resolução de problemas. Neste artigo, os autores dão o primeiro passo para explorar a capacidade dos LLMs de compreender estímulos emocionais. Para isso, primeiro conduzem experimentos automáticos em 45 tarefas usando vários LLMs, incluindo Flan-T5-Large, Vicuna, Llama 2, BLOOM, ChatGPT e GPT-4. As tarefas abrangem aplicações determinísticas e generativas que representam cenários abrangentes de avaliação. Os experimentos automáticos mostram que os LLMs têm compreensão de inteligência emocional e que seu desempenho pode ser melhorado com prompts emocionais (chamados de "EmotionPrompt", que combinam o prompt original com estímulos emocionais), por exemplo, com melhora relativa de 8,00% em Instruction Induction e de 115% em BIG-Bench. Além dessas tarefas determinísticas que podem ser avaliadas automaticamente usando métricas existentes, foi conduzido um estudo com 106 participantes para avaliar a qualidade de tarefas generativas usando tanto prompts vanilla quanto prompts emocionais. Os resultados do estudo humano demonstram que o EmotionPrompt aumenta significativamente o desempenho de tarefas generativas (melhora média de 10,9% em métricas de desempenho, veracidade e responsabilidade). O texto discute em profundidade por que o EmotionPrompt funciona para LLMs e quais fatores podem influenciar seu desempenho. Os autores defendem que o EmotionPrompt inaugura um novo caminho para explorar conhecimento interdisciplinar na interação entre humanos e LLMs.

Emotional intelligence significantly impacts our daily behaviors and interactions. Although Large Language Models (LLMs) are increasingly viewed as a stride toward artificial general intelligence, exhibiting impressive performance in numerous tasks, it is still uncertain if LLMs can genuinely grasp psychological emotional stimuli. Understanding and responding to emotional cues gives humans a distinct advantage in problem-solving. In this paper, we take the first step towards exploring the ability of LLMs to understand emotional stimuli. To this end, we first conduct automatic experiments on 45 tasks using various LLMs, including Flan-T5-Large, Vicuna, Llama 2, BLOOM, ChatGPT, and GPT-4. Our tasks span deterministic and generative applications that represent comprehensive evaluation scenarios. Our automatic experiments show that LLMs have a grasp of emotional intelligence, and their performance can be improved with emotional prompts (which we call "EmotionPrompt" that combines the original prompt with emotional stimuli), e.g., 8.00% relative performance improvement in Instruction Induction and 115% in BIG-Bench. In addition to those deterministic tasks that can be automatically evaluated using existing metrics, we conducted a human study with 106 participants to assess the quality of generative tasks using both vanilla and emotional prompts. Our human study results demonstrate that EmotionPrompt significantly boosts the performance of generative tasks (10.9% average improvement in terms of performance, truthfulness, and responsibility metrics). We provide an in-depth discussion regarding why EmotionPrompt works for LLMs and the factors that may influence its performance. We posit that EmotionPrompt heralds a novel avenue for exploring interdisciplinary knowledge for human-LLMs interaction.

Link do artigo

https://arxiv.org/abs/2307.11760

FP8-LM: Treinamento de modelos de linguagem de grande escala em FP8 / FP8-LM: Training FP8 Large Language Models

Introdução ao artigo

Ao treinar LLMs em FP8, os autores descobriram que a maior parte das variáveis, como gradientes e estados do otimizador, pode usar formatos de dados de baixa precisão sem comprometer a precisão do modelo e sem exigir alterações nos hiperparâmetros.

Finds that when training fp8 llms most variables, such as gradients and optimizer states, in llm training, can employ low-precision data formats without compromising model accuracy and requiring no changes to hyper-parameter.

Resumo do artigo

Este artigo explora formatos de dados FP8 de baixa precisão para o treinamento eficiente de grandes modelos de linguagem (LLMs). O principal insight é que a maioria das variáveis no treinamento de LLMs, como gradientes e estados do otimizador, pode usar formatos de dados de baixa precisão sem comprometer a precisão do modelo e sem exigir mudanças nos hiperparâmetros. Em particular, o Unity propõe um novo framework de precisão mista automática em FP8 para treinar LLMs. Esse framework oferece três níveis de utilização de FP8 para simplificar o treinamento com precisão mista e paralelismo distribuído em LLMs. Ele integra gradualmente gradientes de 8 bits, estados do otimizador e treinamento distribuído de forma incremental. Os resultados experimentais mostram que, durante o treinamento do modelo GPT-175B na plataforma de GPUs H100, o framework de treinamento com precisão mista em FP8 do Unity não apenas reduziu o uso real de memória em 42%, como também executou 64% mais rápido do que o framework BF16 amplamente adotado (como o Megatron-LM), superando a velocidade do Nvidia Transformer Engine em 17%. Isso pode reduzir significativamente o custo de treinamento de grandes modelos fundacionais. Além disso, a metodologia de treinamento com precisão mista em FP8 do Unity é genérica. Ela pode ser aplicada de forma transparente a outras tarefas, como instruction tuning de LLMs e reinforcement learning with human feedback, reduzindo também os custos de fine-tuning. O framework de treinamento de baixa precisão em FP8 do Unity é disponibilizado como open source em {https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP}.

In this paper, we explore FP8 low-bit data formats for efficient training of large language models (LLMs). Our key insight is that most variables, such as gradients and optimizer states, in LLM training can employ low-precision data formats without compromising model accuracy and requiring no changes to hyper-parameters. Specifically, we propose a new FP8 automatic mixed-precision framework for training LLMs. This framework offers three levels of FP8 utilization to streamline mixed-precision and distributed parallel training for LLMs. It gradually incorporates 8-bit gradients, optimizer states, and distributed learning in an incremental manner. Experiment results show that, during the training of GPT-175B model on H100 GPU platform, our FP8 mixed-precision training framework not only achieved a remarkable 42% reduction in real memory usage but also ran 64% faster than the widely adopted BF16 framework (i.e., Megatron-LM), surpassing the speed of Nvidia Transformer Engine by 17%. This largely reduces the training costs for large foundation models. Furthermore, our FP8 mixed-precision training methodology is generic. It can be seamlessly applied to other tasks such as LLM instruction tuning and reinforcement learning with human feedback, offering savings in fine-tuning expenses. Our FP8 low-precision training framework is open-sourced at {https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP}.

Link do artigo

https://arxiv.org/abs/2310.18313

Texto original

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-2e0

[2023/10/30 ~ 11/07] Principais artigos de ML da semana (Top ML Papers of the Week)

Visão geral

Deep learning para previsões meteorológicas diárias a partir de observações esparsas / Deep Learning for Day Forecasts from Sparse Observations

Apresentação do artigo

Resumo do artigo

Link do artigo

Leia mais

Avaliando grandes modelos de linguagem: uma pesquisa abrangente / Evaluating Large Language Models: A Comprehensive Survey

Apresentação do artigo

Resumo do artigo

Link do artigo

Leia mais

Batalha dos backbones: uma comparação em larga escala de modelos pré-treinados em tarefas de visão computacional / Battle of the Backbones: A Large-Scale Comparison of Pretrained Models across Computer Vision Tasks

Apresentação do artigo

Resumo do artigo

Link do artigo

Leia mais

ChipNeMo: LLMs adaptados ao domínio para design de chips / ChipNeMo: Domain-Adapted LLMs for Chip Design

Introdução ao artigo

Resumo do artigo

Link do artigo

Leia mais

YaRN: extensão eficiente da janela de contexto de grandes modelos de linguagem / YaRN: Efficient Context Window Extension of Large Language Models

Introdução ao artigo

Resumo do artigo

Link do artigo

Leia mais

Open DAC 2023: conjunto de dados e desafios para a descoberta de adsorventes em captura direta de ar / The Open DAC 2023 Dataset and Challenges for Sorbent Discovery in Direct Air Capture

Introdução ao artigo

Resumo do artigo

Link do artigo

Leia mais

Estrutura unificada para aplicar, descobrir e promover simetria em machine learning / A Unified Framework to Enforce, Discover, and Promote Symmetry in Machine Learning

Apresentação do artigo

Resumo do artigo

Link do artigo

Leia mais

AlphaFold de próxima geração / Next Generation AlphaFold

Apresentação do artigo

Link do artigo

Leia mais

Grandes modelos de linguagem entendem e podem ser aprimorados por estímulos emocionais / Large Language Models Understand and Can be Enhanced by Emotional Stimuli

Apresentação do artigo

Resumo do artigo

Link do artigo

Leia mais

FP8-LM: Treinamento de modelos de linguagem de grande escala em FP8 / FP8-LM: Training FP8 Large Language Models

Introdução ao artigo

Resumo do artigo

Link do artigo

Leia mais

Texto original

Leituras relacionadas

Ainda não há comentários.