03] Os principais artigos de ML da semana (Top ML Papers of the Week)

(discuss.pytorch.kr)

1 pontos por ninebow 2024-03-06 | Ainda não há comentários. | Compartilhar no WhatsApp

Traduzimos automaticamente os textos sobre artigos de ML publicados semanalmente pela DAIR.AI.
Observando os artigos selecionados nesta semana, parece que predominam pesquisas com foco em grandes modelos de linguagem (Large Language Models, LLMs). Pelos títulos como "Genie", "Mistral Large", "The Era of 1-bit LLMs", "Dataset for LLMs" e "PlanGPT", dá para perceber um grande interesse em modelagem de linguagem e em abordagens para melhorá-la ou usar novos conjuntos de dados. Isso pode se dever ao rápido avanço das tecnologias de processamento de linguagem nos últimos anos e ao excelente desempenho dos enormes modelos de linguagem em várias tarefas de processamento de linguagem natural.
Modelos de linguagem, especialmente modelos de grande porte como o GPT-4, estão sendo aplicados em diversos setores e áreas de pesquisa. Com isso, cresce a demanda por novas técnicas que permitam treiná-los de forma mais eficiente, aplicá-los a dados mais diversos e até manter alto desempenho com menos bits. Além disso, títulos como "On the Societal Impact of Open Foundation Models" sugerem que também há pesquisas sobre o impacto desses modelos na sociedade, indicando uma conscientização crescente não apenas sobre o avanço tecnológico, mas também sobre as mudanças sociais e as responsabilidades que ele traz.
Por outro lado, títulos menos específicos como "LearnAct" e "EMO" também chamam a atenção. Esses artigos possivelmente não se limitam a modelos de linguagem, mas focam em aplicações mais amplas ou em avanços teóricos. No geral, confirma-se que, nesta semana, novas abordagens de modelagem de linguagem e diversas pesquisas de aplicação baseadas nela se consolidaram como a principal tendência, refletindo o forte ritmo de pesquisa e desenvolvimento em torno de vários desafios considerados importantes no campo da IA.

Genie: Ambientes Interativos Generativos / Genie: Generative Interactive Environments

Introdução ao artigo

Genie, um modelo fundacional treinado com vídeos da internet e capaz de gerar diversos mundos 2D com controle de ações a partir de um prompt de imagem, tem 11B parâmetros e é composto por um tokenizador de vídeo espaço-temporal, um modelo dinâmico autorregressivo e um modelo de ação latente escalável. Por meio do espaço de ação latente, agentes treinados podem imitar comportamentos de vídeos não vistos, o que o torna promissor para a construção de agentes mais generalistas.

A foundation model trained from internet videos and with the ability to generate a variety of action-controllable 2d worlds given an image prompt; genie has 11b parameters and consists of a spatiotemporal video tokenizer, an autoregressive dynamic model, and a scalable latent action model; the latent action space enables training agents to imitate behaviors from unseen video which is promising for building more generalist agents.

Resumo do artigo (Abstract)

Apresentamos o Genie, o primeiro ambiente interativo generativo treinado de forma não supervisionada a partir de vídeos da internet sem rótulos. O modelo pode receber prompts para gerar uma variedade infinita de mundos virtuais com controle de ações, descritos por texto, imagens sintéticas, fotografias e até esboços. Com 11B parâmetros, o Genie pode ser considerado um modelo fundacional de mundo. Ele é composto por um tokenizador de vídeo espaço-temporal, um modelo de dinâmica autorregressiva e um modelo de ação latente simples e escalável. O Genie permite que usuários executem ações nos ambientes gerados quadro a quadro, apesar de ter sido treinado sem rótulos de ação reais nem outros requisitos específicos de domínio normalmente encontrados na literatura sobre world models. Além disso, o espaço de ação latente aprendido facilita o treinamento de agentes para imitar comportamentos a partir de vídeos não vistos, abrindo caminho para o treinamento dos futuros agentes generalistas.

We introduce Genie, the first generative interactive environment trained in an unsupervised manner from unlabelled Internet videos. The model can be prompted to generate an endless variety of action-controllable virtual worlds described through text, synthetic images, photographs, and even sketches. At 11B parameters, Genie can be considered a foundation world model. It is comprised of a spatiotemporal video tokenizer, an autoregressive dynamics model, and a simple and scalable latent action model. Genie enables users to act in the generated environments on a frame-by-frame basis despite training without any ground-truth action labels or other domain-specific requirements typically found in the world model literature. Further the resulting learned latent action space facilitates training agents to imitate behaviors from unseen videos, opening the path for training generalist agents of the future.

Link do artigo

https://arxiv.org/abs/2402.15391

Mistral Large / Mistral Large

Introdução ao artigo

As características do novo mecanismo de linguagem, com fortes capacidades multilíngues, de raciocínio, matemática e geração de código, são as seguintes: 1) janela de contexto de 32k tokens, 2) capacidades multilíngues nativas, 3) forte desempenho em benchmarks de raciocínio, conhecimento, matemática e coding, 4) suporte nativo a chamadas de função e formato JSON.

A new llm with strong multilingual, reasoning, maths, and code generation capabilities; features include: 1) 32k tokens context window, 2) native multilingual capacities, 3) strong abilities in reasoning, knowledge, maths, and coding benchmarks, and 4) function calling and json format natively supported.

Link do artigo

https://mistral.ai/news/mistral-large/

A era dos LLMs de 1 bit: todos os grandes modelos de linguagem estão em 1,58 bits / The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

Introdução ao artigo

Apresenta o BitNet b1.58, uma variante de LLM de 1 bit de alto desempenho e custo eficiente em que todos os parâmetros são ternários {-1, 0, 1}. Dado o mesmo tamanho de modelo e os mesmos tokens de treinamento, o BitNet b1.58 consegue igualar a perplexidade e o desempenho em tarefas de um LLM Transformer de precisão total (ou seja, fp16), enquanto oferece vantagens significativas em latência, memória, throughput e consumo de energia.

Introduces a high-performing and cost-effective 1-bit llm variant called bitnet b1.58 where every parameter is a ternary {-1, 0, 1}; given the same model size and training tokens, bitnet b1.58 can match the perplexity and task performance of a full precision transformer llm (i.e., fp16); the benefits of this 1-bit llm are significantly better latency, memory, throughout, and energy consumption.

Resumo do artigo (Abstract)

Pesquisas recentes, como o BitNet, estão abrindo caminho para uma nova era dos Large Language Models (LLMs) de 1 bit. Neste trabalho, apresentamos uma variante de LLM de 1 bit, chamada BitNet b1.58, na qual cada parâmetro individual (ou peso) do LLM é ternário {-1, 0, 1}. Ela iguala um LLM Transformer de precisão total (isto é, FP16 ou BF16) com o mesmo tamanho de modelo e os mesmos tokens de treinamento tanto em perplexidade quanto em desempenho em tarefas finais, ao mesmo tempo em que é significativamente mais custo eficiente em termos de latência, memória, throughput e consumo de energia. Em um sentido mais profundo, o LLM de 1,58 bit define uma nova lei de escalonamento e uma nova receita para treinar novas gerações de LLMs que sejam ao mesmo tempo de alto desempenho e custo eficientes. Além disso, ele viabiliza um novo paradigma de computação e abre caminho para o desenvolvimento de hardware específico otimizado para LLMs de 1 bit.

Recent research, such as BitNet, is paving the way for a new era of 1-bit Large Language Models (LLMs). In this work, we introduce a 1-bit LLM variant, namely BitNet b1.58, in which every single parameter (or weight) of the LLM is ternary {-1, 0, 1}. It matches the full-precision (i.e., FP16 or BF16) Transformer LLM with the same model size and training tokens in terms of both perplexity and end-task performance, while being significantly more cost-effective in terms of latency, memory, throughput, and energy consumption. More profoundly, the 1.58-bit LLM defines a new scaling law and recipe for training new generations of LLMs that are both high-performance and cost-effective. Furthermore, it enables a new computation paradigm and opens the door for designing specific hardware optimized for 1-bit LLMs.

Link do artigo

https://arxiv.org/abs/2402.17764

Conjuntos de dados para grandes modelos de linguagem: um survey abrangente / Datasets for Large Language Models: A Comprehensive Survey

Apresentação do artigo

Uma visão geral abrangente (mais de 180 páginas) e uma análise dos datasets de LLM.

A comprehensive overview (180+ pages) and analysis of llm datasets.

Resumo do artigo (Abstract)

Este artigo inicia uma exploração dos conjuntos de dados de Large Language Models (LLMs), que desempenham um papel crucial nos avanços notáveis dos LLMs. Os conjuntos de dados funcionam como a infraestrutura fundamental, análoga a um sistema radicular que sustenta e nutre o desenvolvimento dos LLMs. Consequentemente, o exame desses conjuntos de dados surge como um tema crítico de pesquisa. Para enfrentar a atual falta de uma visão geral abrangente e de uma análise aprofundada dos conjuntos de dados de LLMs, e obter insights sobre seu estado atual e tendências futuras, esta survey consolida e categoriza os aspectos fundamentais dos conjuntos de dados de LLMs sob cinco perspectivas: (1) corpora de pré-treinamento; (2) conjuntos de dados de ajuste fino por instrução; (3) conjuntos de dados de preferência; (4) conjuntos de dados de avaliação; (5) conjuntos de dados tradicionais de processamento de linguagem natural (NLP). A survey esclarece os desafios predominantes e aponta caminhos potenciais para investigações futuras. Além disso, também é fornecida uma revisão abrangente dos recursos de conjuntos de dados atualmente disponíveis, incluindo estatísticas de 444 conjuntos de dados, cobrindo 8 categorias de idioma e abrangendo 32 domínios. Informações de 20 dimensões foram incorporadas às estatísticas dos conjuntos de dados. O volume total de dados analisado ultrapassa 774,5 TB para corpora de pré-treinamento e 700 milhões de instâncias para os demais conjuntos de dados. Nosso objetivo é apresentar todo o panorama dos conjuntos de dados textuais para LLMs, servindo como uma referência abrangente para pesquisadores da área e contribuindo para estudos futuros. Recursos relacionados estão disponíveis em: https://github.com/lmmlzn/Awesome-LLMs-Datasets.

This paper embarks on an exploration into the Large Language Model (LLM) datasets, which play a crucial role in the remarkable advancements of LLMs. The datasets serve as the foundational infrastructure analogous to a root system that sustains and nurtures the development of LLMs. Consequently, examination of these datasets emerges as a critical topic in research. In order to address the current lack of a comprehensive overview and thorough analysis of LLM datasets, and to gain insights into their current status and future trends, this survey consolidates and categorizes the fundamental aspects of LLM datasets from five perspectives: (1) Pre-training Corpora; (2) Instruction Fine-tuning Datasets; (3) Preference Datasets; (4) Evaluation Datasets; (5) Traditional Natural Language Processing (NLP) Datasets. The survey sheds light on the prevailing challenges and points out potential avenues for future investigation. Additionally, a comprehensive review of the existing available dataset resources is also provided, including statistics from 444 datasets, covering 8 language categories and spanning 32 domains. Information from 20 dimensions is incorporated into the dataset statistics. The total data size surveyed surpasses 774.5 TB for pre-training corpora and 700M instances for other datasets. We aim to present the entire landscape of LLM text datasets, serving as a comprehensive reference for researchers in this field and contributing to future studies. Related resources are available at: https://github.com/lmmlzn/Awesome-LLMs-Datasets.

Link do artigo

https://arxiv.org/abs/2402.18041

Fortalecendo agentes de Large Language Models por meio de action learning / Empowering Large Language Model Agents through Action Learning

Apresentação do artigo

Explora o aprendizado aberto de ações para agentes de linguagem por meio de uma estratégia de aprendizado iterativo que cria e aprimora ações usando funções Python; a cada iteração, o framework proposto (learnact) expande o espaço de ações e melhora a eficácia das ações ao revisar e atualizar as ações disponíveis com base no feedback de execução; o framework learnact foi testado em ambientes de planejamento robótico e alfworld; em alfworld, ele melhora o desempenho do agente em 32% em comparação com react+reflexion.

Explores open-action learning for language agents through an iterative learning strategy that creates and improves actions using python functions; on each iteration, the proposed framework (learnact) expands the action space and enhances action effectiveness by revising and updating available actions based on execution feedback; the learnact framework was tested on robotic planning and alfworld environments; it improves agent performance by 32% in alfworld compared to react+reflexion.

Resumo(Abstract)

Embora o interesse recente por agentes de grandes modelos de linguagem (LLM) tenha crescido, eles ainda são limitados na capacidade de aprender por tentativa e erro, um elemento central do comportamento inteligente. Este estudo argumenta que a capacidade de aprender novas ações a partir da experiência é essencial para avançar o aprendizado em agentes LLM. Enquanto os humanos expandem naturalmente seu espaço de ações e desenvolvem habilidades por meio do aprendizado experiencial, os agentes LLM normalmente operam dentro de espaços de ação fixos, o que limita seu potencial de crescimento. Para enfrentar esse problema, este estudo explora o aprendizado de ações abertas para agentes de linguagem. É apresentado o framework LearnAct, que inclui uma estratégia de aprendizado iterativo para criar e aprimorar ações na forma de funções Python. Em cada iteração, o LLM modifica e atualiza as ações atualmente disponíveis com base nos erros identificados em tarefas de treinamento malsucedidas, aumentando assim a eficácia das ações. Segundo a avaliação experimental em ambientes de planejamento robótico e Alfworld, após aprender com alguns exemplos de tarefas de treinamento, essa abordagem de aprendizado de ações abertas melhora significativamente o desempenho do agente para esse tipo de tarefa (por exemplo, 32% no AlfWorld em comparação com ReAct+Reflexion). Esse resultado destaca a importância do aprendizado empírico de ações no desenvolvimento de agentes LLM mais inteligentes.

Large Language Model (LLM) Agents have recently garnered increasing interest yet they are limited in their ability to learn from trial and error, a key element of intelligent behavior. In this work, we argue that the capacity to learn new actions from experience is fundamental to the advancement of learning in LLM agents. While humans naturally expand their action spaces and develop skills through experiential learning, LLM agents typically operate within fixed action spaces, limiting their potential for growth. To address these challenges, our study explores open-action learning for language agents. We introduce a framework LearnAct with an iterative learning strategy to create and improve actions in the form of Python functions. In each iteration, LLM revises and updates the currently available actions based on the errors identified in unsuccessful training tasks, thereby enhancing action effectiveness. Our experimental evaluations across Robotic Planning and Alfworld environments reveal that after learning on a few training task instances, our approach to open-action learning markedly improves agent performance for the type of task (by 32 percent in AlfWorld compared to ReAct+Reflexion, for instance) highlighting the importance of experiential action learning in the development of more intelligent LLM agents.

Link do artigo

https://arxiv.org/abs/2402.15809

EMO: Emote Portrait Alive — Gerando vídeos expressivos de retratos com modelo de difusão Audio2Video sob condições fracas / EMO: Emote Portrait Alive -- Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions

Introdução ao artigo

O EMO, um novo framework para gerar vídeos expressivos usando uma abordagem direta de síntese Audio-to-Video com um modelo de difusão Audio-to-Video, dispensa a necessidade de modelos 3D intermediários ou landmarks faciais e consegue produzir vídeos convincentes de fala e de canto em vários estilos, superando os métodos existentes em expressividade e realismo.

A new framework for generating expressive video by utilizing a direct audio-to-video synthesis approach; by leveraging an audio2video diffusion model it bypasses the need for intermediate 3d models or facial landmarks; emo can produce convincing speaking videos and singing videos in various styles while outperforming existing methods in terms of expressiveness and realism.

Resumo do artigo (Abstract)

Este estudo aborda o desafio de melhorar o realismo e a expressividade na geração de vídeos de talking head, concentrando-se na relação dinâmica e sutil entre pistas de áudio e movimentos faciais. A Unity identifica as limitações das técnicas tradicionais, que muitas vezes não conseguem capturar todo o espectro das expressões humanas e a singularidade dos estilos faciais individuais. Para resolver essas questões, a Unity propõe o EMO, um novo framework que utiliza uma abordagem direta de síntese de áudio para vídeo, dispensando a necessidade de modelos 3D intermediários ou landmarks faciais. Esse método garante transições suaves entre quadros e preservação consistente da identidade ao longo do vídeo, resultando em animações altamente expressivas e realistas. Os resultados experimentais mostram que o EMO é capaz de produzir não apenas vídeos convincentes de fala, mas também vídeos de canto em vários estilos, superando de forma significativa as metodologias de ponta existentes em termos de expressividade e realismo.

In this work, we tackle the challenge of enhancing the realism and expressiveness in talking head video generation by focusing on the dynamic and nuanced relationship between audio cues and facial movements. We identify the limitations of traditional techniques that often fail to capture the full spectrum of human expressions and the uniqueness of individual facial styles. To address these issues, we propose EMO, a novel framework that utilizes a direct audio-to-video synthesis approach, bypassing the need for intermediate 3D models or facial landmarks. Our method ensures seamless frame transitions and consistent identity preservation throughout the video, resulting in highly expressive and lifelike animations. Experimental results demonsrate that EMO is able to produce not only convincing speaking videos but also singing videos in various styles, significantly outperforming existing state-of-the-art methodologies in terms of expressiveness and realism.

Link do artigo

https://arxiv.org/abs/2402.17485

Impacto social dos modelos de base abertos / On the Societal Impact of Open Foundation Models

Apresentação do artigo

Um position paper focado em modelos de base abertos e seu impacto, benefícios e riscos; propõe um framework de avaliação de risco para analisar riscos e explica por que o risco marginal dos modelos de base abertos é baixo em alguns casos; também oferece uma avaliação mais fundamentada do impacto social dos modelos de base abertos.

A position paper with a focus on open foundation models and their impact, benefits, and risks; proposes a risk assessment framework for analyzing risk and explains why the marginal risk of open foundation models is low in some cases; it also offers a more grounded assessment of the societal impact of open foundation models.

Link do artigo

https://crfm.stanford.edu/open-fms/

StarCoder 2 / StarCoder 2

Apresentação do artigo

Uma família aberta de modelos de machine learning para código em três tamanhos diferentes (3b, 7b e 15b); o modelo 15b foi treinado com 14 trilhões de tokens e mais de 600 linguagens de programação, com uma janela de contexto de 16k tokens e usando um objetivo de fill-in-the-middle; ele iguala modelos de 33b+ em várias avaliações, como conclusão de código, raciocínio sobre código e raciocínio matemático com auxílio de PAL.

A family of open llms for code with three different sizes (3b, 7b, and 15b); the 15b model was trained on 14 trillion tokens and 600+ programming languages with a context window of 16k token and employing a fill-in-the-middle objective; it matches 33b+ models on many evaluation like code completion, code reasoning, and math reasoning aided through pal.

Link do artigo

https://huggingface.co/blog/starcoder2

Grandes modelos de linguagem (LLMs) em dados tabulares: predição, geração e compreensão - artigo de survey / Large Language Models(LLMs) on Tabular Data: Prediction, Generation, and Understanding - A Survey

Apresentação do artigo

Uma visão geral dos LLMs para tarefas com dados tabulares, incluindo técnicas-chave, métricas, conjuntos de dados, modelos e abordagens de otimização; cobre limitações e ideias ainda não exploradas, com insights para futuras direções de pesquisa.

An overview of llms for tabular data tasks including key techniques, metrics, datasets, models, and optimization approaches; it covers limitations and unexplored ideas with insights for future research directions.

Resumo do artigo (Abstract)

Avanços recentes revolucionários em modelagem de linguagem em larga escala facilitaram uma exploração rigorosa de sua aplicação em diversas tarefas relacionadas à modelagem de dados tabulares, como predição, síntese de dados tabulares, perguntas e respostas e compreensão de tabelas. Cada tarefa apresenta desafios e oportunidades únicos. No entanto, atualmente falta uma revisão abrangente que resuma e compare as principais técnicas, métricas, conjuntos de dados, modelos e abordagens de otimização nesse domínio de pesquisa. Este survey busca preencher essa lacuna ao consolidar o progresso recente nessas áreas, oferecendo uma análise aprofundada e uma taxonomia dos conjuntos de dados, métricas e metodologias utilizadas. Ele identifica pontos fortes, limitações, territórios inexplorados e lacunas na literatura existente, ao mesmo tempo em que fornece alguns insights para futuras direções de pesquisa nesse campo importante e em rápida evolução. Também disponibiliza referências relevantes de código e conjuntos de dados. Com esta revisão abrangente, esperamos fornecer aos leitores interessados referências pertinentes e perspectivas esclarecedoras, capacitando-os com as ferramentas e o conhecimento necessários para navegar e enfrentar com eficácia os desafios atuais da área.

Recent breakthroughs in large language modeling have facilitated rigorous exploration of their application in diverse tasks related to tabular data modeling, such as prediction, tabular data synthesis, question answering, and table understanding. Each task presents unique challenges and opportunities. However, there is currently a lack of comprehensive review that summarizes and compares the key techniques, metrics, datasets, models, and optimization approaches in this research domain. This survey aims to address this gap by consolidating recent progress in these areas, offering a thorough survey and taxonomy of the datasets, metrics, and methodologies utilized. It identifies strengths, limitations, unexplored territories, and gaps in the existing literature, while providing some insights for future research directions in this vital and rapidly evolving field. It also provides relevant code and datasets references. Through this comprehensive review, we hope to provide interested readers with pertinent references and insightful perspectives, empowering them with the necessary tools and knowledge to effectively navigate and address the prevailing challenges in the field.

Link do artigo

https://arxiv.org/abs/2402.17944

PlanGPT: melhorando o planejamento urbano com modelo de linguagem personalizado e recuperação eficiente / PlanGPT: Enhancing Urban Planning with Tailored Language Model and Efficient Retrieval

Apresentação do artigo

Mostra como aproveitar LLMs e combinar várias abordagens, como recuperação aumentada, fine-tuning, uso de ferramentas e mais; o framework proposto é aplicado ao planejamento urbano e espacial, mas há muitos insights e dicas práticas que também se aplicam a outros domínios.

Shows how to leverage llms and combine multiple approaches like retrieval augmentation, fine-tuning, tool usage, and more; the proposed framework is applied to urban and spatial planning but there are a lot of insights and practical tips that apply to other domains.

Resumo do artigo (Abstract)

Na área de planejamento urbano, modelos de linguagem de grande porte de uso geral frequentemente têm dificuldade para atender às necessidades específicas dos planejadores. Tarefas como geração de textos de planejamento urbano, recuperação de informações relacionadas e avaliação de documentos de planejamento apresentam desafios únicos. Para aumentar a eficiência dos profissionais da área urbana e superar esses obstáculos, apresentamos o PlanGPT, o primeiro modelo de linguagem de grande porte especializado e adaptado para planejamento urbano e espacial. Desenvolvido por meio de esforços colaborativos com instituições como a Academia Chinesa de Planejamento Urbano, o PlanGPT utiliza uma estrutura personalizada de recuperação em banco de dados local, ajuste fino de modelos base específico de domínio e recursos avançados de ferramentas. Testes empíricos demonstram que o PlanGPT alcançou desempenho avançado, fornecendo respostas de qualidade superior, precisamente adaptadas às complexidades do planejamento urbano.

In the field of urban planning, general-purpose large language models often struggle to meet the specific needs of planners. Tasks like generating urban planning texts, retrieving related information, and evaluating planning documents pose unique challenges. To enhance the efficiency of urban professionals and overcome these obstacles, we introduce PlanGPT, the first specialized Large Language Model tailored for urban and spatial planning. Developed through collaborative efforts with institutions like the Chinese Academy of Urban Planning, PlanGPT leverages a customized local database retrieval framework, domain-specific fine-tuning of base models, and advanced tooling capabilities. Empirical tests demonstrate that PlanGPT has achieved advanced performance, delivering responses of superior quality precisely tailored to the intricacies of urban planning.

Link do artigo

https://arxiv.org/abs/2402.19273

Texto original

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-983

Este texto foi organizado com um modelo GPT e pode conter erros, então consulte também o texto original no link ao final! Se, durante a leitura, você encontrar algo estranho ou incorreto, por favor avise nos comentários.

⚠️Publicidade⚠️: Este texto organizado pela Comunidade de Usuários PyTorch da Coreia foi útil para você? Se você se cadastrar como membro, enviaremos os principais textos por e-mail! O padrão é Weekly, mas também é possível mudar para Daily.

[2024/02/26 ~ 03/03] Os principais artigos de ML da semana (Top ML Papers of the Week)

Genie: Ambientes Interativos Generativos / Genie: Generative Interactive Environments

Introdução ao artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

Mistral Large / Mistral Large

Introdução ao artigo

Link do artigo

Leia mais

A era dos LLMs de 1 bit: todos os grandes modelos de linguagem estão em 1,58 bits / The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

Introdução ao artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

Conjuntos de dados para grandes modelos de linguagem: um survey abrangente / Datasets for Large Language Models: A Comprehensive Survey

Apresentação do artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

Fortalecendo agentes de Large Language Models por meio de action learning / Empowering Large Language Model Agents through Action Learning

Apresentação do artigo

Resumo(Abstract)

Link do artigo

Leia mais

EMO: Emote Portrait Alive — Gerando vídeos expressivos de retratos com modelo de difusão Audio2Video sob condições fracas / EMO: Emote Portrait Alive -- Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions

Introdução ao artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

Impacto social dos modelos de base abertos / On the Societal Impact of Open Foundation Models

Apresentação do artigo

Link do artigo

Leia mais

StarCoder 2 / StarCoder 2

Apresentação do artigo

Link do artigo

Leia mais

Grandes modelos de linguagem (LLMs) em dados tabulares: predição, geração e compreensão - artigo de survey / Large Language Models(LLMs) on Tabular Data: Prediction, Generation, and Understanding - A Survey

Apresentação do artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

PlanGPT: melhorando o planejamento urbano com modelo de linguagem personalizado e recuperação eficiente / PlanGPT: Enhancing Urban Planning with Tailored Language Model and Efficient Retrieval

Apresentação do artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

Texto original

Leituras relacionadas

Ainda não há comentários.