31] Os principais artigos de ML desta semana (Top ML Papers of the Week)

(discuss.pytorch.kr)

7 pontos por ninebow 2024-01-01 | Ainda não há comentários. | Compartilhar no WhatsApp

Visão geral

Fiz uma tradução automática do texto sobre os artigos de ML publicados semanalmente pela DAIR.AI.
Ao observar os artigos selecionados desta semana, parece que, no geral, predominam pesquisas centradas em grandes modelos de linguagem (Large Language Models, LLMs), como o GPT-4. Em especial, esses estudos se concentram no uso das novas APIs do GPT-4, na capacidade de recordação factual dos LLMs e em como tornar os LLMs melhores em busca mais densa e eficiente. Também estão incluídos temas como a resolução de problemas matemáticos com base em modelos de linguagem e como esses modelos podem realizar raciocínio.
Essa tendência pode estar aparecendo porque os LLMs continuam sendo um dos principais temas de pesquisa no campo da inteligência artificial. Modelos como o GPT-4 vêm ampliando seu potencial de aplicação em diversas áreas graças à sua excelente capacidade de compreensão e geração de linguagem, e pesquisas para aprimorar essa capacidade e utilizá-la de novas formas continuam sendo desenvolvidas. Estudos metodológicos concretos para melhorar o desempenho real e análises de casos de aplicação vêm surgindo como áreas importantes de pesquisa, e os artigos selecionados nesta semana parecem refletir essa tendência.
Por outro lado, pesquisas que buscam avaliar e melhorar a compreensão e a capacidade de raciocínio dos LLMs também parecem ser um tema popular. Explorar, por meio disso, formas de permitir que agentes inteligentes interajam com humanos de maneira mais natural e eficaz deve ser uma tarefa muito importante no campo da inteligência artificial. Investigar ganhos de eficiência e possibilidades de aplicação no mundo real por esse caminho deve ocupar um lugar relevante nas tendências futuras de pesquisa.

CogAgent: um modelo de linguagem visual para agentes de GUI / CogAgent: A Visual Language Model for GUI Agents

Introdução do artigo

Apresenta um modelo de linguagem visual de 18 bilhões de parâmetros especializado em compreensão e navegação de GUI, com suporte a entradas de alta resolução (1120x1120), demonstrando capacidade em tarefas como perguntas e respostas visuais, grounding visual e agentes de GUI, além de alcançar o estado da arte em 5 benchmarks ricos em texto e 4 benchmarks gerais de VQA.

Presents an 18 billion parameter visual language model specializing in gui understanding and navigation; supports high-resolution inputs (1120x1120) and shows abilities in tasks such as visual q&a, visual grounding, and gui agent; achieves state of the art on 5 text-rich and 4 general vqa benchmarks.

Resumo do artigo (Abstract)

As pessoas passam uma enorme quantidade de tempo em dispositivos digitais por meio de interfaces gráficas de usuário (GUIs), como telas de computadores ou smartphones. Grandes modelos de linguagem (LLMs), como o ChatGPT, podem ajudar em tarefas como escrever e-mails, mas têm dificuldade para compreender e interagir com GUIs, o que limita seu potencial de elevar o nível de automação. Neste artigo, apresentamos o CogAgent, um modelo de linguagem visual (VLM) de 18 bilhões de parâmetros especializado em compreensão e navegação de GUI. Ao utilizar codificadores de imagem de baixa e alta resolução, o CogAgent oferece suporte a entradas com resolução de 1120*1120, permitindo reconhecer pequenos elementos de página e textos. Como um modelo de linguagem visual generalista, o CogAgent alcançou desempenho de ponta em cinco benchmarks ricos em texto e quatro benchmarks gerais de VQA, incluindo VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet e POPE. Usando apenas capturas de tela como entrada, o CogAgent supera métodos baseados em LLM que consomem texto HTML extraído, tanto em tarefas de navegação de GUI em PC quanto em Android — Mind2Web e AITW —, avançando o estado da arte. O modelo e o código estão disponíveis em https://github.com/THUDM/CogVLM .

People are spending an enormous amount of time on digital devices through graphical user interfaces (GUIs), e.g., computer or smartphone screens. Large language models (LLMs) such as ChatGPT can assist people in tasks like writing emails, but struggle to understand and interact with GUIs, thus limiting their potential to increase automation levels. In this paper, we introduce CogAgent, an 18-billion-parameter visual language model (VLM) specializing in GUI understanding and navigation. By utilizing both low-resolution and high-resolution image encoders, CogAgent supports input at a resolution of 1120*1120, enabling it to recognize tiny page elements and text. As a generalist visual language model, CogAgent achieves the state of the art on five text-rich and four general VQA benchmarks, including VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet, and POPE. CogAgent, using only screenshots as input, outperforms LLM-based methods that consume extracted HTML text on both PC and Android GUI navigation tasks -- Mind2Web and AITW, advancing the state of the art. The model and codes are available at https://github.com/THUDM/CogVLM .

Link do artigo

https://arxiv.org/abs/2312.08914

Do Google Gemini ao OpenAI Q* (Q-Star): uma pesquisa sobre a reformulação do cenário de pesquisa em inteligência artificial (IA) generativa / From Google Gemini to OpenAI Q* (Q-Star): A Survey of Reshaping the Generative Artificial Intelligence (AI) Research Landscape

Introdução do artigo

Este relatório, que analisa mais de 300 artigos e resume os desenvolvimentos de pesquisa e desenvolvimento que merecem atenção no campo da IA generativa, aborda desafios computacionais, escalabilidade, implicações no mundo real e o potencial da IA generativa para impulsionar avanços em áreas como saúde, finanças e educação.

Surveys 300+ papers and summarizes research developments to look at in the space of generative ai; it covers computational challenges, scalability, real-world implications, and the potential for gen ai to drive progress in fields like healthcare, finance, and education.

Resumo do artigo (Abstract)

Esta pesquisa abrangente explorou o cenário em evolução da inteligência artificial (IA) generativa, com foco específico nos impactos transformadores de Mixture of Experts (MoE), aprendizado multimodal e nos avanços especulados rumo à Artificial General Intelligence (AGI). O relatório examinou criticamente o estado atual e a trajetória futura da inteligência artificial generativa, analisando como inovações como o Gemini, do Google, e o aguardado projeto Q* da OpenAI estão remodelando prioridades de pesquisa e aplicações em vários domínios, incluindo uma análise de impacto sobre a taxonomia de pesquisa em IA generativa. O estudo avaliou os desafios computacionais, a escalabilidade e as implicações no mundo real dessas tecnologias, ao mesmo tempo em que destacou seu potencial para impulsionar avanços significativos em áreas como saúde, finanças e educação. Também abordou os novos desafios acadêmicos levantados pela proliferação tanto de preprints sobre IA quanto de preprints gerados por IA, examinando seus impactos no processo de revisão por pares e na comunicação acadêmica. O trabalho destacou a importância de incorporar métodos éticos e centrados no ser humano no desenvolvimento de IA, garantindo alinhamento com normas sociais e bem-estar, e delineou uma estratégia para pesquisas futuras em IA com foco em um uso equilibrado e consciente de MoE, multimodalidade e AGI na IA generativa.

This comprehensive survey explored the evolving landscape of generative Artificial Intelligence (AI), with a specific focus on the transformative impacts of Mixture of Experts (MoE), multimodal learning, and the speculated advancements towards Artificial General Intelligence (AGI). It critically examined the current state and future trajectory of generative Artificial Intelligence (AI), exploring how innovations like Google's Gemini and the anticipated OpenAI Q* project are reshaping research priorities and applications across various domains, including an impact analysis on the generative AI research taxonomy. It assessed the computational challenges, scalability, and real-world implications of these technologies while highlighting their potential in driving significant progress in fields like healthcare, finance, and education. It also addressed the emerging academic challenges posed by the proliferation of both AI-themed and AI-generated preprints, examining their impact on the peer-review process and scholarly communication. The study highlighted the importance of incorporating ethical and human-centric methods in AI development, ensuring alignment with societal norms and welfare, and outlined a strategy for future AI research that focuses on a balanced and conscientious use of MoE, multimodality, and AGI in generative AI.

Link do artigo

https://arxiv.org/abs/2312.10868

PromptBench: biblioteca unificada para avaliação de grandes modelos de linguagem / PromptBench: A Unified Library for Evaluation of Large Language Models

Introdução ao artigo

Uma biblioteca unificada que oferece suporte à avaliação e análise abrangentes de LLMs; ela inclui funcionalidades para construção de prompts, prompt engineering, carregamento de datasets e modelos, ataques adversariais por prompt, protocolos de avaliação dinâmicos e ferramentas de análise.

A unified library that supports comprehensive evaluation and analysis of llms; it consists of functionalities for prompt construction, prompt engineering, dataset and model loading, adversarial prompt attack, dynamic evaluation protocols, and analysis tools.

Resumo do artigo (Abstract)

A avaliação de grandes modelos de linguagem (LLMs) é crucial para medir seu desempenho e mitigar potenciais riscos de segurança. Neste artigo, apresentamos o PromptBench, uma biblioteca unificada para avaliar LLMs. Ela é composta por vários componentes principais que podem ser facilmente usados e estendidos por pesquisadores: construção de prompts, prompt engineering, carregamento de datasets e modelos, ataques adversariais por prompt, protocolos de avaliação dinâmicos e ferramentas de análise. O PromptBench foi projetado como uma base de código aberta, geral e flexível para fins de pesquisa, capaz de facilitar estudos originais na criação de novos benchmarks, implantação de aplicações downstream e concepção de novos protocolos de avaliação. O código está disponível em https://github.com/microsoft/promptbench e continuará recebendo suporte.

The evaluation of large language models (LLMs) is crucial to assess their performance and mitigate potential security risks. In this paper, we introduce PromptBench, a unified library to evaluate LLMs. It consists of several key components that are easily used and extended by researchers: prompt construction, prompt engineering, dataset and model loading, adversarial prompt attack, dynamic evaluation protocols, and analysis tools. PromptBench is designed to be an open, general, and flexible codebase for research purposes that can facilitate original study in creating new benchmarks, deploying downstream applications, and designing new evaluation protocols. The code is available at: https://github.com/microsoft/promptbench and will be continuously supported.

Link do artigo

https://arxiv.org/abs/2312.07910v1

Explorando novas APIs do GPT-4 / Exploiting Novel GPT-4 APIs

Introdução ao artigo

Foi realizado um red teaming em três funcionalidades expostas nas APIs do GPT-4 — ajuste fino, chamada de funções e recuperação de conhecimento — e os principais resultados foram: 1) o ajuste fino com apenas 15 exemplos nocivos ou 100 exemplos benignos pode remover as proteções centrais do GPT-4, 2) assistentes do GPT-4 podem revelar o esquema de chamada de funções e ser induzidos a executar chamadas de função arbitrárias, e 3) a recuperação de conhecimento pode ser sequestrada por meio da injeção de instruções em documentos de recuperação.

Performs red-teaming on three functionalities exposed in the gpt-4 apis: fine-tuning, function calling, and knowledge retrieval; main findings: 1) fine-tuning on as few as 15 harmful examples or 100 benign examples can remove core safeguards from gpt-4, 2) gpt-4 assistants divulge the function call schema and can be made to execute arbitrary function calls, and 3) knowledge retrieval can be hijacked by injecting instructions into retrieval documents.

Resumo do artigo (Abstract)

Ataques a modelos de linguagem normalmente assumem um de dois modelos de ameaça extremos: acesso white-box completo aos pesos do modelo, ou acesso black-box limitado a uma API de geração de texto. No entanto, APIs do mundo real costumam ser mais flexíveis do que apenas geração de texto; essas APIs expõem um acesso “gray-box”, levando a novos vetores de ameaça. Para explorar isso, fizemos red teaming de três novas funcionalidades expostas nas APIs do GPT-4: ajuste fino, chamada de funções e recuperação de conhecimento. Descobrimos que ajustar finamente um modelo com apenas 15 exemplos nocivos ou 100 exemplos benignos pode remover proteções centrais do GPT-4, permitindo uma gama de saídas nocivas. Além disso, descobrimos que os Assistants do GPT-4 revelam prontamente o esquema de chamada de funções e podem ser induzidos a executar chamadas de função arbitrárias. Por fim, descobrimos que a recuperação de conhecimento pode ser sequestrada com a injeção de instruções em documentos de recuperação. Essas vulnerabilidades destacam que qualquer adição à funcionalidade exposta por uma API pode criar novas vulnerabilidades.

Language model attacks typically assume one of two extreme threat models: full white-box access to model weights, or black-box access limited to a text generation API. However, real-world APIs are often more flexible than just text generation: these APIs expose ``gray-box'' access leading to new threat vectors. To explore this, we red-team three new functionalities exposed in the GPT-4 APIs: fine-tuning, function calling and knowledge retrieval. We find that fine-tuning a model on as few as 15 harmful examples or 100 benign examples can remove core safeguards from GPT-4, enabling a range of harmful outputs. Furthermore, we find that GPT-4 Assistants readily divulge the function call schema and can be made to execute arbitrary function calls. Finally, we find that knowledge retrieval can be hijacked by injecting instructions into retrieval documents. These vulnerabilities highlight that any additions to the functionality exposed by an API can create new vulnerabilities.

Link do artigo

https://arxiv.org/abs/2312.14302

Recordação de fatos em LLMs / Fact Recalling in LLMs

Introdução ao artigo

Investiga como camadas MLP implementam uma tabela de consulta para recordação factual; amplia o escopo do estudo sobre como as MLPs iniciais do Pythia 2.8b consultam qual de 3 esportes diferentes vários atletas praticam; sugere que as camadas MLP iniciais atuam como uma tabela de consulta e recomenda pensar a recordação de conhecimento factual no modelo como embeddings de múltiplos tokens.

Investigates how mlp layers implement a lookup table for factual recall; scopes the study on how early mlps in pythia 2.8b look up which of 3 different sports various athletes play; suggests that early mlp layers act as a lookup table and recommends thinking about the recall of factual knowledge in the model as multi-token embeddings.

Link do artigo

https://www.alignmentforum.org/s/hpWHhjvjn67LJ4xXX/p/iGuwZTHWb6DFY3sKB

IA generativa para matemática: Parte I -- MathPile: um corpus de pré-treinamento para matemática na escala de 1 bilhão de tokens / Generative AI for Math: Part I -- MathPile: A Billion-Token-Scale Pretraining Corpus for Math

Introdução ao artigo

Apresenta um corpus diversificado e de alta qualidade centrado em matemática, composto por cerca de 9,5 bilhões de tokens, para treinar foundation models.

Presents a diverse and high-quality math-centric corpus comprising of ~9.5 billion tokens to train foundation models.

Resumo do artigo (Abstract)

Corpora de alta qualidade e em larga escala são a pedra fundamental para construir modelos fundacionais. Neste trabalho, apresentamos o ${MathPile}$, um corpus diversificado e de alta qualidade centrado em matemática, composto por cerca de 9,5 bilhões de tokens. Ao longo de sua criação, seguimos o princípio de 'menos é mais', acreditando firmemente na superioridade da qualidade dos dados sobre a quantidade, até mesmo na fase de pré-treinamento. Nossos esforços meticulosos de coleta e processamento de dados incluíram um conjunto complexo de pré-processamento, pré-filtragem, identificação de idioma, limpeza, filtragem e remoção de duplicatas, garantindo a alta qualidade do corpus. Além disso, realizamos detecção de contaminação de dados em conjuntos de teste de benchmarks downstream para eliminar duplicatas. Esperamos que o ${MathPile}$ ajude a aprimorar as capacidades de raciocínio matemático dos modelos de linguagem. Planejamos open-sourcear diferentes versões do \mathpile junto com os scripts usados no processamento, para facilitar futuros avanços nesta área.

High-quality, large-scale corpora are the cornerstone of building foundation models. In this work, we introduce ${MathPile}$, a diverse and high-quality math-centric corpus comprising about 9.5 billion tokens. Throughout its creation, we adhered to the principle of {less is more}, firmly believing in the supremacy of data quality over quantity, even in the pre-training phase. Our meticulous data collection and processing efforts included a complex suite of preprocessing, prefiltering, language identification, cleaning, filtering, and deduplication, ensuring the high quality of our corpus. Furthermore, we performed data contamination detection on downstream benchmark test sets to eliminate duplicates. We hope our ${MathPile}$ can help to enhance the mathematical reasoning abilities of language models. We plan to open-source different versions of \mathpile with the scripts used for processing, to facilitate future developments in this field.

Link do artigo

https://arxiv.org/abs/2312.17120

Só instruções baseadas em princípios bastam para questionar LLaMA-1/2, GPT-3.5/4 / Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4

Introdução do artigo

Apresenta 26 princípios orientadores desenvolvidos para simplificar o processo de consultar e fazer prompting em grandes modelos de linguagem, e aplica esses princípios em experimentos extensivos com llama-1/2 (7b, 13b, 70b), gpt-3.5/4 para verificar sua eficácia no design de instruções e prompts.

Introduces 26 guiding principles designed to streamline the process of querying and prompting large language models; applies these principles to conduct extensive experiments on llama-1/2 (7b, 13b and 70b), gpt-3.5/4 to verify their effectiveness on instructions and prompts design.

Resumo do artigo(Abstract)

Este artigo apresenta 26 princípios orientadores desenvolvidos para simplificar o processo de consultar e fazer prompting em grandes modelos de linguagem. Nosso objetivo é simplificar os conceitos fundamentais de formular perguntas para grandes modelos de linguagem de várias escalas, examinar suas capacidades e aumentar a compreensão dos usuários sobre o comportamento de grandes modelos de linguagem de diferentes escalas quando submetidos a diferentes prompts. Foram realizados experimentos extensivos com LLaMA-1/2 (7B, 13B, 70B) e GPT-3.5/4 para verificar a eficácia dos princípios propostos no design de instruções e prompts. Esperamos que este trabalho ofereça um guia melhor para pesquisadores que estudam prompting em grandes modelos de linguagem. A página do projeto está disponível em https://github.com/VILA-Lab/ATLAS.

This paper introduces 26 guiding principles designed to streamline the process of querying and prompting large language models. Our goal is to simplify the underlying concepts of formulating questions for various scales of large language models, examining their abilities, and enhancing user comprehension on the behaviors of different scales of large language models when feeding into different prompts. Extensive experiments are conducted on LLaMA-1/2 (7B, 13B and 70B), GPT-3.5/4 to verify the effectiveness of the proposed principles on instructions and prompts design. We hope that this work provides a better guide for researchers working on the prompting of large language models. Project page is available at https://github.com/VILA-Lab/ATLAS.

Link do artigo

https://arxiv.org/abs/2312.16171v1

Uma pesquisa sobre raciocínio com modelos fundacionais / A Survey of Reasoning with Foundation Models

Introdução do artigo

Fornece uma pesquisa abrangente sobre modelos fundacionais seminais para raciocínio, destacando os avanços mais recentes em várias tarefas, métodos, benchmarks e possíveis direções futuras de raciocínio; também discute como outros desenvolvimentos, como aprendizado multimodal, agentes autônomos e superalinhamento, aceleram e expandem a pesquisa em raciocínio.

Provides a comprehensive survey of seminal foundational models for reasoning, highlighting the latest advancements in various reasoning tasks, methods, benchmarks, and potential future directions; also discusses how other developments like multimodal learning, autonomous agents, and super alignment accelerate and extend reasoning research.

Resumo do artigo(Abstract)

O raciocínio, uma capacidade crucial para resolver problemas complexos, desempenha um papel central em diversos contextos do mundo real, como negociação, diagnóstico médico e investigação criminal. Ele serve como uma metodologia fundamental no campo da Inteligência Artificial Geral (AGI). Com o desenvolvimento contínuo dos foundation models, cresce o interesse em explorar suas capacidades em tarefas de raciocínio. Neste artigo, apresentamos foundation models seminais propostos ou adaptáveis para raciocínio, destacando os avanços mais recentes em várias tarefas, métodos e benchmarks de raciocínio. Em seguida, examinamos possíveis direções futuras por trás do surgimento das capacidades de raciocínio dentro dos foundation models. Também discutimos a relevância do aprendizado multimodal, de agentes autônomos e do super alignment no contexto do raciocínio. Ao discutir essas direções futuras de pesquisa, esperamos inspirar pesquisadores na exploração desse campo, estimular novos avanços em raciocínio com foundation models e contribuir para o desenvolvimento da AGI.

Reasoning, a crucial ability for complex problem-solving, plays a pivotal role in various real-world settings such as negotiation, medical diagnosis, and criminal investigation. It serves as a fundamental methodology in the field of Artificial General Intelligence (AGI). With the ongoing development of foundation models, there is a growing interest in exploring their abilities in reasoning tasks. In this paper, we introduce seminal foundation models proposed or adaptable for reasoning, highlighting the latest advancements in various reasoning tasks, methods, and benchmarks. We then delve into the potential future directions behind the emergence of reasoning abilities within foundation models. We also discuss the relevance of multimodal learning, autonomous agents, and super alignment in the context of reasoning. By discussing these future research directions, we hope to inspire researchers in their exploration of this field, stimulate further advancements in reasoning with foundation models, and contribute to the development of AGI.

Link do artigo

https://arxiv.org/abs/2312.11562v4

Tornando grandes modelos de linguagem uma base melhor para recuperação densa / Making Large Language Models A Better Foundation For Dense Retrieval

Apresentação do artigo

Propõe o LLaRA para adaptar LLMs à recuperação densa. Ele é composto por duas tarefas de pré-texto, EBAE (embedding-based auto-encoding) e EBAR (embedding-based auto-regression), nas quais os embeddings de texto do LLM são usados para reconstruir os tokens da sentença de entrada e prever os tokens da próxima sentença, respectivamente; um llama-2-7b apresentou melhora em benchmarks como MSMARCO e BEIR.

Proposes llara which adapts an llm for dense retrieval; it consists of two pretext tasks: ebae (embedding-based auto-encoding) and ebar (embedding-based auto-regression), where the text embeddings from llm are used to reconstruct the tokens for the input sentence and predict the tokens for the next sentence, respectively; a llama-2-7b was improved on benchmarks like msmarco and beir.

Resumo do artigo (Abstract)

A recuperação densa precisa aprender embeddings de texto discriminativos para representar a relação semântica entre consulta e documento. Ela pode se beneficiar do uso de LLMs (grandes modelos de linguagem), dada a forte capacidade desses modelos de compreender semântica. No entanto, os LLMs são pré-treinados com tarefas de geração de texto, cujo padrão de funcionamento é completamente diferente de representar textos como embeddings. Como resultado, é essencial estudar como adaptar adequadamente os LLMs para que possam ser inicializados de forma eficaz como encoder backbone para recuperação densa. Neste artigo, propomos uma nova abordagem chamada LLaRA (LLM adapted for dense RetrievAl), que funciona como uma adaptação post-hoc de LLMs para a aplicação de recuperação densa. O LLaRA consiste em duas tarefas de pré-texto: EBAE (Embedding-Based Auto-Encoding) e EBAR (Embedding-Based Auto-Regression), nas quais os embeddings de texto do LLM são usados para reconstruir os tokens da sentença de entrada e prever os tokens da próxima sentença, respectivamente. O LLaRA se mostrou simples, leve e altamente eficaz. Ele foi aplicado para adaptar o LLaMA-2-7B (base) no corpus da Wikipedia, melhorando substancialmente o desempenho ajustado do modelo em uma variedade de benchmarks de recuperação densa, como MSMARCO e BEIR. O modelo e o código serão disponibilizados publicamente no repositório BGE.

Dense retrieval needs to learn discriminative text embeddings to represent the semantic relationship between query and document. It may benefit from the using of large language models (LLMs), given LLMs' strong capability on semantic understanding. However, the LLMs are pre-trained by text generation tasks, whose working pattern is completely different from representing texts as embeddings. As a result, it is imperative to study how to adapt LLMs properly so that they can be effectively initialized as the backbone encoder for dense retrieval. In this paper, we propose a novel approach, called LLaRA (LLM adapted for dense RetrievAl), which works as a post-hoc adaptation of LLM for the dense retrieval application. LLaRA consists of two pretext tasks: EBAE (Embedding-Based Auto-Encoding) and EBAR (Embedding-Based Auto-Regression), where the text embeddings from LLM are used to reconstruct the tokens for the input sentence and predict the tokens for the next sentence, respectively. LLaRA turns out to be simple, lightweight, and highly effective. It is applied to adapt LLaMA-2-7B (base) on the Wikipedia corpus, where it substantially improves the model's fine-tuned performances on a variety of dense retrieval benchmarks, like MSMARCO and BEIR. Our model and code will be made publicly available at BGE repository.

Link do artigo

https://arxiv.org/abs/2312.15503v1

Gemini e GPT-4V: comparação preliminar e combinação de modelos de visão-linguagem por meio de casos qualitativos / Gemini vs GPT-4V: A Preliminary Comparison and Combination of Vision-Language Models Through Qualitative Cases

Apresentação do artigo

Por meio de alguns casos qualitativos, foi realizada uma comparação preliminar abrangente e uma combinação de modelos de visão-linguagem como Gemini e GPT-4V, constatando que o GPT-4V fornece respostas precisas e concisas, enquanto o Gemini se destaca por oferecer respostas detalhadas e amplas, acompanhadas de imagens e links relevantes.

Provides a comprehensive preliminary comparison and combination of vision-language models like gemini and gpt-4v through several qualitative cases; finds that gpt-4v is precise and succinct in responses, while gemini excels in providing detailed, expansive answers accompanied by relevant imagery and links.

Resumo do artigo (Abstract)

O setor de modelos de linguagem de grande porte multimodais (MLLMs), em rápida evolução, está na vanguarda da integração entre processamento linguístico e visual na inteligência artificial. Este artigo apresenta um estudo comparativo aprofundado de dois modelos pioneiros: o Gemini, do Google, e o GPT-4V(ision), da OpenAI. O estudo envolve uma avaliação multifacetada dos dois modelos em dimensões-chave, como capacidade de visão-linguagem, interação com humanos, compreensão temporal e avaliações tanto de quociente de inteligência quanto de quociente emocional. O núcleo da análise investiga as distintas capacidades de compreensão visual de cada modelo. Foi realizada uma série de experimentos estruturados para avaliar seu desempenho em vários cenários de aplicação industrial, oferecendo uma perspectiva abrangente sobre sua utilidade prática. Além das comparações diretas de desempenho, também foram incluídos ajustes em prompts e cenários para garantir uma análise equilibrada e justa. Os resultados destacam os pontos fortes e nichos específicos de ambos os modelos. O GPT-4V se diferencia por suas respostas precisas e concisas, enquanto o Gemini se destaca por fornecer respostas detalhadas e amplas, acompanhadas de imagens e links relevantes. Esses entendimentos não apenas esclarecem os méritos comparativos de Gemini e GPT-4V, como também ressaltam o cenário em evolução dos modelos fundacionais multimodais, abrindo caminho para avanços futuros nessa área. Após a comparação, buscou-se obter resultados melhores combinando os dois modelos. Por fim, os autores expressam profunda gratidão às equipes por trás do GPT-4V e do Gemini por suas contribuições pioneiras para a área. Também estendem seus agradecimentos à análise qualitativa abrangente apresentada em 'Dawn', de Yang et al. Esse trabalho, com sua extensa coleção de amostras de imagens, prompts e resultados relacionados ao GPT-4V, forneceu uma base fundamental para a análise.

The rapidly evolving sector of Multi-modal Large Language Models (MLLMs) is at the forefront of integrating linguistic and visual processing in artificial intelligence. This paper presents an in-depth comparative study of two pioneering models: Google's Gemini and OpenAI's GPT-4V(ision). Our study involves a multi-faceted evaluation of both models across key dimensions such as Vision-Language Capability, Interaction with Humans, Temporal Understanding, and assessments in both Intelligence and Emotional Quotients. The core of our analysis delves into the distinct visual comprehension abilities of each model. We conducted a series of structured experiments to evaluate their performance in various industrial application scenarios, offering a comprehensive perspective on their practical utility. We not only involve direct performance comparisons but also include adjustments in prompts and scenarios to ensure a balanced and fair analysis. Our findings illuminate the unique strengths and niches of both models. GPT-4V distinguishes itself with its precision and succinctness in responses, while Gemini excels in providing detailed, expansive answers accompanied by relevant imagery and links. These understandings not only shed light on the comparative merits of Gemini and GPT-4V but also underscore the evolving landscape of multimodal foundation models, paving the way for future advancements in this area. After the comparison, we attempted to achieve better results by combining the two models. Finally, We would like to express our profound gratitude to the teams behind GPT-4V and Gemini for their pioneering contributions to the field. Our acknowledgments are also extended to the comprehensive qualitative analysis presented in 'Dawn' by Yang et al. This work, with its extensive collection of image samples, prompts, and GPT-4V-related results, provided a foundational basis for our analysis.

Link do artigo

https://arxiv.org/abs/2312.15011v1

Texto original

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-1d3

[2023/12/25 ~ 12/31] Os principais artigos de ML desta semana (Top ML Papers of the Week)

Visão geral

CogAgent: um modelo de linguagem visual para agentes de GUI / CogAgent: A Visual Language Model for GUI Agents

Introdução do artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

Do Google Gemini ao OpenAI Q* (Q-Star): uma pesquisa sobre a reformulação do cenário de pesquisa em inteligência artificial (IA) generativa / From Google Gemini to OpenAI Q* (Q-Star): A Survey of Reshaping the Generative Artificial Intelligence (AI) Research Landscape

Introdução do artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

PromptBench: biblioteca unificada para avaliação de grandes modelos de linguagem / PromptBench: A Unified Library for Evaluation of Large Language Models

Introdução ao artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

Explorando novas APIs do GPT-4 / Exploiting Novel GPT-4 APIs

Introdução ao artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

Recordação de fatos em LLMs / Fact Recalling in LLMs

Introdução ao artigo

Link do artigo

Leia mais

IA generativa para matemática: Parte I -- MathPile: um corpus de pré-treinamento para matemática na escala de 1 bilhão de tokens / Generative AI for Math: Part I -- MathPile: A Billion-Token-Scale Pretraining Corpus for Math

Introdução ao artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

Só instruções baseadas em princípios bastam para questionar LLaMA-1/2, GPT-3.5/4 / Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4

Introdução do artigo

Resumo do artigo(Abstract)

Link do artigo

Leia mais

Uma pesquisa sobre raciocínio com modelos fundacionais / A Survey of Reasoning with Foundation Models

Introdução do artigo

Resumo do artigo(Abstract)

Link do artigo

Leia mais

Tornando grandes modelos de linguagem uma base melhor para recuperação densa / Making Large Language Models A Better Foundation For Dense Retrieval

Apresentação do artigo

Resumo do artigo (Abstract)

Link do artigo

Gemini e GPT-4V: comparação preliminar e combinação de modelos de visão-linguagem por meio de casos qualitativos / Gemini vs GPT-4V: A Preliminary Comparison and Combination of Vision-Language Models Through Qualitative Cases

Apresentação do artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

Texto original

Leituras relacionadas

Ainda não há comentários.