02 de 2024] Principais Papers de ML da Semana (Top ML Papers of the Week)

(discuss.pytorch.kr)

2 pontos por ninebow 2024-02-19 | Ainda não há comentários. | Compartilhar no WhatsApp

Visão geral

Tentei traduzir automaticamente os textos sobre os papers de ML divulgados semanalmente pela DAIR.AI.
Os papers selecionados desta semana refletem as tendências de pesquisa mais recentes em processamento de linguagem natural, redes neurais profundas e aprendizado por reforço. Também chamaram atenção os trabalhos sobre tecnologia de Processamento de Linguagem Natural (NLP). Além disso, os termos "World Model" e "neural network trainability" parecem estar relacionados a aspectos teóricos de aprendizado por reforço ou de redes neurais profundas.
Recentemente, o campo de IA tem mostrado grande interesse no avanço de modelos de linguagem em grande escala. Isso acontece desde que modelos como o GPT-3 demonstraram desempenho impressionante em diversas tarefas baseadas em linguagem, fazendo com que a tecnologia de NLP se tornasse um tema importante tanto em pesquisa teórica quanto em aplicações práticas. Modelos de linguagem em larga escala podem ser usados em várias tarefas de NLP, como tradução, sumarização, resposta a perguntas e escrita generativa, e há uma pesquisa ativa sobre como entender e melhorar esses modelos.
Além disso, conceitos como "neural network trainability" e "World Model" sugerem pesquisas em novas tecnologias para treinar redes neurais profundas de forma mais eficiente e modelar ambientes mais complexos. No aprendizado por reforço, o foco está em desenvolver a capacidade do agente de resolver problemas cada vez mais complexos por meio de modelos de ambiente mais sofisticados, o que também é uma tendência importante na pesquisa moderna de IA.
Este texto foi organizado com um modelo GPT, então pode haver pontos incorretos, então confira também o texto original mais abaixo! Se encontrar algo estranho ou errado enquanto lê, por favor, avise nos comentários.

Sora da OpenAI

Apresentação do paper

Um modelo de IA texto-para-vídeo que pode gerar cenas realistas e imaginativas de até um minuto a partir de instruções de texto; é capaz de criar cenas complexas com múltiplos personagens, diferentes tipos de movimento e cenários de fundo, além de entender como eles se relacionam; também possui recursos como criar múltiplos takes em um único vídeo mantendo a consistência de personagens e estilo visual.

A text-to-video ai model that can create videos of up to a minute of realistic and imaginative scenes given text instructions; it can generate complex scenes with multiple characters, different motion types, and backgrounds, and understand how they relate to each other; other capabilities include creating multiple shots within a single video with persistence across characters and visual style.

Link do paper

https://openai.com/research/…

Gemini 1.5 / Gemini 1.5

Apresentação do paper

Um modelo de mistura de especialistas multimodal e eficiente em computação que se concentra em capacidades como recuperação e raciocínio sobre conteúdos de formato longo; pode raciocinar sobre documentos longos contendo potencialmente milhões de tokens, incluindo horas de vídeo e áudio; melhora o desempenho de ponta em QA de documentos longos, QA de vídeos longos e ASR com contexto longo. O Gemini 1.5 Pro corresponde ou supera o Gemini 1.0 Ultra em benchmarks padrão e alcança recuperação quase perfeita (>99%) de, pelo menos, 10 milhões de tokens, um avanço significativo em comparação com outros LLMs de longo contexto.

A compute-efficient multimodal mixture-of-experts model that focuses on capabilities such as recalling and reasoning over long-form content; it can reason over long documents potentially containing millions of tokens, including hours of video and audio; improves the state-of-the-art performance in long-document qa, long-video qa, and long-context asr. gemini 1.5 pro matches or outperforms gemini 1.0 ultra across standard benchmarks and achieves near-perfect retrieval (>99%) up to at least 10 million tokens, a significant advancement compared to other long-context llms.

Link do paper

https://storage.googleapis.com/deepmind-media/gemini/…

V-JEPA

Apresentação do paper

Um conjunto de modelos de visão treinado com objetivo de predição de características usando 2 milhões de vídeos; depende de aprendizado auto-supervisionado e não utiliza encoders de imagem pré-treinados, texto, exemplos negativos, reconstrução ou outras fontes de supervisão; afirma alcançar representações visuais versáteis que têm bom desempenho tanto em tarefas baseadas em movimento quanto em aparência, sem adaptar os parâmetros do modelo.

Resumo do paper (Abstract)

Este trabalho explora a predição de características como um objetivo independente para aprendizado não supervisionado a partir de vídeo e apresenta o V-JEPA, uma coleção de modelos de visão treinados usando exclusivamente um objetivo de predição de características, sem o uso de codificadores de imagem pré-treinados, texto, exemplos negativos, reconstrução ou outras fontes de supervisão. Os modelos foram treinados em 2 milhões de vídeos coletados de conjuntos de dados públicos e avaliados em tarefas de imagem e vídeo downstream. Como resultado, nossos achados mostram que aprender por meio da predição de características de vídeo produz representações visuais versáteis com bom desempenho tanto em tarefas baseadas em movimento quanto em aparência, sem ajuste dos parâmetros do modelo; por exemplo, nosso maior modelo treinado apenas com vídeos, um ViT-H/16, usando backbone congelado, alcança 81,9% no Kinetics-400, 72,2% no Something-Something-v2 e 77,9% no ImageNet1K.

This paper explores feature prediction as a stand-alone objective for unsupervised learning from video and introduces V-JEPA, a collection of vision models trained solely using a feature prediction objective, without the use of pretrained image encoders, text, negative examples, reconstruction, or other sources of supervision. The models are trained on 2 million videos collected from public datasets and are evaluated on downstream image and video tasks. Our results show that learning by predicting video features leads to versatile visual representations that perform well on both motion and appearance-based tasks, without adaption of the model’s parameters; e.g., using a frozen backbone, our largest model, a ViT-H/16 trained only on videos, obtains 81.9% on Kinetics-400, 72.2% on Something-Something-v2, and 77.9% on ImageNet1K.

Link do artigo

https://ai.meta.com/research/publications/…

Leituras adicionais

https://ai.meta.com/blog/…

https://github.com/facebookresearch/jepa

https://x.com/AIatMeta/status/1758176023588577326

LWM (Large World Model): modelo de vídeo e linguagem com RingAttention para até um milhão de tokens

Apresentação do paper

Um modelo multimodal de propósito geral com contexto de 1M treinado em vídeos longos e livros com RingAttention, define novos benchmarks em tarefas difíceis de busca e em compreensão de vídeos longos, usa "masked sequence packing" para misturar diferentes comprimentos de sequência, ponderação de perda e um conjunto de dados de QA gerado pelo modelo para chat de sequência longa, além de open-source uma família de modelos de 7B parâmetros capaz de processar texto e vídeos longos com mais de 1M tokens.

A general-purpose 1m context multimodal model trained on long videos and books using ringattention; sets new benchmarks in difficult retrieval tasks and long video understanding; uses masked sequence packing for mixing different sequence lengths, loss weighting, and model-generated qa dataset for long sequence chat; open-sources a family of 7b parameter models that can process long text and videos of over 1m tokens.

Resumo (Abstract)

Os modelos de linguagem atuais têm limitações para entender aspectos do mundo que não podem ser facilmente descritos em palavras e enfrentam dificuldades com tarefas complexas e de formato longo. As sequências de vídeo fornecem informações temporais valiosas ausentes na linguagem e em imagens estáticas, tornando-as atraentes para a modelagem conjunta com linguagem. Tais modelos poderiam desenvolver uma compreensão tanto do conhecimento textual humano quanto do mundo físico, implementando capacidades de IA mais amplas para auxiliar pessoas. No entanto, aprender com milhões de sequências de vídeo e linguagem enfrenta desafios devido a restrições de memória, complexidade computacional e conjuntos de dados limitados. Para enfrentar esses desafios, curamos um grande conjunto de dados com vídeos e livros diversos, utilizamos a técnica RingAttention para treinar em sequências longas de forma escalável e aumentamos gradualmente o tamanho do contexto de 4K para 1 milhão de tokens. Este trabalho apresenta as seguintes contribuições: (a) Maior rede neural com maior tamanho de contexto: treinamos um dos maiores transformers em termos de contexto para sequências longas de vídeo e linguagem, estabelecendo novos benchmarks em tarefas difíceis de recuperação e em compreensão de vídeos longos. (b) Soluções para superar desafios de aprendizado visão-linguagem, incluindo uso de sequence packing mascarado para misturar diferentes comprimentos de sequência, ponderação de perda para equilibrar linguagem e visão, e um conjunto de dados de QA gerado pelo modelo para chat em sequência longa. (c) Implementação altamente otimizada com RingAttention, sequence packing mascarado e outros recursos principais para treinar em sequências multimodais com milhões de comprimentos. (d) Open-source completo de uma família de modelos de 7B parâmetros capaz de processar documentos de texto longos (LWM-Text, LWM-Text-Chat) com mais de 1 milhão de tokens e vídeos (LWM, LWM-Chat). Este trabalho abre caminho para treinamento em conjuntos massivos de dados de vídeo e linguagem longos para desenvolver entendimento tanto do conhecimento humano quanto do mundo multimodal, e capacidades mais amplas.

Current language models fall short in understanding aspects of the world not easily described in words, and struggle with complex, long-form tasks. Video sequences offer valuable temporal information absent in language and static images, making them attractive for joint modeling with language. Such models could develop an understanding of both human textual knowledge and the physical world, enabling broader AI capabilities for assisting humans. However, learning from millions of tokens of video and language sequences poses challenges due to memory constraints, computational complexity, and limited datasets. To address these challenges, we curate a large dataset of diverse videos and books, utilize the RingAttention technique to scalably train on long sequences, and gradually increase context size from 4K to 1M tokens. This paper makes the following contributions: (a) Largest context size neural network: We train one of the largest context size transformers on long video and language sequences, setting new benchmarks in difficult retrieval tasks and long video understanding. (b) Solutions for overcoming vision-language training challenges, including using masked sequence packing for mixing different sequence lengths, loss weighting to balance language and vision, and model-generated QA dataset for long sequence chat. (c) A highly-optimized implementation with RingAttention, masked sequence packing, and other key features for training on millions-length multimodal sequences. (d) Fully open-sourced a family of 7B parameter models capable of processing long text documents (LWM-Text, LWM-Text-Chat) and videos (LWM, LWM-Chat) of over 1M tokens. This work paves the way for training on massive datasets of long video and language to develop understanding of both human knowledge and the multimodal world, and broader capabilities.

Links do artigo

https://arxiv.org/abs/2402.08268

Mais links

https://largeworldmodel.github.io/

https://huggingface.co/LargeWorldModel

https://x.com/haoliuhl/status/1757828392362389999

A fronteira de treinabilidade de redes neurais é fractal / The boundary of neural network trainability is fractal

Visão geral do paper

Encontramos que a fronteira entre configurações de hiperparâmetros de redes neurais treináveis e não treináveis é fractal, observando paisagens fractais de hiperparâmetros para toda configuração de rede neural e redes lineares profundas; também observamos que os melhores hiperparâmetros de desempenho estão no limite da estabilidade.

Finds that the boundary between trainable and untrainable neural network hyperparameter configurations is fractal; observes fractal hyperparameter landscapes for every neural network configuration and deep linear networks; also observes that the best-performing hyperparameters are at the end of stability.

Resumo (Abstract)

Por exemplo, alguns fractais relacionados ao conjunto de Mandelbrot e ao conjunto de Julia quadrático são calculados pela iteração de uma função e pela identificação da fronteira entre hiperparâmetros para os quais a sequência resultante diverge ou permanece limitada. O treinamento de redes neurais também funciona de modo semelhante, aplicando repetidamente uma função de atualização (por exemplo, passos repetidos de descida de gradiente), o que pode resultar em comportamento convergente ou divergente e pode ser extremamente sensível a pequenas mudanças nos hiperparâmetros. Inspirados por essa similaridade, examinamos experimentalmente a fronteira entre hiperparâmetros de redes neurais que levam a treinamento estável e treinamento divergente. Em todas as configurações testadas, descobrimos que essa fronteira possui formato fractal em escalas de mais de dez ordens de grandeza.

Some fractals -- for instance those associated with the Mandelbrot and quadratic Julia sets -- are computed by iterating a function, and identifying the boundary between hyperparameters for which the resulting series diverges or remains bounded. Neural network training similarly involves iterating an update function (e.g. repeated steps of gradient descent), can result in convergent or divergent behavior, and can be extremely sensitive to small changes in hyperparameters. Motivated by these similarities, we experimentally examine the boundary between neural network hyperparameters that lead to stable and divergent training. We find that this boundary is fractal over more than ten decades of scale in all tested configurations.

Link do paper

https://arxiv.org/abs/2402.06184

OS-Copilot: Rumo a agentes de computador generalistas por meio de autoaperfeiçoamento / OS-Copilot: Towards Generalist Computer Agents with Self-Improvement

Apresentação do paper

Um framework para construir agentes de computador generalistas que interagem com elementos centrais de sistemas operacionais como Linux ou macOS; também propõe um agente encarnado de autoaperfeiçoamento para automatizar tarefas gerais de computador. Esse agente supera os métodos anteriores em 35% no benchmark de assistentes de IA geral (GAIA).

a framework to build generalist computer agents that interface with key elements of an operating system like linux or macos; it also proposes a self-improving embodied agent for automating general computer tasks; this agent outperforms the previous methods by 35% on the general ai assistants (gaia) benchmark.

Resumo (Abstract)

A interação autônoma com o computador é um desafio de longa data com grande potencial, e a recente proliferação de grandes modelos de linguagem (LLMs) acelerou de forma significativa o progresso na construção de agentes digitais. No entanto, a maioria desses agentes é projetada para interagir com um domínio restrito, como um software ou site específico. Esse foco estreito limita sua aplicabilidade para tarefas gerais de computador. Assim, apresentamos o OS-Copilot, um framework para construir agentes generalistas capazes de interagir com elementos abrangentes de um sistema operacional (OS), incluindo web, terminais de código, arquivos, multimídia e diversos aplicativos de terceiros. Utilizamos o OS-Copilot para criar o FRIDAY, um agente encarnado de autoaperfeiçoamento para automatizar tarefas gerais de computador. No GAIA, um benchmark de assistentes gerais de IA, o FRIDAY supera os métodos anteriores em 35%, demonstrando forte capacidade de generalização para aplicações não vistas por meio de habilidades acumuladas em tarefas anteriores. Também apresentamos evidências numéricas e quantitativas de que o FRIDAY aprende a controlar e se autoaperfeiçoar no Excel e no PowerPoint com supervisão mínima. A estrutura do OS-Copilot e os achados empíricos fornecem infraestrutura e insights para pesquisas futuras em direção a agentes de computador mais capazes e de propósito geral.

Link do paper

https://arxiv.org/abs/2402.07456

TestGen-LLM: Melhoria de testes unitários automatizados usando grandes modelos de linguagem no Meta / Automated Unit Test Improvement using Large Language Models at Meta

Apresentação do paper

Relata que, após uma avaliação nos produtos Reels e Stories do Instagram, 75% dos casos de teste do TestGen-LLM foram construídos corretamente, 57% passaram de maneira consistente e houve aumento de 25% na cobertura.

Uses llms to automatically improve existing human-written tests; reports that after an evaluation on reels and stories products for instagram, 75% of testgen-llm's test cases were built correctly, 57% passed reliably, and 25% increased coverage.

Resumo (Abstract)

Este trabalho descreve a ferramenta TestGen-LLM da Meta, que usa LLMs para melhorar automaticamente testes existentes escritos por humanos. O TestGen-LLM verifica se suas classes de teste geradas passam com sucesso por um conjunto de filtros que garantem uma melhoria mensurável em relação à suíte de testes original, eliminando assim problemas causados por alucinações de LLM. Explicamos como foi feito o deploy do TestGen-LLM nos test-a-thons da Meta para as plataformas Instagram e Facebook. Na avaliação dos produtos Reels e Stories do Instagram, 75% dos casos de teste do TestGen-LLM foram construídos corretamente, 57% passaram com confiabilidade, e 25% aumentaram a cobertura. No test-a-thon do Instagram e Facebook da Meta, essa solução melhorou 11,5% de todas as classes às quais foi aplicada, e 73% das recomendações feitas pelos engenheiros de software da Meta foram aceitas para implantação em produção. Acreditamos que este é o primeiro relatório sobre implantação em escala industrial de código gerado por LLM com tais garantias de melhoria de código.

This paper describes Meta's TestGen-LLM tool, which uses LLMs to automatically improve existing human-written tests. TestGen-LLM verifies that its generated test classes successfully clear a set of filters that assure measurable improvement over the original test suite, thereby eliminating problems due to LLM hallucination. We describe the deployment of TestGen-LLM at Meta test-a-thons for the Instagram and Facebook platforms. In an evaluation on Reels and Stories products for Instagram, 75% of TestGen-LLM's test cases built correctly, 57% passed reliably, and 25% increased coverage. During Meta's Instagram and Facebook test-a-thons, it improved 11.5% of all classes to which it was applied, with 73% of its recommendations being accepted for production deployment by Meta software engineers. We believe this is the first report on industrial scale deployment of LLM-generated code backed by such assurances of code improvement.

Link do paper

https://arxiv.org/abs/2402.09171

ChemLLM: Modelo de Linguagem de Grande Escala para Química / ChemLLM: A Chemical Large Language Model

Apresentação do artigo

É um LLM dedicado, treinado para tarefas relacionadas à química; afirma superar o GPT-3.5 em tarefas principais, como conversão de nomes, legendagem molecular e previsão de reação, e também superar o GPT-4 em dois desses trabalhos.

A dedicated llm trained for chemistry-related tasks; claims to outperform gpt-3.5 on principal tasks such as name conversion, molecular caption, and reaction prediction; it also surpasses gpt-4 on two of these tasks.

Resumo (Abstract)

Modelos de linguagem de grande escala (LLMs) fizeram avanços impressionantes em aplicações de química, incluindo predição de propriedades moleculares, geração de moléculas, projeto de protocolos experimentais e outras áreas. No entanto, a comunidade ainda carece de um modelo baseado em diálogo projetado especificamente para química. Esse desafio surge porque a maior parte dos dados químicos e do conhecimento científico está principalmente armazenada em bancos de dados estruturados, e o uso direto desses dados estruturados prejudica a capacidade do modelo de manter um diálogo coerente. Para enfrentar essa questão, desenvolvemos um novo método de construção de instruções baseado em templates que transforma conhecimento estruturado em diálogo simples, tornando-o adequado para o treinamento de modelos de linguagem. Com essa abordagem, desenvolvemos o ChemLLM, o primeiro modelo de linguagem de grande escala dedicado à química, capaz de realizar diversas tarefas em toda a área química com interação dialogal fluida. O ChemLLM supera o GPT-3.5 nas três principais tarefas de química, ou seja, conversão de nomes, legenda molecular e predição de reações, e supera o GPT-4 em duas delas. Surpreendentemente, o ChemLLM também mostra notável adaptabilidade a tarefas matemáticas e físicas relacionadas, apesar de ter sido treinado principalmente em corpora voltados à química. Além disso, o ChemLLM demonstra competência em tarefas especializadas de NLP na química, como tradução de literatura e programação quimioinformática. O ChemLLM abre uma nova via de exploração nos estudos químicos, enquanto nosso método de integrar conhecimento químico estruturado em sistemas de diálogo abre uma nova fronteira para desenvolver LLMs em vários campos científicos. Códigos, conjuntos de dados e pesos do modelo estão publicamente acessíveis em hf.co/AI4Chem/ChemLLM-7B-Chat.

Large language models (LLMs) have made impressive progress in chemistry applications, including molecular property prediction, molecular generation, experimental protocol design, etc. However, the community lacks a dialogue-based model specifically designed for chemistry. The challenge arises from the fact that most chemical data and scientific knowledge are primarily stored in structured databases, and the direct use of these structured data compromises the model's ability to maintain coherent dialogue. To tackle this issue, we develop a novel template-based instruction construction method that transforms structured knowledge into plain dialogue, making it suitable for language model training. By leveraging this approach, we develop ChemLLM, the first large language model dedicated to chemistry, capable of performing various tasks across chemical disciplines with smooth dialogue interaction. ChemLLM beats GPT-3.5 on all three principal tasks in chemistry, i.e., name conversion, molecular caption, and reaction prediction, and surpasses GPT-4 on two of them. Remarkably, ChemLLM also shows exceptional adaptability to related mathematical and physical tasks despite being trained mainly on chemical-centric corpora. Furthermore, ChemLLM demonstrates proficiency in specialized NLP tasks within chemistry, such as literature translation and cheminformatic programming. ChemLLM opens up a new avenue for exploration within chemical studies, while our method of integrating structured chemical knowledge into dialogue systems sets a new frontier for developing LLMs across various scientific fields. Codes, Datasets, and Model weights are publicly accessible at hf.co/AI4Chem/ChemLLM-7B-Chat.

Links do artigo

https://arxiv.org/abs/2402.06852

Leitura complementar

https://hf.co/AI4Chem/ChemLLM-7B-Chat

https://x.com/omarsar0/status/1757246740539773165

Modelos de Linguagem de Grande Escala: Uma Revisão / Large Language Models: A Survey

Introdução do artigo

Revisamos três famílias populares de LLMs (GPT, Llama, PaLM), suas características, contribuições e limitações; resumimos recursos e técnicas desenvolvidas para construir e aprimorar LLMs; também discutimos conjuntos de dados populares para treinamento, ajuste fino e avaliação de LLMs, além de métricas de avaliação de LLM; e concluímos com desafios não resolvidos e direções futuras de pesquisa.

Reviews three popular families of llms (gpt, llama, palm), their characteristics, contributions, and limitations; includes a summary of capabilities and techniques developed to build and augment llm; it also discusses popular datasets for llm training, fine-tuning, and evaluation, and llm evaluation metrics; concludes with open challenges and future research directions.

Resumo do artigo (Abstract)

Os modelos de linguagem de grande escala (LLM) ganharam muita atenção desde o lançamento do ChatGPT, em novembro de 2022, graças ao forte desempenho em diversas tarefas de linguagem natural. A capacidade de compreensão e geração de linguagem de uso geral dos LLMs é adquirida treinando bilhões de parâmetros do modelo em quantidades massivas de dados de texto, conforme previsto pelas leis de escala \cite{kaplan2020scaling,hoffmann2022training}. A área de pesquisa em LLMs, embora recente, está evoluindo rapidamente de várias maneiras. Neste artigo, revisamos alguns dos LLMs mais proeminentes, incluindo três famílias populares (GPT, LLaMA, PaLM), e discutimos suas características, contribuições e limitações. Também apresentamos uma visão geral das técnicas desenvolvidas para construir e aprimorar LLMs. Em seguida, investigamos os conjuntos de dados populares preparados para treinamento, ajuste fino e avaliação de LLMs, revisamos métricas de avaliação de LLM amplamente utilizadas e comparamos o desempenho de vários LLMs populares em um conjunto de benchmarks representativos. Por fim, concluímos o artigo discutindo os desafios em aberto e as futuras direções de pesquisa.

Large Language Models (LLMs) have drawn a lot of attention due to their strong performance on a wide range of natural language tasks, since the release of ChatGPT in November 2022. LLMs' ability of general-purpose language understanding and generation is acquired by training billions of model's parameters on massive amounts of text data, as predicted by scaling laws \cite{kaplan2020scaling,hoffmann2022training}. The research area of LLMs, while very recent, is evolving rapidly in many different ways. In this paper, we review some of the most prominent LLMs, including three popular LLM families (GPT, LLaMA, PaLM), and discuss their characteristics, contributions and limitations. We also give an overview of techniques developed to build, and augment LLMs. We then survey popular datasets prepared for LLM training, fine-tuning, and evaluation, review widely used LLM evaluation metrics, and compare the performance of several popular LLMs on a set of representative benchmarks. Finally, we conclude the paper by discussing open challenges and future research directions.

Link do artigo

https://arxiv.org/abs/2402.06196

Leitura extra

https://x.com/omarsar0/status/1757049645119799804

Agentes de LLM podem hackear websites autonomamente / LLM Agents can Autonomously Hack Websites

Apresentação do artigo

O estudo mostra que agentes de LLM podem hackear websites automaticamente e executar tarefas como injeção de SQL sem feedback humano ou conhecimento prévio explícito sobre a vulnerabilidade. Isso é viabilizado pelo uso de ferramentas e pelas capacidades de contexto longo de um LLM; mostra que o GPT-4 é capaz desse tipo de invasão, incluindo localizar vulnerabilidades em sites no ambiente real, enquanto modelos de código aberto não demonstraram as mesmas capacidades.

Shows that llm agents can automatically hack websites and perform tasks like sql injections without human feedback or explicit knowledge about the vulnerability beforehand; this is enabled by an llm’s tool usage and long context capabilities; shows that gpt-4 is capable of such hacks, including finding vulnerabilities in websites in the wild; open-source models did not show the same capabilities.

Resumo (Abstract)

Nos últimos anos, os modelos de linguagem de grande escala (LLMs) tornaram-se progressivamente mais capazes e agora conseguem interagir com ferramentas (ou seja, fazer chamadas de função), ler documentos e chamar a si mesmos de forma recursiva. Como resultado, esses LLMs podem atuar autonomamente como agentes. Com o aumento das capacidades desses agentes, pesquisas recentes especularam como eles afetariam a cibersegurança. No entanto, ainda se sabe pouco sobre as capacidades ofensivas de agentes LLM. Neste trabalho, demonstramos que agentes de LLM podem hackear websites de forma autônoma, realizando tarefas complexas como extração cega de esquema de banco de dados e injeções de SQL sem feedback humano. Um ponto importante é que o agente não precisa conhecer a vulnerabilidade com antecedência. Essa capacidade é habilitada de forma exclusiva por modelos de ponta altamente capazes no uso de ferramentas e no aproveitamento de contexto estendido. Em outras palavras, mostramos que o GPT-4 é capaz dessas invasões, mas os modelos de código aberto existentes não o são. Por fim, demonstramos que o GPT-4 consegue encontrar vulnerabilidades em websites de forma autônoma no ambiente real. Nossos achados levantam questões sobre a implantação em larga escala de LLMs.

In recent years, large language models (LLMs) have become increasingly capable and can now interact with tools (i.e., call functions), read documents, and recursively call themselves. As a result, these LLMs can now function autonomously as agents. With the rise in capabilities of these agents, recent work has speculated on how LLM agents would affect cybersecurity. However, not much is known about the offensive capabilities of LLM agents. In this work, we show that LLM agents can autonomously hack websites, performing tasks as complex as blind database schema extraction and SQL injections without human feedback. Importantly, the agent does not need to know the vulnerability beforehand. This capability is uniquely enabled by frontier models that are highly capable of tool use and leveraging extended context. Namely, we show that GPT-4 is capable of such hacks, but existing open-source models are not. Finally, we show that GPT-4 is capable of autonomously finding vulnerabilities in websites in the wild. Our findings raise questions about the widespread deployment of LLMs.

⚠️Publicidade⚠️: Este artigo organizado pelo PyTorch Korea User Group foi útil para você? Se você se tornar membro, enviaremos os principais posts por e-mail! (O padrão é Weekly, mas é possível alterá-lo para Daily.)

[12/02 ~ 18/02 de 2024] Principais Papers de ML da Semana (Top ML Papers of the Week)

Visão geral

Sora da OpenAI

Apresentação do paper

Link do paper

Leia mais

Gemini 1.5 / Gemini 1.5

Apresentação do paper

Link do paper

Leia mais

V-JEPA

Apresentação do paper

Resumo do paper (Abstract)

Link do artigo

Leituras adicionais

LWM (Large World Model): modelo de vídeo e linguagem com RingAttention para até um milhão de tokens

Apresentação do paper

Resumo (Abstract)

Links do artigo

Mais links

A fronteira de treinabilidade de redes neurais é fractal / The boundary of neural network trainability is fractal

Visão geral do paper

Resumo (Abstract)

Link do paper

Leia mais

OS-Copilot: Rumo a agentes de computador generalistas por meio de autoaperfeiçoamento / OS-Copilot: Towards Generalist Computer Agents with Self-Improvement

Apresentação do paper

Resumo (Abstract)

Link do paper

Leia mais

TestGen-LLM: Melhoria de testes unitários automatizados usando grandes modelos de linguagem no Meta / Automated Unit Test Improvement using Large Language Models at Meta

Apresentação do paper

Resumo (Abstract)

Link do paper

Leia mais

ChemLLM: Modelo de Linguagem de Grande Escala para Química / ChemLLM: A Chemical Large Language Model

Apresentação do artigo

Resumo (Abstract)

Links do artigo

Leitura complementar

Modelos de Linguagem de Grande Escala: Uma Revisão / Large Language Models: A Survey

Introdução do artigo

Resumo do artigo (Abstract)

Link do artigo

Leitura extra

Agentes de LLM podem hackear websites autonomamente / LLM Agents can Autonomously Hack Websites

Apresentação do artigo

Resumo (Abstract)

Link do artigo

Leitura extra

Texto original

Leituras relacionadas

Ainda não há comentários.