1 pontos por GN⁺ 2023-09-29 | 1 comentários | Compartilhar no WhatsApp
  • Em 25 de setembro de 2023, a OpenAI anunciou o lançamento de dois novos recursos do GPT-4, seu modelo avançado
  • Esses novos recursos permitem que os usuários façam perguntas sobre imagens e usem voz como entrada de consulta, transformando o GPT-4 em um modelo multimodal
  • O GPT-4V(ision), ou GPT-4V, é um modelo multimodal em que os usuários podem enviar imagens como entrada e fazer perguntas sobre elas, em uma tarefa conhecida como visual question answering (VQA)
  • O GPT-4V foi testado em várias tarefas, incluindo visual question answering, reconhecimento óptico de caracteres (OCR), OCR matemático, detecção de objetos, CAPTCHA, palavras cruzadas e sudoku
  • O modelo teve bom desempenho em perguntas gerais sobre imagens e mostrou reconhecimento de contexto em algumas delas. Também conseguiu responder com sucesso a perguntas sobre filmes mostrados nas imagens, mesmo sem que o texto informasse qual era o filme
  • No entanto, o GPT-4V tem limitações. Ele não conseguiu retornar com precisão caixas delimitadoras para detecção de objetos, o que indica que, por enquanto, não é adequado para esse tipo de uso. Além disso, às vezes retorna informações imprecisas por alucinação
  • A OpenAI disponibilizou uma versão alfa do modelo de visão para um pequeno grupo de usuários para realizar pesquisas e obter feedback e insights sobre como o GPT-4V funciona a partir de prompts fornecidos por diferentes pessoas
  • A OpenAI se esforçou para identificar, pesquisar e mitigar vários riscos relacionados ao modelo. Por exemplo, o GPT-4V evita identificar pessoas específicas em imagens e não responde a prompts relacionados a símbolos de ódio
  • Apesar das limitações, o GPT-4V representa um movimento digno de nota nas áreas de aprendizado de máquina e processamento de linguagem natural

1 comentários

 
GN⁺ 2023-09-29
Opiniões no Hacker News
  • Artigo sobre o potencial do modelo de IA GPT-4V, com a previsão de que ele possa se tornar uma excelente interface de usuário para diversos dispositivos e aplicativos.
  • Apesar de algumas falhas extremas, a capacidade da IA de entender e interagir com elementos de interface e layouts é impressionante.
  • O GPT-4V consegue descrever com precisão imagens de quadrinhos painel por painel, demonstrando capacidades avançadas de visão computacional.
  • A capacidade da IA de interpretar humor em imagens melhorou significativamente na última década.
  • Algumas limitações do GPT-4V incluem interpretar incorretamente a estrutura de tabuleiros ou deixar passar elementos específicos em imagens.
  • A IA não consegue explicar com precisão uma piada sobre a estratégia de preços de GPUs da NVIDIA.
  • As respostas do GPT-4V podem ser inconsistentes, especialmente ao interpretar moedas em um conjunto de moedas.
  • A IA frequentemente hesita em responder perguntas subjetivas, o que causa frustração em alguns usuários.
  • Apesar dos recursos avançados, o GPT-4V ainda tem dificuldade com jogos simples como jogo da velha.