- Em 25 de setembro de 2023, a OpenAI anunciou o lançamento de dois novos recursos do GPT-4, seu modelo avançado
- Esses novos recursos permitem que os usuários façam perguntas sobre imagens e usem voz como entrada de consulta, transformando o GPT-4 em um modelo multimodal
- O GPT-4V(ision), ou GPT-4V, é um modelo multimodal em que os usuários podem enviar imagens como entrada e fazer perguntas sobre elas, em uma tarefa conhecida como visual question answering (VQA)
- O GPT-4V foi testado em várias tarefas, incluindo visual question answering, reconhecimento óptico de caracteres (OCR), OCR matemático, detecção de objetos, CAPTCHA, palavras cruzadas e sudoku
- O modelo teve bom desempenho em perguntas gerais sobre imagens e mostrou reconhecimento de contexto em algumas delas. Também conseguiu responder com sucesso a perguntas sobre filmes mostrados nas imagens, mesmo sem que o texto informasse qual era o filme
- No entanto, o GPT-4V tem limitações. Ele não conseguiu retornar com precisão caixas delimitadoras para detecção de objetos, o que indica que, por enquanto, não é adequado para esse tipo de uso. Além disso, às vezes retorna informações imprecisas por alucinação
- A OpenAI disponibilizou uma versão alfa do modelo de visão para um pequeno grupo de usuários para realizar pesquisas e obter feedback e insights sobre como o GPT-4V funciona a partir de prompts fornecidos por diferentes pessoas
- A OpenAI se esforçou para identificar, pesquisar e mitigar vários riscos relacionados ao modelo. Por exemplo, o GPT-4V evita identificar pessoas específicas em imagens e não responde a prompts relacionados a símbolos de ódio
- Apesar das limitações, o GPT-4V representa um movimento digno de nota nas áreas de aprendizado de máquina e processamento de linguagem natural
1 comentários
Opiniões no Hacker News