- Novos recursos de voz e imagem foram lançados no ChatGPT.
- Agora é possível conversar naturalmente por voz e fazer perguntas anexando imagens.
- A voz é convertida em texto por meio do Whisper, e as respostas são transformadas em vozes profissionais com base em um novo modelo de TTS.
- O novo modelo de TTS consegue reproduzir fielmente a voz de uma pessoa usando apenas alguns segundos de amostra de áudio.
- Esse modelo também é usado no recurso de tradução de podcasts do Spotify, realizando traduções multilíngues com a própria voz do podcaster.
- É possível anexar várias imagens de uma vez, e o sistema reconhece em detalhes não apenas o texto presente nelas, mas também os objetos.
- Dá para perguntar como usar ferramentas ou dispositivos, ou conversar sobre receitas com base nos ingredientes dentro da geladeira.
- Também passa a ser possível analisar gráficos ou resolver problemas de matemática.
- No app móvel, a ferramenta de desenho permite direcionar o foco para partes específicas da imagem.
- Para segurança e privacidade, os recursos de analisar ou falar sobre pessoas são fortemente limitados.
- O recurso será disponibilizado primeiro para usuários Plus e Enterprise nas próximas duas semanas.
- A voz funciona apenas no iOS e no Android, enquanto o recurso de anexar imagens está disponível em todas as plataformas.
4 comentários
A Skynet está chegando...
Acho que o sistema operacional do filme Her agora vai ser possível.
Na época do primeiro lançamento do GPT-4 isso apareceu rapidinho, mas é impressionante como ele não só reconhece imagens, como também as entende.
Nos exemplos, aparece uma parte em que perguntam como ajustar o selim de uma bicicleta,
e parece que não é simples reconhecimento de imagem, mas como se ele olhasse o manual e encontrasse a ferramenta adequada...
Eu estava pensando se valia a pena assinar o Plus, mas aí a conversa já muda um pouco de figura... Fiquei muito curioso.
Resumo de IA do tópico no HN