O ChatGPT agora pode ver, ouvir e falar

kuroneko · 2023-09-26T10:09:40+09:00

Novos recursos de voz e imagem foram lançados no ChatGPT. Agora é possível conversar naturalmente por voz e fazer perguntas anexando imagens. A voz é convertida em texto por meio do Whisper, e as respostas são transformadas em vozes profissionais com base em um novo modelo de TTS. O novo modelo de TTS consegue reproduzir fielmente a voz de uma pessoa usando apenas alguns segundos de amostra de áudio. Esse modelo também é usado no recurso de tradução de podcasts do Spotify, realizando traduções multilíngues com a própria voz do podcaster. É possível anexar várias imagens de uma vez, e o sistema reconhece em detalhes não apenas o texto presente nelas, mas também os objetos. Dá para perguntar como usar ferramentas ou dispositivos, ou conversar sobre receitas com base nos ingredientes dentro da geladeira. Também passa a ser possível analisar gráficos ou resolver problemas de matemática. No app móvel, a ferramenta de desenho permite direcionar o foco para partes específicas da imagem. Para segurança e privacidade, os recursos de analisar ou falar sobre pessoas são fortemente limitados. O recurso será disponibilizado primeiro para usuários Plus e Enterprise nas próximas duas semanas. A voz funciona apenas no iOS e no Android, enquanto o recurso de anexar imagens está disponível em todas as plataformas.

(openai.com)

22 pontos por kuroneko 2023-09-26 | 4 comentários | Compartilhar no WhatsApp

Novos recursos de voz e imagem foram lançados no ChatGPT.
Agora é possível conversar naturalmente por voz e fazer perguntas anexando imagens.
A voz é convertida em texto por meio do Whisper, e as respostas são transformadas em vozes profissionais com base em um novo modelo de TTS.
- O novo modelo de TTS consegue reproduzir fielmente a voz de uma pessoa usando apenas alguns segundos de amostra de áudio.
- Esse modelo também é usado no recurso de tradução de podcasts do Spotify, realizando traduções multilíngues com a própria voz do podcaster.
É possível anexar várias imagens de uma vez, e o sistema reconhece em detalhes não apenas o texto presente nelas, mas também os objetos.
- Dá para perguntar como usar ferramentas ou dispositivos, ou conversar sobre receitas com base nos ingredientes dentro da geladeira.
- Também passa a ser possível analisar gráficos ou resolver problemas de matemática.
- No app móvel, a ferramenta de desenho permite direcionar o foco para partes específicas da imagem.
- Para segurança e privacidade, os recursos de analisar ou falar sobre pessoas são fortemente limitados.
O recurso será disponibilizado primeiro para usuários Plus e Enterprise nas próximas duas semanas.
A voz funciona apenas no iOS e no Android, enquanto o recurso de anexar imagens está disponível em todas as plataformas.

4 comentários

alstjr7375 2023-09-26

A Skynet está chegando...

ciber27 2023-09-26

Acho que o sistema operacional do filme Her agora vai ser possível.

kuroneko 2023-09-26

Na época do primeiro lançamento do GPT-4 isso apareceu rapidinho, mas é impressionante como ele não só reconhece imagens, como também as entende.

Nos exemplos, aparece uma parte em que perguntam como ajustar o selim de uma bicicleta,
e parece que não é simples reconhecimento de imagem, mas como se ele olhasse o manual e encontrasse a ferramenta adequada...

Eu estava pensando se valia a pena assinar o Plus, mas aí a conversa já muda um pouco de figura... Fiquei muito curioso.

kuroneko 2023-09-26

Resumo de IA do tópico no HN

modeless: acredita que a latência é atualmente o maior problema dos assistentes de voz e que construir um modelo de alternância de turnos em conversas por voz pode permitir conversas mais naturais.
TheEzEzz: construiu um sistema de comandos por voz de baixa latência usando Llama e outras ferramentas, com desempenho próximo ao de uma conversa natural. Acredita que a pesquisa contínua nessa área pode levar ao desenvolvimento de novas aplicações.
cyrux004: questiona se modelos executados localmente podem alcançar o mesmo desempenho que modelos baseados em nuvem, especialmente em sistemas complexos.
TheEzEzz: concorda que isso depende da aplicação e prevê que uma abordagem híbrida, em que modelos locais fazem o processamento inicial e recorrem a grandes modelos em nuvem apenas quando necessário, deve se tornar comum.
simian1983: pergunta o que acontece se forem feitas solicitações sem sentido ou maliciosas ao sistema.
TheEzEzz: responde que o sistema foi treinado para ignorar frases irrelevantes, de modo que o ruído de fundo não interfira nas solicitações.
furyofantares: destaca a importância de poder interromper a resposta de assistentes de voz, como acontece em conversas entre pessoas.
dotancohen: sugere que a interrupção pode ser um sinal de humanidade que os sistemas de IA ainda não dominaram.
jonplackett: acredita que um assistente de voz verdadeiramente em nível humano precisa ser capaz de compreender a entonação, que transmite informações importantes não presentes no texto.

O ChatGPT agora pode ver, ouvir e falar

Leituras relacionadas

4 comentários