22 pontos por kuroneko 2023-09-26 | 4 comentários | Compartilhar no WhatsApp
  • Novos recursos de voz e imagem foram lançados no ChatGPT.
  • Agora é possível conversar naturalmente por voz e fazer perguntas anexando imagens.
  • A voz é convertida em texto por meio do Whisper, e as respostas são transformadas em vozes profissionais com base em um novo modelo de TTS.
    • O novo modelo de TTS consegue reproduzir fielmente a voz de uma pessoa usando apenas alguns segundos de amostra de áudio.
    • Esse modelo também é usado no recurso de tradução de podcasts do Spotify, realizando traduções multilíngues com a própria voz do podcaster.
  • É possível anexar várias imagens de uma vez, e o sistema reconhece em detalhes não apenas o texto presente nelas, mas também os objetos.
    • Dá para perguntar como usar ferramentas ou dispositivos, ou conversar sobre receitas com base nos ingredientes dentro da geladeira.
    • Também passa a ser possível analisar gráficos ou resolver problemas de matemática.
    • No app móvel, a ferramenta de desenho permite direcionar o foco para partes específicas da imagem.
    • Para segurança e privacidade, os recursos de analisar ou falar sobre pessoas são fortemente limitados.
  • O recurso será disponibilizado primeiro para usuários Plus e Enterprise nas próximas duas semanas.
  • A voz funciona apenas no iOS e no Android, enquanto o recurso de anexar imagens está disponível em todas as plataformas.

4 comentários

 
alstjr7375 2023-09-26

A Skynet está chegando...

 
ciber27 2023-09-26

Acho que o sistema operacional do filme Her agora vai ser possível.

 
kuroneko 2023-09-26

Na época do primeiro lançamento do GPT-4 isso apareceu rapidinho, mas é impressionante como ele não só reconhece imagens, como também as entende.

Nos exemplos, aparece uma parte em que perguntam como ajustar o selim de uma bicicleta,
e parece que não é simples reconhecimento de imagem, mas como se ele olhasse o manual e encontrasse a ferramenta adequada...

Eu estava pensando se valia a pena assinar o Plus, mas aí a conversa já muda um pouco de figura... Fiquei muito curioso.

 
kuroneko 2023-09-26

Resumo de IA do tópico no HN

  • modeless: acredita que a latência é atualmente o maior problema dos assistentes de voz e que construir um modelo de alternância de turnos em conversas por voz pode permitir conversas mais naturais.
  • TheEzEzz: construiu um sistema de comandos por voz de baixa latência usando Llama e outras ferramentas, com desempenho próximo ao de uma conversa natural. Acredita que a pesquisa contínua nessa área pode levar ao desenvolvimento de novas aplicações.
  • cyrux004: questiona se modelos executados localmente podem alcançar o mesmo desempenho que modelos baseados em nuvem, especialmente em sistemas complexos.
  • TheEzEzz: concorda que isso depende da aplicação e prevê que uma abordagem híbrida, em que modelos locais fazem o processamento inicial e recorrem a grandes modelos em nuvem apenas quando necessário, deve se tornar comum.
  • simian1983: pergunta o que acontece se forem feitas solicitações sem sentido ou maliciosas ao sistema.
  • TheEzEzz: responde que o sistema foi treinado para ignorar frases irrelevantes, de modo que o ruído de fundo não interfira nas solicitações.
  • furyofantares: destaca a importância de poder interromper a resposta de assistentes de voz, como acontece em conversas entre pessoas.
  • dotancohen: sugere que a interrupção pode ser um sinal de humanidade que os sistemas de IA ainda não dominaram.
  • jonplackett: acredita que um assistente de voz verdadeiramente em nível humano precisa ser capaz de compreender a entonação, que transmite informações importantes não presentes no texto.