1 pontos por GN⁺ 2023-09-26 | 1 comentários | Compartilhar no WhatsApp
  • A OpenAI está introduzindo novos recursos de voz e imagem no ChatGPT
  • Os novos recursos oferecem uma interface mais intuitiva, permitindo que os usuários conversem por voz ou mostrem imagens ao ChatGPT
  • Os usuários poderão usar esses recursos de várias formas, como tirar fotos de pontos turísticos para conversar em tempo real ou fotografar a geladeira e a despensa para decidir o menu do jantar
  • O lançamento está previsto para os usuários Plus e Enterprise nas próximas duas semanas; o recurso de voz estará disponível no iOS e Android, e o de imagem em todas as plataformas
  • O novo recurso de voz é impulsionado por um modelo de text-to-speech capaz de gerar áudio semelhante ao humano a partir de texto e de alguns segundos de uma voz de exemplo
  • O recurso de voz foi desenvolvido em colaboração com atores profissionais de voz e usa o Whisper, sistema de reconhecimento de voz open source da OpenAI, para converter palavras faladas em texto
  • O recurso de compreensão de imagens é impulsionado pelo GPT-3.5 e pelo GPT-4, que aplicam capacidade de raciocínio linguístico a uma ampla variedade de imagens
  • A OpenAI está lançando esses recursos gradualmente para garantir um uso seguro e benéfico, além de preparar os usuários para sistemas futuros ainda mais poderosos
  • A nova tecnologia de voz traz riscos potenciais para agentes mal-intencionados que queiram se passar por figuras públicas ou aplicar golpes
  • Modelos baseados em visão também apresentam novos desafios, como alucinações sobre pessoas ou a dependência da interpretação de imagens do modelo em áreas de alto risco
  • A OpenAI tomou medidas para limitar a capacidade do ChatGPT de analisar pessoas e fazer afirmações diretas sobre elas, a fim de respeitar a privacidade individual
  • A OpenAI divulga com transparência as limitações do modelo, com destaque para limitações em pesquisa e em idiomas com escrita não romana
  • Usuários Plus e Enterprise poderão experimentar os recursos de voz e imagem nas próximas duas semanas, e outros grupos de usuários, incluindo desenvolvedores, terão acesso em seguida

1 comentários

 
GN⁺ 2023-09-26
Comentários no Hacker News
  • Os novos recursos de voz e imagem do ChatGPT têm potencial, mas a latência entre a consulta e a resposta é preocupante.
  • Essa tecnologia pode ser usada no planejamento de robôs, o que pode levar robôs de propósito geral a executar trabalhos simples.
  • Os avanços do ChatGPT podem confundir muitas startups que estavam tentando desenvolver recursos multimodais.
  • Há frustração com a remoção do recurso de navegação na web sem um anúncio adequado.
  • Os novos recursos podem ser usados para aplicar reconhecimento de imagem robusto baseado em IA em interfaces de usuário de apps e para gerar código executável de automação de testes.
  • A experiência de usuário mais intuitiva parece ser o chat por texto, mas a interação com imagens também é interessante.
  • A adição de suporte a imagens pode ser explorada por estudantes para obter respostas de tarefas de casa.
  • Há críticas à falta de comunicação da OpenAI sobre os novos recursos e seu rollout.
  • Os novos recursos podem reduzir a complexidade e a latência de integrar vários serviços de IA em projetos de hobby.
  • Há críticas de que o ChatGPT permanece no modo de "demo impressionante" e não aproveita totalmente seu potencial, como usar voz para explicar programas.