ChatGPT ganha recursos de conversa por voz e entrada de imagens

(openai.com)

1 pontos por GN⁺ 2023-09-26 | 1 comentários | Compartilhar no WhatsApp

A OpenAI está lançando gradualmente no ChatGPT os recursos de conversa por voz e entrada de imagens, permitindo ir além do texto e fazer perguntas falando e mostrando fotos
O recurso de voz pode ser usado no app móvel mediante opt-in, com escolha entre 5 vozes, e o Whisper converte a fala do usuário em texto
O recurso de imagem lida com fotos, capturas de tela e documentos com texto e imagem, e no app móvel é possível destacar áreas específicas com a ferramenta de desenho
O lançamento começa para usuários Plus e Enterprise ao longo de 2 semanas; voz estará disponível no iOS e Android, e imagens em todas as plataformas
Como há riscos como síntese de voz realista, interpretação de imagens de pessoas e dependência em áreas de alto risco, a OpenAI aplica lançamento limitado e salvaguardas de segurança

Novas formas de entrada no ChatGPT: falar, mostrar e perguntar

O ChatGPT passa a oferecer recursos para que os usuários conversem por voz ou mostrem imagens ao fazer perguntas
Os novos recursos têm foco em tornar o uso do ChatGPT mais intuitivo, sem depender apenas da digitação no teclado
Exemplos de uso incluem:
- tirar uma foto de um ponto turístico durante uma viagem e perguntar, em uma conversa em tempo real, o que há de interessante nele
- mostrar fotos da geladeira e da despensa e pedir sugestões de jantar e uma receita passo a passo
- fotografar o problema de matemática de uma criança, circular o conjunto de exercícios e pedir dicas

Quem recebe primeiro e em quais plataformas

Usuários Plus e Enterprise poderão usar os recursos de voz e imagem ao longo das próximas 2 semanas
O recurso de voz estará disponível no iOS e Android e precisa ser ativado nas configurações
O recurso de imagem estará disponível em todas as plataformas
Depois, o acesso deverá ser ampliado para outros grupos de usuários, incluindo desenvolvedores

Como funciona o recurso de voz

Os usuários poderão ter conversas por voz de ida e volta com o ChatGPT
- conversar em deslocamento
- pedir histórias de ninar para a família
- resolver discussões à mesa de jantar estão entre os casos de uso
Para iniciar a voz no app móvel, é preciso ativar a conversa por voz em Settings → New Features
Depois de tocar no botão de fone de ouvido no canto superior direito da tela inicial, o usuário escolhe sua voz preferida entre 5 vozes
O novo recurso de voz usa um modelo de conversão de texto em fala capaz de gerar áudio com qualidade humana a partir de texto e apenas alguns segundos de fala de exemplo
Cada voz foi criada pela OpenAI em colaboração com dubladores profissionais
O que o usuário disser é convertido em texto pelo Whisper, o sistema open source de reconhecimento de fala da OpenAI

Como funciona o recurso de imagem

Os usuários podem mostrar uma ou mais imagens ao ChatGPT e continuar a conversa
A entrada de imagens pode ser usada para tarefas como:
- verificar por que uma churrasqueira não está acendendo
- olhar o conteúdo da geladeira e planejar uma refeição
- analisar gráficos complexos com dados de trabalho
Para direcionar a atenção a uma área específica, é possível usar a ferramenta de desenho no app móvel
Para adicionar imagens, basta tocar no botão de foto para tirar uma nova ou selecionar uma já existente
- no iOS e Android, é preciso tocar primeiro no botão de mais
- também é possível discutir várias imagens juntas ou usar a ferramenta de desenho para indicar ao assistant o que observar
A compreensão de imagens fica a cargo do GPT‑3.5 multimodal e do GPT‑4
Esses modelos aplicam raciocínio de linguagem a diferentes tipos de imagem, como fotos, capturas de tela e documentos que combinam texto e imagem

Lançamento gradual e salvaguardas

A OpenAI adota a estratégia de liberar ferramentas gradualmente para avançar ao mesmo tempo em melhorias e mitigação de riscos
Em modelos avançados com voz e visão, o potencial de uso indevido no mundo real aumenta, tornando essa estratégia ainda mais importante
Riscos e limitações relacionados à voz
- A nova tecnologia de voz pode criar fala sintética realista com apenas alguns segundos de voz real
- Ela viabiliza usos criativos e aplicações focadas em acessibilidade, mas também traz riscos como impersonação de figuras públicas e fraude
- A OpenAI está usando essa tecnologia em um caso de uso específico: chat por voz
- O chat por voz é produzido com as vozes de dubladores com quem a OpenAI colaborou diretamente
- O Spotify está usando essa tecnologia no piloto Voice Translation
- O recurso traduz podcasts para idiomas adicionais usando a própria voz do podcaster, ampliando o alcance da narrativa
- Link relacionado: Voice Translation
Riscos e limitações relacionados à entrada de imagens
- Modelos baseados em visão trazem novos desafios, como alucinações sobre pessoas e dependência da interpretação de imagens em áreas de alto risco
- Antes de uma liberação mais ampla, a OpenAI testou os modelos com red teams e diversos testadores alfa
- As áreas de teste incluíram domínios de risco como extremismo e conhecimento científico
- O trabalho com a Be My Eyes foi usado para entender como imagens são utilizadas e quais são os limites desse uso
- A Be My Eyes é um app móvel gratuito para pessoas cegas ou com baixa visão
- Os usuários consideram útil poder ter conversas gerais sobre imagens que incluem pessoas, como em uma situação em que há alguém ao fundo na TV
- Como o ChatGPT nem sempre é preciso e a privacidade das pessoas também deve ser respeitada, a OpenAI aplicou medidas técnicas que limitam fortemente a capacidade do ChatGPT de analisar pessoas e fazer afirmações diretas sobre elas
- O uso real e o feedback serão usados para aprimorar as salvaguardas sem perder a utilidade da ferramenta

Limitações do modelo e cuidados de uso

Como usuários podem passar a depender do ChatGPT em temas especializados, como pesquisa, é importante entender as limitações do modelo e evitar usos de alto risco sem verificação
O modelo é competente em transcrever texto em inglês, mas tem desempenho inferior em alguns outros idiomas, especialmente em sistemas de escrita não latinos
A OpenAI não recomenda o uso do ChatGPT para esse fim por usuários que não falam inglês
Mais informações sobre a abordagem de segurança para entrada de imagens e o trabalho com a Be My Eyes podem ser encontradas em system card for image input

1 comentários

GN⁺ 2023-09-26

Opiniões no Hacker News

Interfaces de voz têm um potencial enorme, mas esta demo é bem decepcionante, como outros assistentes de voz ruins, com alguns segundos de atraso entre a pergunta e a resposta
Não precisa ser assim. Uma demo local feita com Llama 2 responde em cerca de 0,5 segundo, parecendo mais uma conversa com uma pessoa real do que algo no estilo Siri
Ainda seria preciso empacotar isso para as pessoas testarem, mas há o problema complicado de determinar se o usuário terminou de falar. Sistemas prontos de reconhecimento de fala não incluem datasets e modelos de tomada de turno em conversa, e uma empresa como a OpenAI provavelmente conseguiria criar isso com facilidade
- Concordo totalmente. Para criar uma ótima experiência de voz, latência é essencial. Uma demo curta em que estou trabalhando para pedidos por voz está em https://youtu.be/WfvLIEHwiyo
  A latência de ida e volta completa — conversão de fala em texto, LLM, POS para validação de SKU e geração de voz novamente — fica na casa de centenas de milissegundos. Com a validação de SKU, alucinações também ficam impossíveis, e isso já parece bem natural. Transformar essa baixa latência em um sistema geral provavelmente abriria muito espaço para várias aplicações
- Exato. Precisa estar pronto assim que eu terminar de falar, e eu preciso poder interromper no meio
  Se isso for possível, ele pode começar a falar com cautela quando eu fizer uma breve pausa e parar imediatamente se eu continuar falando
  Não quero ter que me preocupar em estruturar a interação como uma cadeia explícita de chamada/resposta, nem ter que tomar cuidado para continuar falando até terminar meu pensamento por medo de ele agir no momento errado
- Determinar se o usuário terminou de falar às vezes é difícil não só para quem ouve, mas também para quem está falando
  Interrupções educadas, ou a falta delas, talvez se tornem um sinal distintivo de que estamos falando com uma IA
- Fiquei curioso se você pode compartilhar o link do GitHub. Onde você está reduzindo a latência? Está processando o áudio bruto como texto?
  Na minha experiência, a geração do ChatGPT é muito mais rápida que a do Llama local, a menos que você esteja usando um modelo pequeno como 7B
- Fico me perguntando quando os computadores vão começar a levar também a entonação em conta. Isso ajudaria muito a entender o fim de uma frase
  Há uma quantidade enorme de informação na entonação que não existe no texto puro. Uma IA que não entende essa parte da linguagem, por mais inteligente que seja, inevitavelmente vai continuar parecendo meio burra em algum ponto
O exemplo da bicicleta é bonitinho e impressionante, mas a interação com humanos parece ofuscar uma possibilidade maior
Com alguns ajustes, isso vira um solucionador de propósito geral para planejamento robótico. Ainda restam alguns problemas difíceis até chegar a soluções que funcionem de fato, mas um deles já está resolvido
Será que nos próximos 5 anos veremos robôs de propósito geral, movidos por ChatGPT, fazendo trabalho braçal simples?
- O exemplo da bicicleta foi fraco para um vídeo de demonstração e até confuso
  1. Na primeira imagem, ele não foi inteligente o suficiente para reconhecer que era uma trava de selim com parafuso. Uma pessoa conseguiria perceber
  2. O manual não aparece para o espectador, então não dá para saber como o modelo sabe que é um parafuso de 4 mm, ou se apenas chutou por ser o mais plausível
  3. Também não entendo como ele sabe que a caixa de ferramentas usa chaves Allen métricas
    Além disso, também fico curioso se esse é o mesmo modelo de visão que já existe no Bing Chat
- O Google já demonstrou isso alguns meses atrás
  https://www.deepmind.com/blog/rt-2-new-model-translates-visi...
- Sinceramente, acho que poderiam ter usado um exemplo mais convincente. É legal reconhecer muitas coisas, mas não sei o quão útil a demo é de fato
  Uma pessoa com uma caixa de ferramentas e um manual faz uma pergunta muito básica sobre como abaixar o selim de uma bicicleta. Quem é que tem manual de bicicleta? E meu filho de 5 anos conseguiria fazer isso
  Com certeza deve haver uma forma melhor de mostrar o impacto revolucionário da IA na humanidade. Talvez até algo como ensinar a amarrar cadarços
- Verdade, mas a pegada ecológica é enorme
  Também não é adequado para robôs pequenos e leves, como drones
- Essa é a parte que mais me empolga. Houve um pequeno avanço recente: https://pressroom.toyota.com/toyota-research-institute-unvei...
Com este anúncio, parece que muitas startups que tentavam fazer multimodalidade em cima do ChatGPT morreram
Pela velocidade com que ele está resolvendo até casos de uso com imagem e voz, não seria surpresa se em breve se tornasse um único app dominando tudo
Já dá para ver a substituição de Alexa/Siri/Google Home, da busca por imagens do Google e a queda de startups de edtech que tiram foto para resolver problemas com IA, e parece que vem mais por aí
- Olhando em retrospecto, essas startups deveriam ter tomado cuidado. Deveriam saber que a OpenAI tem o Whisper e que o GPT-4 foi projetado já levando em conta modalidades de imagem
  Não dá para dizer que a OpenAI tenha deixado suas intenções explícitas de propósito, mas a primeira pergunta estratégica deveria ter sido: “Por que a OpenAI ainda não está fazendo isso e, se decidir fazer, o que nós vamos fazer?”
- Este ano foi realmente frustrante falar com o Google e a Siri. Em viagens longas dirigindo sozinho, eu só queria conversar para aprender sobre temas aleatórios
  Passei o verão inteiro querendo “conversar” com o ChatGPT para aprender mais sobre francês, teoria musical, história, matemática e coisas do tipo. Esse recurso parece perfeito para isso
- Criar ferramentas ou apps de IA de uso geral parece cada vez mais uma má escolha. Vejo dois modelos de negócio de IA viáveis
  1. IA especializada por domínio: treinar modelos de IA em temas altamente técnicos e específicos, nos quais modelos de IA generalistas não vão bem
  2. Integração: se você está construindo sobre modelos de IA existentes, não foque em adicionar recursos; foque em integrar aos fluxos de trabalho existentes de empresas e usuários. Automatizar processos internos e conectar sistemas de maneiras antes impossíveis pode gerar muito valor, e também é difícil para as empresas de modelos de IA fazerem isso diretamente
    Os dois frequentemente acabarão andando juntos
- Quem acompanhou os lançamentos de recursos da OpenAI não ficaria surpreso ao ver o ChatGPT se tornar multimodal
  O app já tem entrada por voz. Por enquanto ele ainda converte a voz em texto antes de enviar, mas funciona tão bem que quase não precisa de revisão ou correção. Eu até me perguntava por que ele ainda não respondia por voz
  A entrada por imagem foi um ponto central e o destaque do anúncio do GPT-4 em março: https://openai.com/research/gpt-4
- Em vez de morrer, não daria para pivotar para multimodal em cima do Llama 2 ou de outros modelos open source? Não seria uma mudança tão enorme
  Muitas empresas, governos etc. não podem usar a OpenAI, que envia dados para um serviço de terceiros, por causa de suas próprias políticas. Eles pagariam por algo que pudesse rodar on-premises ou em uma nuvem privada própria
Isso será um punhal que inviabiliza a educação online
Só com o ChatGPT, já era possível copiar e colar problemas de textos especializados e receber respostas com 90% de precisão. O único ponto fraco eram questões com gráficos ou figuras
Com suporte a imagens, os alunos poderão enviar screenshots ou digitalizações de documentos ao ChatGPT e obter respostas válidas. Na minha visão, muitos alunos vão abusar desse recurso com prazer. Para lidar com isso, será preciso abandonar o sistema de notas ou obrigar o ensino presencial, com tarefas feitas apenas na escola e sob supervisão, sem dever de casa
- Há outra possibilidade. Isso pode não substituir o trabalho do aluno, mas sim o trabalho do professor
  O maior uso que encontrei para o ChatGPT foi aprender vários assuntos por conta própria. Dá para usá-lo como um seminário socrático, fazendo perguntas ao ChatGPT para aprender X
  Claro que isso vai mudar drasticamente a capacidade dos alunos de gerar dever de casa, mas também pode mudar drasticamente a forma como eles aprendem. Com tutoria assistida por IA, escolas online podem se tornar muito mais do que são hoje
  Também parece possível um futuro em que a educação seja muito mais descentralizada, em que o aluno escolha currículo e métodos diretamente, tenha senso de propriedade e controle sobre o próprio trabalho e não o veja como mero “trabalho ocupado”
- É verdade
  Se as mentes mais brilhantes do nosso tempo decidiram que, para o progresso da espécie, o melhor é humanos serem substituídos por máquinas, fica difícil ver sentido em estudar na escola
  Se eu tivesse 16 anos agora, conhecesse os planos do ChatGPT e da OpenAI, ouvisse que preciso estudar bastante para conseguir um bom emprego e, ao mesmo tempo, lesse o futuro que os tecnocratas enxergam, eu ficaria bastante confuso
  Deve ser muito difícil hoje querer estudar e, ao mesmo tempo, não trapacear
- Você está deixando passar que, em breve, o professor será um LLM com uma câmera apontada para o aluno
  Em uma aula online, por que exatamente assistir ao vídeo de uma pessoa? Por que pedir ao aluno que produza algo em uma sala escura?
  A avaliação do aluno será baseada não no dever de casa, mas nas conversas que um assistente de IA teve com ele. Ensinar pode ser automatizado, mas aprender não pode
  Por enquanto existe apenas um intervalo de tempo em que a educação ainda não alcançou isso, e, como educação é cara, isso será resolvido rapidamente. Os pais realmente precisarão incentivar os filhos a fazer exercícios de aprendizagem como antes, e deixar que usem o ChatGPT como usam a Wikipedia. Durante a transição, uma geração vai sofrer
- Quando se fala em abuso do ChatGPT no contexto escolar, geralmente se trata de estudantes do ensino médio em diante ou do ensino superior. Eles sabem distinguir certo e errado e também têm a habilidade motora e o acesso necessários para usar a ferramenta
  A necessidade específica que eles tentam resolver é se livrar do dever de casa ou da redação para fazer XYZ. Provavelmente o ChatGPT não será usado para XYZ. Então é preciso fazer com que o tempo deles seja gasto nisso
  Em algum momento, eles vão buscar e aprender de trás para frente as habilidades necessárias e vão precisar de orientação e estrutura educacional. Não será fácil, nem acontecerá sem tempo e recursos, mas é assim que a adaptação acontece
- Em uma prova de certificação, certa vez tive que rodar um app no meu computador para verificar se nada mais estava aberto, e manter a câmera ligada durante toda a prova, mostrando meu corpo e minhas mãos
  Existem formas de tornar a trapaça difícil a ponto de não valer a pena. Ainda assim, esta tecnologia vai mudar muito o que aprendemos e como aprendemos. É transformadora, e seu ritmo não vai desacelerar
Não gostei da forma como desativaram por meses a navegação na web, ou seja, o recurso de chat Bing browsing, e depois o removeram discretamente
Teria sido bom se houvesse um aviso adequado de que removeriam o recurso. Talvez eu tenha perdido, mas a última notícia oficial era que ele seria desativado temporariamente enquanto consertavam algo. Quando me dei conta, ele tinha desaparecido completamente da plataforma sem dizerem nada
- Na minha conta, Browsing with Bing está atualmente ativado como plugin. Ficou meses sumido e voltou de repente há cerca de uma ou duas semanas
- Foi decepcionante, e concordo que parece que não vão reativá-lo tão cedo
  Dito isso, o Perplexity AI usa busca na web melhor que o ChatGPT, então tenho usado mais ele do que o ChatGPT por esse motivo
- Criei uma conta só para dizer isto: no momento eu tenho esse recurso. Parece que ele voltou por volta da semana passada, depois de ficar meses desaparecido
  Nem é um plugin; aparece como um “modelo” separado que dá para selecionar
- Concordo. Agora é preciso depender de plugins de terceiros
Até agora, a experiência de usuário mais intuitiva, em nível de killer app, parece ser o chat por texto
Interagir mostrando imagens também é interessante, como conversar com um amigo sobre algum assunto, mas ainda resta ver se vai parecer uma conversa com alguém muito inteligente, como o ChatGPT, ou com uma pessoa bem limitada que reconhece objetos até certo ponto
Reconhecer uma chave inglesa não é tão impressionante quanto conversar com o ChatGPT sobre história ou fazê-lo escrever código que realmente funciona
A OpenAI está indo bem. As pessoas imaginam casos de uso interessantes, mas a principal forma de a maioria interagir com IA ainda parece ser o ChatGPT
Dito isso, acho que eles ainda não acertaram em cheio na geração de imagens, e as coisas legais continuam vindo do MidJourney e do Stable Diffusion
- A OpenAI também vai lançar o DALL-E 3 “no início de outubro”, e as imagens escolhidas para as demos mostram uma compreensão de prompts sem precedentes
  Parece até possível inserir textos com frases completas dentro da imagem gerada
Eu vinha criando alguns projetos de hobby que juntavam vários serviços de IA para implementar isso, então estou animado com a redução da complexidade e da latência de várias idas e vindas
Se a API sair a tempo, ou seja, por volta do Halloween, a parte de software de um projeto multimodal com uma cabeça de esqueleto falante equipada com uma câmera ESP32, que faz comentários sarcásticos sobre a fantasia das pessoas, deve ficar um pouco mais fácil
- Ironicamente, foi exatamente por esse motivo que eu nem tentei algo assim
- Se você fizer, seria ótimo se compartilhasse o processo ou os detalhes. Parece muito legal, e eu também gostaria de construir algo parecido
- Quero muito ver o projeto finalizado. Meu e-mail está no perfil
Como alguém com bastante profundidade na área de automação de testes de software, o que estou esperando é um reconhecimento de imagem baseado em IA robusto para interfaces de usuário de aplicativos
Combinado à capacidade da IA de escrever código de automação de testes, espero que seja possível gerar código de teste Selenium ou Appium executável a partir de uma única captura de tela ou de uma sequência de capturas de tela. Parece que estamos quase lá
- Recomendo o artigo Spotlight do Google[1]. Os datasets criados para esse objetivo são muito interessantes
  Eles dizem ter internamente um dataset de tela-ação-tela, mas não parece que vão torná-lo público. Deve ser uma dessas vantagens de possuir o Android
  Há também o artigo recente da Hugging Face, IDEFICS[2]. Ele afirma ser uma implementação open source de um artigo anterior sobre Flamingo, ou seja, compreensão de tarefas multimodais com poucos exemplos. Acho que essa área vai esquentar em breve
  [1] https://research.google/pubs/pub52171/
  [2] https://huggingface.co/blog/idefics
Minha maior reclamação sobre a OpenAI/ChatGPT é o marketing péssimo
Quando anunciam recursos ou plugins assim, fico animado e vou experimentar, mas eles ainda não foram liberados para mim e, como cliente pagante, é frustrante; tudo que posso fazer é verificar todos os dias
Eles nem mandam e-mails do tipo “plugins estão disponíveis” ou “o chat por voz foi ativado na sua conta”, então muitas vezes acabo esquecendo dos novos recursos até esbarrar neles de novo mais tarde
Acabei de abrir o app e fui em “New Features” nas configurações, e o Bing Browsing estava desativado. Eu nem sabia que ele já tinha funcionado em algum momento. Achei que talvez precisasse atualizar o app e fui à App Store, mas ele já estava na versão mais recente; depois de fechar e reabrir o app, agora a própria seção “New Features” desapareceu
Não vou ficar fuçando regularmente nas configurações do app para ver se há novos recursos. É realmente incompreensível que não haja nem uma mensagem dentro do app, muito menos e-mail ou push
- Eles passaram de uma empresa de pesquisa de nicho para provavelmente a startup de crescimento mais rápido da história
  Não acho que não se importem com a comunicação com os clientes, mas imagino que por dentro seja um caos e uma bagunça completos
- O marketing parece o de uma startup de três pessoas que achou um template inicial de SaaS, conectou o Stripe de qualquer jeito e nunca mais olhou para trás
  Para começar a usar a API, eu tive literalmente que cancelar minha assinatura e assinar de novo. Acho que eu estava em alguma revisão anterior do modelo de cobrança
  Gosto de empresas que têm sucesso apesar do marketing e do design, não por causa deles. Isso significa que há algo realmente especial ali
- Estamos caminhando para a singularidade e você está reclamando do marketing?
- Se “tudo que você pode fazer é verificar todos os dias”, então parece que o marketing está funcionando bem
  Se você simplesmente fosse embora e esquecesse, eles precisariam melhorar a retenção, mas você não vai fazer isso, então não precisam
- Se a maior reclamação dos usuários é a frustração por ainda não poderem usar um recurso, então eles estão indo extraordinariamente bem
Não entendo como conseguem empacotar tudo isso por US$ 20 por mês. Com escala, o custo de computação fica realmente tão barato assim?
Também fico curioso para saber como a Apple e o Google vão oferecer isso de graça. Queria me esconder como uma mosca nessa reunião. Eles devem ter discussões enormes, tipo o dilema do inovador, entre “precisamos fazer” e “isso corrói as margens”
Pode ser uma ideia meio exagerada, mas acho que a Apple está fazendo a escolha certa ao deixar a poeira baixar. Assim como Zuckerberg queimou US$ 20 bilhões e a Apple lançou o Vision Pro, acho que algo parecido pode acontecer com o Llama. Só que tenho menos certeza, porque software é o campo principal do Facebook, e hardware não é
- O custo de computação não é barato. Como o Altman também disse, é bem sabido que a OpenAI está queimando muito dinheiro atualmente
  Mas, considerando o investimento de US$ 10 bilhões da Microsoft e a receita de assinaturas e API, por enquanto está tudo bem. É um momento importante para as empresas de IA, e a OpenAI está, na prática, tentando conquistar o máximo de participação de mercado oferecendo 10 vezes mais valor por um preço menor que o de outros modelos comerciais
- É o mesmo motivo pelo qual, em Nova York, uma corrida de Uber que antes custava US$ 20 no mesmo trajeto agora custa US$ 80
  O capital de risco está subsidiando a dominação do mercado
- Também é bem possível que cobrem perto do custo ou abaixo dele porque querem os dados dos usuários
  Basta pensar em quanto teriam que pagar para contratar testadores em grande escala
- Provavelmente querem arrasar o mercado com a injeção de dinheiro da Microsoft e depois aumentar os preços
- Acho que processar muitas consultas em paralelo pode sair muito mais barato do que processá-las uma por uma

ChatGPT ganha recursos de conversa por voz e entrada de imagens

Novas formas de entrada no ChatGPT: falar, mostrar e perguntar

Quem recebe primeiro e em quais plataformas

Como funciona o recurso de voz

Como funciona o recurso de imagem

Lançamento gradual e salvaguardas

Riscos e limitações relacionados à voz

Riscos e limitações relacionados à entrada de imagens

Limitações do modelo e cuidados de uso

Leituras relacionadas

1 comentários

Opiniões no Hacker News