13 pontos por GN⁺ 2025-03-21 | 2 comentários | Compartilhar no WhatsApp
  • Demo interativa para desenvolvedores experimentarem os novos modelos de conversão de texto em fala da OpenAI API
  • É possível especificar em detalhes, por meio de prompts, efeitos de voz, tom, velocidade, emoção, pronúncia, pausas etc.

Demo

  • Seleção de voz: 11 opções, incluindo Alloy, Ash, Ballad, Coral, Echo
  • Seleção de vários vibes: Sincere, Friendly, Noir Detective, Robot, Auctioneer etc.
  • Exemplo: Sincere
    Voice Affect: Calm, composed, and reassuring. Competent and in control, instilling trust.  
    Tone: Sincere, empathetic, with genuine concern for the customer and understanding of the situation.  
    Pacing: Slower during the apology to allow for clarity and processing. Faster when offering solutions to signal action and resolution.  
    Emotions: Calm reassurance, empathy, and gratitude.  
    Pronunciation: Clear, precise: Ensures clarity, especially with key details. Focus on key words like "refund" and "patience."   
    Pauses: Before and after the apology to give space for processing the apology.  
    
  • Exemplo: Cavaleiro Medieval
    Efeito de voz: profundo, autoritário e com um toque dramático, refletindo a grandiosidade das narrativas em inglês arcaico  
    Tom: nobre, heroico e formal, capturando a essência dos cavaleiros medievais e das aventuras épicas  
    Emoções: combinação de empolgação, expectativa, mistério e a seriedade do destino e do dever  
    Pronúncia: clara, cuidadosa e com um ritmo levemente formal; palavras como "hast", "thou" e "doth" são enfatizadas lentamente para refletir padrões de pronúncia do inglês arcaico  
    Pausas: pausas após expressões em inglês arcaico como "Lo!" e "Hark!", e entre trechos como "Choose thy path", para enfatizar a importância da decisão e permitir que o ouvinte reflita sobre a seriedade da missão  
    

2 comentários

 
GN⁺ 2025-03-21
Opiniões do Hacker News
  • O preço desses modelos é consideravelmente mais baixo que o da ElevenLabs

    • No caso do modelo gpt-4o-mini-tts, o custo é de US$ 0,015 por minuto de áudio, 85% mais barato que a ElevenLabs
    • O plano "Business" da ElevenLabs oferece 11.000 minutos de TTS por US$ 1100 por mês, cobrando 10 centavos por minuto
    • A OpenAI poderia fornecer 11.000 minutos de TTS por US$ 165
    • Pedido para verificar se a conta está correta
  • Jeff, da OpenAI, anunciou o lançamento de novos modelos de áudio

    • Lançados dois modelos de reconhecimento de fala e um novo modelo de TTS
    • Suporte no Agents SDK para facilitar a conversão de agentes de texto em agentes de voz
    • Diz para avisarem caso haja perguntas
  • Menção a problemas de confiabilidade em modelos de texto para fala e de fala para texto

    • Não tem certeza de quanto isso será problemático em aplicações do mundo real
    • Fornece um link para notas relacionadas
  • Pergunta sobre como obter "speech marks" junto com o áudio gerado

    • Explicação dos "speech marks" usados no serviço de TTS Polly, da AWS
    • Úteis para destacar texto e para lip sync
  • Avanços recentes em grandes modelos de texto para fala e fala para texto

    • Menciona a necessidade de uma solução offline e multilíngue de texto para fala
    • Acha que o Tortoise TTS frequentemente distorce palavras
    • O SDK da Acapela é a única solução de plug-in para app de desktop
    • Espera que novos modelos baseados em redes neurais funcionem com eficiência em computadores comuns
  • É possível reproduzir várias entonações e personalidades conforme o texto inserido na caixa "vibe"

    • O nível de prosódia e entonação inteligente é surpreendente
    • Evoluiu a ponto de só precisar de celebridades para gravar audiolivros
    • Fornece vários exemplos divertidos de vozes
  • Reação ao inserir a copypasta dos Navy Seals

    • Os controles de segurança funcionam de forma diferente dependendo das instruções de "vibe"
    • O motorista de táxi de NYC funciona sem problemas e é divertido
  • Acha que a voz do novo modelo tem uma vibração sutil, então parece pior que a Siri

  • A ferramenta oficial da OpenAI está ligada ao anúncio dos novos modelos

  • Citação importante do anúncio oficial

    • Os desenvolvedores podem instruir o modelo não apenas sobre o que dizer, mas também como dizer
    • "vibes" são as instruções na UI
    • O novo modelo lida melhor com diferenças sutis
    • O custo da saída de áudio do gpt-4o-mini-tts, de US$ 0,015 por minuto, é prático
    • Planeja fazer mais testes
 
sylee999 2025-03-21

Em coreano também funciona perfeitamente.