Modelos de áudio da OpenAI

(openai.fm)

13 pontos por GN⁺ 2025-03-21 | 2 comentários | Compartilhar no WhatsApp

Demo interativa para desenvolvedores experimentarem os novos modelos de conversão de texto em fala da OpenAI API
É possível especificar em detalhes, por meio de prompts, efeitos de voz, tom, velocidade, emoção, pronúncia, pausas etc.

Demo

Seleção de voz: 11 opções, incluindo Alloy, Ash, Ballad, Coral, Echo
Seleção de vários vibes: Sincere, Friendly, Noir Detective, Robot, Auctioneer etc.

Exemplo: Sincere

Voice Affect: Calm, composed, and reassuring. Competent and in control, instilling trust.  
Tone: Sincere, empathetic, with genuine concern for the customer and understanding of the situation.  
Pacing: Slower during the apology to allow for clarity and processing. Faster when offering solutions to signal action and resolution.  
Emotions: Calm reassurance, empathy, and gratitude.  
Pronunciation: Clear, precise: Ensures clarity, especially with key details. Focus on key words like "refund" and "patience."   
Pauses: Before and after the apology to give space for processing the apology.

Exemplo: Cavaleiro Medieval

Efeito de voz: profundo, autoritário e com um toque dramático, refletindo a grandiosidade das narrativas em inglês arcaico  
Tom: nobre, heroico e formal, capturando a essência dos cavaleiros medievais e das aventuras épicas  
Emoções: combinação de empolgação, expectativa, mistério e a seriedade do destino e do dever  
Pronúncia: clara, cuidadosa e com um ritmo levemente formal; palavras como "hast", "thou" e "doth" são enfatizadas lentamente para refletir padrões de pronúncia do inglês arcaico  
Pausas: pausas após expressões em inglês arcaico como "Lo!" e "Hark!", e entre trechos como "Choose thy path", para enfatizar a importância da decisão e permitir que o ouvinte reflita sobre a seriedade da missão

2 comentários

GN⁺ 2025-03-21

Opiniões do Hacker News

O preço desses modelos é consideravelmente mais baixo que o da ElevenLabs
- No caso do modelo gpt-4o-mini-tts, o custo é de US$ 0,015 por minuto de áudio, 85% mais barato que a ElevenLabs
- O plano "Business" da ElevenLabs oferece 11.000 minutos de TTS por US$ 1100 por mês, cobrando 10 centavos por minuto
- A OpenAI poderia fornecer 11.000 minutos de TTS por US$ 165
- Pedido para verificar se a conta está correta
Jeff, da OpenAI, anunciou o lançamento de novos modelos de áudio
- Lançados dois modelos de reconhecimento de fala e um novo modelo de TTS
- Suporte no Agents SDK para facilitar a conversão de agentes de texto em agentes de voz
- Diz para avisarem caso haja perguntas
Menção a problemas de confiabilidade em modelos de texto para fala e de fala para texto
- Não tem certeza de quanto isso será problemático em aplicações do mundo real
- Fornece um link para notas relacionadas
Pergunta sobre como obter "speech marks" junto com o áudio gerado
- Explicação dos "speech marks" usados no serviço de TTS Polly, da AWS
- Úteis para destacar texto e para lip sync
Avanços recentes em grandes modelos de texto para fala e fala para texto
- Menciona a necessidade de uma solução offline e multilíngue de texto para fala
- Acha que o Tortoise TTS frequentemente distorce palavras
- O SDK da Acapela é a única solução de plug-in para app de desktop
- Espera que novos modelos baseados em redes neurais funcionem com eficiência em computadores comuns
É possível reproduzir várias entonações e personalidades conforme o texto inserido na caixa "vibe"
- O nível de prosódia e entonação inteligente é surpreendente
- Evoluiu a ponto de só precisar de celebridades para gravar audiolivros
- Fornece vários exemplos divertidos de vozes
Reação ao inserir a copypasta dos Navy Seals
- Os controles de segurança funcionam de forma diferente dependendo das instruções de "vibe"
- O motorista de táxi de NYC funciona sem problemas e é divertido
Acha que a voz do novo modelo tem uma vibração sutil, então parece pior que a Siri
A ferramenta oficial da OpenAI está ligada ao anúncio dos novos modelos
Citação importante do anúncio oficial
- Os desenvolvedores podem instruir o modelo não apenas sobre o que dizer, mas também como dizer
- "vibes" são as instruções na UI
- O novo modelo lida melhor com diferenças sutis
- O custo da saída de áudio do gpt-4o-mini-tts, de US$ 0,015 por minuto, é prático
- Planeja fazer mais testes

sylee999 2025-03-21

Em coreano também funciona perfeitamente.

Modelos de áudio da OpenAI

Demo

Leituras relacionadas

2 comentários

Opiniões do Hacker News