9 pontos por xguru 2024-03-29 | 1 comentários | Compartilhar no WhatsApp
  • Editor de documentos baseado em voz que combina reconhecimento de fala com comandos em linguagem natural
  • Quando o usuário diz algo como "transforme em uma lista" ou "adicione uma citação inline na página 86 deste livro", o comando é executado
  • Softwares de reconhecimento de voz ainda oferecem uma experiência incômoda e frágil
    • Os softwares competem em precisão, mas não lidam com a natureza frágil do texto gerado
    • É preciso aprender comandos especiais, e isso não basta como substituto do teclado
  • Como a Aqua Voice resolve isso
    • A Aqua pode transcrever exatamente o que o usuário diz, executar comandos ou refinar o que foi dito para transformá-lo no texto pretendido
    • Quando a pessoa gagueja ou repete a frase várias vezes, a Aqua seleciona apenas a versão final e a transforma em texto
  • Visão e tecnologia da Aqua Voice
    • O objetivo é oferecer uma experiência de reconhecimento de voz mais natural e uma experiência colaborativa de escrita com IA
    • Oferece um serviço em streaming que permanece continuamente conectado ao modelo em tempo real
    • Seis modelos colaboram para interpretar, entender e reescrever o documento de acordo com a intenção
    • Usa transcrição MoE (Mixture of Experts) para melhorar a precisão em tempo real

1 comentários

 
xguru 2024-03-29

Comentários do Hacker News

  • Muito legal! Alguns feedbacks:
    • O termo "1000 tokens" não significa nada para usuários não técnicos e, sinceramente, significa muito pouco até para mim. Basta me dizer quantas palavras eu posso falar
    • Aquela tabela de taxa de erro em LaTeX com fonte serifada também é entediante demais. As pessoas querem algo chamativo como "até 7x menos erros que o ditado do macOS". Não uma tabela comparativa.
    • "0,05 taxa de erro por palavra" também precisa desaparecer. Explique o que isso significa e use porcentagem.
    • "Esqueceu nomes, palavras, fatos ou números? Peça para o Aqua completar." Eu gostaria de poder desativar esse recurso e, no mínimo, que houvesse uma indicação clara quando algo que eu não disse fosse inserido no documento. Quando estou ditando, normalmente quero que só as palavras que eu falei apareçam na página.
  • Como outras pessoas disseram, ótimo trabalho.
    • Isso parece especialmente bom para telefone ou relógio. Parece uma verdadeira mudança de jogo na capacidade de fazer anotações em lugares onde a experiência com teclado é pior.
    • Você já tentou usar isso para programar? Isso poderia ser incrivelmente bom como plugin de IDE/editor de texto.
    • É bom ver alguém não fazendo bobagem lamentável com IA. Muitos dos aplicativos que vemos são horríveis. O que você fez é excelente e está bem longe de uma experiência amaldiçoada de fábrica de chocolate.
  • Sofri uma lesão por RSI em 94/95 e uso reconhecimento de voz desde então. Quero uma solução que me permita sair do Windows. Quero uma solução com a qual eu possa ditar facilmente no Firefox, Thunderbird e VS Code. O mais importante é a capacidade de edição/manipulação de texto que a Nuance chamava de "Select-and-Say". Poder fazer pequenas edições, substituir frases por novo ditado etc. torna o uso da voz muito mais fácil do que simplesmente capturar o ditado, como a maioria dos apps de whisper. Se isso conseguir fazer isso, serei cliente para a vida toda.
    • A segunda coisa mais importante é a capacidade de escrever rotinas de ação para gramática. Minha preferência é Python, porque é o alvo mais fácil quando uso o chatGPT para escrever código. Mas eu poderia aprender outra linguagem (exceto JavaScript, eu odeio). Estou me referindo ao pacote "natPython" do Joel Gould. Aqui estão a apresentação original e o que as pessoas construíram com isso.
    • Há lições do passado. Nos estágios iniciais do DragonDictate/NaturallySpeaking, quando a Baker administrava a Dragon Systems, eles enviavam regularmente funcionários para participar das reuniões locais de grupos de usuários de reconhecimento de voz para conversar conosco sobre o que funcionava e o que falhava. Eles sabiam que observar a nós, pessoas com deficiência, lhes daria mais informações sobre como construir um bom ambiente de reconhecimento de voz do que qualquer outra comunidade de usuários. Nós encontrávamos os casos de borda antes de todo mundo. Eles fizeram algumas coisas boas. Por exemplo, apoiaram algumas reuniões de grupos de usuários de reconhecimento de voz com espaço e tempo da equipe.
    • A Nuance parece ter esquecido essa lição.
    • Enfim, eu ia trabalhar hoje, mas sua apresentação acabou com isso. :-)
    • [Acrescentado depois do uso] Realmente impressionante. Está claro que preciso dedicar mais tempo a isso. Consigo ver que minha experiência com o Naturally Speaking limitou minha visão, e você tem uma visão muito mais ampla do que uma interface de usuário pode ser.
  • Eu queria algo assim para entrada de dados. Muitas vezes estou medindo coisas com as mãos ocupadas e preciso fazer anotações. Isso consegue gerar/formatar dados em forma de tabela?
  • Isso é realmente fantástico. Eu esperava que alguém fizesse isso:
    • Eu pagaria tranquilamente US$ 10 por mês por isso. Mas o que eu realmente quero é uma destas opções:
      • um plugin do Raycast ou um app de desktop que permita que isso interaja com todos os campos de texto editáveis do meu ambiente
      • uma API para a qual eu possa enviar texto/contexto existente + fluxo de áudio e receber de volta batimentos regulares com a atualização do documento completo. Aí a comunidade poderia criar plugins para Obsidian/VSCode/navegador para uma enorme variedade de entradas de texto
    • De qualquer forma, vou pagar os US$ 10 hoje à tarde, e parabéns!
  • Software de ditado é extremamente importante na área médica. Todo médico usa isso, e algo como sua solução poderia tornar o trabalho deles muito mais eficiente. Você já explorou esse segmento de mercado?
  • Isso é impressionante! É muito satisfatório de usar, e a combinação de transcrição + intenção parece ter um potencial enorme.
    Eu gostaria de usar isso para ditar cartas para pacientes e coisas do tipo. Modelos locais/conformidade com a HIPAA ainda estão longe?
  • Parabéns pelo lançamento!
    Como uma pessoa neurodivergente que trabalha muito melhor com texto do que com voz, eu simplesmente adorei essa ideia. Meu único feedback é... eu gostaria de executar isso com mais controle. Já rodo LLMs localmente (por exemplo, LM Studio) e também poderia rodar algo como whisper. Entendo que abrir o código-fonte (ou disponibilizar o código) pode ir contra tentativas de comercialização. Mas talvez existam algumas opções, como a Red Hat, em que você cobra pelo uso empresarial e permite o uso local gratuito para uso pessoal.
    Por um lado, você tem uma vantagem sólida de pioneirismo em uma área da qual muita gente pode se beneficiar e que muita gente pode usar; por outro, alguém poderia oferecer concorrência juntando várias camadas de saídas de múltiplos LLMs (esses projetos muitas vezes são open source, embora às vezes menos "refinados"). Se você oferecer um bom negócio, pode haver uma grande chance de sucesso. Boa sorte!
  • Isso é legal, talvez eu assine — só preciso cortar outras assinaturas — ultimamente há produtos de IA tentadores demais.
  • Não está dito explicitamente, mas eu gostaria de saber quais dados vão para a nuvem — presumo que seja a gravação de voz inteira, com tudo incluso. Ou o STT acontece no dispositivo? Além disso, qual é sua política de privacidade/retenção para esses dados? Ótima demo e ótimo produto!