- Editor de documentos baseado em voz que combina reconhecimento de fala com comandos em linguagem natural
- Quando o usuário diz algo como "transforme em uma lista" ou "adicione uma citação inline na página 86 deste livro", o comando é executado
- Softwares de reconhecimento de voz ainda oferecem uma experiência incômoda e frágil
- Os softwares competem em precisão, mas não lidam com a natureza frágil do texto gerado
- É preciso aprender comandos especiais, e isso não basta como substituto do teclado
- Como a Aqua Voice resolve isso
- A Aqua pode transcrever exatamente o que o usuário diz, executar comandos ou refinar o que foi dito para transformá-lo no texto pretendido
- Quando a pessoa gagueja ou repete a frase várias vezes, a Aqua seleciona apenas a versão final e a transforma em texto
- Visão e tecnologia da Aqua Voice
- O objetivo é oferecer uma experiência de reconhecimento de voz mais natural e uma experiência colaborativa de escrita com IA
- Oferece um serviço em streaming que permanece continuamente conectado ao modelo em tempo real
- Seis modelos colaboram para interpretar, entender e reescrever o documento de acordo com a intenção
- Usa transcrição MoE (Mixture of Experts) para melhorar a precisão em tempo real
1 comentários
Comentários do Hacker News
Eu gostaria de usar isso para ditar cartas para pacientes e coisas do tipo. Modelos locais/conformidade com a HIPAA ainda estão longe?
Como uma pessoa neurodivergente que trabalha muito melhor com texto do que com voz, eu simplesmente adorei essa ideia. Meu único feedback é... eu gostaria de executar isso com mais controle. Já rodo LLMs localmente (por exemplo, LM Studio) e também poderia rodar algo como whisper. Entendo que abrir o código-fonte (ou disponibilizar o código) pode ir contra tentativas de comercialização. Mas talvez existam algumas opções, como a Red Hat, em que você cobra pelo uso empresarial e permite o uso local gratuito para uso pessoal.
Por um lado, você tem uma vantagem sólida de pioneirismo em uma área da qual muita gente pode se beneficiar e que muita gente pode usar; por outro, alguém poderia oferecer concorrência juntando várias camadas de saídas de múltiplos LLMs (esses projetos muitas vezes são open source, embora às vezes menos "refinados"). Se você oferecer um bom negócio, pode haver uma grande chance de sucesso. Boa sorte!