Haru Ongi - Diário de Gratidão por Voz com IA
(play.google.com)Olá.
Sou um desenvolvedor que deseja que a tecnologia de IA se torne uma ferramenta acolhedora, capaz de trazer mudanças positivas para o dia a dia das pessoas.
Com a convicção de que pequenos registros e reflexões diárias podem transformar a vida,
desenvolvi o app de diário de gratidão 'Haru Ongi', para que qualquer pessoa possa escrever com facilidade e constância.
Já existem muitos ótimos apps de diário com IA no mercado, mas senti que há um limite em receber conforto apenas por texto.
Eu precisava de uma 'voz' que soasse como se um amigo de verdade estivesse ao meu lado falando comigo.
Para isso, usei o modelo mais recente do Gemini para implementar um feedback em áudio natural.
[Apresentação do serviço]
O Haru Ongi é um app em que, ao escrever um diário de gratidão, o personagem de IA que você escolheu envia imediatamente uma resposta por 'voz' com empatia e incentivo.
[Principais recursos]
-
Resposta por voz de um amigo de IA:
Ao terminar de escrever o diário, o app analisa o conteúdo e gera feedback em voz. -
3 amigos de IA com personalidades distintas:
-
A amiga alegre e acolhedora 'Seona': para quando você precisa de energia positiva
-
O mentor calmo e gentil 'Hyunjun': para quando você precisa de conselhos para crescer
-
Sempre do seu lado, a acolhedora 'vovó Sunja': para quando você precisa de conforto e empatia
-
-
Privacidade de dados:
- O conteúdo dos diários escritos pelos usuários é armazenado com segurança com criptografia AES256.
[Stack técnico & experiência de desenvolvimento]
-
AI Model: Google Gemini 2.5 Flash Native Audio Preview
- Em comparação com a abordagem de gerar texto e depois acoplar TTS, o modelo Native Audio foi muito mais natural em entonação e pausas (Pause).
- Foi especialmente eficaz para implementar o jeito caloroso e mais lento da personagem 'Sunja (vovó)'.
- Ajustando os prompts, consegui moldar a persona, a velocidade da fala, a respiração, o tom e a expressão emocional de cada personagem para criar a voz desejada.
- Também avaliei a GPT Realtime API da OpenAI, mas considerando a eficiência de custo ($20.00 per 1M tokens), acabei integrando tudo no Gemini.
-
Cost Optimization:
- Como o custo dos tokens de saída de áudio é muito mais alto que o de texto ($12.00 per 1M tokens), foi necessário um processo de otimização para controlar o tamanho das respostas com system prompts.
-
UI Workflow: aumentei a eficiência do desenvolvimento com o Figma Dev Mode.
- Ao fornecer à IA os layouts de design e as informações de assets do Figma como contexto (Context), o trabalho de implementação da UI ficou muito mais fácil.
-
Backend: Supabase (DB, Auth), Railway (Fastify), Cloudflare R2 (File Storage)
-
Frontend: React Native (Expo), TypeScript
-
Dev Tools: Claude Code (Main), Cursor (Sub)
[Encerramento]
Se o seu coração estiver cansado hoje, passe por aqui pelo menos uma vez.
No momento, ele está disponível apenas para Android.
Obrigado.
3 comentários
Também foi lançado na App Store!
https://smplu.link/F8JwF
Como também fiz um serviço parecido para usar sozinho, acabo torcendo por vocês! Espero que se torne um ótimo produto. Acho que vou ter que mudar para Native Audio e desenvolver de novo.
Obrigado pelo apoio hahaha. A voz do modelo Native Audio é bem natural, então acho que, se você experimentar, vai ter uma boa experiência.