21 pontos por xguru 24 일 전 | 2 comentários | Compartilhar no WhatsApp
  • App para iOS/Android especializado em executar IA generativa on-device, rodando LLMs em um ambiente totalmente offline e privado, sem conexão com a internet
  • Adicionado suporte oficial à família Gemma 4 - é possível testar recursos avançados de raciocínio, lógica e criação sem enviar nada para servidores
  • Agent Skills: vai além da conversa com o LLM para transformá-lo em um assistente proativo
    • Expande as capacidades do LLM com ferramentas como busca de fatos na Wikipedia, mapas interativos e cartões de resumo visual
    • Suporte para carregar skills modulares por URL e explorar skills da comunidade no GitHub Discussions
  • Thinking Mode: permite visualizar o processo de raciocínio passo a passo do modelo durante o chat com IA (atualmente limitado a modelos compatíveis, como a família Gemma 4)
  • Ask Image: reconhecimento multimodal de objetos, quebra-cabeças visuais e geração de descrições detalhadas usando a câmera e a galeria de fotos
  • Audio Scribe: transcrição e tradução de voz em tempo real com modelo on-device
  • Prompt Lab: workspace dedicado para testar prompts ajustando finamente parâmetros como temperature e top-k
  • Mobile Actions : automação de controle offline do dispositivo com base no modelo ajustado FunctionGemma 270m
  • Tiny Garden : minigame em linguagem natural
  • Model Management & Benchmark: suporte para baixar modelos open source, carregar modelos personalizados e executar testes de benchmark por hardware
  • LiteRT runtime leve + integração com Hugging Face para explorar modelos e executar otimizações
  • Suporta Android 12+ e iOS 17+ / instalação disponível em Google Play e App Store / em ambientes sem acesso ao Google Play, também é possível instalar o APK diretamente pelos releases do GitHub
  • Licença: Apache-2.0 / Linguagem de desenvolvimento: Kotlin

2 comentários

 
lastorder 23 일 전

https://github.com/google-ai-edge/gallery/issues/437

Parece que a compatibilidade com Exynos não é muito boa. Há um problema no Galaxy Quantum 5 (A55) em que ele responde repetindo infinitamente caracteres chineses.

 
GN⁺ 24 일 전
Comentários no Hacker News
  • Um modelo realmente impressionante. Estou rodando no Mac agora, mas poder executar localmente no iPhone significa que preciso testar também
    Tentei fazer dealignment (remoção de censura) deste modelo com o script heretic, e funcionou muito bem. Até organizei tudo num repositório próprio, o gemma4-heretical
    Também dá para fazer uma versão em MLX; no Mac é um pouco mais rápido, mas não roda no Ollama (talvez funcione no LM Studio)
    Roda muito bem num M4 Macbook Pro com 128GB, e provavelmente fica tranquilo com 64GB também. Com menos memória, é preciso baixar o nível de quantização
    Eu gosto desses modelos locais desalinhados. Em vez de ser censurado por uma plataforma externa, posso experimentar livremente no meu próprio dispositivo. Isso permite conversas “sensíveis, mas produtivas”
    Tentei conectar ao OpenClaw, mas tive problemas. Claro, esse tipo de abordagem pode ser abusada, mas acho que há muito mais usuários bem-intencionados

    • Estou rodando modelos MLX no Mac com omlx, e funciona muito bem
    • Vi o script abliterate, mas não entendi exatamente o que ele faz. Fiquei curioso sobre que tipo de conversa ele possibilita
    • Testei no Mac para programação, mas não me impressionou mais do que o Qwen. Pode ser melhor em áreas específicas, mas ainda não tenho certeza
    • Ainda não construí nada com a plataforma de agent skills, mas achei bem interessante. No Android, o sandbox carrega um index.html em uma WebView e interage por I/O de strings padronizado. Parece uma forma inicial de um futuro sandbox de agentes de edge computing
    • Fiquei curioso se você poderia dar exemplos do tipo de “conversas sensíveis” que pretende tentar com um LLM local
  • O app é legal, mas não mostra todo o potencial do modelo E2B
    No meu M3 Pro, criei uma IA de áudio e vídeo em tempo real com Gemma E2B e publiquei no /r/LocalLLaMA com o nome Parlor. Teve uma recepção bem boa
    Estou rodando no Macbook, mas segundo este benchmark, também parece perfeitamente viável no iPhone 17 Pro

    • O Parlor é muito legal. E ainda por cima você liberou de graça, o que é sensacional. Acho que é um excelente exemplo de uso de LLM local
  • Testei rodar o modelo no iPhone e tive resultados bem decentes. Não chega ao Gemini na nuvem, mas é suficientemente utilizável
    A função de “ações móveis” é interessante porque permite controlar o dispositivo, como ligar a lanterna ou abrir o mapa. Seria muito bom se integrasse com o Siri Shortcuts
    Como alguém que cria apps para professores, fico muito feliz com a popularização dos modelos locais. Por causa das leis de privacidade, executar do lado do cliente é importante. iOS e Chrome também têm APIs de modelos on-device, mas a qualidade ainda é baixa

    • Para mim, as alucinações (hallucinations) deste modelo parecem um retorno a tempos passados. Ainda assim, é impressionante ver algo desse nível rodando localmente. Espero que mesmo modelos no nível de alguns anos atrás continuem rodando localmente no futuro
  • Acho que o futuro realista da IA tem apenas dois caminhos — execução local gratuita no dispositivo ou serviços caros na nuvem
    O segundo só será usado para trabalhos em que humanos sejam ainda mais caros ou mais lentos. Os modelos Gemma 4 mostram a possibilidade de uma Siri do futuro integrada ao iPhone e ao macOS, algo como a assistente do filme “Her”

    • Fiquei curioso sobre por que você acha que a nuvem vai ficar mais cara. As grandes empresas já lucram na etapa de inferência. Hardware dedicado para nuvem é mais eficiente, e rodar no celular só vai drenar a bateria
    • Se dá para rodar modelos gratuitos em dispositivos de consumo, os provedores de nuvem também não poderiam oferecer melhor qualidade e mais valor agregado em pacote?
    • Mesmo rodando um modelo local num celular controlado pelo fornecedor, isso não significa autonomia local em sentido real
    • Este não é o primeiro passo para o futuro com o qual você sonha
    • Quero perguntar sinceramente se você realmente desejou esse tipo de futuro depois de ver “Her”
  • Compartilhando os links da versão em inglês do app
    Google AI Edge Gallery para iOS
    Versão para Android
    É um app de demonstração do projeto Edge do Google

  • A maioria dos modelos ainda aparece como indisponível para download. Espero que sejam liberados em breve

  • Levantaram a dúvida de que a página da App Store parece falsa. O texto do cabeçalho está pixelado, o fundo pisca e a qualidade do ícone também é baixa

    • A mesma página da versão dos EUA também tem baixa qualidade de design. Parece que design já não é mais um ponto forte central da Apple
    • Como há /nl/ na URL, parece ser a versão holandesa. A página principal da App Store é um pouco melhor, mas ainda estranha
    • Talvez seja um problema de qualidade da localização. No meu iPhone, ao abrir no app da App Store, parece normal
    • No Firefox isso não acontece
    • No Firefox do GrapheneOS, a renderização fica perfeita
  • Testei o modelo Gemma-4-E2B-it num iPhone 16 Pro e consegui algo em torno de 30 tokens por segundo. O celular esquentou bastante, mas o desempenho foi impressionante. Pretendo aplicar isso também no meu app

  • Meu filho começou a usar o modelo 2B no Android. Roda bem até num Motorola barato, e ele está usando para praticar leitura e escrita em idiomas estrangeiros. A leveza do modelo é realmente impressionante

  • Os novos modelos são muito impressionantes. O AI Edge Gallery roda na GPU, mas a NPU dos chips mais recentes é muito mais rápida
    Por exemplo, o chip A16 tem um Neural Engine de 35 TOPS, enquanto a GPU fica na faixa de 7 TFLOPS. A Qualcomm está numa situação parecida

    • É surpreendente ter esse nível de desempenho em chips de baixo consumo. Estou ansioso por uma versão para a linha M. Parece que a era das TPUs ultrarrápidas em desktops e celulares está chegando