O caso contra interfaces conversacionais

(julian.digital)

25 pontos por GN⁺ 2025-04-03 | 5 comentários | Compartilhar no WhatsApp

No setor de tecnologia, a cada poucos anos, sempre que surge uma nova tecnologia de IA, repete-se a ilusão de que “desta vez a interface em linguagem natural vai mudar tudo”
Siri, Alexa, chatbots, a plataforma dos AirPods e, mais recentemente, os grandes modelos de linguagem (LLMs) seguem essa mesma tendência
No entanto, na prática, a forma como usamos computadores quase não muda
As pessoas tendem a acreditar que a linguagem natural, por ser “natural”, deve ser obviamente a forma final ideal
O argumento deste texto é que interfaces em linguagem natural não são um ideal utópico e, na prática, não são um método eficiente

A linguagem natural é uma forma lenta e com perdas de transmissão de dados

A linguagem natural é um mecanismo de transmissão de dados para trocar ideias e conhecimento entre seres humanos
Dois elementos importantes na transmissão de dados são velocidade e taxa de perda (lossiness)
Pensamos em uma velocidade muito alta, na faixa de 1.000 a 3.000 palavras por minuto, mas falar ou escrever é muito mais lento
Por exemplo, ler/ouvir (recepção) é rápido, mas escrever/falar (emissão) é lento → a linguagem natural é um gargalo
Em vez disso, as pessoas usam gestos (joinha, acenar com a cabeça etc.) para se comunicar de forma mais rápida e concisa
Isso é como compressão de dados → há perdas, mas em termos de velocidade e conveniência é excelente
O exemplo mais eficiente parece ser aquele momento em que um casal de longa data percebe o que o outro quer sem precisar falar

A evolução da interação entre humanos e computadores

Os primeiros computadores usavam interfaces de texto baseadas em comandos, mas com a introdução da GUI tornou-se possível realizar tarefas com mais facilidade por meio de elementos visuais
Atualmente estamos em um estado de equilíbrio de produtividade que combina GUI e atalhos de teclado
Atalhos como ⌘b, ⌘t, ⌘c/v não são linguagem natural, mas uma forma de compressão de dados, muito mais rápida e eficiente
Ferramentas como Linear, Raycast e Superhuman maximizam esse tipo de entrada comprimida → quando você se acostuma, consegue executar tarefas quase no mesmo instante em que pensa nelas
Interfaces de toque se consolidaram como um recurso complementar, mas trabalhos de produtividade de verdade ainda acontecem no desktop
No mobile, inserir texto é lento e desconfortável (média de 36 WPM) → não há um equivalente de atalhos adequado para mobile
Por isso, ferramentas de produtividade mobile não conseguiram evoluir tanto quanto as de desktop

Interfaces conversacionais ficam em desvantagem na velocidade de entrada

A voz é um meio de entrada mais rápido do que digitar (150 WPM vs 60 WPM), mas no uso real é ineficiente
Ex.: “Hey Google, me diga a previsão do tempo” é 10 vezes mais lento do que tocar no ícone de um app
Siri e Alexa fracassaram não por causa da qualidade da saída da IA, mas por causa do incômodo do método de entrada
Os LLMs também não resolvem essa ineficiência do método de entrada
Explicar em uma frase algo que poderia ser feito com um único botão é, na verdade, um retrocesso

A UI conversacional deve ser usada como recurso complementar

Os LLMs são muito úteis não para substituir interfaces existentes, mas na forma de complemento
O autor, de fato, rascunhou este texto em conversas por voz com o ChatGPT durante uma caminhada → usou o LLM como parceiro de pensamento
Trata-se de um trabalho centrado no raciocínio, não na velocidade, e é um caso de uso totalmente novo, sem substituir o workflow existente
O exemplo mais ideal é um caso de hackathon em que a Alexa foi usada no StarCraft II como meio de entrada auxiliar
- Em vez de substituir mouse/teclado, a voz foi usada como forma adicional de entrada, ampliando a largura de banda da transmissão de dados
Ferramentas como Figma, Notion e Excel não serão substituídas por uma chat UI
Em vez disso, os LLMs devem se estabelecer como uma meta-camada sempre ativa que conecta ferramentas
- Ex.: o usuário deve poder executar rapidamente comandos simples por voz mesmo enquanto trabalha com mouse ou teclado
Para isso, a IA não deve ser um app isolado, mas operar no nível do sistema operacional
Ao mesmo tempo, também são necessárias formas de tornar a entrada por voz mais rápida (ex.: assobio, reconhecimento de emoção etc.)
Mesmo em interfaces conversacionais, no fim das contas, velocidade e conveniência continuam sendo o ponto central

Conclusão: devemos olhar por uma ótica de complemento, não de substituição

O título deste texto é um exagero para atrair cliques
O argumento real não é “ser contra interfaces conversacionais”, mas ser contra o pensamento de soma zero
A IA não substitui interfaces existentes; ela é um elemento complementar que abre novas possibilidades
O futuro ideal é aquele em que pessoas e computadores interagem de forma natural e inconsciente
- Como quando, à mesa do café da manhã, a manteiga é passada automaticamente sem que ninguém precise pedir

5 comentários

dbs0829 2025-04-04

Eu também tive preocupações parecidas em relação à interface, mas não consegui pensar em uma nova interface realmente adequada.

winterjung 2025-04-03

O texto https://upsidelab.io/blog/design-voice-user-interface-starcraft apresentado no corpo do artigo, embora seja de 2018, continua interessante.

girr311 2025-04-03

Fico me perguntando de que forma isso vai ser escolhido e usado no futuro.

fantajeon 2025-04-03

Como os humanos não gostam de incerteza ao conversar, é difícil abrir mão do desejo de usar palavras exatas. Mas ChatAI e LLMs, por natureza, carregam incerteza. Se a informação probabilística estiver só comigo, tudo bem, mas quando até a outra parte depende de probabilidades, isso gera estresse. Às vezes, uma abordagem determinística pode ser mais confortável.

GN⁺ 2025-04-03

Opinião no Hacker News

Explica com clareza várias coisas que eu tentava explicar para pessoas interessadas em "conversar" com computadores
- O exemplo dado faz imaginar uma situação em que se opera um carro apenas falando
- Isso é incômodo, impede conversar com os passageiros, e conversar com o computador serve para fazê-lo executar o que você quer
- Existem formas mais simples e rápidas do que falar em linguagem natural
Pontos em que o artigo está errado
- A afirmação de que "linguagem natural é um mecanismo de transmissão de dados"
- Em mecanismos de transmissão de dados, velocidade e perda são importantes
- A linguagem natural não tem nenhuma dessas duas características
- Interfaces conversacionais têm como características principais a "felicidade da ignorância" e a "interpretação inteligente", mais do que a transmissão de informação
- A "felicidade da ignorância" permite apresentar o objetivo sem precisar saber o método
- A "interpretação inteligente" permite interpretar a intenção, e não apenas o comando
- Como na gestão de equipes, com uma equipe experiente é possível esperar bons resultados mesmo com instruções simples
Star Trek mostra bem um uso apropriado de interfaces conversacionais
- A interface de voz complementa a entrada manual e é usada como canal auxiliar
- Não é adequada para inserir controles específicos por voz, mas sim para delegação, consultas e uso independente de localização
- A interação por voz foi usada na forma de explicações, e eles provavelmente entenderam bem o que soaria estranho
A UI por voz é mais eficaz quando usada junto com teclado/mouse
- Memória visual e memória auditiva têm buffers separados, e o buffer auditivo ainda tem folga
- Perguntar o clima por voz é mais rápido do que abrir um app
- A linguagem se comprime automaticamente e cria novas palavras para conceitos complexos
- Assim como abreviamos títulos de livros, também é possível tornar uma UI por voz eficiente
É necessário encontrar formas de transmitir entrada por voz mais rapidamente
- Isso me fez lembrar do vídeo de Travis Rudd programando em Python por voz
- A experiência de ler materiais de estudo e responder quizzes por interface de voz foi marcante
O título do artigo pode induzir a erro
- Títulos caça-cliques não são uma boa ideia
Pessoas extrovertidas e com perfil gerencial preferem simplesmente falar para resolver problemas
- Ao escrever e-mails, é importante passar a impressão de que várias opções foram consideradas
- Quem realmente faz o trabalho percebe que ficar falando com o computador é ineficiente
Até 20 ou 30 anos atrás, os humanos não eram computadorizados
- Havia quem afirmasse que computação vestível era o futuro
- Mas ser viciado em telas e controles remotos não é algo humano
- As pessoas preferem usar um controle remoto
Ferramentas de IA de texto para CAD não entendem bem o que o usuário quer
- A oficina mecânica quer um desenho, não um poema de 300 palavras
Eu gostaria que a relação com o computador fosse como telepatia
- É pior quando o computador faz tudo no seu lugar
- É mais fácil ensinar humanos a pensar como computadores
- JavaScript resolve 80% dos problemas com 20% da funcionalidade
- ChatGPT/Bard/Gemini escrevem JavaScript no lugar da pessoa
- Interfaces móveis não são adequadas para digitação