- No setor de tecnologia, a cada poucos anos, sempre que surge uma nova tecnologia de IA, repete-se a ilusão de que “desta vez a interface em linguagem natural vai mudar tudo”
- Siri, Alexa, chatbots, a plataforma dos AirPods e, mais recentemente, os grandes modelos de linguagem (LLMs) seguem essa mesma tendência
- No entanto, na prática, a forma como usamos computadores quase não muda
- As pessoas tendem a acreditar que a linguagem natural, por ser “natural”, deve ser obviamente a forma final ideal
- O argumento deste texto é que interfaces em linguagem natural não são um ideal utópico e, na prática, não são um método eficiente
A linguagem natural é uma forma lenta e com perdas de transmissão de dados
- A linguagem natural é um mecanismo de transmissão de dados para trocar ideias e conhecimento entre seres humanos
- Dois elementos importantes na transmissão de dados são velocidade e taxa de perda (lossiness)
- Pensamos em uma velocidade muito alta, na faixa de 1.000 a 3.000 palavras por minuto, mas falar ou escrever é muito mais lento
- Por exemplo, ler/ouvir (recepção) é rápido, mas escrever/falar (emissão) é lento → a linguagem natural é um gargalo
- Em vez disso, as pessoas usam gestos (joinha, acenar com a cabeça etc.) para se comunicar de forma mais rápida e concisa
- Isso é como compressão de dados → há perdas, mas em termos de velocidade e conveniência é excelente
- O exemplo mais eficiente parece ser aquele momento em que um casal de longa data percebe o que o outro quer sem precisar falar
A evolução da interação entre humanos e computadores
- Os primeiros computadores usavam interfaces de texto baseadas em comandos, mas com a introdução da GUI tornou-se possível realizar tarefas com mais facilidade por meio de elementos visuais
- Atualmente estamos em um estado de equilíbrio de produtividade que combina GUI e atalhos de teclado
- Atalhos como ⌘b, ⌘t, ⌘c/v não são linguagem natural, mas uma forma de compressão de dados, muito mais rápida e eficiente
- Ferramentas como Linear, Raycast e Superhuman maximizam esse tipo de entrada comprimida → quando você se acostuma, consegue executar tarefas quase no mesmo instante em que pensa nelas
- Interfaces de toque se consolidaram como um recurso complementar, mas trabalhos de produtividade de verdade ainda acontecem no desktop
- No mobile, inserir texto é lento e desconfortável (média de 36 WPM) → não há um equivalente de atalhos adequado para mobile
- Por isso, ferramentas de produtividade mobile não conseguiram evoluir tanto quanto as de desktop
Interfaces conversacionais ficam em desvantagem na velocidade de entrada
- A voz é um meio de entrada mais rápido do que digitar (150 WPM vs 60 WPM), mas no uso real é ineficiente
- Ex.: “Hey Google, me diga a previsão do tempo” é 10 vezes mais lento do que tocar no ícone de um app
- Siri e Alexa fracassaram não por causa da qualidade da saída da IA, mas por causa do incômodo do método de entrada
- Os LLMs também não resolvem essa ineficiência do método de entrada
- Explicar em uma frase algo que poderia ser feito com um único botão é, na verdade, um retrocesso
A UI conversacional deve ser usada como recurso complementar
- Os LLMs são muito úteis não para substituir interfaces existentes, mas na forma de complemento
- O autor, de fato, rascunhou este texto em conversas por voz com o ChatGPT durante uma caminhada → usou o LLM como parceiro de pensamento
- Trata-se de um trabalho centrado no raciocínio, não na velocidade, e é um caso de uso totalmente novo, sem substituir o workflow existente
- O exemplo mais ideal é um caso de hackathon em que a Alexa foi usada no StarCraft II como meio de entrada auxiliar
- Em vez de substituir mouse/teclado, a voz foi usada como forma adicional de entrada, ampliando a largura de banda da transmissão de dados
- Ferramentas como Figma, Notion e Excel não serão substituídas por uma chat UI
- Em vez disso, os LLMs devem se estabelecer como uma meta-camada sempre ativa que conecta ferramentas
- Ex.: o usuário deve poder executar rapidamente comandos simples por voz mesmo enquanto trabalha com mouse ou teclado
- Para isso, a IA não deve ser um app isolado, mas operar no nível do sistema operacional
- Ao mesmo tempo, também são necessárias formas de tornar a entrada por voz mais rápida (ex.: assobio, reconhecimento de emoção etc.)
- Mesmo em interfaces conversacionais, no fim das contas, velocidade e conveniência continuam sendo o ponto central
Conclusão: devemos olhar por uma ótica de complemento, não de substituição
- O título deste texto é um exagero para atrair cliques
- O argumento real não é “ser contra interfaces conversacionais”, mas ser contra o pensamento de soma zero
- A IA não substitui interfaces existentes; ela é um elemento complementar que abre novas possibilidades
- O futuro ideal é aquele em que pessoas e computadores interagem de forma natural e inconsciente
- Como quando, à mesa do café da manhã, a manteiga é passada automaticamente sem que ninguém precise pedir
5 comentários
Eu também tive preocupações parecidas em relação à interface, mas não consegui pensar em uma nova interface realmente adequada.
O texto https://upsidelab.io/blog/design-voice-user-interface-starcraft apresentado no corpo do artigo, embora seja de 2018, continua interessante.
Fico me perguntando de que forma isso vai ser escolhido e usado no futuro.
Como os humanos não gostam de incerteza ao conversar, é difícil abrir mão do desejo de usar palavras exatas. Mas ChatAI e LLMs, por natureza, carregam incerteza. Se a informação probabilística estiver só comigo, tudo bem, mas quando até a outra parte depende de probabilidades, isso gera estresse. Às vezes, uma abordagem determinística pode ser mais confortável.
Opinião no Hacker News
Explica com clareza várias coisas que eu tentava explicar para pessoas interessadas em "conversar" com computadores
Pontos em que o artigo está errado
Star Trek mostra bem um uso apropriado de interfaces conversacionais
A UI por voz é mais eficaz quando usada junto com teclado/mouse
É necessário encontrar formas de transmitir entrada por voz mais rapidamente
O título do artigo pode induzir a erro
Pessoas extrovertidas e com perfil gerencial preferem simplesmente falar para resolver problemas
Até 20 ou 30 anos atrás, os humanos não eram computadorizados
Ferramentas de IA de texto para CAD não entendem bem o que o usuário quer
Eu gostaria que a relação com o computador fosse como telepatia