25 pontos por GN⁺ 2025-04-03 | 5 comentários | Compartilhar no WhatsApp
  • No setor de tecnologia, a cada poucos anos, sempre que surge uma nova tecnologia de IA, repete-se a ilusão de que “desta vez a interface em linguagem natural vai mudar tudo”
  • Siri, Alexa, chatbots, a plataforma dos AirPods e, mais recentemente, os grandes modelos de linguagem (LLMs) seguem essa mesma tendência
  • No entanto, na prática, a forma como usamos computadores quase não muda
  • As pessoas tendem a acreditar que a linguagem natural, por ser “natural”, deve ser obviamente a forma final ideal
  • O argumento deste texto é que interfaces em linguagem natural não são um ideal utópico e, na prática, não são um método eficiente

A linguagem natural é uma forma lenta e com perdas de transmissão de dados

  • A linguagem natural é um mecanismo de transmissão de dados para trocar ideias e conhecimento entre seres humanos
  • Dois elementos importantes na transmissão de dados são velocidade e taxa de perda (lossiness)
  • Pensamos em uma velocidade muito alta, na faixa de 1.000 a 3.000 palavras por minuto, mas falar ou escrever é muito mais lento
  • Por exemplo, ler/ouvir (recepção) é rápido, mas escrever/falar (emissão) é lento → a linguagem natural é um gargalo
  • Em vez disso, as pessoas usam gestos (joinha, acenar com a cabeça etc.) para se comunicar de forma mais rápida e concisa
  • Isso é como compressão de dados → há perdas, mas em termos de velocidade e conveniência é excelente
  • O exemplo mais eficiente parece ser aquele momento em que um casal de longa data percebe o que o outro quer sem precisar falar

A evolução da interação entre humanos e computadores

  • Os primeiros computadores usavam interfaces de texto baseadas em comandos, mas com a introdução da GUI tornou-se possível realizar tarefas com mais facilidade por meio de elementos visuais
  • Atualmente estamos em um estado de equilíbrio de produtividade que combina GUI e atalhos de teclado
  • Atalhos como ⌘b, ⌘t, ⌘c/v não são linguagem natural, mas uma forma de compressão de dados, muito mais rápida e eficiente
  • Ferramentas como Linear, Raycast e Superhuman maximizam esse tipo de entrada comprimida → quando você se acostuma, consegue executar tarefas quase no mesmo instante em que pensa nelas
  • Interfaces de toque se consolidaram como um recurso complementar, mas trabalhos de produtividade de verdade ainda acontecem no desktop
  • No mobile, inserir texto é lento e desconfortável (média de 36 WPM) → não há um equivalente de atalhos adequado para mobile
  • Por isso, ferramentas de produtividade mobile não conseguiram evoluir tanto quanto as de desktop

Interfaces conversacionais ficam em desvantagem na velocidade de entrada

  • A voz é um meio de entrada mais rápido do que digitar (150 WPM vs 60 WPM), mas no uso real é ineficiente
  • Ex.: “Hey Google, me diga a previsão do tempo” é 10 vezes mais lento do que tocar no ícone de um app
  • Siri e Alexa fracassaram não por causa da qualidade da saída da IA, mas por causa do incômodo do método de entrada
  • Os LLMs também não resolvem essa ineficiência do método de entrada
  • Explicar em uma frase algo que poderia ser feito com um único botão é, na verdade, um retrocesso

A UI conversacional deve ser usada como recurso complementar

  • Os LLMs são muito úteis não para substituir interfaces existentes, mas na forma de complemento
  • O autor, de fato, rascunhou este texto em conversas por voz com o ChatGPT durante uma caminhada → usou o LLM como parceiro de pensamento
  • Trata-se de um trabalho centrado no raciocínio, não na velocidade, e é um caso de uso totalmente novo, sem substituir o workflow existente
  • O exemplo mais ideal é um caso de hackathon em que a Alexa foi usada no StarCraft II como meio de entrada auxiliar
    • Em vez de substituir mouse/teclado, a voz foi usada como forma adicional de entrada, ampliando a largura de banda da transmissão de dados
  • Ferramentas como Figma, Notion e Excel não serão substituídas por uma chat UI
  • Em vez disso, os LLMs devem se estabelecer como uma meta-camada sempre ativa que conecta ferramentas
    • Ex.: o usuário deve poder executar rapidamente comandos simples por voz mesmo enquanto trabalha com mouse ou teclado
  • Para isso, a IA não deve ser um app isolado, mas operar no nível do sistema operacional
  • Ao mesmo tempo, também são necessárias formas de tornar a entrada por voz mais rápida (ex.: assobio, reconhecimento de emoção etc.)
  • Mesmo em interfaces conversacionais, no fim das contas, velocidade e conveniência continuam sendo o ponto central

Conclusão: devemos olhar por uma ótica de complemento, não de substituição

  • O título deste texto é um exagero para atrair cliques
  • O argumento real não é “ser contra interfaces conversacionais”, mas ser contra o pensamento de soma zero
  • A IA não substitui interfaces existentes; ela é um elemento complementar que abre novas possibilidades
  • O futuro ideal é aquele em que pessoas e computadores interagem de forma natural e inconsciente
    • Como quando, à mesa do café da manhã, a manteiga é passada automaticamente sem que ninguém precise pedir

5 comentários

 
dbs0829 2025-04-04

Eu também tive preocupações parecidas em relação à interface, mas não consegui pensar em uma nova interface realmente adequada.

 
winterjung 2025-04-03

O texto https://upsidelab.io/blog/design-voice-user-interface-starcraft apresentado no corpo do artigo, embora seja de 2018, continua interessante.

 
girr311 2025-04-03

Fico me perguntando de que forma isso vai ser escolhido e usado no futuro.

 
fantajeon 2025-04-03

Como os humanos não gostam de incerteza ao conversar, é difícil abrir mão do desejo de usar palavras exatas. Mas ChatAI e LLMs, por natureza, carregam incerteza. Se a informação probabilística estiver só comigo, tudo bem, mas quando até a outra parte depende de probabilidades, isso gera estresse. Às vezes, uma abordagem determinística pode ser mais confortável.

 
GN⁺ 2025-04-03
Opinião no Hacker News
  • Explica com clareza várias coisas que eu tentava explicar para pessoas interessadas em "conversar" com computadores

    • O exemplo dado faz imaginar uma situação em que se opera um carro apenas falando
    • Isso é incômodo, impede conversar com os passageiros, e conversar com o computador serve para fazê-lo executar o que você quer
    • Existem formas mais simples e rápidas do que falar em linguagem natural
  • Pontos em que o artigo está errado

    • A afirmação de que "linguagem natural é um mecanismo de transmissão de dados"
    • Em mecanismos de transmissão de dados, velocidade e perda são importantes
    • A linguagem natural não tem nenhuma dessas duas características
    • Interfaces conversacionais têm como características principais a "felicidade da ignorância" e a "interpretação inteligente", mais do que a transmissão de informação
    • A "felicidade da ignorância" permite apresentar o objetivo sem precisar saber o método
    • A "interpretação inteligente" permite interpretar a intenção, e não apenas o comando
    • Como na gestão de equipes, com uma equipe experiente é possível esperar bons resultados mesmo com instruções simples
  • Star Trek mostra bem um uso apropriado de interfaces conversacionais

    • A interface de voz complementa a entrada manual e é usada como canal auxiliar
    • Não é adequada para inserir controles específicos por voz, mas sim para delegação, consultas e uso independente de localização
    • A interação por voz foi usada na forma de explicações, e eles provavelmente entenderam bem o que soaria estranho
  • A UI por voz é mais eficaz quando usada junto com teclado/mouse

    • Memória visual e memória auditiva têm buffers separados, e o buffer auditivo ainda tem folga
    • Perguntar o clima por voz é mais rápido do que abrir um app
    • A linguagem se comprime automaticamente e cria novas palavras para conceitos complexos
    • Assim como abreviamos títulos de livros, também é possível tornar uma UI por voz eficiente
  • É necessário encontrar formas de transmitir entrada por voz mais rapidamente

    • Isso me fez lembrar do vídeo de Travis Rudd programando em Python por voz
    • A experiência de ler materiais de estudo e responder quizzes por interface de voz foi marcante
  • O título do artigo pode induzir a erro

    • Títulos caça-cliques não são uma boa ideia
  • Pessoas extrovertidas e com perfil gerencial preferem simplesmente falar para resolver problemas

    • Ao escrever e-mails, é importante passar a impressão de que várias opções foram consideradas
    • Quem realmente faz o trabalho percebe que ficar falando com o computador é ineficiente
  • Até 20 ou 30 anos atrás, os humanos não eram computadorizados

    • Havia quem afirmasse que computação vestível era o futuro
    • Mas ser viciado em telas e controles remotos não é algo humano
    • As pessoas preferem usar um controle remoto
  • Ferramentas de IA de texto para CAD não entendem bem o que o usuário quer

    • A oficina mecânica quer um desenho, não um poema de 300 palavras
  • Eu gostaria que a relação com o computador fosse como telepatia

    • É pior quando o computador faz tudo no seu lugar
    • É mais fácil ensinar humanos a pensar como computadores
    • JavaScript resolve 80% dos problemas com 20% da funcionalidade
    • ChatGPT/Bard/Gemini escrevem JavaScript no lugar da pessoa
    • Interfaces móveis não são adequadas para digitação