1 pontos por lattice 3 시간 전 | Ainda não há comentários. | Compartilhar no WhatsApp

(Texto original ao clicar no URL)

A tese é que, para quem constrói, a pergunta “qual é o melhor modelo agora?” é muito menos prática do que “o que se tornou mais importante nesta semana?”.
Catálogos de modelos, benchmarks e cronogramas de AGI operam em uma escala grande demais e, por isso, não são adequados para a tomada de decisão de quem está construindo.

Três limitações dos catálogos de modelos:

① vida útil curta, em que os nomes no topo mudam após apenas um trimestre
② desalinhamento entre as pontuações de benchmark e a unidade dos fluxos de trabalho reais em produção
③ incapacidade de explicar a diferença entre “faz bem” e “dá para confiar até o fim”

É preciso observar o significado da fronteira da IA.

Quem constrói precisa separar, em quatro dimensões, a linha de fronteira entre “tarefas que a IA consegue concluir até o fim” e “tarefas em que a intervenção humana é obrigatória no meio do processo”.

  1. Escopo da tarefa (Task Scope): não se trata apenas do tamanho do contexto, mas de “com que nível de confiabilidade ela consegue concluir até o fim uma tarefa que levaria 10 minutos/1 hora/meio dia para uma pessoa”. Resumir 5 notícias vs. selecionar sinais de uma semana inteira → até redigir o rascunho de uma newsletter são tarefas totalmente diferentes.

  2. Eficiência (Efficiency): eficiência de aprendizado em nível humano. “Ela consegue aprender o contexto do nosso domínio com apenas alguns exemplos e segui-lo com estabilidade?”.
    O maior gargalo aparece em documentos de trabalho em coreano, regulamentações locais e processos internos.

  3. Custo por output (Cost per Output): não é o preço por token, mas “o custo total por unidade de output que pode ser entregue ao cliente”. Soma de entrada + saída + chamadas de API + tentativas de repetição + revisão humana + custo de rollback. Altman afirma explicitamente que o custo de IAs equivalentes está caindo 10x a cada 12 meses (Three Observations, 2025).

  4. Confiabilidade na chamada de ferramentas (Tool Calling Reliability): não é “dar certo uma vez na demo”, mas “não quebrar mesmo com execuções repetidas, incluindo casos de falha”.
    Este é hoje o maior gargalo na transição da IA de ferramenta de resposta para ferramenta de execução de trabalho.

Mais essencial do que a linha do tempo da AGI é a pergunta: “mesmo quando a AGI chegar, meu produto ainda terá valor?”. Wrappers simples de modelo perdem diferenciação quando o modelo muda.
Produtos que acumularam estrutura de dados, loops de validação, camada de chamada de ferramentas e coleta de casos de falha sobrevivem até na era da AGI.

A oportunidade única para quem constrói na Coreia: Claude/ChatGPT/Gemini já estão abertos para todos, então é impossível se diferenciar apenas por “usar primeiro um bom modelo”.

Os modelos tendem à padronização, mas o contexto não.

Contexto de trabalho em coreano, dados por função e a reinterpretação local de sinais globais são os pontos de diferenciação.

Referências: METR(Measuring AI Ability to Complete Long Tasks), ARC Prize, Stanford HAI AI Index 2026, Anthropic Finance Agents, Dario Amodei(Machines of Loving Grace), Leopold Aschenbrenner(Situational Awareness)

Ainda não há comentários.

Ainda não há comentários.