Tenho uma RTX Pro 6000 (96GB, na prática 94GB), mas o modelo 122B não sobe no ollama. Acho que é por ser um modelo de visão, por causa da parte que inclui o vision transformer. Já o modelo GPT OSS 120b sobe com folga.

 

Só entrega desempenho se for executado em um servidor llama.cpp baseado em CUDA.

 

Obrigado. Eu estava com medo porque surgiu o cowork, que faz até o papel de servidor só de deixar o PC ligado, mas isso me tranquiliza um pouco e consigo imaginar na minha cabeça como as coisas vão mudar daqui para frente rs

 

Como comentaram no X, aparentemente, se você estiver usando com Docker e informar à força o PID do daemon do Docker, isso também funciona.

https://github.com/vercel-labs/portless/issues/61

 

Agora podemos dar adeus ao erro EADDRINUSE?

Hoje em dia, como a gente desenvolve de tudo um pouco usando agentes e fica subindo um monte de coisas, elas acabam entrando em conflito entre si e vira uma bagunça rs

 

Mas o próprio modelo muda em questão de poucos meses,
então é preciso ajustar os agents de acordo com o modelo...
Não é o caso de a mudança do modelo ser mais rápida do que o tempo necessário para criar uma estrutura de agents adequada?
Antes mesmo de as pessoas se acostumarem com a ferramenta, a ferramenta já muda...

 

Sou totalmente não desenvolvedor... mas, pela diversão de mexer com IA, às vezes peço para ela programar um pouco, e ela ficava criando e guardando um monte de código de teste que eu nem tinha pedido... então era por isso.
Quando perguntei por que diabos isso era necessário, ela disse que precisava disso na hora de escrever o código e pediu para eu não apagar.

 

O Gemini também foi bloqueado. O Claude também foi bloqueado.
Mas se você pagar para usar a API, não há problema.

Não consigo entender a ideia de alguns estrangeiros de que não seria problemático autenticar em terceiros via OAuth e usar tudo barato com uma assinatura mais em conta.

 

Oh... acho que faz sentido.

 

As pessoas também não são boas em escolher algo aleatoriamente. Não deveria haver padrão, mas evitar padrões de propósito também pode ser visto como um padrão.

 

Então, isso parece ser apenas uma suposição de que, ao usar o Magpie, as novas tentativas seriam reduzidas nesse nível, já que não há resultados de medição do uso real de tokens para uma única tarefa.

 

A comparação de tempo de compilação está estranha. Por que comparar ms/token?

 

Acho que seria necessário organizar uma linha do tempo sobre isso. Também há quem diga que a OpenAI estava em negociações contratuais, não é?

 

Sempre acompanho muito bem, obrigado.

 

Parece que há casos assim porque ficou meio complicado para o X rastrear. Vamos tentar melhorar.

 

Esse erro de resumo como "sem conteúdo" é novidade pra mim..

 

A área em que eu trabalho também não é tão extrema assim, mas atuo com pesquisa e desenvolvimento na área de IA.
Além dos frameworks mais usados em geral, às vezes o ambiente-alvo onde o modelo é de fato implantado é diferente do ambiente em que ele foi treinado.
Também há casos em que certas operações não são suportadas, então é preciso criar operações customizadas para cada plataforma. Nesses casos, muitas vezes não dá para testar diretamente no ambiente em que foi desenvolvido.
Também há situações em que modelamos o próprio modelo diretamente; dá para escrever testes com determinados dados, mas, dependendo do dataset, os valores mudam de forma probabilística, e fenômenos como explosão de valores em certos momentos são difíceis de cobrir com código de teste.
Imagino que existam muitos ambientes em que testar é ainda mais difícil do que no meu caso.

 

A abordagem do SQLite é realmente impressionante. Manter privada uma suíte de testes 590 vezes maior que o código significa, no fim das contas, que "o verdadeiro valor do software está na especificação de comportamento".

Na prática, quando você tenta criar projetos hoje em dia com ferramentas de IA para programação, se tiver apenas o README + a documentação da API + os testes de um projeto existente, dá para replicar as funcionalidades principais com uma velocidade surpreendente. Falo isso por experiência, operando diretamente 7 projetos: paradoxalmente, quanto melhor testado é um projeto, mais fácil também é copiá-lo.

Mas há um ponto ignorado no caso Cloudflare vs Vercel: "copiar" e "operar" são problemas completamente diferentes. Para reproduzir os edge cases do Next.js, o ecossistema de plugins e até a dependência da comunidade, só o código de testes não basta. No fim, me parece que o verdadeiro moat é a combinação de código de testes + comunidade + know-how operacional.

 
kimjoin2 2026-03-01 | comentário pai | em: Não seremos divididos (notdivided.org)

Uau