Tão fundamental quanto isso também é a presença ou ausência de prototype ...
E também a forma de referenciar as funções de ordem superior que são geradas ...
Se for um runtime de CPU usado só para inferência simples, a situação até é um pouco melhor, mas com os serviços de LLM exigidos hoje em dia, tanto o tráfego quanto o volume aumentam demais, então dá vontade de xingar quando vai calcular os custos kkk
Tem muita coisa com a qual dá para se identificar aí.
Os comentários também são bons, mas quando alguém organiza isso e coloca a discussão na mesa, tenho a sensação de que o resultado fica mais completo, passando por contrapontos, apoio e complementos.
P.S.: Tenho visto com frequência ultimamente a expressão "tecnologia entediante", que em inglês é boring technology.
Pelo contrário, se for um tipo de trabalho de “só fazer funcionar”, usar IA pode ser eficiente.
Não são só os desenvolvedores, mas como existem pessoas com perfis muito diversos, às vezes a pessoa acabou virando desenvolvedora e tem aversão ou medo de escrever ou olhar código; quanto mais a mentalidade for a de que basta funcionar, em vez de interpretar a partir de uma perspectiva de estrutura sistemática ou de manutenibilidade, mais forte me parece ser a dependência ou a fé cega na IA. Ou talvez não.
Há pacotes em que a dependência de pytorch+cuda muda só de versão... é um verdadeiro espetáculo.
Nem tem grandes funcionalidades, mas para cada pequeno daemon são instalados quase 2 GB de dependências..
Eu também, por necessidade, estou montando uma solução de RAG usando nada menos que 4 GPUs H100 tão cobiçadas, mas considerando não só o investimento direto em hardware como também os custos de energia, resfriamento e afins, continuo achando que simplesmente chamar uma API é muito melhor.
No começo, eu também comecei os testes com Ollama e, depois de ver que ele não conseguia cobrir direito nem 3 usuários simultâneos, passei imediatamente para o vLLM e, de um jeito ou de outro, montei a solução de RAG. Só que, para isso, assumindo 10 usuários simultâneos, já preciso usar quase por completo 2 GPUs H100. Também deixo as tarefas de embedding e busca rodando no vLLM, então mesmo 4 H100 ficam realmente apertadas. E isso com cerca de 90 GB de VRAM por placa.
Claro, eu não entendo muito de IA e estou simplesmente tentando fazer funcionar à força enquanto adapto as coisas às necessidades do departamento e às regras internas de segurança... então fico me perguntando se esse é mesmo o caminho certo. Era o ChatGPT Enterprise? Honestamente, acho que tem um custo-benefício absurdo.
Eu também tinha uma ideia parecida, mas era difícil expressá-la em palavras.
Modelo mental é um nome bem apropriado. Vou tentar usar isso com frequência.
Eu gosto muito de Django! Eu também devo muito a ele em vários sentidos e sou muito grato. Embora o Django esteja um pouco menos popular do que antes. Na verdade, nem sei se houve alguma época em que o Django foi especialmente uma febre; acredito que ele vai continuar por muito, muito tempo como um framework amado, de forma estável e constante!
Para começar, os fabricantes de componentes que produzem os equipamentos em si geralmente não oferecem bom suporte nem para Lua nem para Python. Talvez C, no máximo?
https://godotengine.org/article/godot-showcase-dogwalk/
Entrevista no blog do Godot e
https://studio.blender.org/blog/our-workflow-with-blender-and-godot/
um texto dos desenvolvedores do Blender sobre como eles estruturaram o fluxo de trabalho com o Godot e como gerenciaram os recursos; é muito interessante, então recomendo bastante.
https://drive.google.com/file/d/…
Veja aqui sem inserir nenhum número.
A pessoa que escreveu este texto é o CEO Ahn Kwang-seop, da empresa ThreeBlocks.ai?
Qual é o motivo de coletarem números de celular?
Quero ver, mas estou hesitando ao saber que preciso informar meu número para receber.
Como os EUA são tão vastos, imagino que esse tipo de iniciativa também seja possível por lá. Bem interessante.
Boa notícia, hehe. Espero que adicionem suporte a CUDA logo, para que também seja possível fazer treinamento em alta velocidade no Mac~!
No fim das contas, eles acabam desenvolvendo tudo já prevendo exatamente o problema de como vão juntar os branches divergentes.
Tão fundamental quanto isso também é a presença ou ausência de
prototype...E também a forma de referenciar as funções de ordem superior que são geradas ...
É uma complexidade inevitável. Não é mais como o simples HTML com templates de antigamente.
Se for um runtime de CPU usado só para inferência simples, a situação até é um pouco melhor, mas com os serviços de LLM exigidos hoje em dia, tanto o tráfego quanto o volume aumentam demais, então dá vontade de xingar quando vai calcular os custos kkk
Tem muita coisa com a qual dá para se identificar aí.
Os comentários também são bons, mas quando alguém organiza isso e coloca a discussão na mesa, tenho a sensação de que o resultado fica mais completo, passando por contrapontos, apoio e complementos.
P.S.: Tenho visto com frequência ultimamente a expressão "tecnologia entediante", que em inglês é boring technology.
Não são só os desenvolvedores, mas como existem pessoas com perfis muito diversos, às vezes a pessoa acabou virando desenvolvedora e tem aversão ou medo de escrever ou olhar código; quanto mais a mentalidade for a de que basta funcionar, em vez de interpretar a partir de uma perspectiva de estrutura sistemática ou de manutenibilidade, mais forte me parece ser a dependência ou a fé cega na IA. Ou talvez não.
Há pacotes em que a dependência de
pytorch+cudamuda só de versão... é um verdadeiro espetáculo.Nem tem grandes funcionalidades, mas para cada pequeno daemon são instalados quase 2 GB de dependências..
Eu também, por necessidade, estou montando uma solução de RAG usando nada menos que 4 GPUs H100 tão cobiçadas, mas considerando não só o investimento direto em hardware como também os custos de energia, resfriamento e afins, continuo achando que simplesmente chamar uma API é muito melhor.
No começo, eu também comecei os testes com Ollama e, depois de ver que ele não conseguia cobrir direito nem 3 usuários simultâneos, passei imediatamente para o vLLM e, de um jeito ou de outro, montei a solução de RAG. Só que, para isso, assumindo 10 usuários simultâneos, já preciso usar quase por completo 2 GPUs H100. Também deixo as tarefas de embedding e busca rodando no vLLM, então mesmo 4 H100 ficam realmente apertadas. E isso com cerca de 90 GB de VRAM por placa.
Claro, eu não entendo muito de IA e estou simplesmente tentando fazer funcionar à força enquanto adapto as coisas às necessidades do departamento e às regras internas de segurança... então fico me perguntando se esse é mesmo o caminho certo. Era o ChatGPT Enterprise? Honestamente, acho que tem um custo-benefício absurdo.
Eu também tinha uma ideia parecida, mas era difícil expressá-la em palavras.
Modelo mental é um nome bem apropriado. Vou tentar usar isso com frequência.
US$ 150 por hora? A partir daí o controle de variáveis já vai pro espaço kkkkkkkkk
Eu gosto muito de Django! Eu também devo muito a ele em vários sentidos e sou muito grato. Embora o Django esteja um pouco menos popular do que antes. Na verdade, nem sei se houve alguma época em que o Django foi especialmente uma febre; acredito que ele vai continuar por muito, muito tempo como um framework amado, de forma estável e constante!
Para começar, os fabricantes de componentes que produzem os equipamentos em si geralmente não oferecem bom suporte nem para Lua nem para Python. Talvez C, no máximo?
Será que a pessoa que escreveu aquele texto ficou suspensa depois de fazer uns Shorts genéricos no clique, kkk