Como reduzir os custos de IA de US$ 100 por dia para US$ 1: fine-tuning do Mixtral com GPT-4

xguru · 2024-01-23T10:11:02+09:00

Foi criado um app de exploração de carreira baseado em IA e, com o crescimento explosivo, o custo do GPT-4 começou a ultrapassar US$ 100 por dia Métodos usados para reduzir os custos de IA em até 99%, diminuindo a latência e mantendo a qualidade Primeiro, gerar resultados com o modelo mais poderoso (GPT-4) e depois usar esses resultados para fazer o fine-tuning de um modelo menor Armazenar as requisições/respostas de IA de forma que possam ser exportadas facilmente. Uso do Helicone AI. Basta substituir a API da OpenAI e as requisições de IA passam a ser salvas em uma tabela Depois de acumular cerca de 100 a 500 pares de requisição/resposta, exportar e refinar os dados para obter boa qualidade Com esse dataset, fazer o fine-tuning do Mixtral 8x7B usando serviços de hospedagem como Together/Anyscale Substituir o GPT-4 pelo novo modelo ajustado

(twitter.com/wenquai)

22 pontos por xguru 2024-01-23 | 4 comentários | Compartilhar no WhatsApp

Foi criado um app de exploração de carreira baseado em IA e, com o crescimento explosivo, o custo do GPT-4 começou a ultrapassar US$ 100 por dia
Métodos usados para reduzir os custos de IA em até 99%, diminuindo a latência e mantendo a qualidade
- Primeiro, gerar resultados com o modelo mais poderoso (GPT-4) e depois usar esses resultados para fazer o fine-tuning de um modelo menor
- Armazenar as requisições/respostas de IA de forma que possam ser exportadas facilmente. Uso do Helicone AI. Basta substituir a API da OpenAI e as requisições de IA passam a ser salvas em uma tabela
- Depois de acumular cerca de 100 a 500 pares de requisição/resposta, exportar e refinar os dados para obter boa qualidade
- Com esse dataset, fazer o fine-tuning do Mixtral 8x7B usando serviços de hospedagem como Together/Anyscale
- Substituir o GPT-4 pelo novo modelo ajustado

4 comentários

kuroneko 2024-01-23

Então isso significa que violaram tanto os termos do GPT-4 quanto a licença do Mixtral...? @_@

xguru 2024-01-23

Parece ser isso. Como isso não fica muito visível, muita gente acaba pensando assim.

kuroneko 2024-01-23

Havia coisas sendo usadas discretamente ou divulgadas para pesquisa,
mas ver alguém promovendo tão abertamente um “nós usamos isso!” é meio... curioso.

Será que não vão reclamar...?

xguru 2024-01-23

Opiniões do Hacker News

A maioria das empresas de tecnologia, exceto pela pesquisa central, vem usando GPT-4 ou 3.5 para gerar dados de treino há pelo menos meio ano e, com base nisso, faz ajuste fino com QLoRA para lançar um modelo de IA “próprio”. A gestão anuncia grandes resultados e diz que a empresa é líder em IA para um “setor específico”. Esse processo quase não exige conhecimento de aprendizado de máquina e pode ser feito com menos de $1.000 em custos de computação em nuvem. Mas, no trabalho real, o resultado acaba ficando no nível do GPT-3.5 e, especialmente ao usar GPUs na nuvem, é difícil competir com o GPT-3.5 em termos de custo.
Dei uma olhada no app Wanderer dessa pessoa e achei muito suspeito não haver termos de uso, política de privacidade, precificação clara nem qualquer menção a IA. A abordagem de usar GPT-4 funciona bem para fazer o modelo parecer tão inteligente quanto o GPT-4, mas, nos momentos realmente importantes, ele mostra que é um modelo inferior.
Segundo a documentação da Together.ai, o Mixtral não pode ser usado para ajuste fino e aparentemente eles também não executam modelos ajustados em modo serverless. Isso sugere que a história não é consistente.
Deixando de lado as questões éticas e as condições limitadas, talvez o autor nem precisasse de GPT-4 para fazer o que fez. Quão pior ou mais difícil teria sido gerar os 100 primeiros bons pares de prompt-resposta com Mixtral ou 3.5 e depois ajustá-los manualmente?
Estou desenvolvendo um app paralelo para resumir conteúdo em grande escala usando IA e espero que isso se torne um SaaS lucrativo. Para lançar rápido, pretendo usar OpenAI por enquanto, mas depois imagino migrar para uma opção de LLM hospedada por conta própria, se isso for viável do ponto de vista econômico e técnico. Alguém com experiência nisso pode compartilhar dicas ou truques.
Fico me perguntando se isso não viola os termos de uso da OpenAI.
Pedem que seja explicado como o custo foi reduzido para $1. O GPT-4 foi substituído por uma versão ajustada do Mixtral 8x7b, mas isso exige várias GPUs. Mesmo que o modelo tenha sido quantizado por conta própria, ainda há custos de hardware e infraestrutura, o que passaria de $1. Será que é self-hosting?
Menção à metodologia clássica de destilação de conhecimento. Aqui se argumenta que não seria necessário um 8x7b para ajuste fino e que, em breve, modelos phi-2 ou phixtral serão fortes o bastante para esses domínios.
Obtive excelentes resultados com o chat openhermes 7b sem qualquer modificação, cobrindo 90% dos casos de uso do GPT-4 e rodando rapidamente. Recomendo.

Como reduzir os custos de IA de US$ 100 por dia para US$ 1: fine-tuning do Mixtral com GPT-4

Leituras relacionadas

4 comentários

Opiniões do Hacker News