Principais anúncios
- Realtime API, que permite implementar recursos semelhantes ao modo de voz avançado do ChatGPT
- Aumento do rate limit do modelo o1 para o mesmo nível do GPT-4o (10 mil por minuto)
- Redução de preço da API do GPT-4o com cache automático de prompts. Para chamadas repetidas, fica 50% mais barato sem trabalho adicional de desenvolvimento
- API de fine-tuning multimodal
- Do ano passado para este ano, o número de apps ativos na plataforma da OpenAI triplicou, e o número de desenvolvedores ativos chegou a 3 milhões
Visão geral do modelo o1
- A OpenAI lançou o o1, um novo modelo de raciocínio
- O o1 é classificado como uma nova família de modelos, diferente do GPT-4o existente
- A OpenAI vê o desenvolvimento de vários modelos para diferentes casos de uso como a direção do futuro
- O o1 é excelente em pensar em formato de cadeia de pensamento, sendo adequado para tarefas de programação, mas é lento e caro
- Como a maioria dos prompts não precisa da capacidade avançada de raciocínio do o1, ele não será o modelo padrão
- Romain Huet, chefe de relações com desenvolvedores da OpenAI, apresentou uma demonstração usando o o1 para criar um app de iPhone do início ao fim em 30 segundos com um único prompt
- Ele também levou um drone ao palco e mostrou uma demonstração criando um web app para controlar o drone diante do público
- Essas demonstrações também poderiam ter sido feitas com modelos GPT anteriores, mas com o o1 é possível criá-las muito mais rápido
- O o1 mostra um futuro em que será possível ir da ideia ao app em 1 a 2 minutos
API em tempo real para conversas por voz
- O recurso mais impressionante lançado pela OpenAI foi a API em tempo real, que permite aos desenvolvedores implementar em seus próprios apps recursos semelhantes ao modo de voz avançado do ChatGPT
- Os desenvolvedores podem enviar áudio gravado aos servidores da OpenAI e receber, em tempo real, respostas gravadas, transcrições e chamadas de função
- A API em tempo real entra hoje em beta público e deverá oferecer suporte a mais modalidades no futuro, como vídeo
- A API em tempo real custa US$ 0,06 por minuto de entrada de áudio e US$ 0,24 por minuto de saída de áudio, totalizando US$ 0,15 por minuto (assumindo entrada e saída de áudio iguais)
- Isso é mais caro que o serviço de voz para voz da ElevenLabs, que custa cerca de US$ 0,11 por minuto, mas lá não se paga conforme o uso e sim pela compra mensal de uma quantidade fixa de tempo
- Voz em tempo real abre muitos novos casos de uso, como assistentes de leitura melhores e ensino de idiomas mais imersivo
Ferramentas de fine-tuning
- A OpenAI está levando a sério a ideia de que usar vários modelos é melhor do que usar um único modelo grande
- Ela oferece suporte para que empresas criem versões personalizadas do GPT-4o adequadas aos seus próprios casos de uso
- A OpenAI imagina um futuro em que toda empresa terá um modelo ajustado finamente com acesso aos seus próprios dados
API de fine-tuning de imagem
- Qualquer pessoa pode fazer fine-tuning do GPT-4o usando seus próprios dados de imagem
- Por exemplo, se você trabalha na área médica e quer ajustar finamente a capacidade do GPT-4o de ler e rotular exames de ressonância magnética, pode usar essa API
Ferramentas de destilação de modelos
- A OpenAI lançou duas ferramentas para melhorar o processo de destilação de modelos, que consiste em criar versões menores, mais rápidas e mais baratas de modelos fundacionais para casos de uso específicos
- Ela facilitou a destilação ao adicionar ao Developer Playground um recurso para registrar interações anteriores de API e usá-las como dados para fine-tuning
- Também adicionou a ferramenta Evals ao Playground para que desenvolvedores possam avaliar o desempenho de modelos ajustados finamente
Cache de prompts reduz em 50% o custo de chamadas repetidas de API
- A OpenAI lançou um novo recurso de cache de prompts que detecta chamadas repetidas de API e retorna respostas geradas anteriormente
- Esse recurso começa a funcionar automaticamente a partir de hoje, permitindo que desenvolvedores reduzam em 50% o custo de muitas chamadas de API sem trabalho adicional
- Esse recurso dá continuidade à tendência de a OpenAI competir para tornar o custo de uso de API cada vez mais barato
- Isso é uma boa notícia para desenvolvedores, mas cria uma dinâmica interessante com a Microsoft, maior parceira da OpenAI
- A Microsoft vinha pressionando grandes empresas a pré-comprar um volume mínimo de chamadas da API do GPT-4 para garantir capacidade
- Fica a curiosidade de saber como a Microsoft e os clientes que já assumiram compromissos de compra vão reagir a essa redução de preço
A estratégia da OpenAI
1. Foco no desenvolvimento de vários modelos para diferentes casos de uso
- A OpenAI acredita que os aplicativos mais eficazes usarão vários modelos em conjunto, em vez de um único modelo para tudo
- Desenvolvedores podem combinar modelos fortes em raciocínio, como o o1, com modelos fortes em contexto longo ou prompts de imagem, como o GPT-4o, para oferecer uma experiência consistente aos usuários
2. O o1 é um passo importante rumo a agentes capazes de trabalhar de forma autônoma
- Agentes são há muito tempo uma das aplicações de IA mais atraentes, mas os modelos GPT anteriores tinham grande chance de falhar ao tentar resolver tarefas por conta própria
- Espera-se que o o1 tenha papel central na criação de agentes realmente autônomos graças à sua capacidade de refletir sobre seu próprio processo de pensamento e planejar os próximos passos
3. A quantidade de tecnologia disponível para que desenvolvedores criem experiências incríveis para usuários aumentou enormemente
- É fácil esquecer que, há apenas alguns anos, nada do que foi demonstrado hoje era possível ou sequer estava no radar
- Hoje, até mesmo um desenvolvedor solo criando apps no tempo livre pode realizar coisas que antes nem uma equipe inteira de desenvolvimento conseguiria fazer
Ainda não há comentários.