Tudo o que a OpenAI anunciou no DevDay

xguru · 2024-10-03T10:20:02+09:00

Principais anúncios Realtime API, que permite implementar recursos semelhantes ao modo de voz avançado do ChatGPT Aumento do rate limit do modelo o1 para o mesmo nível do GPT-4o (10 mil por minuto) Redução de preço da API do GPT-4o com cache automático de prompts. Para chamadas repetidas, fica 50% mais barato sem trabalho adicional de desenvolvimento API de fine-tuning multimodal Do ano passado para este ano, o número de apps ativos na plataforma da OpenAI triplicou, e o número de desenvolvedores ativos chegou a 3 milhões Visão geral do modelo o1 A OpenAI lançou o o1, um novo modelo de raciocínio O o1 é classificado como uma nova família de modelos, diferente do GPT-4o existente A OpenAI vê o desenvolvimento de vários modelos para diferentes casos de uso como a direção do futuro O o1 é excelente em pensar em formato de cadeia de pensamento, sendo adequado para tarefas de programação, mas é lento e caro Como a maioria dos prompts não precisa da capacidade avançada de raciocínio do o1, ele não será o modelo padrão Romain Huet, chefe de relações com desenvolvedores da OpenAI, apresentou uma demonstração usando o o1 para criar um app de iPhone do início ao fim em 30 segundos com um único prompt Ele também levou um drone ao palco e mostrou uma demonstração criando um web app para controlar o drone diante do público Essas demonstrações também poderiam ter sido feitas com modelos GPT anteriores, mas com o o1 é possível criá-las muito mais rápido O o1 mostra um futuro em que será possível ir da ideia ao app em 1 a 2 minutos API em tempo real para conversas por voz O recurso mais impressionante lançado pela OpenAI foi a API em tempo real, que permite aos desenvolvedores implementar em seus próprios apps recursos semelhantes ao modo de voz avançado do ChatGPT Os desenvolvedores podem enviar áudio gravado aos servidores da OpenAI e receber, em tempo real, respostas gravadas, transcrições e chamadas de função A API em tempo real entra hoje em beta público e deverá oferecer suporte a mais modalidades no futuro, como vídeo A API em tempo real custa US$ 0,06 por minuto de entrada de áudio e US$ 0,24 por minuto de saída de áudio, totalizando US$ 0,15 por minuto (assumindo entrada e saída de áudio iguais) Isso é mais caro que o serviço de voz para voz da ElevenLabs, que custa cerca de US$ 0,11 por minuto, mas lá não se paga conforme o uso e sim pela compra mensal de uma quantidade fixa de tempo Voz em tempo real abre muitos novos casos de uso, como assistentes de leitura melhores e ensino de idiomas mais imersivo Ferramentas de fine-tuning A OpenAI está levando a sério a ideia de que usar vários modelos é melhor do que usar um único modelo grande Ela oferece suporte para que empresas criem versões personalizadas do GPT-4o adequadas aos seus próprios casos de uso A OpenAI imagina um futuro em que toda empresa terá um modelo ajustado finamente com acesso aos seus próprios dados API de fine-tuning de imagem Qualquer pessoa pode fazer fine-tuning do GPT-4o usando seus próprios dados de imagem Por exemplo, se você trabalha na área médica e quer ajustar finamente a capacidade do GPT-4o de ler e rotular exames de ressonância magnética, pode usar essa API Ferramentas de destilação de modelos A OpenAI lançou duas ferramentas para melhorar o processo de destilação de modelos, que consiste em criar versões menores, mais rápidas e mais baratas de modelos fundacionais para casos de uso específicos Ela facilitou a destilação ao adicionar ao Developer Playground um recurso para registrar interações anteriores de API e usá-las como dados para fine-tuning Também adicionou a ferramenta Evals ao Playground para que desenvolvedores possam avaliar o desempenho de modelos ajustados finamente Cache de prompts reduz em 50% o custo de chamadas repetidas de API A OpenAI lançou um novo recurso de cache de prompts que detecta chamadas repetidas de API e retorna respostas geradas anteriormente Esse recurso começa a funcionar automaticamente a partir de hoje, permitindo que desenvolvedores reduzam em 50% o custo de muitas chamadas de API sem trabalho adicional Esse recurso dá continuidade à tendência de a OpenAI competir para tornar o custo de uso de API cada vez mais barato Isso é uma boa notícia para desenvolvedores, mas cria uma dinâmica interessante com a Microsoft, maior parceira da OpenAI A Microsoft vinha pressionando grandes empresas a pré-comprar um volume mínimo de chamadas da API do GPT-4 para garantir capacidade Fica a curiosidade de saber como a Microsoft e os clientes que já assumiram compromissos de compra vão reagir a essa redução de preço A estratégia da OpenAI 1. Foco no desenvolvimento de vários modelos para diferentes casos de uso A OpenAI acredita que os aplicativos mais eficazes usarão vários modelos em conjunto, em vez de um único modelo para tudo Desenvolvedores podem combinar modelos fortes em raciocínio, como o o1, com modelos fortes em contexto longo ou prompts de imagem, como o GPT-4o, para oferecer uma experiência consistente aos usuários 2. O o1 é um passo importante rumo a agentes capazes de trabalhar de forma autônoma Agentes são há muito tempo uma das aplicações de IA mais atraentes, mas os modelos GPT anteriores tinham grande chance de falhar ao tentar resolver tarefas por conta própria Espera-se que o o1 tenha papel central na criação de agentes realmente autônomos graças à sua capacidade de refletir sobre seu próprio processo de pensamento e planejar os próximos passos 3. A quantidade de tecnologia disponível para que desenvolvedores criem experiências incríveis para usuários aumentou enormemente É fácil esquecer que, há apenas alguns anos, nada do que foi demonstrado hoje era possível ou sequer estava no radar Hoje, até mesmo um desenvolvedor solo criando apps no tempo livre pode realizar coisas que antes nem uma equipe inteira de desenvolvimento conseguiria fazer

(every.to)

12 pontos por xguru 2024-10-03 | Ainda não há comentários. | Compartilhar no WhatsApp

Principais anúncios

Realtime API, que permite implementar recursos semelhantes ao modo de voz avançado do ChatGPT
Aumento do rate limit do modelo o1 para o mesmo nível do GPT-4o (10 mil por minuto)
Redução de preço da API do GPT-4o com cache automático de prompts. Para chamadas repetidas, fica 50% mais barato sem trabalho adicional de desenvolvimento
API de fine-tuning multimodal
Do ano passado para este ano, o número de apps ativos na plataforma da OpenAI triplicou, e o número de desenvolvedores ativos chegou a 3 milhões

Visão geral do modelo o1

A OpenAI lançou o o1, um novo modelo de raciocínio
O o1 é classificado como uma nova família de modelos, diferente do GPT-4o existente
A OpenAI vê o desenvolvimento de vários modelos para diferentes casos de uso como a direção do futuro
O o1 é excelente em pensar em formato de cadeia de pensamento, sendo adequado para tarefas de programação, mas é lento e caro
Como a maioria dos prompts não precisa da capacidade avançada de raciocínio do o1, ele não será o modelo padrão
Romain Huet, chefe de relações com desenvolvedores da OpenAI, apresentou uma demonstração usando o o1 para criar um app de iPhone do início ao fim em 30 segundos com um único prompt
Ele também levou um drone ao palco e mostrou uma demonstração criando um web app para controlar o drone diante do público
Essas demonstrações também poderiam ter sido feitas com modelos GPT anteriores, mas com o o1 é possível criá-las muito mais rápido
O o1 mostra um futuro em que será possível ir da ideia ao app em 1 a 2 minutos

API em tempo real para conversas por voz

O recurso mais impressionante lançado pela OpenAI foi a API em tempo real, que permite aos desenvolvedores implementar em seus próprios apps recursos semelhantes ao modo de voz avançado do ChatGPT
Os desenvolvedores podem enviar áudio gravado aos servidores da OpenAI e receber, em tempo real, respostas gravadas, transcrições e chamadas de função
A API em tempo real entra hoje em beta público e deverá oferecer suporte a mais modalidades no futuro, como vídeo
A API em tempo real custa US$ 0,06 por minuto de entrada de áudio e US$ 0,24 por minuto de saída de áudio, totalizando US$ 0,15 por minuto (assumindo entrada e saída de áudio iguais)
Isso é mais caro que o serviço de voz para voz da ElevenLabs, que custa cerca de US$ 0,11 por minuto, mas lá não se paga conforme o uso e sim pela compra mensal de uma quantidade fixa de tempo
Voz em tempo real abre muitos novos casos de uso, como assistentes de leitura melhores e ensino de idiomas mais imersivo

Ferramentas de fine-tuning

A OpenAI está levando a sério a ideia de que usar vários modelos é melhor do que usar um único modelo grande
Ela oferece suporte para que empresas criem versões personalizadas do GPT-4o adequadas aos seus próprios casos de uso
A OpenAI imagina um futuro em que toda empresa terá um modelo ajustado finamente com acesso aos seus próprios dados

API de fine-tuning de imagem

Qualquer pessoa pode fazer fine-tuning do GPT-4o usando seus próprios dados de imagem
Por exemplo, se você trabalha na área médica e quer ajustar finamente a capacidade do GPT-4o de ler e rotular exames de ressonância magnética, pode usar essa API

Ferramentas de destilação de modelos

A OpenAI lançou duas ferramentas para melhorar o processo de destilação de modelos, que consiste em criar versões menores, mais rápidas e mais baratas de modelos fundacionais para casos de uso específicos
Ela facilitou a destilação ao adicionar ao Developer Playground um recurso para registrar interações anteriores de API e usá-las como dados para fine-tuning
Também adicionou a ferramenta Evals ao Playground para que desenvolvedores possam avaliar o desempenho de modelos ajustados finamente

Cache de prompts reduz em 50% o custo de chamadas repetidas de API

A OpenAI lançou um novo recurso de cache de prompts que detecta chamadas repetidas de API e retorna respostas geradas anteriormente
Esse recurso começa a funcionar automaticamente a partir de hoje, permitindo que desenvolvedores reduzam em 50% o custo de muitas chamadas de API sem trabalho adicional
Esse recurso dá continuidade à tendência de a OpenAI competir para tornar o custo de uso de API cada vez mais barato
Isso é uma boa notícia para desenvolvedores, mas cria uma dinâmica interessante com a Microsoft, maior parceira da OpenAI
A Microsoft vinha pressionando grandes empresas a pré-comprar um volume mínimo de chamadas da API do GPT-4 para garantir capacidade
Fica a curiosidade de saber como a Microsoft e os clientes que já assumiram compromissos de compra vão reagir a essa redução de preço

A estratégia da OpenAI

1. Foco no desenvolvimento de vários modelos para diferentes casos de uso

A OpenAI acredita que os aplicativos mais eficazes usarão vários modelos em conjunto, em vez de um único modelo para tudo
Desenvolvedores podem combinar modelos fortes em raciocínio, como o o1, com modelos fortes em contexto longo ou prompts de imagem, como o GPT-4o, para oferecer uma experiência consistente aos usuários

2. O o1 é um passo importante rumo a agentes capazes de trabalhar de forma autônoma

Agentes são há muito tempo uma das aplicações de IA mais atraentes, mas os modelos GPT anteriores tinham grande chance de falhar ao tentar resolver tarefas por conta própria
Espera-se que o o1 tenha papel central na criação de agentes realmente autônomos graças à sua capacidade de refletir sobre seu próprio processo de pensamento e planejar os próximos passos

3. A quantidade de tecnologia disponível para que desenvolvedores criem experiências incríveis para usuários aumentou enormemente

É fácil esquecer que, há apenas alguns anos, nada do que foi demonstrado hoje era possível ou sequer estava no radar
Hoje, até mesmo um desenvolvedor solo criando apps no tempo livre pode realizar coisas que antes nem uma equipe inteira de desenvolvimento conseguiria fazer