12 pontos por GN⁺ 2024-12-06 | 7 comentários | Compartilhar no WhatsApp
  • Com o avanço da tecnologia de IA, passou a ser possível resolver problemas mais complexos e importantes, e isso exige uma quantidade significativa de recursos computacionais
  • O ChatGPT Pro é um plano de US$ 200 por mês que oferece acesso ampliado aos modelos e ferramentas mais recentes da OpenAI
    • o1: o modelo mais inteligente
    • Inclui também o1-mini, GPT-4o e Advanced Voice
    • o1 pro mode: utiliza mais recursos computacionais para pensar com mais profundidade e fornecer respostas mais sofisticadas para problemas complexos
    • Recursos de produtividade ainda mais poderosos serão adicionados no futuro
  • Projetado para pesquisadores, engenheiros e pessoas que realizam trabalhos voltados à pesquisa, ajudando a aumentar a produtividade e a estar na linha de frente do avanço da IA
  • O o1 pro mode do ChatGPT Pro é um modelo avançado que fornece respostas com alta confiabilidade
    • Em especial, oferece respostas precisas e abrangentes nas áreas de ciência de dados, programação e análise jurídica
    • Em comparação com o o1 e o o1-preview, apresenta desempenho superior em benchmarks desafiadores de aprendizado de máquina nas áreas de matemática, ciência e programação

Comparação principal de desempenho (com base na precisão pass@1)

  • Competição de matemática (AIME 2024)
    • o1-preview: 50
    • o1: 78
    • o1 pro mode: 86
  • Competição de código (Codeforces)
    • o1-preview: 62
    • o1: 89
    • o1 pro mode: 90
  • Perguntas científicas em nível de doutorado (GPQA Diamond)
    • o1-preview: 74
    • o1: 76
    • o1 pro mode: 79

Melhoria na confiabilidade: avaliação "4/4 reliability"

  • Foi introduzido um critério de avaliação mais rigoroso: só é considerado resolvido quando acerta todas as 4 tentativas em 4

Comparação principal de desempenho (com base na confiabilidade 4/4)

  • Competição de matemática (AIME 2024)
    • o1-preview: 37
    • o1: 67
    • o1 pro mode: 80
  • Competição de código (Codeforces)
    • o1-preview: 26
    • o1: 64
    • o1 pro mode: 75
  • Perguntas científicas em nível de doutorado (GPQA Diamond)
    • o1-preview: 58
    • o1: 67
    • o1 pro mode: 74

7 comentários

 
christallire 2024-12-11

Usei a versão Pro, mas a janela de contexto curta é um problema crítico. Ele até escreve textos longos, mas depois de um certo ponto o conteúdo ou o formato original que estava sendo usado começa a se desfazer aos poucos.

 
riki3 2024-12-06

A OpenAI está se afastando cada vez mais do que significa ser "open".
Acho que essa é a realidade.

 
tsboard 2024-12-06

Como o custo estava ficando difícil de bancar, achei que a assinatura Plus fosse aumentar, mas pelo visto não foi isso: eles estão atacando esse mercado criando uma linha ainda mais cara. No dia a dia eu realmente uso muito bem, mas acho que para mim não há necessidade de ir até a versão Pro. rs

 
windrod 2024-12-06

Eu uso o Plus. Há algum tempo, venho percebendo que, ao executar o mesmo tipo de prompt no mesmo tipo de engine, o resultado mudou. Tenho a sensação de que ele não entrega mais tanto quanto antes.

Fico pensando se não estão nerfando os modelos disponíveis no Plus e depois vendendo isso em partes.

Quanto mais caro fica o custo, mais se espera confiabilidade no desempenho, mas os serviços de IA não têm isso. Parece bem possível que a IA siga por esse caminho, como quando uma operadora de internet de repente aplica limitações escondidas na conexão.

 
vndk2234 2024-12-09

Eu também uso o Plus, mas é o tom das respostas, sabe? O nome é o mesmo, o1, mas a sensação geral ficou completamente diferente do preview. Chego até a pensar se alguém está limitando a saída de tokens.

 
reagea0 2024-12-09

Concordo. Eu também sinto que, mesmo usando a mesma versão no mesmo período, o desempenho oscila sem qualquer aviso. É um pouco outro assunto, mas, no caso de certos serviços, também não há como verificar se realmente não coletam informações, então acaba virando apenas uma questão de confiança, não é?

 
GN⁺ 2024-12-06
Opiniões no Hacker News
  • A OpenAI está competindo entre o ritmo de avanço das alternativas open source e a necessidade de gerar receita. O sucesso depende de as grandes empresas escolherem as soluções de IA integradas e seguras da OpenAI. Isso é semelhante à estratégia da IBM em computação corporativa.

  • Há insatisfação com o fato de a janela de contexto da versão Pro ser curta. Como assinante Plus, esperava uma janela de contexto maior, mas não há nenhuma discussão sobre isso. Recomendo fortemente que os concorrentes considerem a janela de contexto como diferencial.

  • A primeira impressão ao comprar a assinatura Pro é que o novo modelo o1-Pro é um escritor excelente. Ele lida bem com prompts longos e análises de dados complexas.

  • O plano por mais poder computacional pode ser explicado pela tática de precificação do efeito chamariz. Introduz-se uma opção cara para fazer os outros planos parecerem mais razoáveis.

  • Pago 166 euros por mês pelo Claude Teams. Isso se deve ao recurso de projetos, combinado com a capacidade de enviar muitos arquivos e fazer perguntas em um contexto específico. Esse recurso é tão poderoso que parece ter pesquisadores na ponta dos dedos.

  • Consigo desempenho melhor na Anthropic por um custo muito menor. Sou cético quanto à afirmação de que o novo GPT é 10 vezes melhor que o Claude.

  • Há dúvidas sobre se a OpenAI conseguirá alcançar uma IA “geral” antes que os investidores se cansem. O sucesso do ChatGPT pode ter sugerido que eles têm um caminho para chegar lá.

  • A principal dificuldade de definir um preço mensal para uso “ilimitado” do produto está no 1% de power users que fazem uso extremo. O preço do ChatGPT Pro mira power users e empresas.

  • Gastei 4,5 horas escrevendo fórmulas complexas do Google Sheets. Se o novo modo ChatGPT Pro for mais rápido, há uma grande vantagem em termos de economia de tempo.

  • Há casos de condução de entrevistas usando o modelo o1 em fábricas de entrevistas. Para esse tipo de caso de uso, a mensalidade de US$ 200 pode parecer barata.