18 pontos por GN⁺ 2025-01-02 | 3 comentários | Compartilhar no WhatsApp

Review geral de Andy Pavlo (professor da CMU) sobre o setor de bancos de dados em 2024

Meu banco de dados, eu licencio do jeito que eu quiser!

  • O dilema entre bancos de dados e open source:
    • DBMS de código aberto muitas vezes são desenvolvidos por empresas lucrativas apoiadas por VC.
    • Surgiu o problema de provedores de nuvem oferecerem DBMS populares como serviço e obterem mais lucro do que as empresas que os desenvolvem.
    • Em 2018, o MongoDB migrou para a SSPL (Server Side Public License) na tentativa de resolver esse problema.
  • Mudança de licença do Redis:
    • A Redis Ltd., preparando seu IPO em 2024, mudou da licença BSD-3 para a SSPL e para sua própria Redis Source Available License.
    • Em março de 2024, anunciou a mudança de licença ao adquirir a Speedb, um fork do RocksDB.
    • Reação da comunidade:
      • Na mesma semana, foram anunciados os projetos fork Valkey e Redict.
      • O Valkey começou na Amazon, contou com participação de Google, Oracle e outros, e foi incorporado à Linux Foundation.
    • Possível retorno do fundador do Redis:
      • Em dezembro de 2024, foi anunciado que o fundador do Redis está colaborando com a Redis Ltd. para buscar a reunificação da comunidade.
  • Retorno do Elasticsearch a uma licença open source:
    • A Elastic N.V. mudou em 2021 para SSPL e Elastic License, entrando em conflito com a Amazon.
    • A Amazon respondeu com o fork OpenSearch.
    • Em agosto de 2024, a Elastic N.V. voltou para a AGPL e fez referência a uma música do Kendrick Lamar.
    • Em setembro de 2024, a Amazon transferiu o projeto OpenSearch para a Linux Foundation.
  • Opinião do Andy:
    • Críticas ao Redis:
      • Aponta baixo desempenho, falsas transações e problemas com uma linguagem de consulta ineficiente.
      • Como há muitas alternativas ao Redis, a situação dificulta resistir à reação da comunidade.
    • Padrão semelhante ao do Elasticsearch:
      • mudança de licença → surgimento de forks → retorno a uma licença open source.
    • Por que Redis e Elasticsearch sofreram mais reação:
      • No caso do Redis, os fundadores não eram os criadores originais, e o sistema tinha muitos contribuidores externos, gerando debate sobre “falta de legitimidade”.
      • A reação foi semelhante à mudança de licença do Terraform da HashiCorp em 2023.
    • Influência dos provedores de nuvem:
      • Provedores de nuvem enfraquecem a base de receita de ISVs ao integrar protocolos de DBMS open source em DBMS existentes ou oferecer seus próprios serviços.
      • Ex.: a AWS adicionou o protocolo InfluxDB v2 ao DBMS Timestream e anunciou um serviço compatível com Valkey 30% mais barato do que seu serviço compatível com Redis.
  • Atualizações adicionais:
    • A AWS oferece um serviço gerenciado do DBMS InfluxDB v2 em parceria com a Influx Data.
    • A ScyllaDB encerrou em dezembro de 2024 sua versão open source AGPL e mudou a versão enterprise para um modelo de “código disponível”.

A rivalidade sem fim entre Databricks e Snowflake

  • Competição de LLMs abertos:
    • Databricks:
      • Em março de 2024, anunciou o LLM open source DBRX.
      • Com 132 bilhões de parâmetros, foi desenvolvido pela equipe Mosaic, adquirida em 2023 por US$ 1,3 bilhão.
      • Investiu US$ 10 milhões no desenvolvimento do modelo.
    • Snowflake:
      • Em abril de 2024, anunciou o LLM open source Arctic.
      • Com 480 bilhões de parâmetros, alegou desempenho superior ao DBRX em tarefas “enterprise”, como geração de SQL.
      • Investiu US$ 2 milhões no desenvolvimento do modelo.
      • O anúncio da Snowflake focou mais na comparação com o DBRX do que com outros LLMs, deixando clara a rivalidade.
  • Guerra dos catálogos de metadados:
    • O HCatalog do Hive se consolidou como padrão dos data lakes nos anos 2010.
    • O Iceberg da Netflix e o Hudi da Uber surgiram no fim da década de 2010 e cresceram como projetos Apache.
    • Databricks:
      • Oferece a plataforma DeltaLake e o serviço de catálogo proprietário Unity.
      • Em junho de 2024, no mesmo dia em que o CEO da Snowflake anunciou o serviço de catálogo Polaris, adquiriu a Tabular, empresa de suporte ao Iceberg, por US$ 2 bilhões.
      • Na semana seguinte, anunciou a abertura do Unity Catalog como open source.
    • Snowflake:
      • Desde anunciar suporte ao Iceberg em 2022, foi expandindo esse suporte gradualmente.
      • Durante as negociações para adquirir a Tabular, acabou sendo ultrapassada pela Databricks.
  • Opinião do Andy:
    • Diferença em relação à concorrência tradicional:
      • Ao contrário da antiga disputa de desempenho entre Oracle e Informix, a briga entre Snowflake e Databricks está focada em ecossistema e ferramentas de gerenciamento de dados.
      • Motores de execução vetorizados agora são considerados tecnologia básica.
      • O que importa hoje são qualidades adicionais, como facilidade de uso, compatibilidade com ferramentas e integração com AI/LLM.
    • Bom para os consumidores:
      • Uma competição intensa significa produtos e tecnologia melhores.
      • O Polaris da Snowflake virou projeto Apache, ampliando o acesso a uma tecnologia melhor.
      • O resultado esperado é avanço técnico e redução de preços.
    • Comparação positiva:
      • Diferentemente da simples disputa de ego entre CEOs da Oracle e da Salesforce, a briga entre Snowflake e Databricks leva a inovação real e ganho de competitividade.

O esforço para integrar o DuckDB em todo lugar

  • Crescimento do DuckDB:
    • O DuckDB se estabeleceu como a nova escolha padrão para consultas de análise de dados.
    • Antes, o Pandas ocupava esse papel, mas o DuckDB tomou esse espaço graças à sua excelente portabilidade e desempenho.
    • Crescem as tentativas de vários DBMS de integrar o DuckDB para reforçar o suporte a workloads OLAP.
    • Em 2024, foram anunciadas quatro novas extensões para integrar Postgres e DuckDB.
  • Anúncios de extensões Postgres-DuckDB:
    • Maio de 2024 - Crunchy Data:
      • Anunciou uma ponte proprietária que encaminha consultas OLAP do Postgres para o DuckDB.
      • Também adicionou uma extensão que acelera consultas do PostGIS usando os recursos de análise geoespacial do DuckDB.
    • Junho de 2024 - ParadeDB:
      • Anunciou a extensão open source pg_analytics.
      • Antes usava pg_lakehouse, baseado em DataFusion, mas migrou para o DuckDB.
    • Agosto de 2024 - pg_duck:
      • Extensão DuckDB oficialmente suportada no GitHub do DuckDB Labs.
      • Começou como colaboração entre MotherDuck, Hydra, Microsoft e Neon, mas Microsoft e Neon saíram do projeto após disputa por controle de desenvolvimento.
      • Hoje é mantida em conjunto por MotherDuck e Hydra.
    • Novembro de 2024 - pg_mooncake:
      • Foi anunciada uma extensão que grava dados em tabelas Iceberg por meio do Postgres e oferece suporte a transações.
  • Opinião do Andy:
    • Vantagens do DuckDB:
      • A maior parte das consultas OLAP faz varredura de menos de 100 MB de dados, e o DuckDB consegue lidar com isso sozinho em uma única instância.
      • Graças à excelente portabilidade e praticidade, ele se espalhou rapidamente na comunidade Postgres.
      • Unifica em uma única extensão diversos ecossistemas de dados, inclusive acesso a dados em Iceberg e S3.
      • Pode substituir data warehouses caros ao oferecer análises de alto desempenho.
    • Extensibilidade do Postgres:
      • O Postgres foi projetado desde os anos 1980 com foco em extensibilidade e flexibilidade.
      • Sua API de “hooks” (introduzida em 2006) ajudou a criar o ecossistema de extensões mais amplo e diverso.
      • Mas também há risco de interferência entre extensões e comportamento incorreto.
    • Integração do DuckDB com o Postgres:
      • Extensões anteriores do Postgres, como Citus e Timescale, ofereciam apenas armazenamento colunar, resolvendo o problema só parcialmente.
      • O DuckDB oferece tanto armazenamento colunar quanto processamento vetorizado de consultas.
    • Menção em tom de brincadeira:
      • Ele comenta a possibilidade de uma piada com o elefante do Postgres e o DuckDB em estilo turducken, mas diz que preferiu omitir para evitar punição da universidade.

Acontecimentos aleatórios no mundo dos bancos de dados

Principais lançamentos:

  • Amazon Aurora DSQL:
    • A AWS anunciou um novo DBMS “parecido com Spanner”.
    • Baseado em serviço de log distribuído e ordenação por timestamp (Time Sync).
    • Usa o nome Aurora, mas não compartilha código com o Aurora Postgres RDS existente.
  • CedarDB:
    • Um DBMS comercial derivado de um fork do código do Umbra.
    • Thomas Neumann, criador do Umbra, continua focado em pesquisa e segue no topo do ranking do Clickbench.
  • Google Bigtable:
    • O Bigtable, pioneiro em NoSQL, adicionou suporte a SQL em 2024.
  • Limbo:
    • A Turso anunciou um projeto de reescrita completa do SQLite em Rust.
    • A força do SQLite não está só no código, mas na engenharia de testes que garante execução correta em qualquer ambiente.
    • O projeto introduziu testes determinísticos em colaboração com ex-engenheiros da FoundationDB.
  • Microsoft Garnet:
    • Armazenamento chave-valor compatível com Redis e sucessor do FASTER.
    • Oferece paralelismo de consultas, suporte a banco de dados maior que a memória e transações reais.
  • MySQL v9:
    • Nova versão lançada após 6 anos.
    • Há um problema de travamento quando o banco tem mais de 8.000 tabelas.
    • Faltam recursos importantes, e a Oracle está mais focada no serviço MySQL Heatwave.
  • Prometheus v3:
    • Grande atualização após 7 anos.
    • Como há muitas alternativas viáveis, o Prometheus original perdeu espaço.

Principais aquisições:

  • Alteryx → Private Equity: pouco usada, sem muitos comentários.
  • MariaDB → Private Equity: expectativa de resolver problemas de gestão.
  • OrioleDB → Supabase: melhora a antiga arquitetura de armazenamento do Postgres.
  • PeerDB → ClickHouse: ferramenta para ETL de dados do Postgres para o ClickHouse.
  • PopSQL → Timescale: aquisição de uma UI avançada de editor SQL.
  • Speedb → Redis Ltd.: fork do RocksDB que pode viabilizar recurso de armazenamento em disco.
  • Rockset → OpenAI: encerramento do serviço DBaaS em setembro de 2024.
  • Tabular → Databricks: aquisição para fortalecer o ecossistema Iceberg.
  • Verta.ai → Cloudera: a Cloudera ainda está viva.
  • Warpstream → Confluent: reescrita do Kafka em golang com integração ao S3.

Principais investimentos:

  • Databricks: Série J de US$ 1 bilhão.
  • DBOS: rodada seed de US$ 8,5 milhões.
  • LanceDB: rodada seed de US$ 8 milhões.
  • SDF: rodada seed de US$ 9 milhões.
  • SpiceDB: Série A de US$ 12 milhões.
  • TigerBeetle: Série A de US$ 24 milhões.

Principais fins:

  • Amazon QLDB: nem a Amazon conseguiu monetizar.
  • OtterTune: fim de 10 anos de pesquisa e jornada de startup. Por problemas com uma empresa específica, alunos do CMU-DB foram proibidos de ser contratados.

Opinião do Andy:

  • Grande captação da Databricks:
    • Em 2024, a Série J de US$ 1 bilhão quebrou o recorde de maior captação do setor de bancos de dados.
    • O dinheiro foi usado para comprar ações de funcionários e aliviar a insatisfação causada pelo adiamento do IPO.
    • Após o IPO da Databricks, outras startups de banco de dados também podem se preparar para abrir capital.
  • Perspectiva para o próximo ano:
    • A queda dos juros pode abrir espaço para novas captações em empresas que já levantaram grandes quantias, como CockroachDB, Starburst e Imply.
    • O dbtLabs já é visto como uma empresa bem estabelecida.

Larry Ellison não para: movimentos surpreendentes em 2024

  • Principais feitos de Larry Ellison em 2024:
    • Ao completar 80 anos, ele continua se movendo com ousadia.
    • Com a alta das ações da Oracle, tornou-se a 3ª pessoa mais rica do mundo.
      • Em março de 2024, ganhou US$ 15 bilhões em um único dia com a disparada das ações da Oracle.
    • Em julho, comprou os estúdios Paramount por US$ 6 bilhões como presente para o filho (de seu terceiro casamento).
    • Também adquiriu um resort em Palm Beach por US$ 277 milhões, somando mais um ativo de luxo ao portfólio.
  • Apoio ao time de futebol americano da Universidade de Michigan:
    • Em novembro de 2024, doou US$ 12 milhões para uma campanha de apoio ao futebol americano da Universidade de Michigan.
      • A doação teve papel decisivo na contratação do principal quarterback transferido da LSU para Michigan.
      • O comunicado da universidade citou os méritos de “Larry e sua esposa Jolin”.
    • Foi o primeiro vínculo relevante de Larry com a Universidade de Michigan, apesar de ele não ter formação universitária.
  • Quem é “Jolin”:
    • Reportagens da imprensa revelaram que a nova esposa de Larry é Jolin (Curran) Zhu.
      • Larry foi visto assistindo a uma partida de tênis, e Jolin estava usando um boné de Michigan.
      • Duas semanas depois, a notícia do casamento saiu no jornal das 5 da manhã, confirmando sua identidade.
  • Visão do Andy:
    • O apoio de Larry à Universidade de Michigan tem um significado especial.
      • Um ex-aluno do CMU-DB do Andy atualmente é professor no grupo de bancos de dados da Universidade de Michigan.
    • Ele parabeniza Larry por seu novo amor e casamento, destacando como é difícil encontrar amor na sociedade moderna.
      • Mesmo após divórcios no passado, elogia a resiliência e a atitude positiva de Larry por ter encontrado o amor novamente.
  • O sexto casamento de Larry:
    • Depois de Melanie Craft (divórcio em 2010) e Nikita Kahn (divórcio em 2020), ele se casou novamente, surpreendendo a todos.
    • Seu casamento com Jolin Zhu volta a demonstrar sua determinação em buscar a felicidade.

Conclusão

  • Planos de Ano-Novo e situação atual:
    • Pela primeira vez em 3 anos, ele queria começar o ano com saúde, mas pegou COVID da filha e passou a virada na cama.
    • Tomou reforço em setembro de 2024 e está se recuperando sem maiores problemas graças ao tratamento com Paxlovid.
  • Fim do OtterTune:
    • Ficou decepcionado com o encerramento do projeto OtterTune.
    • Aprendeu muito ao colaborar com várias pessoas excelentes.
    • Agradece à Intel Capital e à Race Capital por apoiarem até o fim.
    • Está pensando em uma nova startup (dica: novamente relacionada a banco de dados).
  • Novo começo na CMU:
    • Voltou para a Carnegie Mellon University (CMU) e retomou a pesquisa em tempo integral.
    • Está preparando projetos de pesquisa empolgantes com Jignesh Patel.
    • Vai abrir uma nova disciplina de otimização de consultas neste semestre.
    • Como a Wikipedia apagou seu artigo em setembro de 2024, ele está pensando em como aumentar o número de citações de seus papers.
  • Apoio a DJ Mooshoo:
    • Continua apoiando DJ Mooshoo, que está preso em Cook County.
    • Espera e aguarda sua libertação em 2025.
  • Menção ao ByteBase:
    • Agradece ao artigo de retrospectiva de ferramentas de banco de dados da ByteBase em 2024 (Database Tools in 2024: A Year in Review).
    • Antes, a ByteBase pedia permissão para traduzir seu artigo de fim de ano sobre bancos de dados para o chinês, mas neste ano escreveu seu próprio artigo, sem esperar, sobre tema e título semelhantes.

3 comentários

 
daumkakao 2025-01-04

Obrigado pelo ótimo artigo.

 
xguru 2025-01-02

Esqueci de 2023. Na época era um link do OtterTune, mas como foi encerrado, agora trouxe para um blog pessoal.

Review dos bancos de dados de 2022
Review dos bancos de dados de 2021

 
GN⁺ 2025-01-02
Comentários do Hacker News
  • Há uma opinião de que, no vídeo do Andy, a crítica à API de comandos do Redis é fraca. O argumento é que é possível criticar a API do Redis, mas seriam necessários argumentos mais fortes. Também se enfatiza que é preciso entender como o Redis é usado e quais são suas vantagens

  • Quando o código do Greenplum foi fechado, os desenvolvedores originais criaram um fork open source chamado Cloudberry, que foi aceito como projeto Apache. O Cloudberry foi sincronizado com o Postgres 14, mas o Greenplum ainda permanece no Postgres 12

  • Há uma crítica pessoal ao Redis. Afirma-se que o Redis é lento, tem transações de fachada e uma sintaxe de consulta complicada. Também é mencionado que o Dragonfly apresentou desempenho melhor na CMU

  • Há a opinião de que o DuckDB é uma ferramenta excelente. Diz-se que foi marcante uma palestra do criador do DuckDB na CMU explicando por que cientistas de dados não usam RDBMS

  • Há a opinião de que é estranho SQL Server e suas variantes do Azure não terem sido mencionados. Eles dominam em certos segmentos e são avaliados como o terceiro mais popular no DBEngines

  • Há a opinião de que a insatisfação com Elastic e Redis é diferente do caso do MongoDB por causa da licença e do tamanho da comunidade de contribuidores. Licenças restritivas como a AGPL dificultam o uso embarcado, e sem uma comunidade de contribuidores fica difícil fazer um fork

  • Há a opinião de que não houve tentativas de fork após as mudanças de licença de MongoDB, Neo4j, Kafka e CockroachDB porque as pessoas simplesmente não se importavam tanto com esses projetos

  • Há a opinião de que a Amazon pode oferecer bancos de dados como serviço, mas muita gente não quer serviços gerenciados pela AWS. Diz-se que muitas equipes preferem soluções baseadas em k8s e que há uma tendência de migração para implementações OSS mainstream

  • Em resposta à opinião de que nunca conheceram alguém que usasse Alteryx, explica-se que o Alteryx é uma ferramenta gráfica de ELT + Analytics que quase não exige código e tem excelente compatibilidade, podendo ser usada com outros bancos de dados ou arquivos

  • Expressa-se surpresa com a notícia de que uma startup de banco de dados que levantou 12M fracassou em apenas 3 anos. Isso é citado como um exemplo de como é difícil ter sucesso com uma startup de banco de dados. Também se comenta que é estranho não terem encontrado mais investidores, apesar de terem uma ideia de melhorar desempenho de DB com IA