Perspectivas para a engenharia de dados: previsões da Data Engineering Weekly para 2025

xguru · 2024-12-23T10:36:01+09:00

Principais mudanças na engenharia de dados em 2024: crescimento explosivo da IA generativa, amadurecimento da governança de dados e foco em eficiência e processamento em tempo real Em 2025, espera-se que cinco grandes tendências transformem o mundo dos dados com base nesses movimentos 1. Avanços na computação para IA A NVIDIA emergiu como a maior empresa do mundo em valor de mercado, exibindo um ritmo de crescimento que acontece uma vez por geração O Google anunciou um avanço revolucionário na área de computação quântica com o Willow Amazon, Google e Microsoft, entre outras, travam uma competição intensa no mercado de chips de IA, com o chip Trainium2 da Amazon sendo um exemplo representativo PCs e dispositivos equipados com Neural Processing Units (NPUs) estão viabilizando processamento de IA offline e melhorando a privacidade dos dados Inovações como o Edge TPU do Google estão acelerando a transição para edge computing com eficiência energética, reduzindo a dependência de infraestrutura centralizada em nuvem A transição para arquiteturas de computação híbridas e energeticamente eficientes está reduzindo a distância entre desempenho, custo e privacidade em aplicações de IA Espera-se que chips neuromórficos, que imitam a estrutura do cérebro, ofereçam eficiência energética incomparável e capacidade de processar dados não estruturados no dispositivo Avanços significativos em computação neuromórfica e quântica estão abrindo novas fronteiras para as capacidades de IA Prevê-se que esses avanços em hardware de IA impulsionem inovações em processamento de linguagem natural, visão computacional, robótica e saúde em 2025 e além 2. Evolução dos modelos de linguagem especializados por domínio Domain-specific language models (LLMs) Modelos de linguagem especializados por domínio, treinados com datasets de setores específicos, estão levando a aplicação de IA em cada indústria a um novo patamar Setores como saúde, finanças, jurídico e manufatura estão adotando esses modelos para resolver com precisão tarefas complexas e ricas em contexto Capacidades de IA ajustadas às exigências detalhadas de cada setor estão transformando processos de trabalho e tomada de decisão em toda a empresa Small Language Models (SLMs) Modelos de linguagem menores (Small Language Models, SLMs) estão ganhando destaque por sua eficiência de custos e adaptabilidade SLMs otimizados para tarefas específicas estão mostrando desempenho superior ao de modelos de grande porte em domínios limitados Com menores exigências computacionais e maior facilidade de implantação, os SLMs devem democratizar o acesso à IA, permitindo que organizações de todos os portes implementem recursos avançados de linguagem sem o peso de administrar sistemas intensivos em recursos 3. Orquestradores de IA e raciocínio em múltiplas etapas Orquestradores de IA À medida que as empresas adotam diversos agentes de IA especializados, espera-se que os orquestradores de IA assumam um papel central na stack de dados orientada por IA Esses orquestradores funcionam como um plano de controle inteligente, roteando tarefas dinamicamente para o agente mais adequado, sintetizando os resultados e fornecendo insights acionáveis Com compreensão profunda de conteúdo, capacidade multilíngue e suporte a diversos tipos de dados, eles integram múltiplos agentes de IA em workflows consistentes Avanços no raciocínio em múltiplas etapas Os modelos de IA estão evoluindo além de simples perguntas e respostas para resolver problemas complexos por meio de raciocínio em múltiplas etapas Ao dividir tarefas complexas em pequenas etapas sequenciais, torna-se possível obter análises mais precisas e perspicazes Com essa capacidade, agentes de IA poderão automatizar tarefas de cauda longa em programação, saúde, jurídico e outros setores A combinação de orquestradores de IA com raciocínio em múltiplas etapas abrirá uma nova era para a IA, ampliando significativamente sua influência na resolução de problemas e na tomada de decisão em diversos campos 4. Ambiente de desenvolvimento integrado de próxima geração para integração de dados (Data IDE) O aumento da demanda por insights de dados nas organizações está mudando de forma fundamental a abordagem da engenharia de dados Em 2025, espera-se o surgimento de um novo tipo de IDE projetado para democratizar de forma eficaz o acesso e a manipulação de dados Ferramentas como lakebyte.ai já mostram o início dessa inovação Principais características Integração sem fricção Integração fluida de todo o ciclo de vida dos dados — da coleta e transformação à análise, visualização e implantação — em um único ambiente unificado Assistência inteligente baseada em IA Deve incluir recursos de IA que ofereçam autocompletar de código inteligente, limpeza automatizada de dados e sugestões inteligentes para otimização de pipelines Não apenas ajudará a escrever código, mas também entenderá o significado dos dados e sugerirá as melhores formas de transformá-los Interface Low-Code/No-Code Interfaces visuais de drag-and-drop permitirão que usuários com pouca experiência em programação construam e gerenciem pipelines de dados Também oferecerão flexibilidade para que usuários avançados escrevam código personalizado quando necessário Recursos de colaboração Promoverão colaboração fluida entre engenheiros de dados, cientistas de dados, analistas e usuários de negócio Permitirão trabalhar em conjunto em projetos de dados dentro de um ambiente compartilhado Governança de dados embutida Verificações de qualidade de dados, pipelines de CI/CD, execução de testes de integração antes do push para produção, controle de acesso e rastreamento de linhagem serão integrados diretamente ao workflow de desenvolvimento Garantindo que a governança de dados não seja tratada como algo pensado só depois Suporte a diversas fontes e formatos de dados Oferecerão conectores nativos para uma ampla variedade de fontes de dados, incluindo bancos de dados, data lakes, plataformas de streaming e armazenamento em nuvem Suportarão diversos formatos de dados, incluindo dados estruturados, semiestruturados e não estruturados Cloud-native e escalabilidade Serão projetados para rodar na nuvem, aproveitando a escalabilidade e a elasticidade da infraestrutura cloud Com a democratização dos dados por meio de IDEs poderosos e intuitivos, espera-se o surgimento dos 'Citizen Data Engineers' Especialistas de domínio poderão construir e gerenciar workflows de dados mesmo sem serem programadores tradicionais Espera-se que a queda das barreiras entre equipes técnicas e não técnicas acelere a inovação orientada por dados Em 2025, Prompt Wrangling deve se tornar a habilidade mais importante para engenheiros de dados 5. A ascensão do LakeDB: transformando formatos de lakehouse em banco de dados As fronteiras entre data lakes, data warehouses e bancos de dados estão ficando cada vez mais difusas Em 2025, prevê-se o surgimento de um novo paradigma chamado LakeDB Como uma evolução do conceito de LakeHouse, ele avança na direção de integrar capacidades mais robustas de banco de dados diretamente ao data lake Mantém a escalabilidade e a flexibilidade do object storage, ao mesmo tempo em que oferece o desempenho e a facilidade de uso de bancos de dados tradicionais Oferece recursos avançados que vão além de simples consultas sobre object storage e formatos tabulares Gerencia nativamente buffering, caching, índices e operações de escrita para entregar desempenho e eficiência em nível de LakeHouse Os LakeHouses atuais dependem de frameworks externos de processamento, como Spark ou Flink, para ingestão, transformação e escrita de dados Essa dependência aumenta a complexidade e introduz latência Dependendo da implementação, pode haver inconsistência de desempenho e problemas de interoperabilidade O LakeDB incluirá funcionalidades como: Escrita nativa Fornece caminhos de escrita otimizados diretamente para o object storage subjacente, eliminando a necessidade de engines externas de processamento em tarefas comuns Com a recente adição de gravações condicionais no S3, espera-se que o object storage em nuvem passe a suportar os caminhos de escrita do LakeDB Buffering e caching inteligentes Gerenciam de forma inteligente o buffering e o caching de dados para otimizar tanto a leitura quanto a escrita Gerenciamento de transações Aproveita gravações condicionais no S3 e técnicas avançadas de gerenciamento de metadados para oferecer recursos robustos de gerenciamento de transações Fornece mecanismos embutidos para garantir consistência e integridade dos dados Desempenho inteligente de consultas Integra engines OLAP in-process como o DuckDB para melhorar a eficiência no processamento de dados em pequena escala Melhora a eficiência das consultas por meio de indexação avançada e otimização de queries Seleciona automaticamente a melhor estratégia sem que o usuário precise definir separadamente abordagens de consulta conforme o volume de dados Gerenciamento automatizado de dados Automatiza tiering de dados, compressão e outras funções de otimização para simplificar operações e reduzir custos Busca vetorial e recursos de extensão Oferece suporte embutido para bancos de dados vetoriais e busca por similaridade Permite aplicar seletivamente a técnica de indexação ideal para cada coluna, otimizando desempenho de leitura e escrita Recursos como suporte a índices secundários do Hudi e tipos de dados variáveis do Delta já começaram a aparecer em formatos LakeHouse Embora o conceito de LakeDB ainda esteja em estágio inicial, espera-se inovação significativa nessa área em 2025 Os formatos LakeHouse existentes podem evoluir para incorporar mais recursos semelhantes aos do LakeDB, e novas soluções construídas desde o início com essa visão também podem surgir 6. Zero ETL baseado em Data Mesh & Contract e arquitetura federada Apesar da visão cética sobre contratos de dados e mesh, espera-se que mais empresas adotem arquiteturas de data mesh Prevê-se aumento do uso de data mesh especialmente em cenários que exigem troca de dados dentro da empresa Zero ETL e arquiteturas de consulta federada estão impulsionando essa mudança Zero ETL A tecnologia está evoluindo no sentido de minimizar movimentação e duplicação de dados Tecnologias como virtualização de dados, engines de consulta federada e protocolos de compartilhamento de dados permitem acesso e análise sem processos complexos de ETL Espera-se simplificação dos tradicionais processos de ETL, complexos e demorados O compartilhamento de dados está emergindo como consideração central Protocolos e plataformas seguros e eficientes de compartilhamento de dados viabilizam colaboração com parceiros, clientes e concorrentes Espera-se maior adoção e evolução contínua de padrões como Delta Sharing Perspectivas futuras Espera-se que equipes de domínio passem a ser donas de seus próprios pipelines, criem produtos de dados e compartilhem dados com fluidez além das fronteiras organizacionais À medida que mais empresas treinam LLMs com seus próprios dados, a importância do compartilhamento de dados tende a crescer ainda mais Espera-se que modelos de compartilhamento de dados tragam mais agilidade, reduzam o tempo até os insights e viabilizem uma abordagem mais distribuída e escalável de gestão de dados Conclusão A ascensão da IA e a democratização dos dados por meio de novos IDEs estão se acelerando A evolução do papel do engenheiro de dados e o surgimento do LakeDB estão mudando de forma fundamental a maneira de gerenciar dados Os princípios de data mesh, sustentados por zero ETL e arquiteturas federadas, estão se tornando mainstream Em um ambiente dinâmico, o papel do engenheiro de dados está se tornando mais importante do que nunca Prevê-se que ocupará uma posição central como arquiteto de insights, guardião da qualidade dos dados e motor da inovação Espera-se que se adapte às exigências em evolução do mundo orientado por dados e crie novo valor

(dataengineeringweekly.com)

18 pontos por xguru 2024-12-23 | Ainda não há comentários. | Compartilhar no WhatsApp

Principais mudanças na engenharia de dados em 2024: crescimento explosivo da IA generativa, amadurecimento da governança de dados e foco em eficiência e processamento em tempo real
Em 2025, espera-se que cinco grandes tendências transformem o mundo dos dados com base nesses movimentos

1. Avanços na computação para IA

A NVIDIA emergiu como a maior empresa do mundo em valor de mercado, exibindo um ritmo de crescimento que acontece uma vez por geração
O Google anunciou um avanço revolucionário na área de computação quântica com o Willow
Amazon, Google e Microsoft, entre outras, travam uma competição intensa no mercado de chips de IA, com o chip Trainium2 da Amazon sendo um exemplo representativo
PCs e dispositivos equipados com Neural Processing Units (NPUs) estão viabilizando processamento de IA offline e melhorando a privacidade dos dados
Inovações como o Edge TPU do Google estão acelerando a transição para edge computing com eficiência energética, reduzindo a dependência de infraestrutura centralizada em nuvem
A transição para arquiteturas de computação híbridas e energeticamente eficientes está reduzindo a distância entre desempenho, custo e privacidade em aplicações de IA
Espera-se que chips neuromórficos, que imitam a estrutura do cérebro, ofereçam eficiência energética incomparável e capacidade de processar dados não estruturados no dispositivo
Avanços significativos em computação neuromórfica e quântica estão abrindo novas fronteiras para as capacidades de IA
Prevê-se que esses avanços em hardware de IA impulsionem inovações em processamento de linguagem natural, visão computacional, robótica e saúde em 2025 e além

2. Evolução dos modelos de linguagem especializados por domínio

Domain-specific language models (LLMs)
- Modelos de linguagem especializados por domínio, treinados com datasets de setores específicos, estão levando a aplicação de IA em cada indústria a um novo patamar
- Setores como saúde, finanças, jurídico e manufatura estão adotando esses modelos para resolver com precisão tarefas complexas e ricas em contexto
- Capacidades de IA ajustadas às exigências detalhadas de cada setor estão transformando processos de trabalho e tomada de decisão em toda a empresa
Small Language Models (SLMs)
- Modelos de linguagem menores (Small Language Models, SLMs) estão ganhando destaque por sua eficiência de custos e adaptabilidade
- SLMs otimizados para tarefas específicas estão mostrando desempenho superior ao de modelos de grande porte em domínios limitados
- Com menores exigências computacionais e maior facilidade de implantação, os SLMs devem democratizar o acesso à IA, permitindo que organizações de todos os portes implementem recursos avançados de linguagem sem o peso de administrar sistemas intensivos em recursos

3. Orquestradores de IA e raciocínio em múltiplas etapas

Orquestradores de IA
- À medida que as empresas adotam diversos agentes de IA especializados, espera-se que os orquestradores de IA assumam um papel central na stack de dados orientada por IA
- Esses orquestradores funcionam como um plano de controle inteligente, roteando tarefas dinamicamente para o agente mais adequado, sintetizando os resultados e fornecendo insights acionáveis
- Com compreensão profunda de conteúdo, capacidade multilíngue e suporte a diversos tipos de dados, eles integram múltiplos agentes de IA em workflows consistentes
Avanços no raciocínio em múltiplas etapas
- Os modelos de IA estão evoluindo além de simples perguntas e respostas para resolver problemas complexos por meio de raciocínio em múltiplas etapas
- Ao dividir tarefas complexas em pequenas etapas sequenciais, torna-se possível obter análises mais precisas e perspicazes
- Com essa capacidade, agentes de IA poderão automatizar tarefas de cauda longa em programação, saúde, jurídico e outros setores
A combinação de orquestradores de IA com raciocínio em múltiplas etapas abrirá uma nova era para a IA, ampliando significativamente sua influência na resolução de problemas e na tomada de decisão em diversos campos

4. Ambiente de desenvolvimento integrado de próxima geração para integração de dados (Data IDE)

O aumento da demanda por insights de dados nas organizações está mudando de forma fundamental a abordagem da engenharia de dados
Em 2025, espera-se o surgimento de um novo tipo de IDE projetado para democratizar de forma eficaz o acesso e a manipulação de dados
Ferramentas como lakebyte.ai já mostram o início dessa inovação
Principais características
- Integração sem fricção
  - Integração fluida de todo o ciclo de vida dos dados — da coleta e transformação à análise, visualização e implantação — em um único ambiente unificado
- Assistência inteligente baseada em IA
  - Deve incluir recursos de IA que ofereçam autocompletar de código inteligente, limpeza automatizada de dados e sugestões inteligentes para otimização de pipelines
  - Não apenas ajudará a escrever código, mas também entenderá o significado dos dados e sugerirá as melhores formas de transformá-los
- Interface Low-Code/No-Code
  - Interfaces visuais de drag-and-drop permitirão que usuários com pouca experiência em programação construam e gerenciem pipelines de dados
  - Também oferecerão flexibilidade para que usuários avançados escrevam código personalizado quando necessário
- Recursos de colaboração
  - Promoverão colaboração fluida entre engenheiros de dados, cientistas de dados, analistas e usuários de negócio
  - Permitirão trabalhar em conjunto em projetos de dados dentro de um ambiente compartilhado
- Governança de dados embutida
  - Verificações de qualidade de dados, pipelines de CI/CD, execução de testes de integração antes do push para produção, controle de acesso e rastreamento de linhagem serão integrados diretamente ao workflow de desenvolvimento
  - Garantindo que a governança de dados não seja tratada como algo pensado só depois
- Suporte a diversas fontes e formatos de dados
  - Oferecerão conectores nativos para uma ampla variedade de fontes de dados, incluindo bancos de dados, data lakes, plataformas de streaming e armazenamento em nuvem
  - Suportarão diversos formatos de dados, incluindo dados estruturados, semiestruturados e não estruturados
- Cloud-native e escalabilidade
  - Serão projetados para rodar na nuvem, aproveitando a escalabilidade e a elasticidade da infraestrutura cloud
Com a democratização dos dados por meio de IDEs poderosos e intuitivos, espera-se o surgimento dos 'Citizen Data Engineers'
- Especialistas de domínio poderão construir e gerenciar workflows de dados mesmo sem serem programadores tradicionais
Espera-se que a queda das barreiras entre equipes técnicas e não técnicas acelere a inovação orientada por dados
Em 2025, Prompt Wrangling deve se tornar a habilidade mais importante para engenheiros de dados

5. A ascensão do LakeDB: transformando formatos de lakehouse em banco de dados

As fronteiras entre data lakes, data warehouses e bancos de dados estão ficando cada vez mais difusas
Em 2025, prevê-se o surgimento de um novo paradigma chamado LakeDB
Como uma evolução do conceito de LakeHouse, ele avança na direção de integrar capacidades mais robustas de banco de dados diretamente ao data lake
- Mantém a escalabilidade e a flexibilidade do object storage, ao mesmo tempo em que oferece o desempenho e a facilidade de uso de bancos de dados tradicionais
Oferece recursos avançados que vão além de simples consultas sobre object storage e formatos tabulares
- Gerencia nativamente buffering, caching, índices e operações de escrita para entregar desempenho e eficiência em nível de LakeHouse
Os LakeHouses atuais dependem de frameworks externos de processamento, como Spark ou Flink, para ingestão, transformação e escrita de dados
- Essa dependência aumenta a complexidade e introduz latência
- Dependendo da implementação, pode haver inconsistência de desempenho e problemas de interoperabilidade
O LakeDB incluirá funcionalidades como:
- Escrita nativa
  - Fornece caminhos de escrita otimizados diretamente para o object storage subjacente, eliminando a necessidade de engines externas de processamento em tarefas comuns
  - Com a recente adição de gravações condicionais no S3, espera-se que o object storage em nuvem passe a suportar os caminhos de escrita do LakeDB
- Buffering e caching inteligentes
  - Gerenciam de forma inteligente o buffering e o caching de dados para otimizar tanto a leitura quanto a escrita
- Gerenciamento de transações
  - Aproveita gravações condicionais no S3 e técnicas avançadas de gerenciamento de metadados para oferecer recursos robustos de gerenciamento de transações
  - Fornece mecanismos embutidos para garantir consistência e integridade dos dados
- Desempenho inteligente de consultas
  - Integra engines OLAP in-process como o DuckDB para melhorar a eficiência no processamento de dados em pequena escala
  - Melhora a eficiência das consultas por meio de indexação avançada e otimização de queries
  - Seleciona automaticamente a melhor estratégia sem que o usuário precise definir separadamente abordagens de consulta conforme o volume de dados
- Gerenciamento automatizado de dados
  - Automatiza tiering de dados, compressão e outras funções de otimização para simplificar operações e reduzir custos
- Busca vetorial e recursos de extensão
  - Oferece suporte embutido para bancos de dados vetoriais e busca por similaridade
  - Permite aplicar seletivamente a técnica de indexação ideal para cada coluna, otimizando desempenho de leitura e escrita
  - Recursos como suporte a índices secundários do Hudi e tipos de dados variáveis do Delta já começaram a aparecer em formatos LakeHouse
Embora o conceito de LakeDB ainda esteja em estágio inicial, espera-se inovação significativa nessa área em 2025
Os formatos LakeHouse existentes podem evoluir para incorporar mais recursos semelhantes aos do LakeDB, e novas soluções construídas desde o início com essa visão também podem surgir

6. Zero ETL baseado em Data Mesh & Contract e arquitetura federada

Apesar da visão cética sobre contratos de dados e mesh, espera-se que mais empresas adotem arquiteturas de data mesh
Prevê-se aumento do uso de data mesh especialmente em cenários que exigem troca de dados dentro da empresa
Zero ETL e arquiteturas de consulta federada estão impulsionando essa mudança
Zero ETL
- A tecnologia está evoluindo no sentido de minimizar movimentação e duplicação de dados
- Tecnologias como virtualização de dados, engines de consulta federada e protocolos de compartilhamento de dados permitem acesso e análise sem processos complexos de ETL
- Espera-se simplificação dos tradicionais processos de ETL, complexos e demorados
O compartilhamento de dados está emergindo como consideração central
- Protocolos e plataformas seguros e eficientes de compartilhamento de dados viabilizam colaboração com parceiros, clientes e concorrentes
- Espera-se maior adoção e evolução contínua de padrões como Delta Sharing
Perspectivas futuras
- Espera-se que equipes de domínio passem a ser donas de seus próprios pipelines, criem produtos de dados e compartilhem dados com fluidez além das fronteiras organizacionais
- À medida que mais empresas treinam LLMs com seus próprios dados, a importância do compartilhamento de dados tende a crescer ainda mais
- Espera-se que modelos de compartilhamento de dados tragam mais agilidade, reduzam o tempo até os insights e viabilizem uma abordagem mais distribuída e escalável de gestão de dados

Conclusão

A ascensão da IA e a democratização dos dados por meio de novos IDEs estão se acelerando
A evolução do papel do engenheiro de dados e o surgimento do LakeDB estão mudando de forma fundamental a maneira de gerenciar dados
Os princípios de data mesh, sustentados por zero ETL e arquiteturas federadas, estão se tornando mainstream
Em um ambiente dinâmico, o papel do engenheiro de dados está se tornando mais importante do que nunca
- Prevê-se que ocupará uma posição central como arquiteto de insights, guardião da qualidade dos dados e motor da inovação
- Espera-se que se adapte às exigências em evolução do mundo orientado por dados e crie novo valor