12 pontos por xguru 2025-04-07 | Ainda não há comentários. | Compartilhar no WhatsApp
  • De 2021 até o início de 2023, o campo das tecnologias de dados, especialmente o Modern Data Stack, foi uma das áreas mais ativas e comentadas da indústria de tecnologia
  • No fim de 2023, com a chegada do ChatGPT, o interesse migrou para a IA, e as discussões sobre infraestrutura de dados ficaram um pouco em segundo plano
  • Mas, à medida que a IA começou a ser integrada aos fluxos reais de trabalho, duas coisas ficaram claras:
    • Fluxos de trabalho complexos de IA precisam aproveitar ativamente as lições da engenharia de dados
    • Para que os LLMs funcionem corretamente, eles precisam ter acesso aos dados produzidos nos fluxos de trabalho analíticos

A conexão real entre IA e infraestrutura de dados

  • Por mais inteligentes que os LLMs sejam, eles não conseguem dar respostas corretas se não tiverem acesso a informações precisas
  • Se a informação estiver espalhada entre posts no Reddit, documentos internos, data warehouses etc., o LLM não conseguirá acessá-la
  • A boa notícia é que agora estão surgindo protocolos e padrões que permitem aos LLMs acessar diversas fontes de informação
  • Mas ainda há desafios a resolver, como decidir quais informações fornecer, garantir se essas informações estão corretas e definir como os controles de acesso devem ser configurados

Vantagens e desafios da integração de LLMs por fonte de informação

  • LLMs + busca na internet

    • Vantagens: é possível integrar dados públicos da web e usar com facilidade informações atualizadas do mundo real (ex.: procurar bons restaurantes)
    • Problemas:
      • Conteúdos otimizados para SEO também funcionam bem para LLMs, fazendo com que informações pouco confiáveis apareçam no topo
      • Ex.: ao pesquisar "o melhor travesseiro de 2025", é difícil encontrar uma resposta confiável → com LLMs acontece o mesmo
  • LLMs + documentos internos (Notion, Slack etc.)

    • Vantagens:
      • Em organizações complexas, é possível entender rapidamente informações de colaboração entre equipes, políticas e planos
      • Ferramentas como o NotionAI são um bom exemplo do potencial dos LLMs
    • Problemas:
      • É difícil saber se os documentos estão atualizados
      • Podem surgir resultados contraditórios para a mesma pergunta
      • Portanto, além dos próprios documentos, também são necessários metadados sobre a confiabilidade dos documentos
  • LLMs + dados estruturados e métricas

    • Vantagens:
      • Com uma interface conversacional, é possível fazer análises de dados complexas sem SQL
      • Ao lidar com dados familiares, a sensação é como ganhar um superpoder
    • Problemas:
      • A organização inteira está usando definições consistentes?
      • A liderança pode confiar nos resultados e usá-los em decisões reais?
      • O controle de acesso e a governança de dados estão configurados corretamente?
      • Text-to-SQL está evoluindo cada vez mais, mas viabilidade prática e confiabilidade no mundo real continuam sendo desafios

Três exemplos de integração de dados para LLMs

  • Por exemplo, se o CEO de uma rede de restaurantes estiver avaliando uma expansão para uma nova região, ele poderá usar todas as informações a seguir:
    • Documentos internos: compreender a estratégia e os planos da organização
    • Dados estruturados: analisar a situação financeira e os dados dos clientes
    • Busca na internet: pesquisar informações de mercado e benchmarks da região
  • Em teoria, é uma abordagem muito útil, mas, na prática, ainda é preciso conectar vários sistemas de forma improvisada, e um pequeno erro pode afetar toda a avaliação

O verdadeiro valor do Modern Data Stack

  • Não foi mera coincidência que o Modern Data Stack, voltado à centralização, padronização e governança de dados, tenha ganhado força pouco antes da chegada da IA
  • Essa infraestrutura foi justamente a base para a era dos LLMs
  • O Modern Data Stack vai além da simples construção de dashboards: ele é uma plataforma para fluxos de trabalho e interfaces de dados consistentes e confiáveis
  • Agora que a IA começou a interagir com esse ecossistema, a importância da infraestrutura de dados volta a ganhar destaque

O papel dos profissionais de dados daqui para frente

  • Os profissionais de dados agora vão além da simples análise de dados:
    • Construção de um ambiente de dados confiável que possa ser usado por LLMs
    • Projeto de sistemas com governança e controle de acesso aplicados
    • Garantia de estabilidade e confiabilidade ao implantar sistemas de IA
  • Essa área traz uma enorme oportunidade e uma grande responsabilidade
  • Muitas organizações já estão aplicando sistemas com LLMs ao trabalho real, e este é o momento em que é possível gerar impacto concreto

Encerramento

  • O Modern Data Stack continua sendo uma infraestrutura válida na era da IA e agora começa a se conectar de fato aos sistemas de IA
  • Fluxos de trabalho de IA que integram dados estruturados, documentos não estruturados e informações do mundo real já são viáveis e tendem a se sofisticar ainda mais
  • Projetar e conectar esses sistemas na direção correta é a missão da comunidade de dados

Ainda não há comentários.

Ainda não há comentários.