- De 2021 até o início de 2023, o campo das tecnologias de dados, especialmente o Modern Data Stack, foi uma das áreas mais ativas e comentadas da indústria de tecnologia
- No fim de 2023, com a chegada do ChatGPT, o interesse migrou para a IA, e as discussões sobre infraestrutura de dados ficaram um pouco em segundo plano
- Mas, à medida que a IA começou a ser integrada aos fluxos reais de trabalho, duas coisas ficaram claras:
- Fluxos de trabalho complexos de IA precisam aproveitar ativamente as lições da engenharia de dados
- Para que os LLMs funcionem corretamente, eles precisam ter acesso aos dados produzidos nos fluxos de trabalho analíticos
A conexão real entre IA e infraestrutura de dados
- Por mais inteligentes que os LLMs sejam, eles não conseguem dar respostas corretas se não tiverem acesso a informações precisas
- Se a informação estiver espalhada entre posts no Reddit, documentos internos, data warehouses etc., o LLM não conseguirá acessá-la
- A boa notícia é que agora estão surgindo protocolos e padrões que permitem aos LLMs acessar diversas fontes de informação
- Mas ainda há desafios a resolver, como decidir quais informações fornecer, garantir se essas informações estão corretas e definir como os controles de acesso devem ser configurados
Vantagens e desafios da integração de LLMs por fonte de informação
-
LLMs + busca na internet
- Vantagens: é possível integrar dados públicos da web e usar com facilidade informações atualizadas do mundo real (ex.: procurar bons restaurantes)
- Problemas:
- Conteúdos otimizados para SEO também funcionam bem para LLMs, fazendo com que informações pouco confiáveis apareçam no topo
- Ex.: ao pesquisar "o melhor travesseiro de 2025", é difícil encontrar uma resposta confiável → com LLMs acontece o mesmo
-
LLMs + documentos internos (Notion, Slack etc.)
- Vantagens:
- Em organizações complexas, é possível entender rapidamente informações de colaboração entre equipes, políticas e planos
- Ferramentas como o NotionAI são um bom exemplo do potencial dos LLMs
- Problemas:
- É difícil saber se os documentos estão atualizados
- Podem surgir resultados contraditórios para a mesma pergunta
- Portanto, além dos próprios documentos, também são necessários metadados sobre a confiabilidade dos documentos
-
LLMs + dados estruturados e métricas
- Vantagens:
- Com uma interface conversacional, é possível fazer análises de dados complexas sem SQL
- Ao lidar com dados familiares, a sensação é como ganhar um superpoder
- Problemas:
- A organização inteira está usando definições consistentes?
- A liderança pode confiar nos resultados e usá-los em decisões reais?
- O controle de acesso e a governança de dados estão configurados corretamente?
- Text-to-SQL está evoluindo cada vez mais, mas viabilidade prática e confiabilidade no mundo real continuam sendo desafios
Três exemplos de integração de dados para LLMs
- Por exemplo, se o CEO de uma rede de restaurantes estiver avaliando uma expansão para uma nova região, ele poderá usar todas as informações a seguir:
- Documentos internos: compreender a estratégia e os planos da organização
- Dados estruturados: analisar a situação financeira e os dados dos clientes
- Busca na internet: pesquisar informações de mercado e benchmarks da região
- Em teoria, é uma abordagem muito útil, mas, na prática, ainda é preciso conectar vários sistemas de forma improvisada, e um pequeno erro pode afetar toda a avaliação
O verdadeiro valor do Modern Data Stack
- Não foi mera coincidência que o Modern Data Stack, voltado à centralização, padronização e governança de dados, tenha ganhado força pouco antes da chegada da IA
- Essa infraestrutura foi justamente a base para a era dos LLMs
- O Modern Data Stack vai além da simples construção de dashboards: ele é uma plataforma para fluxos de trabalho e interfaces de dados consistentes e confiáveis
- Agora que a IA começou a interagir com esse ecossistema, a importância da infraestrutura de dados volta a ganhar destaque
O papel dos profissionais de dados daqui para frente
- Os profissionais de dados agora vão além da simples análise de dados:
- Construção de um ambiente de dados confiável que possa ser usado por LLMs
- Projeto de sistemas com governança e controle de acesso aplicados
- Garantia de estabilidade e confiabilidade ao implantar sistemas de IA
- Essa área traz uma enorme oportunidade e uma grande responsabilidade
- Muitas organizações já estão aplicando sistemas com LLMs ao trabalho real, e este é o momento em que é possível gerar impacto concreto
Encerramento
- O Modern Data Stack continua sendo uma infraestrutura válida na era da IA e agora começa a se conectar de fato aos sistemas de IA
- Fluxos de trabalho de IA que integram dados estruturados, documentos não estruturados e informações do mundo real já são viáveis e tendem a se sofisticar ainda mais
- Projetar e conectar esses sistemas na direção correta é a missão da comunidade de dados
Ainda não há comentários.