A história do armazenamento
Imagem oficial da Databricks
Na história do armazenamento, houveram algumas mudanças até chegarmos no que hoje chamamos de Lakehouse que une o melhor do mundo do Data Warehouse com o Data Lake.
O Data Warehouse é um sistema de armezamento aplamente conhecido no mundo do Business Intelligence que tem o propósito de armazenar de forma estruturada dados geralmente de banco de dados relacionais, porém com o a necessidade de armazenar dados de outras fontes e formatos, foi necessário a adoção de um novo paradigma como o data Lake. O grande problema do Data Lake foi justamente a falta de um controle maior nos dados e com essa finalidade nasceu o Lakehouse que tem propriedades de um Data Warehouse e ao mesmo tempo flexibilidade de um Data Lake.
- Data Warehouse: Um data warehouse é um sistema de armazenamento centralizado que é projetado para armazenar e analisar grandes volumes de dados históricos de várias fontes. Ele é otimizado para consultas e análises complexas e é geralmente organizado em um modelo dimensional ou modelo em estrela, o que facilita a análise de negócios. Os dados em um data warehouse são geralmente estruturados e são extraídos, transformados e carregados (ETL) de várias fontes de dados para fornecer insights para tomada de decisões em uma organização.
- Data Lake: Um data lake é um repositório de armazenamento centralizado que permite armazenar todos os tipos de dados brutos e não processados em sua forma original. Isso inclui dados estruturados, semiestruturados e não estruturados, como logs de servidores, arquivos de texto, vídeos, imagens, etc. Os dados em um data lake são armazenados em seu formato original e são acessíveis para análise posterior. Um data lake é geralmente usado para explorar dados, descobrir padrões e insights, e é muitas vezes associado com análises avançadas, como análise de big data e machine learning.
- Lakehouse: Lakehouse é um conceito que combina as vantagens de um data lake e de um data warehouse. Ele propõe uma abordagem unificada para armazenar, gerenciar e analisar dados, onde os dados brutos são armazenados em um data lake em seu formato original, mas também são tratados e organizados como tabelas para consultas SQL e análises analíticas. Isso significa que, em um lakehouse, os dados brutos podem ser consultados usando SQL, similar a um data warehouse, mas também são mantidos em seu formato original, permitindo flexibilidade e escalabilidade. Esta abordagem visa superar as limitações tradicionais dos data warehouses, como custos de armazenamento e rigidez no esquema, ao mesmo tempo em que preserva as capacidades analíticas e de governança.
Em resumo, um data warehouse é projetado para armazenar dados estruturados e otimizar consultas analíticas, um data lake é um repositório para armazenar todos os tipos de dados brutos em sua forma original, enquanto um lakehouse combina aspectos de ambos, fornecendo um ambiente unificado para armazenar e analisar dados brutos e estruturados.
Muito Obrigado e até o próximo artigo!!