13 de abril, 2024
  • By Wallace Camargo
  • / spark

A história do armazenamento

Imagem oficial da Databricks

 

Na história do armazenamento, houveram algumas mudanças até chegarmos no que hoje chamamos de Lakehouse que une o melhor do mundo do Data Warehouse com o Data Lake.

O Data Warehouse é um sistema de armezamento aplamente conhecido no mundo do Business Intelligence que tem o propósito de armazenar de forma estruturada dados geralmente de banco de dados relacionais, porém com o a necessidade de armazenar dados de outras fontes e formatos, foi necessário a adoção de um novo paradigma como o data Lake. O grande problema do Data Lake foi justamente a falta de um controle maior nos dados e com essa finalidade nasceu o Lakehouse que tem propriedades de um Data Warehouse e ao mesmo tempo flexibilidade de um Data Lake.

  • Data Warehouse: Um data warehouse é um sistema de armazenamento centralizado que é projetado para armazenar e analisar grandes volumes de dados históricos de várias fontes. Ele é otimizado para consultas e análises complexas e é geralmente organizado em um modelo dimensional ou modelo em estrela, o que facilita a análise de negócios. Os dados em um data warehouse são geralmente estruturados e são extraídos, transformados e carregados (ETL) de várias fontes de dados para fornecer insights para tomada de decisões em uma organização.

 

  • Data Lake: Um data lake é um repositório de armazenamento centralizado que permite armazenar todos os tipos de dados brutos e não processados em sua forma original. Isso inclui dados estruturados, semiestruturados e não estruturados, como logs de servidores, arquivos de texto, vídeos, imagens, etc. Os dados em um data lake são armazenados em seu formato original e são acessíveis para análise posterior. Um data lake é geralmente usado para explorar dados, descobrir padrões e insights, e é muitas vezes associado com análises avançadas, como análise de big data e machine learning.

 

  • Lakehouse: Lakehouse é um conceito que combina as vantagens de um data lake e de um data warehouse. Ele propõe uma abordagem unificada para armazenar, gerenciar e analisar dados, onde os dados brutos são armazenados em um data lake em seu formato original, mas também são tratados e organizados como tabelas para consultas SQL e análises analíticas. Isso significa que, em um lakehouse, os dados brutos podem ser consultados usando SQL, similar a um data warehouse, mas também são mantidos em seu formato original, permitindo flexibilidade e escalabilidade. Esta abordagem visa superar as limitações tradicionais dos data warehouses, como custos de armazenamento e rigidez no esquema, ao mesmo tempo em que preserva as capacidades analíticas e de governança.

 

Em resumo, um data warehouse é projetado para armazenar dados estruturados e otimizar consultas analíticas, um data lake é um repositório para armazenar todos os tipos de dados brutos em sua forma original, enquanto um lakehouse combina aspectos de ambos, fornecendo um ambiente unificado para armazenar e analisar dados brutos e estruturados.

Muito Obrigado e até o próximo artigo!!

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Translate »