O que é o Apache Spark?

  • By Wallace Camargo
  • / spark

Apache Spark é um framework open source para computação distribuída, capaz de processar grandes conjuntos de dados. E o que é computação distribuída? A computação distribuída é a forma encontrada de conectar diversos computadores e dividir o processamento entre as máquinas, ou seja, é possível dividir uma grande…

Imagem retirada do site: https://delta.io/ O formato Delta foi desenvolvido para possibilitar na construção de um Lakehouse através do Spark. Um Lakehouse também pode ser construído em outros formatos e abaixo podemos ver os principais: Delta Lake: Delta Lake é uma camada de armazenamento de dados open-source construída…

A história do armazenamento Imagem oficial da Databricks   Na história do armazenamento, houveram algumas mudanças até chegarmos no que hoje chamamos de Lakehouse que une o melhor do mundo do Data Warehouse com o Data Lake. O Data Warehouse é um sistema de armezamento aplamente conhecido no…

Translate »