Bom, na semana passada tivemos mais uma Live dos Sparkanos, e dessa vez com um Hand-ons de 2 horas de Apache Spark. E uma das dúvidas que surgiram, foi entender como o cliente acessa esses dados, uma vez que processamos os dados com o Spark. Para facilitar o…
Apache Spark é um framework open source para computação distribuída, capaz de processar grandes conjuntos de dados. E o que é computação distribuída? A computação distribuída é a forma encontrada de conectar diversos computadores e dividir o processamento entre as máquinas, ou seja, é possível dividir uma grande…
Imagem retirada do site: https://delta.io/ O formato Delta foi desenvolvido para possibilitar na construção de um Lakehouse através do Spark. Um Lakehouse também pode ser construído em outros formatos e abaixo podemos ver os principais: Delta Lake: Delta Lake é uma camada de armazenamento de dados open-source construída…
A história do armazenamento Imagem oficial da Databricks Na história do armazenamento, houveram algumas mudanças até chegarmos no que hoje chamamos de Lakehouse que une o melhor do mundo do Data Warehouse com o Data Lake. O Data Warehouse é um sistema de armezamento aplamente conhecido no…