Neste post compartilho com vocês duas maneiras de criar Loop utilizando o Apache Hop. Objetivo: Criar 2 modelos de loop que percorra uma pasta principal, acesse todas as subpastas dentro dela, e leia todos os arquivos XLSX encontrados em cada subpasta. O loop funcionará independe do número de…
É muito comum a gente criar colunas condicionais no nosso dia a dia, nem sempre teremos a informação já pronta da forma que precisamos. Para quem trabalha com banco de dados deve estar mais acostumado a fazer esta tarefa utilizando If ou Case When, a lógica é exatamente …
Bom, na semana passada tivemos mais uma Live dos Sparkanos, e dessa vez com um Hand-ons de 2 horas de Apache Spark. E uma das dúvidas que surgiram, foi entender como o cliente acessa esses dados, uma vez que processamos os dados com o Spark. Para facilitar o…
Recentemente, explorei o uso do Apache Hop, uma poderosa ferramenta de ETL (Extração, Transformação e Carga) que facilita a automação e gestão de processos complexos de integração de dados. Neste post, quero compartilhar um pouco sobre como o Apache Hop pode transformar seu processo de integração de dados,…
Nos últimos 2 sábados 50 profissionais participaram da nossa 1ª turma do Sparkanos, muito mais que um novo treinamento, na verdade é um projeto, nessas duas semanas ensinamos como criar um Lakehouse 100% Open Source, com as seguintes tecnologias: Apache Spark. Docker. Minio. Trino. Superset. Open Metadata. Apache…
E assim foi o nosso sábado!!! 50 profissionais confiaram no nosso trabalho para aprender como Criar um Data Lake 100% Open Source com Apache Spark!! Primeiramente nos enche de orgulho ver uma sala tão cheia assim com tantos profissionais incriveis, alguns são nossos alunos desde 2019 quando começamos…
Olá, Hoje vamos ter uma Super-Live! Iremos demonstrar um case que implementamos de um Data Lake 100% Open Source em uma grande empresa aqui em Portugal. Para toda a etapa de Processamento e tratamento dos dados utilizamos o Apache Spark para processar, criando uma Solução robusta e escalável.…
Apache Spark é um framework open source para computação distribuída, capaz de processar grandes conjuntos de dados. E o que é computação distribuída? A computação distribuída é a forma encontrada de conectar diversos computadores e dividir o processamento entre as máquinas, ou seja, é possível dividir uma grande…
Olá, Desde o Pentaho o banco de dados que dava um pouco mais de trabalho para conectar era o SQL Server, e isso se manteve no Hop. Portanto, a ideia deste artigo é disponibilizar um tutorial de como fazer esta integração do SQL Server com Apache Hop, este…
Olá, tudo bem contigo? Compartilhando o depoimento de alguns alunos que finalizaram o nosso Treinamento: Hopbase. Neste treinamento os alunos aprenderam a criar um Produto de BI do zero, abordando as seguintes etapas: Modelagem dos dados. Staging Area. Dimensões e Fatos. Carga Full vs Carga Incremental. Orquestração do…