02 mar

Imagina que o sistema da tua empresa guarda os dados de pessoa em duas colunas, nome e sobre-nome.

E ao criar um DW, provavelmente que iremos ter esse tratamento de dados em alguns etl, como nas seguintes dimensões:

  • Dim_Funcionarios.
  • Dim_Clientes.
  • Dim_Leads.

Em todas dimensões mencionadas acima teriamos que fazer um mesmo tratamento, que é concatenar as colunas: First_Name e Last_Name.

O objetivo deste artigo é compartilhar uma funcionalidade que aprendi esses dias, que basicamente teríamos um etl para fazer este procedimento e chamaríamos este etl nas três dimensões informadas no início do artigo.

Então vamos para o nosso Hand-ons.

Primeiro, iremos criar o pipeline que as dimensões irá chamar.


Então com Mapping Input iremos informar exatamente os mesmos campos que são utilizados nas dimensões:


Com o Concat fields, criamos uma nova coluna, concatenando as duas colunas mencionadas acima numa nova coluna chamada name.

Importante utilizarmos um espaço, como separador.


E finalizamos este pipeline com o Mapping Output, não é necessário fazer nenhuma configuração neste step.

Agora salvamos este pipeline, e iremos começar o etl que irá chamar este pipeline que acabamos de criar.

Neste ETL iremos ler uma tabela de funcionários, e iremos chamar o pipeline que criamos para ler os dados de first_name e last_name e fazer o concat pra nós.


No Simple Mapping informamos o pipeline que criamos anteriormente e temos a opção de trabalhar com:

  • Variáveis.
  • Campos de entrada.
  • Campos de saída.

Neste exemplo só iremos informar o pipeline mesmo, e agora iremos executar o nosso ETL.

É dessa forma que podemos utilizar um mesmo ETL diversas vezes, otimizando o tempo de desenvolvimento do seu projeto.
Uma vez testado o seu ETL e quiser automatizar a sua carga temos um artigo com um tutorial para automatizar o seu etl.

Muito Obrigado e até o próximo artigo!!

2 comments on “Aumenta a produtividade do teu ETL com Apache Hop

    1. Temos sim!!

      Neste curso ensinamos a criar uma Arquitetura completa de BI, utilizando o Hop para implementar todo o Data Warehouse e utilizamos o Metabase como ferramenta de visualização dos dados.

      Lançamos o curso esta semana, estamos com 20% de Desconto.

      Temas abordados no Curso:

      Modelagem de dados.
      Criando o seu 1º modelo de dados.
      Staging Area.
      Dimensões.
      Fatos.
      Documentação do DW.
      Orquestração do ETL
      Relatórios e Dashboards.

      https://hopbase.com.br/

      Cupom: PREVENDA.

      Muito Obrigado.

Deixe um comentário

O seu endereço de e-mail não será publicado.

Translate »