Postagem em destaque

Procurando Profissional em Análise de Processos de Negócios, BPM, BPMS e Melhoria de Processos, para atuar na Região Metropolitana de Belo Horizonte?

Marco Gandra Brasileiro – Casado 41 anos - CNH B Nascido em Belo Horizonte e-mail gandraribeiro@gmail.com ...

Pesquisar neste blog

17 de dez de 2011

Modelagem Dimensional utilizando o PDI (Pentaho Data Integration) / Kettle



Por: Caio Moreno de Souza

Em: http://blog.professorcoruja.com/2011/12/modelagem-dimensional-utilizando-o-pdi.html?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+Professorcorujacom-NegciosTecnologiaGratuita+%28ProfessorCoruja.com+-+Neg%C3%B3cios+%26amp%3B+Tecnologia+Gratuita%29&utm_content=Google+Reader

 Modelagem Dimensional utilizando o PDI (Pentaho Data Integration) / Kettle

Amigo leitor,

Alguns anos atrás, um senhor Dr. (P.h.d), chamado Ralph Kimball, resolveu dedicar sua vida à criação de Sistemas de Apoio à Decisão especializados em responder as perguntas de negócio dos executivos de forma rápida e simples.

Durante anos ele vem ensinando o mundo como construir um sistema simples e rápido que permita uma empresa tomar decisões de forma simples.

Muitas empresas procuram a IT4biz, empresa na qual trabalho, com o intuito de aprender sobre Pentaho e Business Intelligence. Porém poucas empresas sabem da existência de algo muito importante chamado Modelagem Dimensional.

Com o objetivo de ajudar essas pessoas, resolvi contar, de forma muito resumida, sobre Modelagem Dimensional.

De forma bem prática, modelagem dimensional é algo que você precisa ter em seu projeto de Business Intelligence; eu sei que o patrocinador do seu projeto deseja ver Dashboards (ele só pede Dashboards, ele só quer ver relógios e gráficos), mas você precisa valorizar a qualidade dos dados, e, para isso, em seu projeto, construir um Data Warehouse utilizando Modelagem Dimensional é algo extremamente importante.

Vamos perguntar para a Wikipédia sobre Modelagem Dimensional e ver o que ela diz.

De acordo com o Wikipédia:

Modelagem dimensional é uma técnica de projeto lógico normalmente usada para data warehouses que contrasta com a modelagem entidade-relacionamento. Segundo o prof.Kimball, a modelagem dimensional é a única técnica viável para bancos de dados que devem responder consultas em um data warehouse. Ainda segundo ele, a modelagem entidade-relacionamento é muito útil para registro de transações e para fase de administração da construção de um data warehouse, mas deve ser evitada na entrega do sistema para o usuário final.

A modelagem multidimensional foi definida sobre dois pilares:
Dimensões Conformados
Fatos com granularidade única.

Dimensões conformados diz respeito a entidade que servem de perspectivas de análise em qualquer assunto da organização. Uma dimensão conformada não possui atributos conflitantes com um ou mais data-marts do data warehouse.

Por grão de fato entende-se a unidade de medida de um indicador de desempenho. Assim, quando fala-se de unidades vendidas, pode-se estar falando em unidades vendidas de uma loja em um mês ou de um dado produto no semestre. Obviamente, esse valores não são operáveis entre si.

A modelagem multidimensional visa construir um data warehouse com dimensões conformados e fatos afins com grãos os mais próximos possíveis.

Esse tipo de modelagem tem dois modelos MODELO ESTRELA (STAR SCHEMA) e MODELO FLOCO DE NEVE (SNOW FLAKE).
Modelo Estrela: Mais simples de entender, nesse modelo todas as dimensões relacionan-se diretamente com a fato.
Modelo Floco de Neve: Visa normalizar o banco, esse modelo fica mais complicado do analista entender, nele temos dimensões auxiliares.

Você deve estar se perguntando:

E agora? O que eu faço? Jogo fora os meus conhecimentos de Modelagem Entidade-Relacionamento?

Alguns alunos já me perguntaram isso...

Claro que você não joga fora, mas para construir um Data Warehouse, você vai precisar utilizar Modelagem Dimensional, apesar de você provavelmente desconhecer como fazer e não ter idéia de onde começar.

Bom, eu vou contar como eu aprendi, ou melhor, como eu continuo aprendendo, uma vez que somos eternos aprendizes.


1) Li o Livro The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling (Second Edition) e outros livros escritos pelo Dr. (P.h.d) Ralph Kimball e sua equipe.


2) Trabalhei com profissionais que conheciam bem de Modelagem Dimensional em projetos no Brasil e no Exterior.


3) Fiz um curso com o próprio Ralph Kimball em Chicago, EUA.


4) Eu ainda estou aprendendo; quanto mais estudo, mais sei que nada sei (como já dizia Sócrates - o filósofo, claro...).


Quando fiz o curso com o Ralph, ele me disse que não é o inventor dos conceitos, mas sim o cheerleader (líder de torcida); porém quem trabalha com DW, sabe que ele é uma das maiores mentes de Modelagem Dimensional do mundo! Ele recomendou o PDI (Pentaho Data Integration) como ferramenta de ETL (Extração, Transformação e Carga/Load de Dados) e isso me deixou bastante animado.

Desde o dia que conheci o PDI, ferramenta de ETL da Suite Pentaho, eu fiquei impressionado com a qualidade da ferramenta! Eu praticamente, depois que aprendi a trabalhar com esta ferramenta, tornei-me muito mais produtivo e começei a realizar tarefas relacionadas com Modelagem Dimensional de forma muito mais fácil e rápida.

Se você deseja construir um Data Warehouse e algumas rotinas de ETL você precisa conhecer o PDI/Kettle, ele vai tornar sua vida muito mais fácil.

O PDI/Kettle possui componentes/steps específicos para Modelagem Dimensional, inclusive facilitando muito a sua vida na hora de utilizar SCD Type I e II, e muitas outras coisas relacionadas a construção de um projeto de Data Warehouse utilizando Modelagem Dimensional.

Fica a dica: utilize o PDI para seu projeto de BI e use Modelagem Dimensional.

Para quem deseja conhecer mais sobre o Dr. Kimball segue, abaixo, mais informações (trechos retirados do Wikipédia sobre o Ralph):


O Prof. Dr. (PhD) Ralph Kimball é um dos precursores dos conceitos de data warehouse e sistemas para análise de dados transacionais. Desde 1982 vem desenvolvendo pesquisas e conceitos que hoje são utilizados em diversas ferramentas de software para [data warehouse].

Ele é conhecido por suas convicções de longa data de que o data warehouse deve ser desenhado para ser compreensível e rápido. Sua metodologia, conhecida como modelagem dimensional ou metodologia Kimball, é frequentemente usada para permitir o compartilhamento de dimensões conformadas.





Prof. Ralph Kimball e Prof. Caio Moreno de Souza (a.k.a Professor Coruja)

Ele é o escritor dos best-sellers Data Warehouse Lifecycle Toolkit e Data Webhouse Toolkit, publicados pela Wiley. Os dois publicados no Brasil, em portugues. Hoje em dia, Ralph Kimball atua como professor em sua consultoria, palestrante, escritor de livros e artigos para a revista Intelligent Enterprise.

Nenhum comentário:

Postar um comentário