Data Profiling: Identifique possíveis problemas na sua base de dados antes que seja tarde demais

Por Juan Oñate *

Muitas empresas aprendem da maneira mais dura que os dados quando incorrectos podem ser bastante dispendiosos.
Este exemplo é bem demonstrativo disso mesmo: Um pequeno agricultor (Sr. Farmer) em Ohio é proprietário de três poços localizados na sua quinta. De acordo com o seu contrato de arrendamento (escrito nos anos 30), ele tem direito a gás grátis (numa cláusula de gás grátis) e a 1/8 de pagamentos de royalties.

Em 2006, a ABC Oil comprou os direitos a esses poços à XYZ Gas Corp., mas a informação sobre o Sr. Farmer nunca foi transmitida no momento da venda. Portanto, ao Sr. Farmer não foi pago qualquer royalty ou gás de graça desde 1990, aquando da aquisição do poço pela ABC Oil. O Sr. Farmer recebe em 2007 uma conta de gás para pagar, em vez de receber as devidas royalties. Desta forma, o Sr. Farmer contacta um advogado que vê em toda esta situação negligência criminal, com direito para o proprietário dos poços a receber todo o seu dinheiro (com danos e juros) e colocar as referidas entidades em tribunal.

A questão que se coloca é: Será a ABC Oil uma empresa criminosa? E a resposta é: Não, é apenas vítima de maus dados, e visto que o Sr. Farmer não se queixou, ninguém na ABC tinha qualquer ideia de quais eram os motivos da complacência. Infelizmente, descobrir a situação através de um processo judicial seria uma forma muito dispendiosa da ABC perceber que era alvo de complacência com os termos em acordo, mas no mundo actual de pesados processos e regulamentos empresariais rígidos, pode tornar-se bastante dispendioso ter dados errados em circulação.

Felizmente, existe uma solução simples para reerguer dados incompletos e imprecisos: Data Profiling.

Até recentemente, a análise de dados era uma tarefa árdua e demorada. No final dos anos noventa, um documento da DAMA (Data Management Association) afirmava que a análise de uma coluna de dados podia levar entre três a cinco horas. Através do uso de ferramentas de perfil de dados disponíveis no mercado, é possível analisar actualmente essas mesmas colunas em dez ou quinze minutos.

Data Profiling é um termo que provavelmente já muita gente ouviu, senão de forma abrangente, pelo menos de uma forma lúdica. Mas na verdade, o que é o Data Profiling? Será que os executivos precisam dele para operar o seu negócio de uma forma mais eficiente? Será que é uma utilidade ou uma necessidade?

[caption]Juan Oñate[/caption]

Essencialmente, o Data Profiling foi criado para examinar dados numa fonte existente - seja uma base de dados ou um ficheiro vazio - e recolhe estatísticas e informações sobre os dados. A partir daí, podemos descobrir se os dados existentes podem ou não ser utilizados para outros fins, determinar a métrica na qualidade dos dados para assegurar que cumpre as normas, avaliar o risco envolvido na integração de dados para novas aplicações, fazer a compilação da especificação ETL, sistemas de documentos e fornecer metadata e determinar de forma forense qual a informação que reside no antigo sistema.

Algumas empresas olham para o Data Profiling como uma forma de envolver os utilizadores de um negócio no que tradicionalmente era uma função de TI. Visto que o Profiling traz sobretudo alguma "cor" ao que de outra forma pareceria ser um pedaço "vazio" de dados, os utilizadores de uma linha de negócio tornam-se capazes de fornecer um contexto valioso sobre os seus dados, dando significado a colunas de dados que são mal definidas por metadata e documentação. A pesquisa de padrões e inferências a partir de metadata é a essência do Profiling.

Existe um ditado antigo no Mundo dos negócios: "Quer que faça melhor, mais rápido ou mais barato? Posso fazer duas dessas três". Normalmente, esta frase aplica-se, pois se aumentar a qualidade enquanto faz um projecto mais rapidamente, pode acabar por custar-lhe mais; enquanto se reduzir o custo geral do projecto, a qualidade poderá não ser tão boa; ou pode demorar mais tempo a acabar.

Então qual é o Cálice Sagrado? Uma ferramenta automatizada de Data Profiling fornece os três - melhor, mais barato e mais rápido.
O Profiling permite-lhe assegurar que os dados são melhores, porque faz com que se consiga manter a par de todos os seus dados, assegurar a sua integridade e encontrar padrões críticos tudo de uma vez - e é mais rápido visto que todo o trabalho é feito por um computador, em vez de por uma ou mais pessoas a escrever programas SAS ou declarações de SQL. Finalmente, é um processo mais económico, pois com o Data Profiling, não irá passar pela experiência "Code, Load, and Explode", que normalmente requer uma análise mais detalhada e trabalho extra antes de acabar um projecto.

Um dos maiores problemas com os grandes projectos de infra-estruturas hoje em dia é que enquanto as empresas tratam de todas as diligências necessárias para determinar o melhor sistema e software para trabalhar as suas necessidades de negócio, não existe habitualmente uma consideração com os dados que na verdade vão encher esses (normalmente dispendiosos) sistemas. Isto afecta sistemas de todos os tamanhos - mesmo sistemas de milhões de dólares que levaram anos a desenvolver e a implementar e que foram aniquilados devido à fraca qualidade dos dados que passavam no sistema. O Data Profiling antes do carregamento de dados num sistema pode ajudar a identificar potenciais desastres e retirá-los do seu caminho.

Por vezes, as empresas percebem que após fazerem o Data Profiling se encontram na verdade a reter dados redundantes, ou dados altamente incorrectos, assim como a efectuar decisões de negócio baseados nesses dados.

O Data Profiling ajuda normalmente as empresas a aumentarem a sua eficiência e eficácia, e até mesmo os seus lucros. Não é específico para a indústria. O nosso exemplo anterior pertencia à indústria da energia, mas aplica-se a todas as empresas em todos os sectores. Como exemplo, temos um grande fabricante de equipamentos que gerou os seus dados através do seu sistema de pagamento e envio. O objectivo do exercício era o de alinhar todos os recibos com os relatórios da encomenda. Ao analisar as tabelas em conjunto foi encontrado um número de envios que não tinham recibos correspondentes - e uma análise mais aprofundada encontrou milhões de dólares de equipamento que foi enviado mas nunca havia sido cobrado.

As seguradoras são particularmente sensíveis à necessidade de dados correctos. Muitas das aplicações de software são criadas para incorporar campos que contêm dados nulos - basicamente um campo de suporte para informação. Mas para um agente de seguros, todos os dados são cruciais. Estes campos nulos podem ser um problema, especialmente quando passam a um sistema de avaliação que muitas seguradoras adoptam para determinar o risco que um cliente pode ser e consequentemente qual o tipo de taxas que lhe devem cobrar. Para que estes sistemas caros e significativos resultem correctamente, é crítico que os dados dos tomadores das apólices sejam transparentes e compreensivos - os campos nulos podem acabar por custar à empresa algum dinheiro se for tomada uma decisão errada, pelo facto de todos os dados não se encontrarem presentes para interpretação.

No final do dia, seja qual for o sector de mercado em que a sua empresa se enquadre, o Data Profiling deixou de ser algo agradável de se ter. A regulação e os requerimentos para os negócios deixam hoje em dia uma pequena margem para erros - seja da perspectiva do cliente ou do regulador - ambos são juízes implacáveis do mais profundo uso de dados. Os maus dados essencialmente mudam o que deveria ser uma corrente rápida de oportunidades para um "opaco e lento trilho de lama". A utilização efectiva do Data Profiling é idêntica a usar um filtro de água: Mantém a água limpa e utilizável para qualquer situação.

Essencialmente, o Data Profiling ajuda as empresas a chegar à raiz dos maus dados de modo a que uma única fonte de verdade empresarial possa ser efectivamente gerida e, mais importante, nivelada para a empresa conseguir a melhor vantagem competitiva possível.

* Regional Manager da Informatica para Portugal e Espanha