Database
 sql >> Base de Dados >  >> RDS >> Database

Perfil de dados:descobrindo detalhes de dados


Perfil de dados, ou descoberta de dados, refere-se ao processo de obtenção de informações e estatísticas descritivas sobre várias fontes de dados. O objetivo do perfil de dados é obter uma melhor compreensão do conteúdo dos dados, bem como sua estrutura, relacionamentos e níveis atuais de precisão e integridade.

A criação de perfil de dados pode revelar erros ou conclusões falsas sobre metadados (dados sobre dados). Encontrar esses problemas antecipadamente ajuda a melhorar a qualidade dos dados de origem antes de integrá-los ou armazená-los em um data warehouse. Compreender os atributos dos dados em uma tabela de banco de dados ou arquivo extraído e inspecionar os valores dos dados ajuda a validar se o conteúdo dos dados realmente corresponde à sua definição de metadados. Ver os dados e metadados também ajuda a identificar quais itens são confidenciais ou contêm informações de identificação pessoal (PII), para que determinadas colunas possam ser sinalizadas para medidas de proteção. A criação de perfil de dados descobre as características dos dados de origem necessários para a identificação, uso e linhagem de dados na integração, segurança, relatórios e outros processos que se seguem.

Embora os dados coletados possam muitas vezes parecer benignos ou inúteis, especialmente quando coletados de várias fontes, lembre-se de que todos os dados podem ser úteis com o aplicativo ou algoritmo adequado. O perfil de dados é, portanto, também um primeiro passo para determinar essa utilidade (melhorando a compreensão dos próprios dados).

Como muitas empresas dependem de fontes de dados brutos para obter informações sobre itens como inventários de produtos, dados demográficos de clientes, hábitos de compra e projeções de vendas, a capacidade de uma empresa de se beneficiar competitivamente de volumes de dados cada vez maiores pode ser diretamente proporcional à sua capacidade de aproveitar esses dados bens. Ganhar/perder clientes e ter sucesso/fracasso como negócio pode muito bem ser determinado pelo conhecimento específico que os dados coletados de uma organização transmitem. Assim, identificar os dados certos, estabelecer sua utilidade no nível certo e determinar como gerenciar anomalias — são essenciais no projeto de operações de armazenamento de dados e aplicativos de inteligência de negócios.

De acordo com Doug Vucevic e Wayne Yaddow, autores de Testing the Data Warehouse Practicum, “…o objetivo do perfil de dados é validar metadados quando estão disponíveis e descobrir metadados quando não estão. O resultado da análise é usado tanto estrategicamente – para determinar a adequação dos sistemas de origem candidatos e fornecer a base para uma decisão inicial de ir/não ir, mas taticamente, para identificar problemas para o projeto de solução posterior e para nivelar as expectativas dos patrocinadores.

As autoridades de dados recomendam a criação de perfis de dados de forma aleatória e repetitiva em quantidades limitadas de dados, em vez de tentar lidar com volumes grandes e complexos de uma só vez. Dessa forma, as descobertas podem ser fatores determinantes para o que deve ser traçado a seguir. A identificação de regras de dados, restrições e pré-requisitos garante a integridade dos metadados nos quais a criação de perfil futura é executada. Saber o que é suposto estar em certos arquivos de dados e o que é realmente pode não ser a mesma coisa. Portanto, sempre que a qualidade ou as características de uma nova fonte são desconhecidas, os especialistas sugerem primeiro a criação de perfis de dados, antes de qualquer integração em um sistema existente.

As etapas do processo de criação de perfil de dados incluem: importar todos os objetos, criar parâmetros de configuração, realizar a criação de perfil real e analisar os resultados; nenhum dos quais é tão fácil quanto parece! Em seguida, com base nas descobertas, correções de esquema e dados podem ser implementadas, bem como outros ajustes finos para melhoria de desempenho de perfil de dados subsequente.

Ferramentas de criação de perfil de IRI

Em meados de 2015, a IRI lançou uma série de ferramentas de descoberta de dados gratuitas, estruturadas e não estruturadas (dark) em sua GUI Eclipse, IRI Workbench. Eles estão resumidos em http://www.iri.com/products/workbench/discover-data e link para outros artigos neste blog que apresentam mais detalhes.