Classificação de dados no IRI Workbench

Os usuários de ferramentas de mascaramento de PII como FieldShield, DarkShield e CellShield EE no IRI Data Protector Suite ou na plataforma Voracity podem catalogar e pesquisar seus dados e aplicar funções de transformação e proteção de dados como regras usando dados classificação infraestrutura em seu IDE front-end comum, IRI Workbench, construído no Eclipse™.

Os recursos de descoberta de dados de várias fontes (pesquisa) no IRI Workbench podem usar as classes de dados que você definiu ou podem ajudar a atribuir classes de dados ou grupos de classes de dados aos seus dados com base nos resultados da pesquisa, regras de negócios e/ou ontologias de domínio.

Você pode usar sua biblioteca de classes de dados em regras de campo reutilizáveis (por exemplo, mascaramento de dados). E você também pode atribuir essas regras à medida que classifica os dados automaticamente.

Esses recursos fornecem recursos de conveniência, consistência e conformidade para arquitetos de dados e equipes de governança. Consulte este artigo para obter um exemplo de ponta a ponta de usar classes de dados para localizar e mascarar dados de forma consistente em várias tabelas em esquemas RDB.

Este artigo descreve como você pode definir essas classes. Existem artigos relacionados sobre validadores de classes de dados que podem ser usados para distinguir e verificar dados com base em pesquisas de padrões.

Vários outros artigos no blog do IRI cobrem a aplicação de classes de dados em vários contextos (principalmente de mascaramento de dados). Para obter um índice completo desses artigos, consulte esta seção da página de autoaprendizagem do software IRI.

Criar classes de dados

A classificação começa configurando classes de dados no Workbench Preferências screen, que permite usar classes globalmente, em vários projetos em seu espaço de trabalho. O Workbench tem algumas classes pré-carregadas, incluindo as classes FIRST_NAME, LAST_NAME e PIN_US usadas neste exemplo.

As classes de dados funcionam combinando (1) o nome da classe com o nome do campo, (2) um padrão para os dados no campo ou (3) configurando o conteúdo do arquivo com os dados no campo. O primeiro item é feito para você automaticamente no processo de classificação, se essa opção for escolhida. Você pode adicionar quantos padrões e definir correspondências de arquivos forem necessários para cada classe para retornar os resultados pretendidos.

A inserção de uma expressão regular como o nome da classe de dados é uma maneira adicional de corresponder ao nome da coluna. Por exemplo, pode haver uma coluna chamada LNAME ou LASTNAME. Então, posso usar L(AST)?[_-]?NAME (sublinhado e traço entre colchetes) para capturar algumas variações de SOBRENOME.

Você também pode tornar suas classes de dados e grupos inativos. Se você tiver muitas classes, mas quiser filtrar os itens não usados em seu projeto específico, poderá torná-los inativos. Isso permite que você retenha uma cópia deles, mas não desordena a lista suspensa que usa essas classes.

Grupos de classes de dados

Você também pode ter grupos de classes de dados. Por exemplo, o grupo incluído “NAMES” contém as classes de dados FIRST_NAME, LAST_NAME e FULL_NAME. Se você deseja aplicar uma regra a várias classes, pode usar um grupo em vez de selecionar as classes de dados individualmente.

Para este exemplo, removi o sublinhado da classe de dados FIRST_NAME para demonstrar a opção de classificação de correspondência de nomes.

Assistente de fonte de classificação de dados

Depois que os correspondentes forem adicionados às classes necessárias, você poderá executar o Assistente de fonte de classificação de dados. O assistente aceita os seguintes formatos de dados:CSV, Delimitado, LDIF, ODBC ou XML. Este assistente fornece os meios para selecionar fontes para sua biblioteca de classes de dados para classificação posterior.

Na página de configuração, comece selecionando o local de sua nova “iriLibrary.dataclass ” arquivo, que é a saída deste assistente. O nome do arquivo é somente leitura porque só pode haver um desses tipos de arquivo em cada projeto. Você também pode marcar a caixa de seleção se todas as suas fontes forem tabelas em um perfil de conexão.

Selecionar esta caixa abre uma página de entrada como a abaixo, onde você pode escolher as tabelas a serem incluídas:

Se a caixa de seleção não estiver marcada, você pode adicionar arquivos ou fontes ODBC na mesma tela de entrada. Nesse tipo de página de entrada, você também precisará adicionar os metadados de cada fonte. Neste exemplo, incluí um arquivo CSV e duas tabelas Oracle.

Se você precisar pesquisar e classificar dados em um ou mais esquemas de banco de dados completos de uma só vez, use os assistentes Pesquisa de padrão de esquema e Pesquisa de padrão de esquema para associação de classe de dados.

Clicar em Concluir criará uma biblioteca de classes de dados com as fontes selecionadas incluídas. O editor de formulário de classe de dados que se abre permitirá que você classifique os dados nessas fontes.

Classificação dos dados em suas fontes selecionadas

Você inicia o processo de classificação clicando em uma das fontes de dados para exibir os detalhes sobre essa fonte. A parte superior da tela possui uma seção expansível que mostra os detalhes do arquivo ou da tabela.

A seção de classificação começa com uma caixa de seleção para incluir a correspondência por meio do nome do campo ao nome da classe de dados. Por exemplo, eu tenho uma classe de dados chamada FIRSTNAME e um campo chamado FIRSTNAME (a correspondência não diferencia maiúsculas de minúsculas).

Nesse caso, o processo de classificação selecionará essa classe de dados para esse campo sem ler o conteúdo dos dados.

A próxima seção exibe uma tabela contendo nomes de campos com caixas de seleção, uma coluna para a classe de dados e uma coluna para os resultados correspondentes. A tabela inferior é uma visualização dos dados na origem. As classes de dados necessárias devem ter sido criadas antes de usar este editor de formulários, mas você pode adicioná-las ou editá-las aqui.

Você pode selecionar manualmente a classe de dados clicando na caixa suspensa na coluna de classe de dados do campo que deseja classificar. Você também pode clicar em Classificar automaticamente e selecionar os campos que deseja classificar. Clicar em OK iniciará o processo de classificação automática, que pode levar muito tempo dependendo da quantidade de dados que você possui em sua fonte.

O processo pode ser executado em segundo plano se você selecionar essa opção na caixa de diálogo padrão do Eclipse exibida. Além disso, você pode visualizar o status do processo na Visualização de Progresso.

Ao finalizar, a classe de dados e o mapa de classes de dados serão criados na biblioteca para os campos selecionados. Neste exemplo, o processo de classificação encontrou uma correspondência de 87% no campo SSN, 11% em LASTNAME e uma correspondência de nome em FIRSTNAME. As porcentagens indicam a quantidade de dados correspondentes em sua origem por meio dos correspondentes para essa classe de dados.

Se “nome” for exibido na coluna correspondente, a classe de dados foi correspondida com base no nome. Se você selecionou manualmente uma classe de dados, “usuário” será exibido na coluna correspondente.

O conteúdo final da biblioteca é exibido abaixo. Assim como você pode ver os detalhes das fontes, também pode clicar nas classes de dados e nos mapas para exibir seus detalhes.

Os mapas de classes de dados usam referências às classes de dados e campos, razão pela qual a biblioteca armazena as fontes e classes de dados, além do próprio mapa. A exclusão de uma fonte ou classe de dados também removerá qualquer mapa de classe de dados associado que faça referência a esse item excluído.

Ao clicar em Remover, um aviso é exibido para lembrá-lo disso. O processo pode ser repetido nas outras fontes incluídas e fontes adicionais podem ser adicionadas a qualquer momento.

Os resultados de classificação dessa biblioteca agora podem ser usados para aplicar regras de campo a essas fontes de dados. O processo é explicado em meu próximo artigo sobre como aplicar regras de campo usando classificação.