Database
 sql >> Base de Dados >  >> RDS >> Database

Anonimização de identificadores indiretos para reduzir o risco de reidentificação


Os quase-identificadores, ou identificadores indiretos, são atributos pessoais verdadeiros, mas não necessariamente exclusivos, para um indivíduo. Exemplos são a idade ou data de nascimento, raça, salário, escolaridade, ocupação, estado civil e CEP. Compare-os com identificadores únicos e diretos, como o nome legal completo de uma pessoa, endereço de e-mail, número de telefone, documento de identidade, passaporte ou número de cartão de crédito, etc.

A maioria dos consumidores já está ciente dos riscos de compartilhar suas informações de identificação pessoal (PII) exclusivas. O setor de segurança de dados geralmente também se concentra nesses identificadores diretos. Mas com apenas sexo, data de nascimento e código postal, 80-90% da população dos EUA pode ser identificada.

Quase qualquer pessoa pode ser reidentificada a partir de um conjunto de dados mascarado se houver identificadores indiretos suficientes e puderem ser unidos a uma população de superconjunto com valores semelhantes.

A regra HIPAA Expert Determination Method referente a informações de saúde protegidas (PHI) e a lei FERPA sobre privacidade de dados de alunos contemplam essas preocupações e exigem que os conjuntos de dados tenham uma probabilidade estatisticamente baixa de reidentificação (abaixo de 20% é o padrão hoje). Aqueles que desejam usar dados de saúde e educacionais para fins de pesquisa e/ou marketing precisam cumprir essas leis, mas também confiar na precisão demográfica dos quase-identificadores para que os dados sejam valiosos.

Por esse motivo, os trabalhos de mascaramento de dados no produto IRI FieldShield ou IRI Voracity (plataforma de gerenciamento de dados) podem aplicar uma ou mais técnicas adicionais para ofuscar os dados, mantendo-os precisos o suficiente para fins de pesquisa ou marketing. Por exemplo, as funções de desfoque numérico criam ruído aleatório para intervalos de idade e data especificados, conforme descrito neste artigo.

Com base no artigo aqui, este exemplo mostrará como o IRI Workbench pode criar e usar arquivos de conjunto para anonimizar quase-identificadores.

Comece na Generalização via Bucketing Assistente, disponível na lista de regras de proteção de dados:



Assim que o assistente for aberto, comece a definir a origem dos valores para o arquivo definido, incluindo o formato de origem e o campo que requer um valor de substituição generalizado.



Na próxima página, há dois tipos de substituições de arquivo de conjunto:Usar arquivo de conjunto como grupo e Usar arquivo definido como intervalo opções. Este exemplo usa o Usar arquivo definido como grupo opção. O artigo sobre desfoque de dados demonstra o método Usar arquivos definidos como um intervalo opção. Os conjuntos de pesquisa criados aqui serão usados ​​para pseudonimizar os quase identificadores originais com o novo valor de generalização.

Esta página é onde são criados os agrupamentos entre cada um dos valores de campo quase identificadores originais. À esquerda estão os valores exclusivos no campo selecionado anteriormente. Os grupos podem ser criados arrastando e soltando nos valores do grupo à esquerda ou inserindo os valores manualmente. Cada grupo também precisa de um valor de substituição exclusivo. Este é o valor que substituirá o valor original no grupo. Neste exemplo, qualquer valor de “9th” será substituído por “High School”.



Adicionar grupos até que todos os valores de origem sejam cobertos produz o seguinte arquivo de conjunto de pesquisa para anonimizar o quase-identificador do status educacional:



Se níveis adicionais de agrupamento forem necessários, o assistente de agrupamento poderá ser executado novamente usando esse arquivo de conjunto como a origem.

Quando o arquivo de conjunto é usado em uma tarefa de anonimização de dados, os dados de origem são comparados aos valores na primeira coluna do arquivo de conjunto. Se uma correspondência for encontrada, os dados serão substituídos pelo valor na segunda coluna. O arquivo set acima é usado no script abaixo na linha 38.

Usar o Workbench para aplicar cinco técnicas diferentes de anonimização resulta no seguinte script:


As primeiras dez linhas dos dados originais são mostradas aqui:



Os resultados anônimos após a execução do trabalho são mostrados aqui:



Antes dessas generalizações, o risco de reidentificação com base nos valores originais de identificação indireta era muito alto. Mas quando o conjunto de resultados mais generalizado é executado novamente por meio do assistente de pontuação de risco para produzir outra determinação do risco de reidentificação, o risco é aceitável e os dados ainda são úteis para fins de pesquisa ou marketing.

Se você tiver alguma dúvida sobre essas funções ou pontuação de risco de reidentificação, entre em contato com .