Dados são poder e com esse poder vem uma grande responsabilidade. Um dos maiores obstáculos nos dados é identificar duplicatas e deduping.
O objetivo da desduplicação de dados é eliminar quaisquer dados redundantes em sua empresa. Duplicatas são criadas em todas as áreas de sua empresa, como o representante de vendas inserindo um novo registro sem verificar o banco de dados primeiro, um profissional de marketing carregando uma lista de compradores em potencial sem verificar se o registro existe e um cliente que insere suas informações novamente quando esqueceu que já tem uma conta com você.
A desduplicação de dados garante o gerenciamento adequado de tais registros, armazenamento de dados reduzido, comunicações de marketing mais eficazes e melhor análise preditiva. Registros duplicados podem, na verdade, ter um enorme impacto nos registros de aprendizado de máquina e ciência de dados, dando teoricamente aos clientes duas vezes o poder preditivo e, portanto, criando um viés nas saídas.
No entanto, toda grande ideia traz riscos e, dentro de uma estratégia de eliminação de duplicação, na qual os dados são excluídos na maioria das vezes, pode haver erros inerentes.
Em linha ou pós-processamento
Os processos de desduplicação em linha desduplicam os dados à medida que são processados. Isso significa que ele reduz a quantidade de dados imediatamente, o que é ótimo, mas geralmente apresenta problemas de desempenho com a quantidade de recursos necessária para executar tal estratégia. No entanto, isso significa que você precisa de muito menos espaço em disco bruto, pois os dados nunca são realmente enviados, pois a desduplicação é realizada no front-end.
É importante que você tenha o poder de processamento para desduplicação em linha e que isso não afete o desempenho. O outro erro é assumir que há zero casos de duplicatas. Existem necessidades legítimas para ter duplicatas em seu sistema. Os motivos podem ser por motivos de cobrança, atendimento ao cliente, vendas e marketing, portanto, é uma boa ideia consultar todos os departamentos que tocam nos dados antes de implementar o processamento em linha.
Algoritmos
A desduplicação é tão boa quanto os algoritmos que são alimentados, ou seja, como os registros duplicados são descobertos em primeiro lugar? Vamos supor que temos 100 cópias de um arquivo em nossos sistemas porque cada funcionário tinha sua própria versão. Em vez de armazenar várias cópias, a boa prática diz para você armazenar apenas uma e fazer com que todos os funcionários apontem para ela. E se um dos funcionários fizer uma alteração em seu próprio arquivo, significando que é um pouco diferente dos outros? Você corre o risco de perder dados. É importante certificar-se de que todas as regras definidas fazem sentido e não comece a remover conjuntos de dados exclusivos por engano.
Existem alguns algoritmos comuns usados para desduplicação de dados, como SHA-1 ou MD5 e Estruturas de árvore de pesquisa binária, que vale a pena revisar para encontrar o que é mais apropriado para você.
Embora a desduplicação de conjuntos de dados no exemplo acima possa ser facilmente abordada por cientistas de dados. Para registros de vendas e marketing, é um pouco mais difícil. Considere que diferentes empresas definem duplicatas de maneira diferente, não é mais uma tarefa para o cientista de dados, mas sim para os chefes de diferentes departamentos. Portanto, o primeiro passo é identificar o que faz uma duplicata. Por exemplo, pegue um gigante do varejo como o Walmart. Para a empresa de distribuição, cada local do Walmart seria considerado um registro único, no entanto, para uma empresa de software que vendesse no Walmart, eles considerariam todos os locais como duplicatas, pois só querem vender para a sede. O mesmo pode ser dito para a venda na P&G, onde algumas empresas vendem individualmente para cada marca. Portanto, eles querem mantê-los todos separados e aplicar a vinculação pai/filho em vez de desduplicar para identificar as diferentes marcas. Portanto, antes de desduplicar, certifique-se de ter todas as regras definidas antes de descobrir o algoritmo a ser usado para desduplicar os dados.
Criptografia
Com a proteção de dados, muitas vezes as equipes de segurança têm dados criptografados à medida que entram no negócio, o que significa que é impossível desduplicá-los, pois tudo é único nesse contexto. Se você estiver usando produtos de replicação e criptografia alinhados com o software de desduplicação, há uma chance muito alta de que os arquivos sejam replicados, pois simplesmente não pode selecioná-los como blocos de armazenamento exclusivos.
Os produtos de proteção de dados às vezes reconhecem a desduplicação, mas é vital que você considere como tudo se integra.
Desduplicação manual
A maioria das empresas tentará desduplicar seu banco de dados manualmente, consumindo uma enorme quantidade de recursos e tempo com um grande risco de erro humano. Além disso, com vastos conjuntos de dados, é praticamente impossível que processos manuais percebam tudo.
Por exemplo, e se John Smith comprar um par de sapatos em seu site hoje. Ele volta amanhã, mas se registra como J Smith porque esqueceu seus detalhes de login. Na próxima semana, ele se inscreve novamente, mas com um endereço de e-mail diferente. Mencionei apenas três campos de dados aqui, mas já começa a ficar complicado, então imagine se você tiver 200 campos de dados de clientes, como garantir que sejam mantidos exclusivos?
É importante construir algoritmos completos por conta própria se estiver realizando um processo manual ou adquirir ferramentas de limpeza de dados para fazer isso por você, economizando todo esse tempo e esforço.
Backups
A desduplicação pode dar errado! Antes de remover duplicatas, é importante fazer backup de tudo e você pode resolver qualquer problema rapidamente. Voltando ao nosso exemplo anterior, e se descobrirmos que John Smith e J Smith são de fato pessoas diferentes e precisam recuperar a conta? Você precisa de um processo que possa fazer exatamente isso, que é uma exigência legal agora na UE (GDPR).
Uma estratégia de desduplicação de dados é importante à medida que as empresas aumentam sua presença digital. Com tantos canais de comunicação, apenas um registro duplicado tem a capacidade de criar viés e potencialmente levar a decisões erradas. Dito isso, isso deve ser feito corretamente para evitar as consequências de remover os registros errados ou alimentar algoritmos incorretamente e reduzir a velocidade dos negócios. Certifique-se de que a desduplicação de dados esteja totalmente formada em sua estratégia de governança de dados.