Database
 sql >> Base de Dados >  >> RDS >> Database

Uma introdução à mineração de dados


Observação:este artigo foi redigido originalmente em 2015, mas foi atualizado em 2019 para refletir a nova integração entre o IRI Voracity e o Knime (para Konstanz Information Miner), agora a plataforma de mineração de dados de código aberto mais poderosa disponível.

A mineração de dados é a ciência de derivar conhecimento de dados, geralmente grandes conjuntos de dados nos quais informações significativas, tendências e outros insights úteis precisam ser descobertos. A mineração de dados usa aprendizado de máquina e métodos estatísticos para extrair “pepitas” úteis de informações do que, de outra forma, seria um conjunto de dados muito intimidador.

A mineração de dados abrange várias disciplinas de computação e matemática. Não é tanto um processo unitário, mas um termo abrangente para um conjunto de ações. Quatro tarefas amplas que são executadas durante a mineração incluem: análise de dados exploratórios (EDA), modelagem descritiva, modelagem preditiva e descoberta de padrões.

A EDA usa métodos convencionais de visualização estatística ou métodos gráficos não convencionais para ver se algo interessante pode ser encontrado nos dados.

Na modelagem descritiva, os dados são passados ​​para uma rotina e geram verbos (geradores de dados) ou adjetivos (descrições de dados) que estão por trás da formação dos dados. Isso inclui métodos que associam os dados a uma distribuição de probabilidade, agrupamento e modelagem de dependência.

A modelagem preditiva usa métodos de regressão e classificação para configurar um padrão para prever futuros pontos de dados desconhecidos. A regressão é uma análise puramente matemática que ajusta uma equação a um conjunto de dados para prever o próximo valor. A modelagem preditiva também pode contar com regras de padrão e tendências de relacionamento (ou mesmo causa e efeito especificamente identificadas) que foram descobertas usando o método de Análise Lógica de Dados (LAD).

A descoberta de padrões via LAD classifica novas observações de acordo com classificações anteriores das observações e usa funções de otimização, combinatórias e booleanas para melhorar a precisão da análise.

Na maioria das vezes, esses métodos só podem indicar quais entradas de dados estão relacionadas, mas não os motivos ou como estão relacionadas. É possível explicar o que caracteriza uma classe/cluster de outra encontrando essas regras ou padrões, e os tópicos são listados de várias maneiras dependendo dos próprios dados.

As aplicações para mineração de dados podem variar do marketing empresarial à medicina, da detecção de fraudes em bancos e seguros à astronomia, do gerenciamento de recursos humanos ao setor de marketing de catálogo e assim por diante. A profissão médica achou útil distinguir entre atributos de pessoas com diferentes taxas de progressão da doença. As lojas de varejo agora estão usando a mineração de dados para entender melhor os hábitos de consumo dos consumidores, observando quais itens são comprados juntos e sua relação, bem como a melhor maneira de anunciar para seus clientes. E grande parte do mundo corporativo agora depende da mineração de dados para calcular, executar e justificar as principais decisões de negócios.

No entanto, como todos sabem pela recente cobertura intensa da mídia do escândalo dos registros telefônicos da NSA-Verizon, a mineração de dados também pode ser extremamente controversa. Apenas no caso de você estar vivendo sob uma rocha, aqui está uma breve sinopse:

Em 5 de junho de 2013, o jornal diário britânico The Guardian publicou uma reportagem exclusiva de que milhões de registros de clientes da Verizon, um dos maiores provedores de telecomunicações dos EUA, foram coletados pela Agência de Segurança Nacional dos EUA, em resposta a um pedido confidencial do Tribunal de Vigilância de Inteligência Estrangeira dos EUA. Os serviços de rede de negócios da Verizon foram forçados a entregar todos os metadados de telefonia criados pelo provedor de serviços móveis nos EUA e no exterior. Como resultado, críticas bipartidárias e universais ao governo Obama irromperam de grupos de defesa dos direitos civis e meios de comunicação, alegando abuso presidencial do poder executivo. Nenhuma resolução deste incidente está à vista no momento da redação deste artigo. Mas, sem dúvida, permanecerá como um excelente exemplo de como a mineração de dados às vezes pode ser vista de forma negativa, especialmente no que diz respeito às preocupações com a privacidade e o público em geral.



Ao lidar com grandes volumes de dados estáticos ou dinâmicos, certamente haverá problemas de desempenho computacional e relacionados a E/S. Com bancos de dados contendo terabytes e exabytes de dados, vasculhar os dados pode levar muito tempo, e os algoritmos de mineração precisam ser executados com muita eficiência. Algumas outras dificuldades incluem overfitting e dados ruidosos.

Overfitting geralmente significa que não há dados suficientes disponíveis. O modelo de dados (neste caso, a descrição global dos dados) torna-se muito complexo porque possui muitos parâmetros relativos ao número de observações. Isso exagera pequenas flutuações nos dados, comprometendo assim a confiabilidade do modelo como base para fazer previsões.

Dados ruidosos, por outro lado, referem-se a muitos tipos errados de dados. Dados sem sentido, errôneos, não estruturados (ilegíveis) ou corrompidos aumentam os requisitos de armazenamento e/ou exigem que a análise estatística seja eliminada antes que possa prejudicar a precisão da mineração de dados. Bons algoritmos de mineração de dados levam em consideração dados ruidosos.

A mineração de dados é uma única etapa em um processo maior conhecido como descoberta de conhecimento em bancos de dados (KDD). O KDD começa primeiro com a preparação dos dados: seleção, pré-processamento e transformação dos dados, onde você determina o que deseja estudar e configura de uma maneira que possa ser extraída. Isso é representar os dados como uma matriz m—n e com uma representação numérica do elemento de cada vetor de dados. A seguir, você é meu. E, finalmente, você pode usar o velho noggin para interpretar e analisar essas informações. Então, se os padrões e tendências ocultos ainda não estiverem claros o suficiente, você deve cavar um pouco mais fundo.

O papel da IRI no processo de mineração de dados e KDD é preparar e reestruturar big data para análise por meio de várias funções de transformação de dados de alto desempenho. Especificamente, o pacote de manipulação de dados IRI CoSort pode filtrar, manipular e reformatar rapidamente os dados para que possam ser processados ​​por algoritmos de mineração de dados, como esses conjuntos de software de mineração de dados. O CoSort também é o mecanismo de processamento de dados padrão na plataforma de gerenciamento de dados IRI Voracity, projetado para uma ampla variedade de perfis de dados, preparação e trabalho de organização.

Para aqueles que trabalham com CoSort na GUI do IRI Workbench, o BIRT é um plug-in Eclipse gratuito com relatórios gráficos e recursos de inteligência de negócios que incluem alguns recursos de análise e mineração. Tanto o CoSort quanto o BIRT Analytics usam o Eclipse IDE. Com o suporte ao driver de dados Open Data Access (ODA) entrando no CoSort, a integração do fluxo de dados entre os dois plug-ins também é perfeita e permite análises hipotéticas mais rápidas.

Para aqueles que trabalham com o Voracity em 2019 e além, sugerimos instalar o provedor principal da plataforma gratuita Knime Analytics no IRI Workbench. No mesmo painel de vidro do Eclipse, o nó de origem (provedor) Voracity para Knime pode entregar dados brutos preparados por Voracity na memória para nós Knime para aplicativos que exigem análise estatística e preditiva, mineração de dados e aprendizado de máquina/deep, rede neural e inteligência artificial.

Os colaboradores deste artigo incluem Roby Poteau e David Friedland