Oracle Data Mining (ODM) – Instalação e Configuração

Visão geral

O Oracle Data Mining (ODM) é um componente da Oracle Advanced Analytics Database Option. O ODM contém um conjunto de algoritmos avançados de mineração de dados incorporados ao banco de dados que permitem realizar análises avançadas em seus dados.

O Oracle Data Miner é uma extensão do Oracle SQL Developer, um ambiente de desenvolvimento gráfico para Oracle SQL. O Oracle Data Miner usa a tecnologia de mineração de dados incorporada ao Oracle Database para criar, executar e gerenciar fluxos de trabalho que encapsulam as operações de mineração de dados. A arquitetura do ODM é ilustrada na figura 1.

Figura 1:Arquitetura de mineração de dados Oracle para Big Data

Os algoritmos são implementados como funções SQL e aproveitam os pontos fortes do Banco de Dados Oracle. As funções de mineração de dados SQL podem minerar dados transacionais, agregações, dados não estruturados, ou seja, tipo de dados CLOB (usando Oracle Text) e dados espaciais.

Cada função de mineração de dados especifica uma classe de problemas que podem ser modelados e resolvidos. As funções de mineração de dados geralmente se dividem em duas categorias:supervisionadas e não supervisionadas.

As noções de aprendizado supervisionado e não supervisionado são derivadas da ciência do aprendizado de máquina, que tem sido chamada de subárea da inteligência artificial.

A aprendizagem supervisionada também é conhecida como aprendizagem dirigida. O processo de aprendizagem é dirigido por um atributo ou alvo dependente previamente conhecido. A mineração de dados direcionada tenta explicar o comportamento do alvo em função de um conjunto de atributos ou preditores independentes.

O aprendizado não supervisionado é não direcionado. Não há distinção entre atributos dependentes e independentes. Não há nenhum resultado previamente conhecido para guiar o algoritmo na construção do modelo. O aprendizado não supervisionado pode ser usado para fins descritivos.

Algoritmos supervisionados de mineração de dados Oracle

Técnica	Aplicabilidade	Algoritmos (breve descrição)
Classificação	Técnica mais comumente usada para prever um resultado específico, por exemplo, identificação de células tumorais cancerosas, análise de sentimentos, classificação de drogas, detecção de spam.	Modelos Lineares Generalizados Regressão Logística - técnica estatística clássica disponível dentro do Banco de Dados Oracle em uma implementação paralizada, escalável e de alto desempenho (aplica-se a todos os algoritmos OAA ML). Suporta texto e dados transacionais (aplica-se a quase todos os algoritmos OAA ML) Naive Bayes - Rápido, simples, comumente aplicável. Support Vector Machine - Algoritmo de aprendizado de máquina, suporta texto e dados amplos. Árvore de Decisão - Algoritmo de ML popular para interpretabilidade. Fornece "regras" legíveis por humanos.
Regressão	Técnica para prever um resultado numérico contínuo, como análise de dados astronômicos, geração de insights sobre comportamento do consumidor, lucratividade e outros fatores de negócios, cálculo de relações causais entre parâmetros em sistemas biológicos.	Modelos Lineares Generalizados Regressão Múltipla - técnica estatística clássica, mas agora disponível dentro do Banco de Dados Oracle como uma implementação paralizada, escalável e de alto desempenho. Suporta regressão de cume, criação de recursos e seleção de recursos. Suporta texto e dados transacionais. Suporte Vector Machine - algoritmo de aprendizado de máquina, suporta texto e dados amplos.
Importância do atributo	Classifica os atributos de acordo com a força do relacionamento com o atributo alvo. Os casos de uso incluem encontrar fatores mais associados a clientes que respondem a uma oferta, fatores mais associados a pacientes saudáveis.	Comprimento mínimo da descrição - considera cada atributo como um modelo preditivo simples da classe de destino e fornece influência relativa.

Algoritmos não supervisionados de mineração de dados Oracle

Técnica	Aplicabilidade	Algoritmos
Agrupamento	O clustering é usado para particionar os registros de um banco de dados em subconjuntos ou clusters onde os elementos de um cluster compartilham um conjunto de propriedades comuns. Os exemplos incluem encontrar novos segmentos de clientes e recomendações de filmes.	K-Means - Suporta mineração de texto, agrupamento hierárquico, baseado em distância. Agrupamento de particionamento ortogonal - agrupamento hierárquico, baseado em densidade. Maximização de expectativa - técnica de clustering que funciona bem em problemas de mineração de dados de dados mistos (denso e esparso).
Detecção de anomalias	A detecção de anomalias identifica pontos de dados, eventos e/ou observações que se desviam do comportamento normal de um conjunto de dados. Exemplos comuns incluem fraude bancária, defeito estrutural, problemas médicos ou erros em um texto	Máquina de vetor de suporte de classe única - treina dados não marcados e tenta determinar se um ponto de teste pertence à distribuição de dados de treinamento.
Seleção e extração de recursos	Produz novos atributos como combinação linear de atributos existentes. Aplicável para dados de texto, análise semântica latente (LSA), compactação de dados, decomposição e projeção de dados e reconhecimento de padrões.	Fatoração de matriz não negativa - Mapeia os dados originais para o novo conjunto de atributos Análise de componentes principais (PCA) - cria novos atributos compostos menos novos que representam todos os atributos. Decomposição Vetorial Singular - método de extração de características estabelecido que tem uma ampla gama de aplicações.
Associação	Encontra regras associadas a itens que ocorrem com frequência, usados para análise de cesta de mercado, venda cruzada, análise de causa raiz. Útil para agrupamento de produtos e análise de defeitos.	A priori - Faça hash de uma árvore para coletar informações em um banco de dados

Ativando a opção Oracle Data Mining

A partir do 12c Release 2, o Oracle Advanced Analytics A opção inclui a funcionalidade Data Mining e Oracle R.

A opção Oracle Advanced Analytics é habilitada por padrão durante a instalação do Oracle Database Enterprise Edition. Se você deseja habilitar ou desabilitar uma opção de banco de dados, você pode usar o utilitário de linha de comando chopt .

chopt [ enable | disable ] oaa

Para habilitar a opção Oracle Advanced Analytics:

Criando um tablespace de um esquema ODM

Todos os usuários requerem um tablespace permanente e um tablespace temporário para fazer seu trabalho, pode ser muito útil ter uma área separada em seu banco de dados onde você possa criar todos os seus objetos de mineração de dados.

O usr_dm_01 schema conterá todos os seus trabalhos de mineração de dados.

Criando o Repositório ODM

Você precisa criar um Oracle Data Mining Repository no banco de dados. Acesse o Data Miner Navigator no SQL Developer.

Selecione Exibir -> Data Miner -> Conexões do Data Miner:

Uma nova guia é aberta ao lado da guia Conexões existente:

Para adicionar usr_dm_01 esquema para esta lista, clique nas janelas verdes e OK

Se o repositório não existir, uma mensagem será exibida perguntando se você deseja instalar o repositório. Clique no botão Sim botão para prosseguir com a instalação.

Você precisa digitar a senha do SYS

Configuração de instalação do repositório

Instalar a janela de progresso do Data Miner Repository

Tarefa concluída com sucesso

Arquivo de registro

Componentes de mineração de dados Oracle

O fluxo de trabalho permite que você crie uma série de nós que executam todo o processamento necessário em seus dados.

Exemplo de um fluxo de trabalho desenvolvido para análise preditiva

Visualizações do Dicionário de Dados ODM

Você pode obter informações sobre modelos de mineração no dicionário de dados.

As visualizações do dicionário de dados de mineração de dados são resumidas da seguinte forma:

Observação:* pode ser substituído por ALL_, USER_, DBA_ e CDB_

*_MINING_MODELS :Informações sobre os modelos de mineração que foram criados.

*_MINING_MODEL_ATTRIBUTES :Contém os detalhes dos atributos que foram usados para criar o modelo Oracle Data Mining.

*_MINING_MODEL_SETTINGS :retorna informações sobre as configurações dos modelos de mineração aos quais você tem acesso.

Referências

Guia do Usuário de Mineração de Dados Oracle. Disponível em:https://docs.oracle.com/en/database/oracle/oracle-database/19/dmprg/lot.html

Oracle Data Mining – Análise preditiva escalável no banco de dados. Disponível em:https://www.oracle.com/database/technologies/advanced-analytics/odm.html

Visão geral do sistema Oracle Data Miner. Disponível em:https://docs.oracle.com/database/sql-developer-17.4/DMRIG/oracle-data-miner-overview.htm#DMRIG124