A Plataforma Statistica está classificada entre as cinco principais plataformas de ciência de dados pelo novo relatório do Gartner para 2017, “Magic Quadrant for Data Science Platforms” (https://www.gartner.com/doc/3606026/magic-quadrant-data-science- plataformas), anteriormente chamadas de “Plataformas de Análise Avançada” em 2016. A ampla gama de recursos e uma Interface Gráfica de Usuário (GUI) fornecida pela Statistica a tornam uma das ferramentas de ciência de dados mais usadas.
Os arquivos de dados do Statistica são chamados de Planilhas , que têm linhas e colunas de dados. As linhas de dados são chamadas de casos e cabeçalhos de coluna para dados são chamados de variáveis . Um problema comum na preparação de dados é que diferentes membros da equipe estão desenvolvendo ou coletando conjuntos de dados separadamente e os conjuntos de dados precisam ser mesclados antes que a planilha possa ser usada. Os dados podem estar em vários arquivos de dados. Discutiremos como os dados em dois arquivos de dados diferentes podem ser mesclados em um único arquivo de dados com o Statistica.
O Statistica suporta diferentes tipos de modos de mesclagem para dois arquivos de dados, e são eles:
- Concatenar: Quando dois arquivos de dados são concatenados, um arquivo de dados é obtido e adicionado (ou concatenado) no lado direito do outro arquivo de dados.
- Cartesiano: Cria um produto cruzado de dois arquivos de dados.
- Corresponder a nomes de casos: Mescla os casos (linhas) de um arquivo com os casos dos outros arquivos, combinando os nomes dos casos.
- Variáveis de correspondência: Mescla as linhas de um arquivo de dados com as linhas do outro arquivo de dados combinando os nomes das variáveis.
Começaremos discutindo a mesclagem Concatenar. Este tutorial tem as seguintes seções:
- Definindo o ambiente
- Concatenando arquivos de dados
- Conclusão
Definindo o ambiente
Baixe e instale a Plataforma Statistica. Os arquivos de dados do Statistica são chamados de Planilhas (armazenados com o .sta sufixo). Vamos criar alguns arquivos de dados do Statistica neste tutorial. Um arquivo de dados é criado com File>New . Em Criar novo documento , selecione Planilha , como mostrado na Figura 1.
Figura 1: Selecionando Nova Planilha para Criar
Para salvar um arquivo de dados, selecione Arquivo>Salvar como , como mostrado na Figura 2.
Figura 2: Arquivo>Salvar como
Concatenando arquivos de dados
Primeiro, crie os dois arquivos de dados que serão mesclados. Os arquivos de dados a serem mesclados normalmente teriam o mesmo número de linhas e um número de colunas igual ou diferente. Como os dados devem ser concatenados, os nomes das colunas normalmente seriam diferentes. Nada disso é um requisito; dois arquivos de dados podem ter um número diferente de linhas e discutiremos como mesclar esse conjunto de arquivos de dados também. O objetivo é mesclar os dados de um arquivo de dados com o outro para que o arquivo de dados 2 seja adicionado ao lado direito do arquivo de dados 1. Como exemplo, crie um arquivo de dados (chamado wlslog1.sta ) com cabeçalhos de coluna (variáveis ) carimbo de data e hora , categoria e digite e os seguintes dados (exemplo de dados de log).
4-8-2014-7:06:16,Notice,WebLogicServer 4-8-2014-7:06:17,Notice,WebLogicServer 4-8-2014-7:06:18,Notice,WebLogicServer 4-8-2014-7:06:20,Notice,WebLogicServer 4-8-2014-7:06:21,Notice,WebLogicServer 4-8-2014-7:06:22,Notice,WebLogicServer
O wlslog1.sta arquivo de dados é mostrado no Statistica na Figura 3.
Figura 3: Arquivo de dados wlslog1.sta
Crie outro arquivo de dados (wlslog2.sta ) com cabeçalhos de coluna servername , código e msg e adicione os dados a seguir (também dados de log de exemplo).
AdminServer,BEA-000365,STANDBY AdminServer,BEA-000365,RESUMING AdminServer,BEA-000365,ADMIN AdminServer,BEA-000331,STARTING AdminServer,BEA-000365,STARTED AdminServer,BEA-000360,RUNNING
O wlslog2.sta é mostrado na Figura 4. Para mesclar os dois arquivos de dados, wlslog1.sta e wlslog2.sta , clique em Dados guia e selecione Mesclar , como mostrado na Figura 4.
Figura 4: Arquivo de dados wlslog2.sta
A Opções de mesclagem A caixa de diálogo é exibida, conforme mostrado na Figura 5. As Variáveis guia é selecionada por padrão. Selecione Modo como Concatenar . Clique no Arquivo 1 botão para selecionar o 1 arquivo a ser mesclado.
Figura 5: Opções de mesclagem
Selecione o wlslog1.sta arquivo em Selecionar planilha diálogo (veja a Figura 6). Clique em OK . O wlslog1.sta arquivo é adicionado ao Arquivo 1 campo. Da mesma forma, selecione o arquivo 2 wlslog2.sta .
Figura 6: Selecionando uma planilha para mesclar
Nenhuma outra configuração é necessária. Por padrão, uma planilha de saída é gerada e pode ser configurada com as Opções guia, conforme mostrado na Figura 7. Mantenha as configurações padrão para a planilha de saída.
Figura 7: Guia Opções
Os dois arquivos a serem mesclados são adicionados ao Arquivo 1 e Arquivo 2 campos, conforme mostrado na Figura 8. A configuração padrão para Casos sem correspondência preenche os arquivos de dados com os valores ausentes, o que implica que os dados vazios são armazenados para a seção de uma linha mesclada (case ) que não corresponde de um arquivo de dados para outro. Clique em OK .
Figura 8: Arquivos de dados para mesclar
Os dois arquivos de dados são concatenados, conforme mostrado na Figura 9. A planilha resultante tem 6 colunas e 6 linhas.
Figura 9: Planilha resultante após uma mesclagem
Se uma planilha tivesse mais linhas que a outra, as duas planilhas seriam concatenadas da mesma forma. Como exemplo, adicione uma linha extra na planilha 1 (wlslog1.sta ) para fazer 7 linhas, como mostra a Figura 10.
Figura 10: Linha extra em wlslog1.sta
Quando concatenado com a planilha 2 (wlslog2.sta ), a planilha resultante tem uma linha extra com dados ausentes para as colunas da planilha 2 (consulte a Figura 11).
Figura 11: Planilha mesclada
Conclusão
Neste tutorial, apresentamos a mesclagem de arquivos de dados (também chamados de planilhas) na Plataforma Statistica para ciência de dados. Discutimos um dos modos de mesclagem:Concatenar a mesclagem. Em um tutorial subsequente, discutiremos a mesclagem combinando nomes de casos e variáveis correspondentes.