Mysql
 sql >> Base de Dados >  >> RDS >> Mysql

Configure um grande banco de dados no MySQL para análise em R


A documentação do RMySQL é muito boa - mas assume que você conhece o básico do SQL. Esses são:
  • criando um banco de dados
  • criando uma tabela
  • obtendo dados na tabela
  • obtendo dados da tabela

O passo 1 é fácil:no console do MySQL, basta "criar o banco de dados DBNAME". Ou a partir da linha de comando, use mysqladmin , ou geralmente há GUIs de administração do MySQL.

A etapa 2 é um pouco mais difícil, pois você precisa especificar os campos da tabela e seu tipo. Isso dependerá do conteúdo do seu arquivo CSV (ou outro delimitado). Um exemplo simples seria algo como:
use DBNAME;
create table mydata(
  id INT(11) NOT NULL AUTO_INCREMENT PRIMARY KEY,
  height FLOAT(3,2)
); 

Que diz para criar uma tabela com 2 campos:id , que será a chave primária (portanto, deve ser exclusiva) e será incrementada automaticamente à medida que novos registros forem adicionados; e altura , que aqui é especificado como um float (um tipo numérico), com 3 dígitos no total e 2 após o ponto decimal (por exemplo 100,27). É importante que você entenda os tipos de dados .

Etapa 3 - existem várias maneiras de importar dados para uma tabela. Um dos mais fáceis é usar o mysqlimport Utilitário. No exemplo acima, supondo que seus dados estejam em um arquivo com o mesmo nome da tabela (mydata), a primeira coluna um caractere de tabulação e a segunda a variável height (sem linha de cabeçalho), isso funcionaria:
mysqlimport -u DBUSERNAME -pDBPASSWORD DBNAME mydata

Passo 4 - requer que você saiba como executar consultas MySQL. Novamente, um exemplo simples:
select * from mydata where height > 50;

Significa "buscar todas as linhas (id + altura) da tabela mydata onde a altura é maior que 50".

Depois de dominar esses conceitos básicos, você pode passar para exemplos mais complexos, como criar 2 ou mais tabelas e executar consultas que unem dados de cada uma.

Então - você pode recorrer ao manual RMySQL. No RMySQL, você configura a conexão com o banco de dados e, em seguida, usa a sintaxe de consulta SQL para retornar linhas da tabela como um quadro de dados. Portanto, é realmente importante que você obtenha a parte SQL - a parte RMySQL é fácil.

Existem muitos tutoriais sobre MySQL e SQL na web, incluindo o "oficial" tutorial no site do MySQL. Basta pesquisar no Google "tutorial mysql".

Pessoalmente, não considero 80 Mb um grande conjunto de dados; Estou surpreso que isso esteja causando um problema de RAM e tenho certeza de que as funções nativas do R podem lidar com isso com bastante facilidade. Mas é bom aprender novas habilidades, como SQL, mesmo que você não precise delas para esse problema.