A documentação do RMySQL é muito boa - mas assume que você conhece o básico do SQL. Esses são:
- criando um banco de dados
- criando uma tabela
- obtendo dados na tabela
- obtendo dados da tabela
O passo 1 é fácil:no console do MySQL, basta "criar o banco de dados DBNAME". Ou a partir da linha de comando, use mysqladmin , ou geralmente há GUIs de administração do MySQL.
A etapa 2 é um pouco mais difícil, pois você precisa especificar os campos da tabela e seu tipo. Isso dependerá do conteúdo do seu arquivo CSV (ou outro delimitado). Um exemplo simples seria algo como:
use DBNAME;
create table mydata(
id INT(11) NOT NULL AUTO_INCREMENT PRIMARY KEY,
height FLOAT(3,2)
);
Que diz para criar uma tabela com 2 campos:id , que será a chave primária (portanto, deve ser exclusiva) e será incrementada automaticamente à medida que novos registros forem adicionados; e altura , que aqui é especificado como um float (um tipo numérico), com 3 dígitos no total e 2 após o ponto decimal (por exemplo 100,27). É importante que você entenda os tipos de dados .
Etapa 3 - existem várias maneiras de importar dados para uma tabela. Um dos mais fáceis é usar o mysqlimport Utilitário. No exemplo acima, supondo que seus dados estejam em um arquivo com o mesmo nome da tabela (mydata), a primeira coluna um caractere de tabulação e a segunda a variável height (sem linha de cabeçalho), isso funcionaria:
mysqlimport -u DBUSERNAME -pDBPASSWORD DBNAME mydata
Passo 4 - requer que você saiba como executar consultas MySQL. Novamente, um exemplo simples:
select * from mydata where height > 50;
Significa "buscar todas as linhas (id + altura) da tabela mydata onde a altura é maior que 50".
Depois de dominar esses conceitos básicos, você pode passar para exemplos mais complexos, como criar 2 ou mais tabelas e executar consultas que unem dados de cada uma.
Então - você pode recorrer ao manual RMySQL. No RMySQL, você configura a conexão com o banco de dados e, em seguida, usa a sintaxe de consulta SQL para retornar linhas da tabela como um quadro de dados. Portanto, é realmente importante que você obtenha a parte SQL - a parte RMySQL é fácil.
Existem muitos tutoriais sobre MySQL e SQL na web, incluindo o "oficial" tutorial no site do MySQL. Basta pesquisar no Google "tutorial mysql".
Pessoalmente, não considero 80 Mb um grande conjunto de dados; Estou surpreso que isso esteja causando um problema de RAM e tenho certeza de que as funções nativas do R podem lidar com isso com bastante facilidade. Mas é bom aprender novas habilidades, como SQL, mesmo que você não precise delas para esse problema.