PostgreSQL
 sql >> Base de Dados >  >> RDS >> PostgreSQL

Conexão Pyspark ao banco de dados Postgres no notebook ipython


Não sei por que a resposta acima não funcionou para mim, mas pensei que também poderia compartilhar o que realmente funcionou para mim ao executar o pyspark a partir de um notebook jupyter (Spark 2.3.1 - Python 3.6.3):
from pyspark.sql import SparkSession
spark = SparkSession.builder.config('spark.driver.extraClassPath', '/path/to/postgresql.jar').getOrCreate()
url = 'jdbc:postgresql://host/dbname'
properties = {'user': 'username', 'password': 'pwd'}
df = spark.read.jdbc(url=url, table='tablename', properties=properties)