Sembra che stai cercando partitionBy
definita sulla DataFrameWriter
. Dal scaladoc:
def partitionBy(colNames: String*): DataFrameWriter[T]
Partizioni dell'uscita dal dato colonne nel file system. Se specificato, l'uscita è prevista nel file di sistema simile ai Alveare schema di partizionamento. Come esempio, quando abbiamo partizione di un set di dati per anno e mese, la struttura di directory simile:
year=2016/month=01/
year=2016/month=02/
Il partizionamento è una delle tecniche più utilizzate per ottimizzare i dati fisici layout. Esso fornisce un generico indice per saltare inutili letture di dati quando le query sono predicati sul partizionato colonne. In ordine per il partizionamento di lavorare bene, il numero di valori distinti in ogni colonna deve essere di norma inferiore a decine di migliaia.
Questo è applicabile per tutti i file di dati basati su fonti (ad esempio, Parquet, JSON) a partire Scintilla 2.1.0.