Scorrere i file dalla cartella e la loro elaborazione in scala

Question 1

Ho un paio di file in una cartella per i diversi paesi. come di seguito

Casedata_GBR_202110_timestamp.csv

Casedata_ARG_202110_timestamp.csv

ora devo processo di prendere questi file processo per paese saggio e copia rispettive cartelle. la mia cartella di destinazione struttura sarà come

2021-->11-->GBR

2021-->11-->ARG

Scintille scala/scala aiutarmi a scrivere il codice per l'elaborazione di file dal paese e andare in paese cartella.

Question 2

Sembra che stai cercando partitionBy definita sulla DataFrameWriter. Dal scaladoc:

def partitionBy(colNames: String*): DataFrameWriter[T]

Partizioni dell'uscita dal dato colonne nel file system. Se specificato, l'uscita è prevista nel file di sistema simile ai Alveare schema di partizionamento. Come esempio, quando abbiamo partizione di un set di dati per anno e mese, la struttura di directory simile:

year=2016/month=01/
year=2016/month=02/

Il partizionamento è una delle tecniche più utilizzate per ottimizzare i dati fisici layout. Esso fornisce un generico indice per saltare inutili letture di dati quando le query sono predicati sul partizionato colonne. In ordine per il partizionamento di lavorare bene, il numero di valori distinti in ogni colonna deve essere di norma inferiore a decine di migliaia.

Questo è applicabile per tutti i file di dati basati su fonti (ad esempio, Parquet, JSON) a partire Scintilla 2.1.0.

Jarrod Baker · Answer 1 · 2021-11-24T08:25:52

Sembra che stai cercando partitionBy definita sulla DataFrameWriter. Dal scaladoc:

def partitionBy(colNames: String*): DataFrameWriter[T]

Partizioni dell'uscita dal dato colonne nel file system. Se specificato, l'uscita è prevista nel file di sistema simile ai Alveare schema di partizionamento. Come esempio, quando abbiamo partizione di un set di dati per anno e mese, la struttura di directory simile:

year=2016/month=01/
year=2016/month=02/

Il partizionamento è una delle tecniche più utilizzate per ottimizzare i dati fisici layout. Esso fornisce un generico indice per saltare inutili letture di dati quando le query sono predicati sul partizionato colonne. In ordine per il partizionamento di lavorare bene, il numero di valori distinti in ogni colonna deve essere di norma inferiore a decine di migliaia.

Questo è applicabile per tutti i file di dati basati su fonti (ad esempio, Parquet, JSON) a partire Scintilla 2.1.0.

esiste un modo per ottenere come 2016/01 e foreach aiuto per scorrere uno per uno i file
io sono per il processo di uno da un file in dataframe e copia in blob

Scorrere i file dalla cartella e la loro elaborazione in scala

Domanda

Migliore risposta

In altre lingue

Questa pagina è in altre lingue

Popolare in questa categoria

Domande popolari in questa categoria