Di nuovo in Azure
e Databricks
Sto cercando di accedere a un ampio set di dati, su cui vorrei eseguire un processo di R (scritto in data.table
e che funziona bene a livello locale).
Io non sono confortevoli, con i termini giusti o come l'intero Azure ambiente funziona, ma per ora, i miei dati è presente in 3 formati :
- tabella
- paquet
- csv
Primo tentativo (e più logico per me) : un classico fread
nel file csv.
Su file di piccole dimensioni, tutto è bene. Sul 'big' (che 3Go), ci vogliono molti, molti minuti, mentre a livello locale, che richiede solo una manciata di secondi.
Perché è molto di più a livello locale ?
Secondo tentativo con SparkR
sui file csv e collect()
per lavorare con data.table
Ma collect()
restituisce un errore :
C'è qualcosa che posso fare per installare questo ?
Terzo tentativo : come sopra delta file, con lo stesso tipo di errore
Quarto tentativo : SQL richiesta SparkR
ma collect
ancora restituito lo stesso errore
È uno dei miei tentativi di meglio di un altro ? Io sono sulla strada giusta ? Mi manca qualcosa ?
Qualsiasi aiuto o consiglio sarà molto utile.