Migliori pratiche per l'accesso di dati di grandi dimensioni in Azure Databricks con R

Question 1

Di nuovo in Azure e DatabricksSto cercando di accedere a un ampio set di dati, su cui vorrei eseguire un processo di R (scritto in data.table e che funziona bene a livello locale).

Io non sono confortevoli, con i termini giusti o come l'intero Azure ambiente funziona, ma per ora, i miei dati è presente in 3 formati :

tabella
paquet
csv

Primo tentativo (e più logico per me) : un classico fread nel file csv. Su file di piccole dimensioni, tutto è bene. Sul 'big' (che 3Go), ci vogliono molti, molti minuti, mentre a livello locale, che richiede solo una manciata di secondi.

Perché è molto di più a livello locale ?

Secondo tentativo con SparkR sui file csv e collect() per lavorare con data.table

Ma collect() restituisce un errore :

C'è qualcosa che posso fare per installare questo ?

Terzo tentativo : come sopra delta file, con lo stesso tipo di errore

Quarto tentativo : SQL richiesta SparkR ma collect ancora restituito lo stesso errore

È uno dei miei tentativi di meglio di un altro ? Io sono sulla strada giusta ? Mi manca qualcosa ?

Qualsiasi aiuto o consiglio sarà molto utile.

Question 2

Per quanto riguarda il caricamento di DBFS è oggetto di archiviazione in cloud non locale deposito quindi, tempo di caricamento, naturalmente, sarà molto più lungo.

In materia di errore, è possibile regolare la Scintilla config, ma non è raccomandato, come si può ottenere errore di memoria:

spark.driver.maxResultSize <X>g

Si può regolare in cluster scintilla config

La soluzione migliore è quella di utilizzare più istanze (quindi non ci sarà automaticamente più partizioni - questo limite si applica per ogni partizione, istanza di RAM dimensione della memoria è anche importante, ma meglio di solito basta aggiungere più istanze di scala orizzontale). Attivare la funzione di auto-scaling è consigliata in caso di grandi set di dati.

Si prega di non utilizzare raccogliere() come si legge tutto il tuo dataframe sul driver per oggetto così non funziona. Generalmente questa funzione non è raccomandato anche per i più piccoli set di dati. Se si desidera diagnosticare il dataframe, si prega di utilizzare funzioni come .il primo() o .spettacolo con il limite.

Hubert Dudek · Answer 1 · 2021-11-22T13:04:06

Per quanto riguarda il caricamento di DBFS è oggetto di archiviazione in cloud non locale deposito quindi, tempo di caricamento, naturalmente, sarà molto più lungo.

In materia di errore, è possibile regolare la Scintilla config, ma non è raccomandato, come si può ottenere errore di memoria:

spark.driver.maxResultSize <X>g

Si può regolare in cluster scintilla config

La soluzione migliore è quella di utilizzare più istanze (quindi non ci sarà automaticamente più partizioni - questo limite si applica per ogni partizione, istanza di RAM dimensione della memoria è anche importante, ma meglio di solito basta aggiungere più istanze di scala orizzontale). Attivare la funzione di auto-scaling è consigliata in caso di grandi set di dati.

Si prega di non utilizzare raccogliere() come si legge tutto il tuo dataframe sul driver per oggetto così non funziona. Generalmente questa funzione non è raccomandato anche per i più piccoli set di dati. Se si desidera diagnosticare il dataframe, si prega di utilizzare funzioni come .il primo() o .spettacolo con il limite.

Grazie per la tua risposta, è un po ' più chiaro. Ma, come un nuovo utente di questo ambiente, non capisco tutto :) Come posso regolare la Scintilla config per esempio ? Come posso utilizzare più istanze ? (Hai ragione, i dati nel cloud. Il mio cluster ha 252Go e 72 core).
wow questo cluster è già abbastanza grande. Voglio aggiornare la mia risposta con maggiori dettagli in poche ore. Si prega di non utilizzare raccogliere() come si legge tutto il tuo dataframe sul driver per oggetto così non funziona. Generalmente questa funzione non è raccomandato anche per i più piccoli set di dati. Se si desidera diagnoze il dataframe, si prega di utilizzare funzioni come .il primo() .spettacolo con il limite.
Fino ad ora, non ho trovato un modo migliore collect() per eseguire il mio "locale" script scritto in data.table... Non vedo l'ora di leggere il tuo aggiornamento !
ma, esattamente, cosa vuoi ottenere? tenta di visualizzazione(df) anche
Ho bisogno di eseguire un intero script che ho scritto in data.table. Ma penso che dovrò riscrivere in sparkr, giusto ? Ma mi sembra più complesso a me di quanto non sembri. Ho cercato di creare una nuova colonna per lungo tempo in uso strsplit su un'altra colonna senza successo...

Migliori pratiche per l'accesso di dati di grandi dimensioni in Azure Databricks con R

Domanda

Migliore risposta

In altre lingue

Questa pagina è in altre lingue

Popolare in questa categoria

Domande popolari in questa categoria