Problema durante il tentativo di leggere un file di testo in databricks Locali, File API piuttosto che Scintilla API

Question 1

Sto cercando di leggere un piccolo file txt che viene aggiunto come una tabella predefinita db su Databricks. Durante il tentativo di leggere il file utilizzando il File API, ho un FileNotFoundErrorma io sono in grado di leggere lo stesso file come Scintilla RDA utilizzando SparkContext.

Si prega di trovare il codice riportato di seguito:

with open("/FileStore/tables/boringwords.txt", "r") as f_read:
  for line in f_read:
    print(line)

Questo mi dà l'errore:

FileNotFoundError                         Traceback (most recent call last)
<command-2618449717515592> in <module>
----> 1 with open("dbfs:/FileStore/tables/boringwords.txt", "r") as f_read:
      2   for line in f_read:
      3     print(line)

FileNotFoundError: [Errno 2] No such file or directory: 'dbfs:/FileStore/tables/boringwords.txt'

Dove, come, non ho alcun problema a leggere il file utilizzando SparkContext:

boring_words = sc.textFile("/FileStore/tables/boringwords.txt")
set(i.strip() for i in boring_words.collect())

E come previsto, ho ottenere il risultato di cui sopra il blocco di codice:

Out[4]: {'mad',
 'mobile',
 'filename',
 'circle',
 'cookies',
 'immigration',
 'anticipated',
 'editorials',
 'review'}

Sono stato anche in riferimento all' DBFS documentazione qui per capire Locale del File API limiti, ma non portare la questione. Qualsiasi aiuto sarebbe molto apprezzato. Grazie!

Question 2

Il problema è che stai usando open una funzione che funziona solo con i file locali, e non sa nulla DBFS, o altri file system. Per ottenere questo lavoro, è necessario utilizzare DBFS locali API file e aggiungere il /dbfs prefisso percorso file: /dbfs/FileStore/....:

with open("/dbfs/FileStore/tables/boringwords.txt", "r") as f_read:
  for line in f_read:
    print(line)

Question 3

In alternativa, si può semplicemente utilizzare il built-in csv metodo:

df = spark.read.csv("dbfs:/FileStore/tables/boringwords.txt")

Question 4

In alternativa possiamo utilizzare dbutils

files = dbutils.fs.ls('/FileStore/tables/')
li = []
for fi in files: 
  print(fi.path)

Esempio ,

Alex Ott · Answer 1 · 2021-11-24T07:56:14

Il problema è che stai usando open una funzione che funziona solo con i file locali, e non sa nulla DBFS, o altri file system. Per ottenere questo lavoro, è necessario utilizzare DBFS locali API file e aggiungere il /dbfs prefisso percorso file: /dbfs/FileStore/....:

with open("/dbfs/FileStore/tables/boringwords.txt", "r") as f_read:
  for line in f_read:
    print(line)

Luiz Viola · Answer 2 · 2021-11-24T08:51:27

In alternativa, si può semplicemente utilizzare il built-in csv metodo:

df = spark.read.csv("dbfs:/FileStore/tables/boringwords.txt")

Karthikeyan Rasipalay Durairaj · Answer 3 · 2021-11-24T18:26:17

In alternativa possiamo utilizzare dbutils

files = dbutils.fs.ls('/FileStore/tables/')
li = []
for fi in files: 
  print(fi.path)

Esempio ,

Problema durante il tentativo di leggere un file di testo in databricks Locali, File API piuttosto che Scintilla API

Domanda

In altre lingue

Questa pagina è in altre lingue

Popolare in questa categoria

Domande popolari in questa categoria