Contare il numero di volte in cui una parola viene visualizzato nella colonna BigQuery

0

Domanda

Ho una colonna con alcune stringhe lunghe e hanno bisogno di contare le parole più utilizzate in esso.

Ho bisogno di qualcosa che funziona in questo modo https://towardsdatascience.com/very-simple-python-script-for-extracting-most-common-words-from-a-story-1e3570d0b9d0. Il conteggio delle parole che almeno in parte...

Ed è molto importante che ho l'opzione per la lista delle parole in modo da non contare.

google-bigquery
2021-11-23 18:33:36
1

Migliore risposta

2

Tenta di seguito approccio semplice

with blacklist as (
  select 'with' word union all 
  select 'that' union all
  select 'add more as you see needed'
)
select lower(word) word, count(*) frequency
from data, unnest(regexp_extract_all(col, r'[\w]*')) word
where length(word) > 3  
and word not in (select word from blacklist)
group by word
order by frequency desc     

 
2021-11-23 22:40:30

non ha funzionato... le frasi sono in portoghese, potrebbe essere questo il problema? o forse sono io che non rendere il giusto substituion sul codice idk
Murilo

), blacklist ( selezionare 'con' parola union all select 'che' union all select 'aggiungere più come si può vedere la necessità") selezionare inferiore(word), word, count() frequenza T0, unnest(regexp_extract_all(T0.colonna, r'[\w]')) parola di lunghezza(word) > 3 e parola not in (select parola dalla blacklist) gruppo con la parola d'ordine per frequenza, desc ///ho provato questo..
Murilo

vi prego di essere più specifico, cosa intendi per "non funziona"? fornire un esempio di dati di input. ecc....
Mikhail Berlyant

il mio male, ricevo questo messaggio "Questa query ha restituito nessun risultato".
Murilo

non importa, ho avuto un errore sul mio query originale, funziona perfettamente, grazie mille
Murilo

La ringrazio per la conferma. Contento che funziona per voi. Prendere in considerazione anche il voto la risposta ha aiutato :o)
Mikhail Berlyant

btw, im guardando i risultati e il codice è il taglio di parole che contengono alcune "brasiliano lettere" come "Ç" "à" "õ", c'è un modo per farlo considerare quelle. In una parola, come "informação", conta come "informa"
Murilo

sicuramente fattibile, verificherà a breve. ma nel frattempo controllare il mio in tutte le mie risposte come per il trattamento di accenti, etc. Dovrebbe essere di almeno alcune risposte relative a :o)
Mikhail Berlyant

In altre lingue

Questa pagina è in altre lingue

Русский
..................................................................................................................
Polski
..................................................................................................................
Română
..................................................................................................................
한국어
..................................................................................................................
हिन्दी
..................................................................................................................
Français
..................................................................................................................
Türk
..................................................................................................................
Česk
..................................................................................................................
Português
..................................................................................................................
ไทย
..................................................................................................................
中文
..................................................................................................................
Español
..................................................................................................................
Slovenský
..................................................................................................................