Spočítajte množstvo krát slovo, ktoré sa v BigQuery stĺpec

0

Otázka

Mám stĺpec s niektorými dlhé reťazce a je treba počítať najpoužívanejšie slová v ňom.

Potrebujem niečo, čo funguje, ako je tento https://towardsdatascience.com/very-simple-python-script-for-extracting-most-common-words-from-a-story-1e3570d0b9d0. Slovo počítanie časť najmenej...

A to je veľmi dôležité, že som mať možnosť zablokovať niektoré slová, takže sa nemusíte počítať.

google-bigquery
2021-11-23 18:33:36
1

Najlepšiu odpoveď

2

Skúste pod jednoduchý prístup

with blacklist as (
  select 'with' word union all 
  select 'that' union all
  select 'add more as you see needed'
)
select lower(word) word, count(*) frequency
from data, unnest(regexp_extract_all(col, r'[\w]*')) word
where length(word) > 3  
and word not in (select word from blacklist)
group by word
order by frequency desc     

 
2021-11-23 22:40:30

to nefungovalo... frázy sú v portugalčine, mohol by to byť problém? alebo možno som nemal právo, aby substituion na váš kód idk
Murilo

), nežiaduci ako ( vyberte možnosť " s "slovo únie všetky vyberte", že "únia všetky vyberte" pridať viac ako vidíte potrebné' ) vyberte nižšie(slovo) word count() frekvencia od T0, unnest(regexp_extract_all(T0.stĺpec, r'[\w]')) slovo, na ktorom length(slovo) > 3 a slovo nie v (vyberte slovo zo zoznamu spamových adries (blacklist) skupina slovom poradí podľa frekvencie desc ///snažil som sa to..
Murilo

prosím, byť viac špecifické, čo máte na mysli tým "to nefungovalo"? poskytujú príklad vstupných údajov. atď....
Mikhail Berlyant

moje zlé, i toto hlásenie "Tento dotaz vrátil žiadne výsledky".
Murilo

nevadí, ja som mal chyba na mojej pôvodnej dotaz, funguje to perfektne teraz, ďakujem moc
Murilo

Ďakujeme, že ste pre potvrdenie. Som rád, že to funguje pre vás. Treba uvažovať aj o hlasovanie do odpoveď, ak to pomohlo :o)))
Mikhail Berlyant

btw, im pri pohľade na výsledky a kód je rezanie slov, ktoré obsahujú niektoré "brazílsky písmená" páči sa mi "Ç" "ã" "õ", existuje spôsob, ako robiť to zvážiť tieto. Slovo ako "informação", to sa počíta ako "informácie"
Murilo

určite je uskutočniteľné, skontroluje sa, krátko. ale medzitým skontrolovať môj v mojom ostatné odpovede tom, ako zaobchádzať s diakritikou, atď. To by mala byť aspoň niekoľko odpovedí, ktoré sa týkajú príslušných :o)))
Mikhail Berlyant

V iných jazykoch

Táto stránka je v iných jazykoch

Русский
..................................................................................................................
Italiano
..................................................................................................................
Polski
..................................................................................................................
Română
..................................................................................................................
한국어
..................................................................................................................
हिन्दी
..................................................................................................................
Français
..................................................................................................................
Türk
..................................................................................................................
Česk
..................................................................................................................
Português
..................................................................................................................
ไทย
..................................................................................................................
中文
..................................................................................................................
Español
..................................................................................................................