Opakovať súbory z priečinka a spracovával ich vo scala

Question 1

Mám pár súborov v zložke na rôznych krajín. ako nižšie

Casedata_GBR_202110_timestamp.csv

Casedata_ARG_202110_timestamp.csv

teraz musím trvať tieto súbory proces ich krajine múdry a kopírovať do príslušných zložiek. môj cieľový priečinok štruktúra bude ako

2021-->11-->GBR

2021-->11-->ARG

V iskra scala/scala pomôžte mi napísať kód na spracovanie súboru podľa krajiny a presunúť do príslušnej krajiny priečinok.

Question 2

To znie, ako by ste hľadali partitionBy definované na DataFrameWriter. Z scaladoc:

def partitionBy(colNames: String*): DataFrameWriter[T]

Oddiely výstup dané stĺpce na súborový systém. Ak je uvedené, výstup je stanovený na systém súborov podobné Úľa korenový systém. Ako príklad, keď sme oblasť dataset rok, a potom mesiac, adresár rozloženie by vyzerať takto:

year=2016/month=01/
year=2016/month=02/

Delenie je jedným z najčastejšie používaných techník na optimalizáciu fyzických údajov rozloženie. Poskytuje hrubozrnný index pre preskočenie nepotrebné dáta číta, keď dotazy mať predikáty rozdelený na stĺpce. V poradí pre rozdelenie dobre fungovať, počet odlišných hodnôt v každom stĺpci by sa zvyčajne menej ako niekoľko desiatok tisíc.

Toto sa vzťahuje na všetkých súborových zdrojov údajov (napr. Parkety, v PIXLOCH) začína s Iskrou 2.1.0.

Jarrod Baker · Answer 1 · 2021-11-24T08:25:52

To znie, ako by ste hľadali partitionBy definované na DataFrameWriter. Z scaladoc:

def partitionBy(colNames: String*): DataFrameWriter[T]

Oddiely výstup dané stĺpce na súborový systém. Ak je uvedené, výstup je stanovený na systém súborov podobné Úľa korenový systém. Ako príklad, keď sme oblasť dataset rok, a potom mesiac, adresár rozloženie by vyzerať takto:

year=2016/month=01/
year=2016/month=02/

Delenie je jedným z najčastejšie používaných techník na optimalizáciu fyzických údajov rozloženie. Poskytuje hrubozrnný index pre preskočenie nepotrebné dáta číta, keď dotazy mať predikáty rozdelený na stĺpce. V poradí pre rozdelenie dobre fungovať, počet odlišných hodnôt v každom stĺpci by sa zvyčajne menej ako niekoľko desiatok tisíc.

Toto sa vzťahuje na všetkých súborových zdrojov údajov (napr. Parkety, v PIXLOCH) začína s Iskrou 2.1.0.

je tam tak či tak dostať ako 2016/01 a bude foreach pomôcť opakovať po jednom súbor
mám na spracovanie jedného súboru do dataframe a kopírovať do blob

Opakovať súbory z priečinka a spracovával ich vo scala

Otázka

Najlepšiu odpoveď

V iných jazykoch

Táto stránka je v iných jazykoch

Populárne v tejto kategórii

Obľúbené otázky v tejto kategórii