Nové v Azure
a Databricks
Snažím sa pristupovať veľký súbor údajov, na ktorých by som chcel spustiť R procesu (napísané v data.table
a ktorá vedie aj lokálne).
Nie som si pohodlné s právom podmienky, alebo ako celý Azure prostredia funguje, ale teraz my údajov je prítomný v 3 formátoch :
- tabuľka
- paquet
- csv
Prvý pokus (a najlogickejším pre mňa) : klasický fread
na súbory csv.
Na malé súbory, je všetko v poriadku. Na "veľké" súbory (3Go), trvá mnoho, mnoho minút, zatiaľ čo lokálne, trvá len niekoľko sekúnd.
Prečo je to oveľa dlhšie ako lokálne ?
Druhý pokus s SparkR
na súbory csv a collect()
ak chcete pracovať s data.table
Je tam niečo, čo môžem robiť, ak chcete nastaviť toto ?
Tretí pokus : rovnaké ako vyššie na delta súbory s rovnakým typ chyby
Štvrtý pokus : SQL vyžiadanie z SparkR
ale collect
ešte vrátiť tú istú chybu
Je jeden z mojich pokusov lepšie ako iné ? Som na správnej ceste ? Som niečo chýba ?
Akúkoľvek pomoc alebo radu bude veľmi užitočné.