To znie, ako by ste hľadali partitionBy
definované na DataFrameWriter
. Z scaladoc:
def partitionBy(colNames: String*): DataFrameWriter[T]
Oddiely výstup dané stĺpce na súborový systém. Ak je uvedené, výstup je stanovený na systém súborov podobné Úľa korenový systém. Ako príklad, keď sme oblasť dataset rok, a potom mesiac, adresár rozloženie by vyzerať takto:
year=2016/month=01/
year=2016/month=02/
Delenie je jedným z najčastejšie používaných techník na optimalizáciu fyzických údajov rozloženie. Poskytuje hrubozrnný index pre preskočenie nepotrebné dáta číta, keď dotazy mať predikáty rozdelený na stĺpce. V poradí pre rozdelenie dobre fungovať, počet odlišných hodnôt v každom stĺpci by sa zvyčajne menej ako niekoľko desiatok tisíc.
Toto sa vzťahuje na všetkých súborových zdrojov údajov (napr. Parkety, v PIXLOCH) začína s Iskrou 2.1.0.