Načítanie dát pomocou stĺpca mená uložené ako hodnoty v stĺpci, v rámci toho istého dataframe pyspark

0

Otázka

Mám veľké dátovom podobný príklad nižšie :

ID KÓD ŠTÚDIA MNOŽSTVO COL_NAME
111 5611 ABCD 56.17 ID
211 5411 GFED 451.1 MNOŽSTVO
311 3212 YTRA 687.3 ŠTÚDIA

Chcem vyplniť hodnoty stĺpcov uložené v col_name v stĺpci(COL_VAL) v rovnakom dataframe ako je uvedené nižšie :

ID KÓD ŠTÚDIA MNOŽSTVO COL_NAME COL_VALUE
111 5611 ABCD 56.17 ID 111
211 5411 GFED 451.1 MNOŽSTVO 451.1
311 3212 YTRA 687.3 ŠTÚDIA YTRA

Ja som pomocou slučky a .zbierať() k naplneniu hodnoty, ale to trvá veľa času. Chceli by ste vedieť efektívne spôsoby, ako robiť to isté relevantné pre veľký dataset.

apache-spark loops pyspark python
2021-11-23 17:20:27
1

Najlepšiu odpoveď

0

Môžete použiť when na dosiahnutie tohto cieľa.

from pyspark.sql import functions as F

data = [(111, 5611, "ABCD", 56.17, "ID",),
(211, 5411, "GFED", 451.1, "AMOUNT",),
(311, 3212, "YTRA", 687.3, "STUDY",),]

df = spark.createDataFrame(data, ("ID", "CODE", "STUDY", "AMOUNT","COL_NAME"))

def derive_column_value():
    condition = F
    for possible_value in df.columns:
        condition = condition.when(F.col("COL_NAME") == possible_value, F.col(possible_value))
    return condition

df.withColumn("COL_VALUE", derive_column_value()).show()

Výstup

+---+----+-----+------+--------+---------+
| ID|CODE|STUDY|AMOUNT|COL_NAME|COL_VALUE|
+---+----+-----+------+--------+---------+
|111|5611| ABCD| 56.17|      ID|      111|
|211|5411| GFED| 451.1|  AMOUNT|    451.1|
|311|3212| YTRA| 687.3|   STUDY|     YTRA|
+---+----+-----+------+--------+---------+
2021-11-23 17:41:06

V iných jazykoch

Táto stránka je v iných jazykoch

Русский
..................................................................................................................
Italiano
..................................................................................................................
Polski
..................................................................................................................
Română
..................................................................................................................
한국어
..................................................................................................................
हिन्दी
..................................................................................................................
Français
..................................................................................................................
Türk
..................................................................................................................
Česk
..................................................................................................................
Português
..................................................................................................................
ไทย
..................................................................................................................
中文
..................................................................................................................
Español
..................................................................................................................