Chcem zopakovať nižšie kód pomocou pyspark DataFrame funkcie namiesto SQL dotazu.
spark.sql("select date from walmart_stock order by high desc limit 1").show()
Chcem zopakovať nižšie kód pomocou pyspark DataFrame funkcie namiesto SQL dotazu.
spark.sql("select date from walmart_stock order by high desc limit 1").show()
Tu je kód, ak začnete z prepojeného súboru CSV. Mali by ste rozpoznať SQL funkcií. Upozorňujeme, že používame inferSchema
možnosť, aby sa priamo analyzovať čísla do dvojky a získať správne objednávanie (to nebude fungovať, ako sa očakávalo s predvolený typ string). Iný spôsob, ako by bolo obsadenie stĺpec po prečítaní súboru CSV.
spark.read
.option("header", "true")
.option("inferSchema", "true")
.csv("walmart_stock.csv")
.orderBy(f.col("High"), desc=True)
.limit(1)
.select("Date")
.show()
čo dáva
+----------+
| Date|
+----------+
|2015-11-13|
+----------+