Spark Dataframe reducebykey之类的操作

空瞳

我有一个包含以下数据的人Spark数据帧(我用的spark-csv加载数据：
key,value1,102,123,01,20有什么相似之处？spark RDD的东西reduceByKey可以返回一个Spark DataFrame如下

基本上，同一键值的和谐)
key,value1,302,123,0(我可以将数据转换为RDD并进行reduceByKey但是操作还是比较多的Spark DataFrame API能做到这一点吗？

解决方案:
                                                            如果不关心列名，可以用groupBy后跟sum：
df.groupBy($"key").sum("value")否则最好更换sum为agg：
df.groupBy($"key").agg(sum($"value").alias("value"))最后，你可以使用原始SQL：
df.registerTempTable("df")sqlContext.sql("SELECT key,SUM(value) AS value FROM df GROUP BY key")

Spark Dataframe reducebykey之类的操作

空瞳 LV1