Spark：优化将DataFrame写入SQL Server

老外婆

我正在使用以下代码将43列和约2000行DataFrame写入SQL Server的表中：
dataFrame  .write  .format("jdbc")  .mode("overwrite")  .option("driver","com.microsoft.sqlserver.jdbc.SQLServerDriver")  .option("url",url)  .option("dbtable",tablename)  .option("user",user)  .option("password",password)  .save()不幸的是，虽然它确实适用于小型DataFrame，但它要么很慢，要么很大DataFrame超时。关于如何优化它的任何提示？
我试着设置 rewriteBatchedStatements=true
谢谢。

解决方案:
                                                            我们求助于使用azure-sqldb-spark而不是使用Spark默认内置导出功能。这个库给你一个bulkCopyToSqlDB这是一种方法真正的批量插入，去了很多
更快。它比内置功能太实用，但以我的经验还是值得的。
我们或多或少地这样使用它：
import com.microsoft.azure.sqldb.spark.config.Configimport com.microsoft.azure.sqldb.spark.connect._import com.microsoft.azure.sqldb.spark.query._val options = Map(  "url"       -> "***", "databaseName" -> "***", "user"       -> "***", "password"    -> "***", "driver"    -> "com.microsoft.sqlserver.jdbc.SQLServerDriver")// first make sure the table exists,with the correct column types// and is properly cleaned up if necessaryval query = dropAndCreateQuery(df,"myTable")val createConfig = Config(options Map("QueryCustom" -> query))spark.sqlContext.sqlDBQuery(createConfig)val bulkConfig = Config(options Map(  "dbTable"          -> "myTable", "bulkCopyBatchSize" -> "20000", "bulkCopyTableLock" -> "true", "bulkCopyTimeout" -> "600"))df.bulkCopyToSqlDB(bulkConfig)如你所见，我们CREATE TABLE您可以
让库创建表，但这样做dataFrame.limit(0).write.sqlDB(config)它仍然非常低效，可能需要你缓存DataFrame，而且不允许你选择SaveMode。
也可能有趣：ExclusionRule添加此库sbt我们必须在施工过程中使用它an ，否则assembly任务将失败。
libraryDependencies  = "com.microsoft.azure" % "azure-sqldb-spark" % "1.0.2" excludeAll(  ExclusionRule(organization = "org.apache.spark"))

Spark：优化将DataFrame写入SQL Server

老外婆 LV1