Spark Job File Configuration

val sparkSql = "org.apache.spark" %% "spark-sql" % "2.4.0" % "provided" val json = "io.spray" %% "spray-json" % "1.3.5" lazy val tools = (project in file("spark/Tools")) .settings( name := "Tools", organization := "com.cacoveanu.spark.tools", libraryDependencies ++= Seq( sparkSql, json ) )

import java.io.FileInputStream import org.apache.spark.SparkFiles import spray.json._ object SparkUtil { private def getOperatingPath(path: String, local: Boolean) = if (local) path else SparkFiles.get(path) def loadConfigJsonFile(path: String, local: Boolean = false) = { val operatingPath = getOperatingPath(path, local) val source = scala.io.Source.fromFile(operatingPath) val lines: String = try source.mkString finally source.close() lines.parseJson } }

import spray.json.{JsArray, JsObject, JsValue} import spray.json.DefaultJsonProtocol._ class JsonConfiguration(val path: String)(implicit local: Boolean = false) { val config: JsValue = SparkUtil.loadConfigJsonFile(path, local) def getProperty(path: String*): Option[Any] = { var current: Option[Any] = Some(config) path.foreach(e => current = current match { case Some(map: JsObject) => map.getFields(e).headOption case None => None case _ => None } ) current } def getOrElse(path: Seq[String], default: String): String = { getProperty(path:_*) match { case Some(value: JsValue) => value.convertTo[String] case _ => default } } def getOrElse(path: Seq[String], default: Int): Int = { getProperty(path:_*) match { case Some(value: JsValue) => value.convertTo[Int] case _ => default } } def getOrElse(path: Seq[String], default: Double): Double = { getProperty(path:_*) match { case Some(value: JsValue) => value.convertTo[Double] case _ => default } } def getOrStringArray(path: Seq[String], default: Seq[String]): Seq[String] = { getProperty(path:_*) match { case Some(value: JsArray) => value.convertTo[Seq[String]] case _ => default } } def getOrDoubleArray(path: Seq[String], default: Seq[Double]): Seq[Double] = { getProperty(path:_*) match { case Some(value: JsArray) => value.convertTo[Seq[Double]] case _ => default } } }

object OurSparkJob { def main(args: Array[String]): Unit = { val argmap: Map[String, String] = args .map(a => a.split("=")) .filter(a => a(0).nonEmpty && a(1).nonEmpty) .map(a => a(0) -> a(1)) .toMap implicit val local: Boolean = argConfig.getOrElse("local", "false").toBoolean val spark = ( if (local) SparkSession.builder().master("local[*]") else SparkSession.builder() ) .appName("ourSparkJob") .getOrCreate() val jsonConfig = new JsonConfiguration("configuration.json")(local) val thresholdForAlgorithmA = jsonConfig.getOrElse( Seq("parameters", "algorithmA", "threshold"), default = 0.1d ) val data = spark.readStream // and so on ... } }

spark-submit --class com.cacoveanu.spar.OurSparkJob --master spark://master-url:7077 --deploy-mode cluster --files configuration.json ourSparkJob.jar

Spark Job File Configuration

Dependencies

File Access

Json Configuration File Utility

Configuring the Spark Job

Deploying on a Cluster