databrickslabs · GeekSheikh · Feb 20, 2023 · Jan 13, 2023 · Jan 20, 2023 · Feb 20, 2023
diff --git a/src/main/scala/com/databricks/labs/overwatch/MultiWorkspaceDeployment.scala b/src/main/scala/com/databricks/labs/overwatch/MultiWorkspaceDeployment.scala
@@ -166,7 +166,8 @@ class MultiWorkspaceDeployment extends SparkSessionWrapper {
       config.enable_unsafe_SSL.getOrElse(false),
       config.thread_pool_size.getOrElse(4),
       config.api_waiting_time.getOrElse(300000),
-      Some(apiProxyConfig))
+      Some(apiProxyConfig),
+      Some(config.mount_mapping_path))
     apiEnvConfig
   }
 

diff --git a/src/main/scala/com/databricks/labs/overwatch/ParamDeserializer.scala b/src/main/scala/com/databricks/labs/overwatch/ParamDeserializer.scala
@@ -188,8 +188,9 @@ class ParamDeserializer() extends StdDeserializer[OverwatchParams](classOf[Overw
         getOptionBoolean(masterNode, "apiEnvConfig.enableUnsafeSSL").getOrElse(false),
         getOptionInt(masterNode, "apiEnvConfig.threadPoolSize").getOrElse(4),
         getOptionLong(masterNode, "apiEnvConfig.apiWaitingTime").getOrElse(300000),
-        apiProxyNodeConfig
-      ))
+        apiProxyNodeConfig,
+        getOptionString(masterNode, "apiEnvConfig.mountMappingPath"))
+      )
     } else {
       None
     }

diff --git a/src/main/scala/com/databricks/labs/overwatch/pipeline/Bronze.scala b/src/main/scala/com/databricks/labs/overwatch/pipeline/Bronze.scala
@@ -167,7 +167,8 @@ class Bronze(_workspace: Workspace, _database: Database, _config: Config)
         BronzeTargets.clustersSnapshotTarget,
         sparkLogClusterScaleCoefficient,
         config.apiEnv,
-        config.isMultiworkspaceDeployment
+        config.isMultiworkspaceDeployment,
+        config.organizationId
       ),
       generateEventLogsDF(
         database,

diff --git a/src/main/scala/com/databricks/labs/overwatch/pipeline/BronzeTransforms.scala b/src/main/scala/com/databricks/labs/overwatch/pipeline/BronzeTransforms.scala
@@ -1,5 +1,6 @@
 package com.databricks.labs.overwatch.pipeline
 
+import com.databricks.dbutils_v1.DBUtilsHolder.dbutils
 import com.databricks.labs.overwatch.env.Database
 import com.databricks.labs.overwatch.eventhubs.AadAuthInstance
 import com.databricks.labs.overwatch.pipeline.WorkflowsTransforms.{workflowsCleanseJobClusters, workflowsCleanseTasks}
@@ -897,17 +898,17 @@ trait BronzeTransforms extends SparkSessionWrapper {
 
 
   private[overwatch] def getAllEventLogPrefix(inputDataframe: DataFrame, apiEnv: ApiEnv): DataFrame = {
+    try{
     val mountMap = getMountPointMapping(apiEnv) //Getting the mount info from api and cleaning the data
+      .withColumn("mount_point", when('mount_point.endsWith("/"), 'mount_point.substr(lit(0), length('mount_point) - 1)).otherwise('mount_point))
       .withColumn("source", when('source.endsWith("/"), 'source.substr(lit(0), length('source) - 1)).otherwise('source))
       .filter(col("mount_point") =!= "/")
-
     //Cleaning the data for cluster log path
     val formattedInputDf = inputDataframe.withColumn("cluster_log_conf", when('cluster_log_conf.endsWith("/"), 'cluster_log_conf.substr(lit(0), length('cluster_log_conf) - 1)).otherwise('cluster_log_conf))
       .withColumn("cluster_mount_point_temp", regexp_replace('cluster_log_conf, "dbfs:", ""))
       .withColumn("cluster_mount_point", 'cluster_mount_point_temp)
 //      .withColumn("cluster_mount_point", regexp_replace('cluster_mount_point_temp, "//", "/"))
 
-
     //Joining the cluster log data with mount point data
     val joinDF = formattedInputDf
       .join(mountMap, formattedInputDf.col("cluster_mount_point").startsWith(mountMap.col("mount_point")), "left") //starts with then when
@@ -925,11 +926,35 @@ trait BronzeTransforms extends SparkSessionWrapper {
 
     val result = pathsDF.select('wildPrefix, 'cluster_id)
     result
+    }catch {
+      case e:Exception=>
+          logger.log(Level.ERROR,"Unable to get all the event log prefix",e)
+          throw e
+    }
+
   }
 
   private def getMountPointMapping(apiEnv: ApiEnv): DataFrame = {
-    val endPoint = "dbfs/search-mounts"
-    ApiCallV2(apiEnv, endPoint).execute().asDF()
+    try{
+      if (apiEnv.mountMappingPath.nonEmpty) {
+        logger.log(Level.INFO, "Reading cluster logs from " + apiEnv.mountMappingPath)
+         spark.read.option("header", "true")
+          .option("ignoreLeadingWhiteSpace", true)
+          .option("ignoreTrailingWhiteSpace", true)
+          .csv(apiEnv.mountMappingPath.get)
+          .withColumnRenamed("mountPoint","mount_point")
+          .select("mount_point", "source")
+      } else {
+        logger.log(Level.INFO,"Calling dbfs/search-mounts for cluster logs")
+        val endPoint = "dbfs/search-mounts"
+        ApiCallV2(apiEnv, endPoint).execute().asDF()
+      }
+    }catch {
+      case e:Exception=>
+        logger.log(Level.ERROR,"ERROR while reading mount point",e)
+        throw e
+    }
+
   }
 
 
@@ -941,7 +966,8 @@ trait BronzeTransforms extends SparkSessionWrapper {
                                       clusterSnapshotTable: PipelineTable,
                                       sparkLogClusterScaleCoefficient: Double,
                                       apiEnv: ApiEnv,
-                                      isMultiWorkSpaceDeployment: Boolean
+                                      isMultiWorkSpaceDeployment: Boolean,
+                                      organisationId: String
                                     )(incrementalAuditDF: DataFrame): DataFrame = {
 
     logger.log(Level.INFO, "Collecting Event Log Paths Glob. This can take a while depending on the " +
@@ -985,7 +1011,7 @@ trait BronzeTransforms extends SparkSessionWrapper {
     // Build root level eventLog path prefix from clusterID and log conf
     // /some/log/prefix/cluster_id/eventlog
     val allEventLogPrefixes =
-    if(isMultiWorkSpaceDeployment) {
+    if(isMultiWorkSpaceDeployment && organisationId != Initializer.getOrgId) {
       getAllEventLogPrefix(newLogDirsNotIdentifiedInAudit
         .unionByName(incrementalClusterWLogging), apiEnv).select('wildPrefix).distinct()
      } else {

diff --git a/src/main/scala/com/databricks/labs/overwatch/pipeline/Schema.scala b/src/main/scala/com/databricks/labs/overwatch/pipeline/Schema.scala
@@ -1060,6 +1060,7 @@ object Schema extends SparkSessionWrapper {
     StructField("error_batch_size", IntegerType, nullable = true),
     StructField("enable_unsafe_SSL", BooleanType, nullable = true),
     StructField("thread_pool_size", IntegerType, nullable = true),
-    StructField("api_waiting_time", LongType, nullable = true)
+    StructField("api_waiting_time", LongType, nullable = true),
+    StructField("mount_mapping_path", StringType, nullable = true)
   ))
 }
diff --git a/src/main/scala/com/databricks/labs/overwatch/utils/Config.scala b/src/main/scala/com/databricks/labs/overwatch/utils/Config.scala
@@ -389,7 +389,8 @@ class Config() {
       setApiEnv(ApiEnv(isLocalTesting, workspaceURL, rawToken, packageVersion, derivedApiEnvConfig.successBatchSize,
         derivedApiEnvConfig.errorBatchSize, runID, derivedApiEnvConfig.enableUnsafeSSL, derivedApiEnvConfig.threadPoolSize,
         derivedApiEnvConfig.apiWaitingTime, derivedApiProxy.proxyHost, derivedApiProxy.proxyPort,
-        derivedApiProxy.proxyUserName, derivedApiProxy.proxyPasswordScope, derivedApiProxy.proxyPasswordKey
+        derivedApiProxy.proxyUserName, derivedApiProxy.proxyPasswordScope, derivedApiProxy.proxyPasswordKey ,
+        derivedApiEnvConfig.mountMappingPath
       ))
 
       this

diff --git a/src/main/scala/com/databricks/labs/overwatch/utils/Structures.scala b/src/main/scala/com/databricks/labs/overwatch/utils/Structures.scala
@@ -49,7 +49,8 @@ case class ApiEnv(
                    proxyPort: Option[Int] = None,
                    proxyUserName: Option[String] = None,
                    proxyPasswordScope: Option[String] = None,
-                   proxyPasswordKey: Option[String] = None
+                   proxyPasswordKey: Option[String] = None,
+                   mountMappingPath: Option[String] = None
                  )
 
 
@@ -59,7 +60,8 @@ case class ApiEnvConfig(
                          enableUnsafeSSL: Boolean = false,
                          threadPoolSize: Int = 4,
                          apiWaitingTime: Long = 300000,
-                         apiProxyConfig: Option[ApiProxyConfig] = None
+                         apiProxyConfig: Option[ApiProxyConfig] = None,
+                         mountMappingPath: Option[String] = None
                        )
 
 case class ApiProxyConfig(
@@ -101,6 +103,7 @@ case class MultiWorkspaceConfig(workspace_name: String,
                                 enable_unsafe_SSL: Option[Boolean]= None,
                                 thread_pool_size:  Option[Int] = None,
                                 api_waiting_time:  Option[Long] = None,
+                                mount_mapping_path: String,
                                 deployment_id: String,
                                 output_path: String
                                )