spark-instrumented-optimizer

History

hyukjinkwon aa4cf2b19e [SPARK-22651][PYTHON][ML] Prevent initiating multiple Hive clients for ImageSchema.readImages ## What changes were proposed in this pull request? Calling `ImageSchema.readImages` multiple times as below in PySpark shell: ```python from pyspark.ml.image import ImageSchema data_path = 'data/mllib/images/kittens' _ = ImageSchema.readImages(data_path, recursive=True, dropImageFailures=True).collect() _ = ImageSchema.readImages(data_path, recursive=True, dropImageFailures=True).collect() ``` throws an error as below: ``` ... org.datanucleus.exceptions.NucleusDataStoreException: Unable to open a test connection to the given database. JDBC url = jdbc:derby:;databaseName=metastore_db;create=true, username = APP. Terminating connection pool (set lazyInit to true if you expect to start your database after your app). Original Exception: ------ java.sql.SQLException: Failed to start database 'metastore_db' with class loader org.apache.spark.sql.hive.client.IsolatedClientLoader$$anon$1742f639f, see the next exception for details. ... at org.apache.derby.jdbc.AutoloadedDriver.connect(Unknown Source) ... at org.apache.hadoop.hive.metastore.HiveMetaStore.newRetryingHMSHandler(HiveMetaStore.java:5762) ... at org.apache.spark.sql.hive.client.HiveClientImpl.newState(HiveClientImpl.scala:180) ... at org.apache.spark.sql.hive.HiveExternalCatalog$$anonfun$databaseExists$1.apply$mcZ$sp(HiveExternalCatalog.scala:195) at org.apache.spark.sql.hive.HiveExternalCatalog$$anonfun$databaseExists$1.apply(HiveExternalCatalog.scala:195) at org.apache.spark.sql.hive.HiveExternalCatalog$$anonfun$databaseExists$1.apply(HiveExternalCatalog.scala:195) at org.apache.spark.sql.hive.HiveExternalCatalog.withClient(HiveExternalCatalog.scala:97) at org.apache.spark.sql.hive.HiveExternalCatalog.databaseExists(HiveExternalCatalog.scala:194) at org.apache.spark.sql.internal.SharedState.externalCatalog$lzycompute(SharedState.scala:100) at org.apache.spark.sql.internal.SharedState.externalCatalog(SharedState.scala:88) at org.apache.spark.sql.hive.HiveSessionStateBuilder.externalCatalog(HiveSessionStateBuilder.scala:39) at org.apache.spark.sql.hive.HiveSessionStateBuilder.catalog$lzycompute(HiveSessionStateBuilder.scala:54) at org.apache.spark.sql.hive.HiveSessionStateBuilder.catalog(HiveSessionStateBuilder.scala:52) at org.apache.spark.sql.hive.HiveSessionStateBuilder$$anon$1.<init>(HiveSessionStateBuilder.scala:69) at org.apache.spark.sql.hive.HiveSessionStateBuilder.analyzer(HiveSessionStateBuilder.scala:69) at org.apache.spark.sql.internal.BaseSessionStateBuilder$$anonfun$build$2.apply(BaseSessionStateBuilder.scala:293) at org.apache.spark.sql.internal.BaseSessionStateBuilder$$anonfun$build$2.apply(BaseSessionStateBuilder.scala:293) at org.apache.spark.sql.internal.SessionState.analyzer$lzycompute(SessionState.scala:79) at org.apache.spark.sql.internal.SessionState.analyzer(SessionState.scala:79) at org.apache.spark.sql.execution.QueryExecution.analyzed$lzycompute(QueryExecution.scala:70) at org.apache.spark.sql.execution.QueryExecution.analyzed(QueryExecution.scala:68) at org.apache.spark.sql.execution.QueryExecution.assertAnalyzed(QueryExecution.scala:51) at org.apache.spark.sql.Dataset$.ofRows(Dataset.scala:70) at org.apache.spark.sql.SparkSession.internalCreateDataFrame(SparkSession.scala:574) at org.apache.spark.sql.SparkSession.createDataFrame(SparkSession.scala:593) at org.apache.spark.sql.SparkSession.createDataFrame(SparkSession.scala:348) at org.apache.spark.sql.SparkSession.createDataFrame(SparkSession.scala:348) at org.apache.spark.ml.image.ImageSchema$$anonfun$readImages$2$$anonfun$apply$1.apply(ImageSchema.scala:253) ... Caused by: ERROR XJ040: Failed to start database 'metastore_db' with class loader org.apache.spark.sql.hive.client.IsolatedClientLoader$$anon$1742f639f, see the next exception for details. at org.apache.derby.iapi.error.StandardException.newException(Unknown Source) at org.apache.derby.impl.jdbc.SQLExceptionFactory.wrapArgsForTransportAcrossDRDA(Unknown Source) ... 121 more Caused by: ERROR XSDB6: Another instance of Derby may have already booted the database /.../spark/metastore_db. ... Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/.../spark/python/pyspark/ml/image.py", line 190, in readImages dropImageFailures, float(sampleRatio), seed) File "/.../spark/python/lib/py4j-0.10.6-src.zip/py4j/java_gateway.py", line 1160, in __call__ File "/.../spark/python/pyspark/sql/utils.py", line 69, in deco raise AnalysisException(s.split(': ', 1)[1], stackTrace) pyspark.sql.utils.AnalysisException: u'java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient;' ``` Seems we better stick to `SparkSession.builder.getOrCreate()` like: `51620e288b/python/pyspark/sql/streaming.py (L329)` `dc5d34d8dc/python/pyspark/sql/column.py (L541)` `33d43bf1b6/python/pyspark/sql/readwriter.py (L105)` ## How was this patch tested? This was tested as below in PySpark shell: ```python from pyspark.ml.image import ImageSchema data_path = 'data/mllib/images/kittens' _ = ImageSchema.readImages(data_path, recursive=True, dropImageFailures=True).collect() _ = ImageSchema.readImages(data_path, recursive=True, dropImageFailures=True).collect() ``` Author: hyukjinkwon <gurwls223@gmail.com> Closes #19845 from HyukjinKwon/SPARK-22651.		2017-12-02 11:55:43 +09:00
..
linalg	[SPARK-20214][ML] Make sure converted csc matrix has sorted indices	2017-04-05 17:46:44 -07:00
param	[SPARK-21027][ML][PYTHON] Added tunable parallelism to one vs. rest in both Scala mllib and Pyspark	2017-09-12 10:02:27 -07:00
__init__.py	[SPARK-21633][ML][PYTHON] UnaryTransformer in Python	2017-08-04 01:01:32 -07:00
base.py	[SPARK-21633][ML][PYTHON] UnaryTransformer in Python	2017-08-04 01:01:32 -07:00
classification.py	[SPARK-18608][ML][FOLLOWUP] Fix double caching for PySpark OneVsRest.	2017-09-14 14:09:44 +08:00
clustering.py	[SPARK-10931][ML][PYSPARK] PySpark Models Copy Param Values from Estimator	2017-08-22 17:40:50 -07:00
common.py	[SPARK-17679] [PYSPARK] remove unnecessary Py4J ListConverter patch	2016-10-03 14:12:03 -07:00
evaluation.py	[SPARK-21981][PYTHON][ML] Added Python interface for ClusteringEvaluator	2017-09-22 13:12:33 +08:00
feature.py	[SPARK-22521][ML] VectorIndexerModel support handle unseen categories via handleInvalid: Python API	2017-11-21 10:53:53 -08:00
fpm.py	[SPARK-20768][PYSPARK][ML] Expose numPartitions (expert) param of PySpark FPGrowth.	2017-05-25 21:40:39 +08:00
image.py	[SPARK-22651][PYTHON][ML] Prevent initiating multiple Hive clients for ImageSchema.readImages	2017-12-02 11:55:43 +09:00
pipeline.py	[SPARK-17025][ML][PYTHON] Persistence for Pipelines with Python-only Stages	2017-08-11 23:57:08 -07:00
recommendation.py	[SPARK-20679][ML] Support recommending for a subset of users/items in ALSModel	2017-10-09 10:42:33 +02:00
regression.py	[SPARK-21523][ML] update breeze to 0.13.2 for an emergency bugfix in strong wolfe line search	2017-08-09 14:44:10 +08:00
stat.py	[SPARK-20076][ML][PYSPARK] Add Python interface for ml.stats.Correlation	2017-04-07 11:00:10 +02:00
tests.py	[SPARK-22651][PYTHON][ML] Prevent initiating multiple Hive clients for ImageSchema.readImages	2017-12-02 11:55:43 +09:00
tuning.py	[SPARK-21911][ML][PYSPARK] Parallel Model Evaluation for ML Tuning in PySpark	2017-10-27 15:19:27 -07:00
util.py	[SPARK-22313][PYTHON] Mark/print deprecation warnings as DeprecationWarning for deprecated APIs	2017-10-24 12:44:47 +09:00
wrapper.py	[SPARK-10931][ML][PYSPARK] PySpark Models Copy Param Values from Estimator	2017-08-22 17:40:50 -07:00