spark-instrumented-optimizer/sql/core/benchmarks/DatasetBenchmark-jdk11-results.txt

================================================================================================
Dataset Benchmark
================================================================================================

OpenJDK 64-Bit Server VM 11.0.4+11-LTS on Linux 3.10.0-862.3.2.el7.x86_64
Intel(R) Xeon(R) CPU E5-2670 v2 @ 2.50GHz
back-to-back map long:                    Best Time(ms)   Avg Time(ms)   Stdev(ms)    Rate(M/s)   Per Row(ns)   Relative
------------------------------------------------------------------------------------------------------------------------
RDD                                               14574          14759         261          6.9         145.7       1.0X
DataFrame                                          2468           2655         264         40.5          24.7       5.9X
Dataset                                            3498           3533          50         28.6          35.0       4.2X

OpenJDK 64-Bit Server VM 11.0.4+11-LTS on Linux 3.10.0-862.3.2.el7.x86_64
Intel(R) Xeon(R) CPU E5-2670 v2 @ 2.50GHz
back-to-back map:                         Best Time(ms)   Avg Time(ms)   Stdev(ms)    Rate(M/s)   Per Row(ns)   Relative
------------------------------------------------------------------------------------------------------------------------
RDD                                               17877          18133         361          5.6         178.8       1.0X
DataFrame                                          5968           5991          33         16.8          59.7       3.0X
Dataset                                           12638          12859         313          7.9         126.4       1.4X

OpenJDK 64-Bit Server VM 11.0.4+11-LTS on Linux 3.10.0-862.3.2.el7.x86_64
Intel(R) Xeon(R) CPU E5-2670 v2 @ 2.50GHz
back-to-back filter Long:                 Best Time(ms)   Avg Time(ms)   Stdev(ms)    Rate(M/s)   Per Row(ns)   Relative
------------------------------------------------------------------------------------------------------------------------
RDD                                                3399           3464          92         29.4          34.0       1.0X
DataFrame                                          1609           1628          28         62.2          16.1       2.1X
Dataset                                            3637           3648          16         27.5          36.4       0.9X

OpenJDK 64-Bit Server VM 11.0.4+11-LTS on Linux 3.10.0-862.3.2.el7.x86_64
Intel(R) Xeon(R) CPU E5-2670 v2 @ 2.50GHz
back-to-back filter:                      Best Time(ms)   Avg Time(ms)   Stdev(ms)    Rate(M/s)   Per Row(ns)   Relative
------------------------------------------------------------------------------------------------------------------------
RDD                                                4850           4859          13         20.6          48.5       1.0X
DataFrame                                           211            244          21        472.9           2.1      22.9X
Dataset                                            5864           6126         372         17.1          58.6       0.8X

OpenJDK 64-Bit Server VM 11.0.4+11-LTS on Linux 3.10.0-862.3.2.el7.x86_64
Intel(R) Xeon(R) CPU E5-2670 v2 @ 2.50GHz
aggregate:                                Best Time(ms)   Avg Time(ms)   Stdev(ms)    Rate(M/s)   Per Row(ns)   Relative
------------------------------------------------------------------------------------------------------------------------
RDD sum                                            4821           4914         131         20.7          48.2       1.0X
DataFrame sum                                        71             83           8       1412.4           0.7      68.1X
Dataset sum using Aggregator                       6001           6012          16         16.7          60.0       0.8X
Dataset complex Aggregator                        10247          10455         294          9.8         102.5       0.5X
[SPARK-29320][TESTS] Compare `sql/core` module in JDK8/11 (Part 1) ### What changes were proposed in this pull request? This PR regenerates the `sql/core` benchmarks in JDK8/11 to compare the result. In general, we compare the ratio instead of the time. However, in this PR, the average time is compared. This PR should be considered as a rough comparison. A. EXPECTED CASES(JDK11 is faster in general) - [x] BloomFilterBenchmark (JDK11 is faster except one case) - [x] BuiltInDataSourceWriteBenchmark (JDK11 is faster at CSV/ORC) - [x] CSVBenchmark (JDK11 is faster except five cases) - [x] ColumnarBatchBenchmark (JDK11 is faster at `boolean`/`string` and some cases in `int`/`array`) - [x] DatasetBenchmark (JDK11 is faster with `string`, but is slower for `long` type) - [x] ExternalAppendOnlyUnsafeRowArrayBenchmark (JDK11 is faster except two cases) - [x] ExtractBenchmark (JDK11 is faster except HOUR/MINUTE/SECOND/MILLISECONDS/MICROSECONDS) - [x] HashedRelationMetricsBenchmark (JDK11 is faster) - [x] JSONBenchmark (JDK11 is much faster except eight cases) - [x] JoinBenchmark (JDK11 is faster except five cases) - [x] OrcNestedSchemaPruningBenchmark (JDK11 is faster in nine cases) - [x] PrimitiveArrayBenchmark (JDK11 is faster) - [x] SortBenchmark (JDK11 is faster except `Arrays.sort` case) - [x] UDFBenchmark (N/A, values are too small) - [x] UnsafeArrayDataBenchmark (JDK11 is faster except one case) - [x] WideTableBenchmark (JDK11 is faster except two cases) B. CASES WE NEED TO INVESTIGATE MORE LATER - [x] AggregateBenchmark (JDK11 is slower in general) - [x] CompressionSchemeBenchmark (JDK11 is slower in general except `string`) - [x] DataSourceReadBenchmark (JDK11 is slower in general) - [x] DateTimeBenchmark (JDK11 is slightly slower in general except `parsing`) - [x] MakeDateTimeBenchmark (JDK11 is slower except two cases) - [x] MiscBenchmark (JDK11 is slower except ten cases) - [x] OrcV2NestedSchemaPruningBenchmark (JDK11 is slower) - [x] ParquetNestedSchemaPruningBenchmark (JDK11 is slower except six cases) - [x] RangeBenchmark (JDK11 is slower except one case) `FilterPushdownBenchmark/InExpressionBenchmark/WideSchemaBenchmark` will be compared later because it took long timer. ### Why are the changes needed? According to the result, there are some difference between JDK8/JDK11. This will be a baseline for the future improvement and comparison. Also, as a reproducible environment, the following environment is used. - Instance: `r3.xlarge` - OS: `CentOS Linux release 7.5.1804 (Core)` - JDK: - `OpenJDK Runtime Environment (build 1.8.0_222-b10)` - `OpenJDK Runtime Environment 18.9 (build 11.0.4+11-LTS)` ### Does this PR introduce any user-facing change? No. ### How was this patch tested? This is a test-only PR. We need to run benchmark. Closes #26003 from dongjoon-hyun/SPARK-29320. Authored-by: Dongjoon Hyun <dhyun@apple.com> Signed-off-by: Dongjoon Hyun <dhyun@apple.com> 2019-10-03 11:58:25 -04:00			`================================================================================================`
			`Dataset Benchmark`
			`================================================================================================`

			`OpenJDK 64-Bit Server VM 11.0.4+11-LTS on Linux 3.10.0-862.3.2.el7.x86_64`
			`Intel(R) Xeon(R) CPU E5-2670 v2 @ 2.50GHz`
			`back-to-back map long: Best Time(ms) Avg Time(ms) Stdev(ms) Rate(M/s) Per Row(ns) Relative`
			`------------------------------------------------------------------------------------------------------------------------`
			`RDD 14574 14759 261 6.9 145.7 1.0X`
			`DataFrame 2468 2655 264 40.5 24.7 5.9X`
			`Dataset 3498 3533 50 28.6 35.0 4.2X`

			`OpenJDK 64-Bit Server VM 11.0.4+11-LTS on Linux 3.10.0-862.3.2.el7.x86_64`
			`Intel(R) Xeon(R) CPU E5-2670 v2 @ 2.50GHz`
			`back-to-back map: Best Time(ms) Avg Time(ms) Stdev(ms) Rate(M/s) Per Row(ns) Relative`
			`------------------------------------------------------------------------------------------------------------------------`
			`RDD 17877 18133 361 5.6 178.8 1.0X`
			`DataFrame 5968 5991 33 16.8 59.7 3.0X`
			`Dataset 12638 12859 313 7.9 126.4 1.4X`

			`OpenJDK 64-Bit Server VM 11.0.4+11-LTS on Linux 3.10.0-862.3.2.el7.x86_64`
			`Intel(R) Xeon(R) CPU E5-2670 v2 @ 2.50GHz`
			`back-to-back filter Long: Best Time(ms) Avg Time(ms) Stdev(ms) Rate(M/s) Per Row(ns) Relative`
			`------------------------------------------------------------------------------------------------------------------------`
			`RDD 3399 3464 92 29.4 34.0 1.0X`
			`DataFrame 1609 1628 28 62.2 16.1 2.1X`
			`Dataset 3637 3648 16 27.5 36.4 0.9X`

			`OpenJDK 64-Bit Server VM 11.0.4+11-LTS on Linux 3.10.0-862.3.2.el7.x86_64`
			`Intel(R) Xeon(R) CPU E5-2670 v2 @ 2.50GHz`
			`back-to-back filter: Best Time(ms) Avg Time(ms) Stdev(ms) Rate(M/s) Per Row(ns) Relative`
			`------------------------------------------------------------------------------------------------------------------------`
			`RDD 4850 4859 13 20.6 48.5 1.0X`
			`DataFrame 211 244 21 472.9 2.1 22.9X`
			`Dataset 5864 6126 372 17.1 58.6 0.8X`

			`OpenJDK 64-Bit Server VM 11.0.4+11-LTS on Linux 3.10.0-862.3.2.el7.x86_64`
			`Intel(R) Xeon(R) CPU E5-2670 v2 @ 2.50GHz`
			`aggregate: Best Time(ms) Avg Time(ms) Stdev(ms) Rate(M/s) Per Row(ns) Relative`
			`------------------------------------------------------------------------------------------------------------------------`
			`RDD sum 4821 4914 131 20.7 48.2 1.0X`
			`DataFrame sum 71 83 8 1412.4 0.7 68.1X`
			`Dataset sum using Aggregator 6001 6012 16 16.7 60.0 0.8X`
			`Dataset complex Aggregator 10247 10455 294 9.8 102.5 0.5X`