spark-instrumented-optimizer

History

Liang-Chi Hsieh e6a0385289 [SPARK-28422][SQL][PYTHON] GROUPED_AGG pandas_udf should work without group by clause ## What changes were proposed in this pull request? A GROUPED_AGG pandas python udf can't work, if without group by clause, like `select udf(id) from table`. This doesn't match with aggregate function like sum, count..., and also dataset API like `df.agg(udf(df['id']))`. When we parse a udf (or an aggregate function) like that from SQL syntax, it is known as a function in a project. `GlobalAggregates` rule in analysis makes such project as aggregate, by looking for aggregate expressions. At the moment, we should also look for GROUPED_AGG pandas python udf. ## How was this patch tested? Added tests. Closes #25352 from viirya/SPARK-28422. Authored-by: Liang-Chi Hsieh <viirya@gmail.com> Signed-off-by: HyukjinKwon <gurwls223@apache.org>		2019-08-14 00:32:33 +09:00
..
benchmarks	[SPARK-27707][SQL] Prune unnecessary nested fields from Generate	2019-07-18 23:32:07 -07:00
src	[SPARK-28422][SQL][PYTHON] GROUPED_AGG pandas_udf should work without group by clause	2019-08-14 00:32:33 +09:00
v1.2.1/src	[SPARK-28108][SQL][test-hadoop3.2] Simplify OrcFilters	2019-06-24 12:23:52 +08:00
v2.3.5/src	[SPARK-28108][SQL][test-hadoop3.2] Simplify OrcFilters	2019-06-24 12:23:52 +08:00
pom.xml	[SPARK-27521][SQL] Move data source v2 to catalyst module	2019-06-05 09:55:55 -07:00