Distributed hive-style join testing with superset satisfaction (#256)

JSOD11 · web-flow · commit deb53e95379d · 2026-01-21T21:04:37.000-05:00
* Added join testdata and method to generate parquet from csv.

* Added basic single node join test for comparison.

* Use hive partitioning.

* Results are the same with hive partitioning and Gene's PR.

* Fixed configs and achieved optimal distributed plan.

* Refactoring, adding comments.

* Added check to ensure optimal plan is achieved.

* Update based on Nga's comments.

* Added second test.

* Added third test.

* Refactor.

* Add ORDER BY to queries and switch to snapshot testing.

* Nulls last instead of nulls first.

* Fix tests.
diff --git a/Cargo.lock b/Cargo.lock
diff --git a/testdata/join/csv/dim/d_dkey=A/data0.csv b/testdata/join/csv/dim/d_dkey=A/data0.csv
@@ -0,0 +1,3 @@
+env,service,host
+dev,log,host-y
+
diff --git a/testdata/join/csv/dim/d_dkey=B/data0.csv b/testdata/join/csv/dim/d_dkey=B/data0.csv
@@ -0,0 +1,3 @@
+env,service,host
+prod,log,host-x
+
diff --git a/testdata/join/csv/dim/d_dkey=C/data0.csv b/testdata/join/csv/dim/d_dkey=C/data0.csv
@@ -0,0 +1,3 @@
+env,service,host
+dev,trace,host-z
+
diff --git a/testdata/join/csv/dim/d_dkey=D/data0.csv b/testdata/join/csv/dim/d_dkey=D/data0.csv
@@ -0,0 +1,3 @@
+env,service,host
+prod,trace,host-x
+
diff --git a/testdata/join/csv/fact/f_dkey=A/data0.csv b/testdata/join/csv/fact/f_dkey=A/data0.csv
@@ -0,0 +1,9 @@
+timestamp,value
+2023-01-01T09:00:00,95.5
+2023-01-01T09:00:10,102.3
+2023-01-01T09:00:20,98.7
+2023-01-01T09:12:20,105.1
+2023-01-01T09:12:30,100.0
+2023-01-01T09:12:40,150.0
+2023-01-01T09:12:50,120.8
+
diff --git a/testdata/join/csv/fact/f_dkey=B/data0.csv b/testdata/join/csv/fact/f_dkey=B/data0.csv
@@ -0,0 +1,9 @@
+timestamp,value
+2023-01-01T09:00:00,75.2
+2023-01-01T09:00:10,82.4
+2023-01-01T09:00:20,78.9
+2023-01-01T09:00:30,85.6
+2023-01-01T09:12:30,80.0
+2023-01-01T09:12:40,120.0
+2023-01-01T09:12:50,92.3
+
diff --git a/testdata/join/csv/fact/f_dkey=C/data0.csv b/testdata/join/csv/fact/f_dkey=C/data0.csv
@@ -0,0 +1,9 @@
+timestamp,value
+2023-01-01T10:00:00,310.5
+2023-01-01T10:00:10,225.7
+2023-01-01T10:00:20,380.2
+2023-01-01T10:00:30,205.8
+2023-01-01T10:00:40,350.0
+2023-01-01T10:12:40,200.0
+2023-01-01T10:12:50,205.4
+
diff --git a/testdata/join/csv/fact/f_dkey=D/data0.csv b/testdata/join/csv/fact/f_dkey=D/data0.csv
@@ -0,0 +1,5 @@
+timestamp,value
+2023-01-01T10:00:00,24.8
+2023-01-01T10:00:10,72.1
+2023-01-01T10:00:20,42.5
+
diff --git a/testdata/join/generate_parquet_from_csv.sql b/testdata/join/generate_parquet_from_csv.sql
@@ -0,0 +1,36 @@
+-- datafusion-cli -f testdata/join/generate_parquet_from_csv.sql
+
+-- Generate parquet dim files from csv files.
+COPY (SELECT * FROM "testdata/join/csv/dim/d_dkey=A/data0.csv")
+TO "testdata/join/parquet/dim/d_dkey=A/data0.parquet"
+STORED AS PARQUET;
+
+COPY (SELECT * FROM "testdata/join/csv/dim/d_dkey=B/data0.csv")
+TO "testdata/join/parquet/dim/d_dkey=B/data0.parquet"
+STORED AS PARQUET;
+
+COPY (SELECT * FROM "testdata/join/csv/dim/d_dkey=C/data0.csv")
+TO "testdata/join/parquet/dim/d_dkey=C/data0.parquet"
+STORED AS PARQUET;
+
+COPY (SELECT * FROM "testdata/join/csv/dim/d_dkey=D/data0.csv")
+TO "testdata/join/parquet/dim/d_dkey=D/data0.parquet"
+STORED AS PARQUET;
+
+-- Generate parquet fact files from csv files.
+COPY (SELECT * FROM "testdata/join/csv/fact/f_dkey=A/data0.csv")
+TO "testdata/join/parquet/fact/f_dkey=A/data0.parquet"
+STORED AS PARQUET;
+
+COPY (SELECT * FROM "testdata/join/csv/fact/f_dkey=B/data0.csv")
+TO "testdata/join/parquet/fact/f_dkey=B/data0.parquet"
+STORED AS PARQUET;
+
+COPY (SELECT * FROM "testdata/join/csv/fact/f_dkey=C/data0.csv")
+TO "testdata/join/parquet/fact/f_dkey=C/data0.parquet"
+STORED AS PARQUET;
+
+COPY (SELECT * FROM "testdata/join/csv/fact/f_dkey=D/data0.csv")
+TO "testdata/join/parquet/fact/f_dkey=D/data0.parquet"
+STORED AS PARQUET;
+
diff --git a/testdata/join/parquet/dim/d_dkey=A/data0.parquet b/testdata/join/parquet/dim/d_dkey=A/data0.parquet
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a8752b1efcfb3f541d0481e397fb0920060d1b324972228bf38f2c6547838374
+size 1011
diff --git a/testdata/join/parquet/dim/d_dkey=B/data0.parquet b/testdata/join/parquet/dim/d_dkey=B/data0.parquet
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0788861c3959ba7ac5f14d3cfbb9ecfa64fd2e823ea08d23a9b7da65255794d3
+size 1016
diff --git a/testdata/join/parquet/dim/d_dkey=C/data0.parquet b/testdata/join/parquet/dim/d_dkey=C/data0.parquet
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0cf9e37dc5368a9de0badc5a6392e949e942d96d9e25ddd98217544e2629995c
+size 1021
diff --git a/testdata/join/parquet/dim/d_dkey=D/data0.parquet b/testdata/join/parquet/dim/d_dkey=D/data0.parquet
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b4531e8da8141539997e09816af7e1c6090c90a9bcf36ad308973b6029608703
+size 1026
diff --git a/testdata/join/parquet/fact/f_dkey=A/data0.parquet b/testdata/join/parquet/fact/f_dkey=A/data0.parquet
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0afda79871479819092957dbb75d6ed17d6953c059d1fea4cfb9df2aa74a5b3e
+size 929
diff --git a/testdata/join/parquet/fact/f_dkey=B/data0.parquet b/testdata/join/parquet/fact/f_dkey=B/data0.parquet
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5c1df83afcb61abd11ec6f3e3a75947b7d79cdee64104474234aea1c26c2e553
+size 925
diff --git a/testdata/join/parquet/fact/f_dkey=C/data0.parquet b/testdata/join/parquet/fact/f_dkey=C/data0.parquet
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:58669c93aba8f140ff95039a53d4bdb58f87f8cf7d2a0f95a3454ae017ccb1a7
+size 934
diff --git a/testdata/join/parquet/fact/f_dkey=D/data0.parquet b/testdata/join/parquet/fact/f_dkey=D/data0.parquet
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:264bf30baa3997fa9cd104e58f42929110d78cc6f8cd7f4b4e9328406c43e429
+size 895
diff --git a/tests/join.rs b/tests/join.rs

Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,3 @@`
	`1`	`+env,service,host`
	`2`	`+dev,log,host-y`
	`3`	`+`
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,3 @@`
	`1`	`+env,service,host`
	`2`	`+prod,log,host-x`
	`3`	`+`
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,3 @@`
	`1`	`+env,service,host`
	`2`	`+dev,trace,host-z`
	`3`	`+`
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,3 @@`
	`1`	`+env,service,host`
	`2`	`+prod,trace,host-x`
	`3`	`+`