Init

2024-01-05 13:05:39 +01:00 · 2024-01-05 13:05:39 +01:00 · c4fdb2860c
commit c4fdb2860c
14 changed files with 62 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@ -0,0 +1 @@
+/.idea
--- a/init.py
+++ b/init.py
@ -0,0 +1,39 @@
+import os
+import findspark
+from pyspark.sql import SparkSession
+import pyspark.sql.functions as F
+
+spark = SparkSession.builder.master("local[*]").getOrCreate()
+
+
+sample_data = [
+    {"name": "John    D.", "age": 30},
+    {"name": "Alice   G.", "age": 25},
+    {"name": "Bob  T.", "age": 35},
+    {"name": "Eve   A.", "age": 28}
+]
+df = spark.createDataFrame(sample_data)
+
+
+
+
+
+transformed_df = remove_extra_spaces(df, "name")
+transformed_df.show()
+
+
+def main():
+    init_env()
+    print("hey there")
+
+
+if __name__ == "__main__":
+    main()
+
+
+def init_env():
+    os.environ["JAVA_HOME"] = "C:\\Program Files\\Java\\jdk-11"
+    os.environ["SPARK_HOME"] = "C:\\SPARK\\spark-3.1.1-bin-hadoop3.2"
+    os.environ["HADOOP_HOME"] = "C:\\SPARK\\hadoop"
+
+    findspark.init()
--- a/src/init.py
+++ b/src/init.py
--- a/src/pyspark_training/init.py
+++ b/src/pyspark_training/init.py
--- a/src/pyspark_training/output_dataset_1/init.py
+++ b/src/pyspark_training/output_dataset_1/init.py
--- a/src/pyspark_training/output_dataset_1/remove_extra_space.py
+++ b/src/pyspark_training/output_dataset_1/remove_extra_space.py
@ -0,0 +1,3 @@
+def remove_extra_spaces(df, column_name):
+    df_transformed = df.withColumn(column_name, F.regexp_replace(F.col(column_name), "\\s+", " "))
+    return df_transformed
--- a/src/pyspark_training/utils.py
+++ b/src/pyspark_training/utils.py
--- a/src/test_pyspark_training/init.py
+++ b/src/test_pyspark_training/init.py
--- a/src/test_pyspark_training/example_test.py
+++ b/src/test_pyspark_training/example_test.py
@ -0,0 +1,3 @@
+
+
+def test_example_test():
--- a/src/test_pyspark_training/lib_test_utils.py
+++ b/src/test_pyspark_training/lib_test_utils.py
@ -0,0 +1,16 @@
+
+def assert_df_equal(df1, df2):
+
+    try:
+        assert df1.schema() == df2.schema()
+    except AssertionError:
+        print('Error Schema')
+        print(df1.schema())
+        print(df1.schema())
+
+    try:
+        assert df1.equals(df2)
+    except AssertionError:
+        print('Error Schema')
+        df1.show()
+        df2.show()
--- a/src/test_pyspark_training/test_output_dataset_1/init.py
+++ b/src/test_pyspark_training/test_output_dataset_1/init.py
--- a/src/test_pyspark_training/test_output_dataset_1/test_remove_extra_space/init.py
+++ b/src/test_pyspark_training/test_output_dataset_1/test_remove_extra_space/init.py
--- a/src/test_pyspark_training/test_output_dataset_1/test_remove_extra_space/test_remove_extra_space.py
+++ b/src/test_pyspark_training/test_output_dataset_1/test_remove_extra_space/test_remove_extra_space.py
--- a/src/test_pyspark_training/utils/init.py
+++ b/src/test_pyspark_training/utils/init.py