Add life_cycle & architecture refactored

2024-01-08 10:21:29 +01:00 · 2024-01-08 10:21:29 +01:00 · 87f4dfdb0b
commit 87f4dfdb0b
parent b22ebc40fe
6 changed files with 87 additions and 1 deletions
--- a/src/pyspark_training/output_dataset_1/clean_output_dataset_1.py
+++ b/src/pyspark_training/output_dataset_1/clean_output_dataset_1.py
@ -1,4 +1,16 @@
 import pyspark.sql.functions as F
+from pyspark.sql import DataFrame
+
+
+def clean_output_dataset_1(df: DataFrame) -> DataFrame:
+    """
+
+    :param df:
+    :return:
+    """
+    df = remove_extra_spaces(df, 'name')
+
+    return df


 def remove_extra_spaces(df, column_name):
--- a/src/pyspark_training/output_dataset_1/compute_output_dataset_1.py
+++ b/src/pyspark_training/output_dataset_1/compute_output_dataset_1.py
@ -0,0 +1,31 @@
+import pyspark.sql.functions as F
+from pyspark.sql import DataFrame
+from src.pyspark_training.output_dataset_1.clean_output_dataset_1 import clean_output_dataset_1
+
+
+def compute_output_dataset_1(df: DataFrame) -> DataFrame:
+
+    df = clean_output_dataset_1(df)
+
+    df = add_life_stage(df)
+
+    return df
+
+
+def add_life_stage(df: DataFrame) -> DataFrame:
+    """
+    Add life stage
+        child if age < 13
+        teenager if age >= 13 and <= 19
+        adult for age>20
+    :param df:
+    :return:
+    """
+    df = df.withColumn(
+        'life_stage',
+        F.when(F.col('age') < 13, F.lit('child'))
+        .when(F.col('age').between(13, 19), F.lit('teenager'))
+        .otherwise(F.lit('adult'))
+    )
+
+    return df
--- a/src/test_pyspark_training/test_output_dataset_1/test_clean_output_dataset_1/init.py
+++ b/src/test_pyspark_training/test_output_dataset_1/test_clean_output_dataset_1/init.py
--- a/src/test_pyspark_training/test_output_dataset_1/test_clean_output_dataset_1/test_remove_extra_spaces.py
+++ b/src/test_pyspark_training/test_output_dataset_1/test_clean_output_dataset_1/test_remove_extra_spaces.py
@ -1,6 +1,6 @@
 from pyspark.sql import types as T
 from src.test_pyspark_training.lib_test_utils import assert_df_equal
-from src.pyspark_training.output_dataset_1.remove_extra_spaces import remove_extra_spaces
+from src.pyspark_training.output_dataset_1.clean_output_dataset_1 import remove_extra_spaces


 def test_remove_extra_spaces(spark_session):
--- a/src/test_pyspark_training/test_output_dataset_1/test_compute_output_dataset_1/init.py
+++ b/src/test_pyspark_training/test_output_dataset_1/test_compute_output_dataset_1/init.py
--- a/src/test_pyspark_training/test_output_dataset_1/test_compute_output_dataset_1/test_add_life_stage.py
+++ b/src/test_pyspark_training/test_output_dataset_1/test_compute_output_dataset_1/test_add_life_stage.py
@ -0,0 +1,43 @@
+from pyspark.sql import types as T
+from src.test_pyspark_training.lib_test_utils import assert_df_equal
+from src.pyspark_training.output_dataset_1.compute_output_dataset_1 import add_life_stage
+
+
+def test_add_life_stage(spark_session):
+
+    input_schema = T.StructType(
+        [
+            T.StructField('name', T.StringType(), False),
+            T.StructField('age', T.IntegerType(), False),
+        ]
+    )
+    input_data = [
+        ('Alice G.', 13),
+        ('John B.', 20),
+        ('Jack W.', 19),
+        ('Bob T.', 35),
+        ('John D.', 9),
+        ('Eve A.', 12),
+    ]
+    input_df = spark_session.createDataFrame(input_data, input_schema)
+
+    expected_schema = T.StructType(
+        [
+            T.StructField('name', T.StringType(), False),
+            T.StructField('age', T.IntegerType(), False),
+            T.StructField('life_stage', T.StringType(), False),
+        ]
+    )
+    expected_data = [
+        ('Alice G.', 13, 'teenager'),
+        ('John B.', 20, 'adult'),
+        ('Jack W.', 19, 'teenager'),
+        ('Bob T.', 35, 'adult'),
+        ('John D.', 9, 'child'),
+        ('Eve A.', 12, 'child'),
+    ]
+    expected_df = spark_session.createDataFrame(expected_data, expected_schema)
+
+    df = add_life_stage(input_df)
+
+    assert_df_equal(df, expected_df)