dvc.yaml

stages:
  prepare_fdp:
    cmd: python -m src.models_training.prepare data_dvc/salary/full_data_set.csv  data_dvc/salary/prepared
    deps:
    - data_dvc/salary/full_data_set.csv
    - src/models_training/prepare.py
    params:
    - prepare.seed
    - prepare.train_split
    - prepare.debug
    outs:
    - data_dvc/salary/prepared
  featurize_fdp:
    cmd: python -m src.models_training.featurization data_dvc/salary/prepared  data_dvc/salary/features featurize_fdp
    deps:
      - data_dvc/salary/prepared
      - src/augmentation
      - src/preprocessing
      - src/models_training/featurization.py
    params:
      - featurize_fdp.data_augmentation
    outs:
      - data_dvc/salary/features
  train_fdp:
    cmd: python -m src.models_training.train data_dvc/salary/features data_dvc/salary/scheme.json data_dvc/salary/model train_fdp
    deps:
      - data_dvc/salary/scheme.json
      - data_dvc/salary/features
      - src/models_training/utils.py
      - src/models_training/train.py
    params:
      - train_fdp.optimize
      - train_fdp.n_iter
      - train_fdp.n_estimators
      - train_fdp.learning_rate
      - train_fdp.max_depth
      - train_fdp.max_leaf_nodes
    outs:
      - data_dvc/salary/model
  eval_fdp:
    cmd: python -m src.models_training.eval data_dvc/salary/features data_dvc/salary/scheme.json data_dvc/salary/model data_dvc/salary/results
    deps:
      - data_dvc/salary/scheme.json
      - data_dvc/salary/model
      - data_dvc/salary/features
      - src/models_training/utils.py
      - src/models_training/eval.py
    metrics:
      - data_dvc/salary/results/results.json:
          cache: false
  prepare_cni:
    cmd: python -m src.models_training.prepare data_dvc/cni_recto/full_data_set.csv  data_dvc/cni_recto/prepared
    deps:
    - data_dvc/cni_recto/full_data_set.csv
    - src/models_training/prepare.py
    params:
    - prepare.seed
    - prepare.train_split
    - prepare.debug
    outs:
    - data_dvc/cni_recto/prepared
  featurize_cni:
    cmd: python -m src.models_training.featurization data_dvc/cni_recto/prepared  data_dvc/cni_recto/features featurize_cni
    deps:
      - data_dvc/cni_recto/prepared
      - src/augmentation
      - src/preprocessing
      - src/models_training/featurization.py
    params:
      - featurize_cni.data_augmentation
    outs:
      - data_dvc/cni_recto/features
  train_cni:
    cmd: python -m src.models_training.train data_dvc/cni_recto/features data_dvc/cni_recto/scheme.json data_dvc/cni_recto/model train_cni
    deps:
      - data_dvc/cni_recto/scheme.json
      - data_dvc/cni_recto/features
      - src/models_training/utils.py
      - src/models_training/train.py
    params:
      - train_cni.optimize
      - train_cni.n_iter
      - train_cni.n_estimators
      - train_cni.learning_rate
      - train_cni.max_depth
      - train_cni.max_leaf_nodes
    outs:
      - data_dvc/cni_recto/model
  eval_cni:
    cmd: python -m src.models_training.eval data_dvc/cni_recto/features data_dvc/cni_recto/scheme.json data_dvc/cni_recto/model data_dvc/cni_recto/results
    deps:
      - data_dvc/cni_recto/scheme.json
      - data_dvc/cni_recto/model
      - data_dvc/cni_recto/features
      - src/models_training/utils.py
      - src/models_training/eval.py
    metrics:
      - data_dvc/cni_recto/results/results.json:
          cache: false
  prepare_quittances:
    cmd: python -m src.models_training.prepare data_dvc/rent_receipts/full_data_set.csv  data_dvc/rent_receipts/prepared
    deps:
    - data_dvc/rent_receipts/full_data_set.csv
    - src/models_training/prepare.py
    params:
    - prepare.seed
    - prepare.train_split
    - prepare.debug
    outs:
    - data_dvc/rent_receipts/prepared
  featurize_quittances:
    cmd: python -m src.models_training.featurization data_dvc/rent_receipts/prepared  data_dvc/rent_receipts/features featurize_quittances
    deps:
      - data_dvc/rent_receipts/prepared
      - src/augmentation
      - src/preprocessing
      - src/models_training/featurization.py
    params:
      - featurize_quittances.data_augmentation
    outs:
      - data_dvc/rent_receipts/features
  train_quittances:
    cmd: python -m src.models_training.train data_dvc/rent_receipts/features data_dvc/rent_receipts/scheme.json data_dvc/rent_receipts/model train_quittances
    deps:
      - data_dvc/rent_receipts/scheme.json
      - data_dvc/rent_receipts/features
      - src/models_training/utils.py
      - src/models_training/train.py
    params:
      - train_quittances.optimize
      - train_quittances.n_iter
      - train_quittances.n_estimators
      - train_quittances.learning_rate
      - train_quittances.max_depth
      - train_quittances.max_leaf_nodes
    outs:
      - data_dvc/rent_receipts/model
  eval_quittances:
    cmd: python -m src.models_training.eval data_dvc/rent_receipts/features data_dvc/rent_receipts/scheme.json data_dvc/rent_receipts/model data_dvc/rent_receipts/results
    deps:
      - data_dvc/rent_receipts/scheme.json
      - data_dvc/rent_receipts/model
      - data_dvc/rent_receipts/features
      - src/models_training/utils.py
      - src/models_training/eval.py
    metrics:
      - data_dvc/rent_receipts/results/results.json:
          cache: false