透過時間運算來處理頻率問題
透過數學運算來修正特徵(EX: 兩點間的距離考慮地球的經緯度導致的距離差)
使用 pandas 的GroupBy( )來做特徵處理
藉由sklearn的GradientBoostingClassifier的feature_importances_來分配特徵重要性
找一篇有興趣的paper/ article
學習切割分佈不平均的資料
評估Regression與Classification的準確度
Linear Regression加上L1/ L2 Regression後
假設總共有 N 筆資料,每棵樹用取後放回的方式抽了總共 N 筆資料生成,請問這棵樹大約使用了多少 % 不重複的原資料生成?
-
Bagging: 減少overfitting的機會
-
Boosting: 處理underfitting,增加performance
透過sklearn實作
sklearn gridSearch學找最佳參數組合
sklearn kmeans & plot clusters
sklearn silhouette評估分群績效 & silhouette作圖
使用sklearn的hierarchical clustering演算法
- 研究sklearn PCA & pipeline
- 研究 多個axis跨cell不能作圖
用手寫數字跑t-SNE
了解keras的backend functions