看了下https://www.kaggle.com/juliencs/house-prices-advanced-regression-techniques/a-study-on-regression-applied-to-the-ames-dataset 里面说了下如对数据集进行预处理、特征工程、线性回归、ridge、lasso和elastic net。线性回归、ridge、lasso和elastic net的一些数学内容可以参考http://scikit-learn.org/stable/modules/linear_model.html#ridge-regression。 巧合的是,第一个链接里面也说到了如何区分continuous和categorical variables的。
categorical_features = train
.select_dtypes(include = [
"object"])
.columns
numerical_features = train
.select_dtypes(exclude = [
"object"])
.columns
也非常巧妙。 在用回归预测房价之前,所有的categorical variables被转化成了数字,并对类型进行了简化——例如原来有9级的被化简为三级:1、2、3。 如果对α值进行选择也值得参考。
转载请注明原文地址: https://ju.6miu.com/read-13535.html