1.pandas.get_dummies
是利用pandas实现one hot编码,如果想对全部列都进行one hot,则为data=pd.get_dummies(original_data),如果是指定列,则data=pd.get_dummies(列名)
2.sklearn的LabelEncoder()
以泰坦尼克号数据集举例,里面的性别原本为male,femal离散数值,要把它变为0,1不需要手动遍历进行转换,直接调用sklearn的函数即可,非常方便。
1 | from sklearn import preprocessing |
3.想要统计数据集某一列的属性值各有多少个,调用.value_counts(),比如想查看性别为male和female的各有多少个人:
1 | titanic_data['Sex'].value_counts() |
4.统计每个属性里面的NaN值的个数,用.isna().sum()
5.填充属性里面的NaN值,可以用属性的平均值填充,计算出平均值后,用fillna。
1 | data['Age'].fillna(填充的值,inplace=True) |