Python数据分析系列教程

2024-11-03 23:32:57

1、导入数据集本文用到的数据集是一个csv文件,用read_scv方法导入数据文件创建一个DataFrame对象titanic_data,该对象的形状是891行12列,每行对应一名乘客,每列对应乘客的各类信息。12个列包括PassengerId(乘客ID)、Survived(是否幸存)、Pclass(舱位等级)、Name(姓名)、Sex(性别)、Age(年龄)、SibSp(兄弟姐妹数量)、Parch(父母子女数量)、Ticket(船票编号)、Fare(费用)、Cabin(船舱编号)、Embarked(登船地点)。

2、数据筛选经过对titanic_data中的12个列进行分析我们发现,Survived是我们研究的重点,Pclass、Sex、Age、SibSp、Parch、Fare、Embarked等列可能影响到乘客是否幸存,予以保留;而PassengerId、Name、Ticket等列与是否幸存关系不大,可以舍弃;Cabin虽然会对是否幸存造成影响,但绝大部分数据缺失,导致该列意义不大,因此舍弃。我们用drop方法完成对指定列的删除,axis=1表示删除列,inplace=True表示直接在对象上对数据进行修改。

3、数倌栗受绽据清理数据清理包括缺失值的填充、异常数据的处理、重复数据的清除等等。在对数据的检查中我们发现在Age列中就有相当一部分是Na绿覆冗猩N值,我们可以使用isnull函数对Age列进行检查,返回一个布尔型的Series对象。在上图的代码中,我们首先将Age列创建为一个Series对象age,然后用isnull函数对age进行判断,将判断结果的布尔值作为索引取得Age列中所有的NaN值,并创建为一个Series对象age_nan。注意:age的长度为891,而age_nan的长度为177,因为第3行代码起到了过滤器的作用,仅保留了NaN值和对应的索引。处理缺失数据的方法很多,这里选择填入平均年龄,首先我们用mean函数计算平均年龄,它会自动将NaN值的年龄进行过滤;然后将列Age中所有的NaN值修改为平均年龄。

猜你喜欢