Python数据分析系列教程

2026-04-01 14:30:53

1、导入数据集

本文用到的数据集是一个csv文件，用read_scv方法导入数据文件创建一个DataFrame对象titanic_data，该对象的形状是891行12列，每行对应一名乘客，每列对应乘客的各类信息。12个列包括PassengerId（乘客ID）、Survived（是否幸存）、Pclass（舱位等级）、Name（姓名）、Sex（性别）、Age（年龄）、SibSp（兄弟姐妹数量）、Parch（父母子女数量）、Ticket（船票编号）、Fare（费用）、Cabin（船舱编号）、Embarked（登船地点）。

2、数据筛选

经过对titanic_data中的12个列进行分析我们发现，Survived是我们研究的重点，Pclass、Sex、Age、SibSp、Parch、Fare、Embarked等列可能影响到乘客是否幸存，予以保留；而PassengerId、Name、Ticket等列与是否幸存关系不大，可以舍弃；Cabin虽然会对是否幸存造成影响，但绝大部分数据缺失，导致该列意义不大，因此舍弃。我们用drop方法完成对指定列的删除，axis=1表示删除列，inplace=True表示直接在对象上对数据进行修改。

3、数据清理

数据清理包括缺失值的填充、异常数据的处理、重复数据的清除等等。在对数据的检查中我们发现在Age列中就有相当一部分是NaN值，我们可以使用isnull函数对Age列进行检查，返回一个布尔型的Series对象。

在上图的代码中，我们首先将Age列创建为一个Series对象age，然后用isnull函数对age进行判断，将判断结果的布尔值作为索引取得Age列中所有的NaN值，并创建为一个Series对象age_nan。注意：age的长度为891，而age_nan的长度为177，因为第3行代码起到了过滤器的作用，仅保留了NaN值和对应的索引。

处理缺失数据的方法很多，这里选择填入平均年龄，首先我们用mean函数计算平均年龄，它会自动将NaN值的年龄进行过滤；然后将列Age中所有的NaN值修改为平均年龄。