缺失值处理

处理缺失值的方法有很多种。最简单的方法是删除包含缺失值的记录,但这种方法可能会导致数据的丢失。另一个常见的方法是使用数据集中其他值的统计信息(如平均值、中位数或众数)来填充缺失值。这种方法可以保留数据,但可能会引入一些偏差。在选择处理缺失值的方法时,需要考虑数据的特性和分析的目的

使用数据集中的平均值来填充缺失值:

import pandas as pd
import numpy as np

# 假设我们有一个包含缺失值(np.nan)的数据集
df = pd.DataFrame({
    'A': [1, 2, np.nan, 6],
    'B': [5, np.nan, np.nan, 8],
    'C': [9, 10, 11, 12]
    })

# 使用列的平均值来填充缺失值。fillna()为填充缺失值的函数。
df.fillna(value=df.mean(), inplace=True)