数据分析必学技能：Python 数据清洗技巧全面解析

天天向上

发布： 2025-01-05 22:57:41

原创

870 人浏览过

数据清洗是数据分析中最重要的步骤之一，它涉及处理缺失值、重复数据、格式不一致等问题，以确保数据的质量和准确性。Python 提供了多种强大的工具和技术，可以帮助高效地进行数据清洗。下面是 Python 数据清洗的最新技术和方法。

1. Pandas：数据清洗的核心工具

Pandas 是 Python 中最常用的数据处理和清洗库，它提供了丰富的函数和方法，可以帮助你轻松清洗数据。以下是一些最新和常见的技术。

1.1 处理缺失值

缺失值是数据清洗中常见的问题。pandas 提供了几种方法来处理缺失值。

查看缺失值

import pandas as pd

df = pd.read_csv('data.csv')
print(df.isnull().sum())  # 查看每列的缺失值数量

删除含缺失值的行或列

# 删除包含缺失值的行
df.dropna(axis=0, inplace=True)

# 删除包含缺失值的列
df.dropna(axis=1, inplace=True)

填充缺失值
fillna() 可以用不同的方式填充缺失值。

  # 用特定值填充
  df.fillna(0, inplace=True)

  # 用前一个非空值填充
  df.fillna(method='ffill', inplace=True)

  # 用列的均值填充
  df.fillna(df.mean(), inplace=True)

替换缺失值
replace() 方法用于替换指定值。

  df.replace(to_replace=None, value=0, inplace=True)  # 替换 None 或 NaN

1.2 去重

去除重复行是数据清洗的常见任务。

删除重复行

df.drop_duplicates(inplace=True)

保留特定列的唯一值

df.drop_duplicates(subset=['column1'], inplace=True)

1.3 处理异常值

异常值（outliers）是指与其他数据差异较大的值。你可以通过一些统计方法（如 Z-Score 或 IQR）来识别和处理异常值。

使用 Z-Score 检测异常值

from scipy import stats

z_scores = stats.zscore(df['column_name'])
df = df[(z_scores < 3) & (z_scores > -3)]  # 过滤掉 Z-Score > 3 或 < -3 的数据

使用 IQR 检测异常值

Q1 = df['column_name'].quantile(0.25)
Q3 = df['column_name'].quantile(0.75)
IQR = Q3 - Q1

df = df[(df['column_name'] >= (Q1 - 1.5 * IQR)) & (df['column_name'] <= (Q3 + 1.5 * IQR))]

1.4 数据类型转换

有时候数据列的类型可能不符合要求，pandas 提供了转换数据类型的功能。

转换数据类型

df['column_name'] = df['column_name'].astype(float)

转换为日期类型

df['date_column'] = pd.to_datetime(df['date_column'], errors='coerce')

1.5 字符串清洗

字符串清洗是数据清洗中很重要的一部分，特别是在处理文本数据时。

去除前后空白

df['column_name'] = df['column_name'].str.strip()

转换为小写或大写

df['column_name'] = df['column_name'].str.lower()  # 转换为小写
df['column_name'] = df['column_name'].str.upper()  # 转换为大写

替换字符串中的字符

df['column_name'] = df['column_name'].str.replace('old_value', 'new_value')

1.6 处理日期时间数据

日期时间数据的清洗包括格式化日期、提取日期中的某些部分等。

提取日期中的年、月、日

df['year'] = df['date_column'].dt.year
df['month'] = df['date_column'].dt.month
df['day'] = df['date_column'].dt.day

格式化日期

df['date_column'] = df['date_column'].dt.strftime('%Y-%m-%d')

2. 高级数据清洗技巧

2.1 合并与连接数据

在数据清洗过程中，可能需要合并来自不同数据源的数据，pandas 提供了 merge() 和 concat() 来帮助实现。

按键合并数据

df_merged = pd.merge(df1, df2, on='key_column', how='inner')  # 'inner'、'left'、'right'、'outer'

沿轴连接数据

df_concat = pd.concat([df1, df2], axis=0)  # 行合并，axis=1 为列合并

2.2 透视表与数据聚合

通过 groupby() 可以对数据进行聚合，计算汇总统计数据。

分组计算汇总

grouped = df.groupby('category_column').agg({'value_column': ['mean', 'sum', 'count']})

创建透视表

pivot = df.pivot_table(values='value_column', index='row_column', columns='col_column', aggfunc='sum')

2.3 处理分类数据

对于分类数据，可以使用 pd.get_dummies() 进行独热编码，也可以对其进行映射。

独热编码

df_encoded = pd.get_dummies(df['category_column'], prefix='category')

映射分类值

df['category_column'] = df['category_column'].map({'category1': 1, 'category2': 2})

3. 最新的 Python 数据清洗工具和技术

3.1 Dask

Dask 是一个与 pandas 类似的数据处理库，支持处理超大规模数据。它使用并行计算来加速数据清洗过程，适用于内存无法容纳的数据集。

安装：

pip install dask

基本用法：

import dask.dataframe as dd

df = dd.read_csv('large_data.csv')
df_cleaned = df.dropna().compute()  # 使用 Dask 处理大数据集

3.2 Pyjanitor

pyjanitor 是一个数据清洗工具，它提供了一些常用的数据清洗功能封装，以便于链式调用。

安装：

pip install pyjanitor

示例代码：

import janitor

df = pd.read_csv('data.csv')
df_cleaned = df.clean_names().remove_empty()  # 自动清理列名并移除空列

3.3 Modin

Modin 是 pandas 的加速版本，能让你利用多核 CPU 进行数据处理和清洗。它的 API 和 pandas 兼容，能自动分布计算任务。

安装：

pip install modin

使用示例：

import modin.pandas as mpd

df = mpd.read_csv('large_data.csv')
df_cleaned = df.dropna()  # 自动加速数据清洗

3.4 FuzzyWuzzy

FuzzyWuzzy 是一个基于字符串匹配的库，常用于清洗和标准化相似但不完全相同的文本数据。

安装：

pip install fuzzywuzzy

示例代码：

from fuzzywuzzy import fuzz

# 比较两个字符串的相似度
similarity = fuzz.ratio("apple", "applle")
print(similarity)

总结

Python 提供了强大的工具和库来支持高效的数据清洗工作。pandas 是最常用的工具，几乎可以应对所有常见的数据清洗任务。通过结合 Dask、Modin、pyjanitor 等工具，可以进一步提升数据清洗的效率，尤其是在处理大规模数据集时。