Python 统计 CSV/Excel 文件中特定列的词频

在数据分析和处理中,统计特定列中的词频是一项常见任务。Python 提供了多种工具和方法来帮助您完成这项工作。以下是一个简单的 Python 脚本,它使用 pandas 库来统计 CSV 或 Excel 文件中某一列的词频。

首先,确保您已经安装了 pandas 库。如果没有,可以使用 pip 安装:

bash

pip install pandas

然后,编写以下 Python 脚本:

python

import pandas as pd

# 假设 'data.csv' 是您的 CSV 文件名

# 您需要替换为实际的文件名

df = pd.read_csv('data.csv')

# 假设 '列名' 是您想要统计词频的列名

# 您需要替换为实际的列名

col_name = '列名'

# 创建一个字典来存储词频

freq_dict = {}

# 遍历该列

for word in df[col_name]:

# 分割单词,统计词频

word_list = word.split()

for w in word_list:

# 如果是第一次遇到该单词,则freq_dict[w] = 1

if w not in freq_dict:

freq_dict[w] = 1

# 否则,词频加1

else:

freq_dict[w] += 1

# 打印结果

for k, v in freq_dict.items():

print(f"{k}: {v}")

请注意,上述脚本假设您的数据是分列的,并且您想要统计词频的列包含的是字符串数据。如果您的列包含的是数值数据,那么您需要先转换为字符串类型,然后按照上述脚本进行处理。

如果您的数据在 Excel 文件中,您可以使用 pandas 的 `read_excel` 函数来读取数据:

python

df = pd.read_excel('data.xlsx', sheet_name='Sheet1') # 假设您的 Excel 文件名为 'data.xlsx',并且您想要处理的是第一张sheet

在处理 Excel

更多文章请关注《万象专栏》