Python 统计 CSV/Excel 文件中特定列的词频

在数据处理和分析中,统计特定列中的词频是一项常见任务。Python 提供了多种工具和技术来实现这一目标。在这篇文章中,我们将介绍如何使用 Python 来统计 CSV 或 Excel 文件中某一列数据的词频。

首先,我们需要安装一些必要的库,例如 pandas 和 openpyxl(用于处理 Excel 文件)或 csv(用于处理 CSV 文件)。

bash

pip install pandas openpyxl csv

然后,我们可以使用以下代码来统计 Excel 文件中某一列的词频:

python

import pandas as pd

from openpyxl import load_workbook

# 假设 'data.xlsx' 是你的 Excel 文件名

# 假设 'Sheet1' 是你的工作表名

# 假设 'Column_Name' 是你要统计词频的列名

# 打开 Excel 文件

workbook = load_workbook('data.xlsx')

worksheet = workbook['Sheet1']

# 读取特定列的数据

column_data = worksheet['Column_Name']

# 初始化一个字典来存储词频

word_freq = {}

# 遍历列数据中的每个单元格

for cell in column_data:

# 获取单元格中的文本

text = cell.value

# 如果文本不为空,并且不在字典中,或者字典中该词的次数加一后不等于1,说明该词出现了不止一次

if text and text not in word_freq or word_freq[text] == 1:

# 更新词频字典

word_freq[text] = word_freq.get(text, 0) + 1

# 打印词频字典

print(word_freq)

对于 CSV 文件,我们可以使用以下代码:

python

import csv

# 假设 'data.csv' 是你的 CSV 文件名

# 打开 CSV 文件

with open('data.csv') as csv_file:

csv_reader = csv.reader(csv_file, delimiter=',')

更多文章请关注《万象专栏》