
首先,我们需要安装一些必要的库,例如 pandas 和 openpyxl(用于处理 Excel 文件)或 csv(用于处理 CSV 文件)。
bash
pip install pandas openpyxl csv
然后,我们可以使用以下代码来统计 Excel 文件中某一列的词频:
python
import pandas as pd
from openpyxl import load_workbook
# 假设 'data.xlsx' 是你的 Excel 文件名
# 假设 'Sheet1' 是你的工作表名
# 假设 'Column_Name' 是你要统计词频的列名
# 打开 Excel 文件
workbook = load_workbook('data.xlsx')
worksheet = workbook['Sheet1']
# 读取特定列的数据
column_data = worksheet['Column_Name']
# 初始化一个字典来存储词频
word_freq = {}
# 遍历列数据中的每个单元格
for cell in column_data:
# 获取单元格中的文本
text = cell.value
# 如果文本不为空,并且不在字典中,或者字典中该词的次数加一后不等于1,说明该词出现了不止一次
if text and text not in word_freq or word_freq[text] == 1:
# 更新词频字典
word_freq[text] = word_freq.get(text, 0) + 1
# 打印词频字典
print(word_freq)
对于 CSV 文件,我们可以使用以下代码:
python
import csv
# 假设 'data.csv' 是你的 CSV 文件名
# 打开 CSV 文件
with open('data.csv') as csv_file:
csv_reader = csv.reader(csv_file, delimiter=',')
更多文章请关注《万象专栏》
转载请注明出处:https://www.wanxiangsucai.com/read/cv183686