博客
关于我
第7章-1 词频统计 (30分)【Python版本】
阅读量:193 次
发布时间:2019-02-28

本文共 1214 字,大约阅读时间需要 4 分钟。

为了解决这个问题,我们需要编写一个Python程序来统计一段英文文本中的所有不同单词,并找出词频最大的前10%的单词。以下是详细的解决方案。

方法思路

  • 读取输入:首先读取用户输入的文本,并去掉末尾的#符号。
  • 预处理文本:将所有非法字符替换为空格,然后将文本转换为小写字母。
  • 分割单词:将处理后的文本按空格分割成单词列表。
  • 截断单词:对超过15个字符的单词进行截断,只保留前15个字符。
  • 统计单词频率:使用字典记录每个单词的出现次数。
  • 排序单词:根据单词频率和字典序对单词进行排序。
  • 输出结果:输出所有不同单词的总数,随后输出词频最大的前10%的单词。
  • 解决代码

    import systext = sys.stdin.read().strip('#')# 替换非法字符为空格,并将所有字符转换为小写processed = []for c in text:    if c.isalnum() or c == '_':        processed.append(c.lower())    else:        processed.append(' ')text = ''.join(processed).strip()# 分割单词words = text.split()# 截断超过15个字符的单词for i in range(len(words)):    if len(words[i]) > 15:        words[i] = words[i][:15]# 统计单词频率word_counts = {}for word in words:    word_counts[word] = word_counts.get(word, 0) + 1# 按词频降序和字典序升序排序sorted_words = sorted(word_counts.items(), key=lambda x: (-x[1], x[0]))# 输出结果print(len(sorted_words))num_to_output = int(len(sorted_words) / 10)for i in range(num_to_output):    print(f"{sorted_words[i][1]}:{sorted_words[i][0]}")

    代码解释

  • 读取输入:使用sys.stdin.read()读取所有输入内容,并去掉末尾的#符号。
  • 预处理文本:遍历每个字符,保留字母、数字和下划线,将其转换为小写,其他字符替换为空格。
  • 分割单词:将预处理后的文本按空格分割成单词列表。
  • 截断单词:检查每个单词的长度,如果超过15个字符,则截断为前15个字符。
  • 统计单词频率:使用字典记录每个单词的出现次数。
  • 排序单词:根据频率降序和字典序升序对单词进行排序。
  • 输出结果:输出所有单词的数量,随后输出前10%的高频单词及其频率。
  • 转载地址:http://dbii.baihongyu.com/

    你可能感兴趣的文章
    pandas 重新采样到每月的特定工作日
    查看>>
    pandas :按移位分组和累加和(GroupBy Shift And Cumulative Sum)
    查看>>
    pandas :检测一个DF和另一个DF之间缺失的列
    查看>>
    Pandas-从具有嵌套列表列表的现有列创建动态列时出错
    查看>>
    Pandas-通过对列和索引的值求和来合并两个数据框
    查看>>
    pandas.read_csv()的详解-ChatGPT4o作答
    查看>>
    PANDAS.READ_EXCEL()输出‘;溢出错误:日期值超出范围‘;而不存在日期列
    查看>>
    pandas100个骚操作:再见 for 循环!速度提升315倍!
    查看>>
    Pandas:对给定列求和 DataFrame 行
    查看>>
    Pandas、Matplotlib、Pyecharts数据分析实践
    查看>>
    Pandas中文官档~基础用法2
    查看>>
    Pandas中文官档~基础用法6
    查看>>
    pandas交换两列
    查看>>
    pandas实战:电商平台用户分析
    查看>>
    pandas打乱数据的顺序
    查看>>
    pandas改变一列值(通过apply)
    查看>>
    Pandas数据分析的环境准备
    查看>>
    Pandas数据可视化怎么做?用实战案例告诉你!
    查看>>
    Pandas数据处理与分析教程:从基础到实战
    查看>>
    Pandas数据结构之DataFrame常见操作
    查看>>