博客
关于我
第7章-1 词频统计 (30分)【Python版本】
阅读量:193 次
发布时间:2019-02-28

本文共 1214 字,大约阅读时间需要 4 分钟。

为了解决这个问题,我们需要编写一个Python程序来统计一段英文文本中的所有不同单词,并找出词频最大的前10%的单词。以下是详细的解决方案。

方法思路

  • 读取输入:首先读取用户输入的文本,并去掉末尾的#符号。
  • 预处理文本:将所有非法字符替换为空格,然后将文本转换为小写字母。
  • 分割单词:将处理后的文本按空格分割成单词列表。
  • 截断单词:对超过15个字符的单词进行截断,只保留前15个字符。
  • 统计单词频率:使用字典记录每个单词的出现次数。
  • 排序单词:根据单词频率和字典序对单词进行排序。
  • 输出结果:输出所有不同单词的总数,随后输出词频最大的前10%的单词。
  • 解决代码

    import systext = sys.stdin.read().strip('#')# 替换非法字符为空格,并将所有字符转换为小写processed = []for c in text:    if c.isalnum() or c == '_':        processed.append(c.lower())    else:        processed.append(' ')text = ''.join(processed).strip()# 分割单词words = text.split()# 截断超过15个字符的单词for i in range(len(words)):    if len(words[i]) > 15:        words[i] = words[i][:15]# 统计单词频率word_counts = {}for word in words:    word_counts[word] = word_counts.get(word, 0) + 1# 按词频降序和字典序升序排序sorted_words = sorted(word_counts.items(), key=lambda x: (-x[1], x[0]))# 输出结果print(len(sorted_words))num_to_output = int(len(sorted_words) / 10)for i in range(num_to_output):    print(f"{sorted_words[i][1]}:{sorted_words[i][0]}")

    代码解释

  • 读取输入:使用sys.stdin.read()读取所有输入内容,并去掉末尾的#符号。
  • 预处理文本:遍历每个字符,保留字母、数字和下划线,将其转换为小写,其他字符替换为空格。
  • 分割单词:将预处理后的文本按空格分割成单词列表。
  • 截断单词:检查每个单词的长度,如果超过15个字符,则截断为前15个字符。
  • 统计单词频率:使用字典记录每个单词的出现次数。
  • 排序单词:根据频率降序和字典序升序对单词进行排序。
  • 输出结果:输出所有单词的数量,随后输出前10%的高频单词及其频率。
  • 转载地址:http://dbii.baihongyu.com/

    你可能感兴趣的文章
    Oracle 递归函数与拼接
    查看>>
    oracle 逻辑优化,提升高度,综合SQL上下文进行逻辑优化
    查看>>
    oracle 闪回关闭,关闭闪回即disable flashback的操作步骤
    查看>>
    oracle 限制用户并行,insert /*parallel */ 到不同用户,并行起不来的问题
    查看>>
    oracle--用户,权限,角色的管理
    查看>>
    Oracle-定时任务-JOB
    查看>>
    oracle.dataaccess 连接池,asp.net使用Oracle.DataAccess.dll连接Oracle
    查看>>
    oracle00205报错,Oracle控制文件损坏报错场景
    查看>>
    Oracle10g EM乱码之快速解决
    查看>>
    Oracle10g下载地址--多平台下的32位和64位
    查看>>
    Oracle10g安装了11g的ODAC后,PL/SQL连接提示TNS:无法解析指定的连接标识符
    查看>>
    oracle11g dataguard物理备库搭建(关闭主库cp数据文件到备库)
    查看>>
    Oracle11G基本操作
    查看>>
    Oracle11g服务详细介绍及哪些服务是必须开启的?
    查看>>
    Oracle11g静默安装dbca,netca报错处理--直接跟换操作系统
    查看>>
    oracle12安装软件后安装数据库,然后需要自己配置监听
    查看>>
    Oracle——08PL/SQL简介,基本程序结构和语句
    查看>>
    Oracle——distinct的用法
    查看>>
    Oracle、MySQL、SQL Server架构大对比
    查看>>
    oracle下的OVER(PARTITION BY)函数介绍
    查看>>