博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
中文词频统计
阅读量:6770 次
发布时间:2019-06-26

本文共 666 字,大约阅读时间需要 2 分钟。

下载一长篇中文文章。
从文件读取待分析文本。
news = open('gzccnews.txt','r',encoding = 'utf-8')
安装与使用jieba进行中文分词。
pip install jieba
import jieba
list(jieba.lcut(news))
生成词频统计
排序
排除语法型词汇,代词、冠词、连词
输出词频最大TOP20
 

import jiebaf=open('sanwen.txt','r')text=f.read()wordlist=list(jieba.lcut(text))Words={}for i in set(wordlist):    Words[i]=wordlist.count(i)delete_word={
'中国的', '是',',','。',':','“','”','的','啊','在','了', '去','与','不','、','也','又','就', '和'}for i in delete_word: if i in Words: del Words[i]sort_word = sorted(Words.items(), key= lambda d:d[1], reverse = True)for i in range(10): print(sort_word[i])

 

运行截图:

 

 

转载于:https://www.cnblogs.com/lzs741788135/p/8663754.html

你可能感兴趣的文章
Zookeeper之——关于Zookeeper的那些事
查看>>
iOS中cell自适应高度
查看>>
蒲京博士为第七届环海南岛国际大帆船赛创造历史
查看>>
记一次负载均衡+NFS博客站点搭建的总结
查看>>
我不再像两年前那样勇敢
查看>>
计算机linux系统 第一课
查看>>
8月27日科技联播:滴滴5000亿上市计划或受影响,高德地图暂时下线顺风车业务...
查看>>
网站漏洞修复对phpmyadmin防止被入侵提权的解决办法
查看>>
Exchange 2013服务器常用的性能监视器
查看>>
详解linux运维工程师入门级必备技能
查看>>
ElsticStake安装之Logstash6.4.0 安装(二)
查看>>
XenServer安装最佳实践
查看>>
电动汽车锂电池容量选择
查看>>
mongodb的基本语法
查看>>
网络基础
查看>>
产品入库与倒冲领料不匹配查询
查看>>
配置percona XtraDB Cluster
查看>>
mysql+php+pdo批量添加大数据
查看>>
Systemstate Dump分析经典案例(上)
查看>>
在中国,有多少程序员干到40了?那么其他人去干什么了?
查看>>