ROST中文词频统计工具是一款非常不错的字频统计和分析软件,帮助用户进行中文字频统计、中文词频统计、英文单词拼读、英文词组统计等统计分析的操作,当然可以直接对文章中的词语进行提取和删除,支持批量统计;当软件完成统计后会生成一个统计结果的网页文档,直观清晰可见。通过ROST中文词频统计工具可以轻松的帮助你万仇词组统计。
ROST中文词频统计工具 特点
1、使用简单,无需安装;
2、批量执行,速度快;
3、结果生成网页,查看方便。
ROST中文词频统计工具功能
1.统计一个文档中出现过的所有汉字及非汉字频度;
2.统计一个文档中和另外一个字表对比之后超纲的词及词频数,对字频统计结果进行词频升序、词频降序、字母升序、字母降序排列;
3.字典工具有超级功能:提取一定长度的单词,删除第一个字符串中某个字符串的单词,删除最后一个字符串中某个字符串的单词,提取第一个字符串中某个字符串的单词,字符串中每个单词的unicode值或ASC值,提取重复结束的字符串,对短语进行排序,删除重复的字符串,删除某个字符串的单词,将文本拆分成一个单词一行,提取包含某个单词串的单词,附加ASC码表,删除连续空格,任意提取单空格短语或多空格短语,删除单词中包含的某些字符,剔除包含某些汉字或其他字符的行,提取某个字符串之前的所有单词。对于普通文件,可以拆分操作。这个字典工具的处理速度目前还没有优化,所以计划在下一个版本中单独拿出字典工具进行优化,以便处理非常大的文档。
4.这个软件的一个主要特点是批处理。用户可以批量选择一系列文本文件,批量生成Fre频率文件。频率文件是一种用户定义的数据文件,包含单词或单词和频率,是ROST的专有格式。通过Fre的定义,可以有效提高处理速度。频率文件fre可以通过计算集合和交集来处理。设置获取所有频率文件的总和。交集产生包含在所有频率文件中的单词。这在实践中有什么作用?通过交集提取出一系列文档,就可以得到某类文档(如旅游、计算机)中的共同特征词。但是,集合可以快速处理大型文档。鉴于这个软件的高速,也可以进行1000亿字的统计。
5.自定义过滤词表,可以使用菜单右键查看过滤词表,添加自己需要的过滤词。目前使用的过滤词表为空,用户可以自行增加。使用菜单保存词表之后将该文本文件覆盖软件目录下的dict目录下的compare.txt即可,使用过滤词可以非常方便的获得超纲的字有哪些。
6.从剪贴板统计文字。注意如果先点击了剪贴板统计文字,则非中文统计显示的是剪贴板里面的非中文,而不是文件里面的非中文
以上便是kk下载小编给大家介绍的ROST中文词频统计工具!