刷题之词频统计

简介: 刷题之词频统计

1、题目

请编写程序,对一段英文文本,统计其中所有不同单词的个数,以及词频最大的前10%的单词。

所谓“单词”,是指由不超过80个单词字符组成的连续字符串,但长度超过15的单词将只截取保留前15个单词字符。而合法的“单词字符”为大小写字母、数字和下划线,其它字符均认为是单词分隔符。

输入格式:、

输入给出一段非空文本,最后以符号#结尾。输入保证存在至少10个不同的单词。

输出格式:

在第一行中输出文本中所有不同单词的个数。注意“单词”不区分英文大小写,例如“PAT”和“pat”被认为是同一个单词。

随后按照词频递减的顺序,按照词频:单词的格式输出词频最大的前10%的单词。若有并列,则按递增字典序输出。

输入样例:

This is a test.
The word "this" is the word with the highest frequency.
Longlonglonglongword should be cut off, so is considered as the same as longlonglonglonee.  But this_8 is different than this, and this, and this...#
this line should be ignored.

输出样例:(注意:虽然单词the也出现了4次,但因为我们只要输出前10%(即23个单词中的前2个)单词,而按照字母序,the排第3位,所以不输出。

23
5:this
4:is

2、题目解读

题目要求我们从一段非空文本中,去统计其中所有不同单词的个数,并且以符号#结尾,而且长度超过15的单词将只截取保留前15个单词字符。最后 按照词频递减的顺序 按词频:单词输出词频最大的前10%的单词。注意“单词”不区分英文大小写

第一眼看到这题我的想法就是怎么去读取数据,毕竟第一次做类似的题目,然后我就去试,发现通过while循环去获取输入,然后读取到#符号就结束循环,发现这样可以正确读取数据。我是使用nextLine()来的输入,因为后面可以去添加统计更加方便。然后每读取一行就通过Hashmap来存储这些不同单词的个数。然后去进行排序,先比较词频大小再比较单词字典排列顺序。

3、代码

import java.util.*;
public class Main {
    public static void main(String[] args) {
        Scanner sc=new Scanner(System.in);
        HashMap<String,Integer> map=new HashMap<>();
        //设置一个标准,当b为0是即是退出while循环的时候,
        // 99999应该远大于题目所给的输入行数
        int b=99999;
        while (sc.hasNext()){
            String s=sc.nextLine();
            //将所有字符串都变成小写
            s=s.toLowerCase();
            //判断是否有#
            if (s.contains("#")){
                //如果有就使用substring方法截取字符串,因为还有部分字符串需要添加
                //并且将b的之改为1,则下下一次循环将不会添加向Hashmap中添加元素
                s=s.substring(0,s.indexOf("#"));
                b=1;
            }
            if (b==0){
                break;
            }
            if (b>0){
                //将各个单词分开
                String[] ss=s.split(" ");
                for (int j=0;j<ss.length;j++){
                    //去除其他的单词分隔符,将其变成空格
                    ss[j]=ss[j].replaceAll("[^a-zA-Z_0-9]"," ");
                    String a=ss[j];
                    //再一次将各个单词分开
                    //如:“this”is->this is;着就需要再一次用到split方法
                    String[] sss=a.split(" ");
                    for(int i=0;i<sss.length;i++){
                        //截取前15个字符
                        if (sss[i].length()>15)
                            sss[i]=sss[i].substring(0,15);
                        //正常向HashMap添加单词
                        //不能向其中添加 空
                        if (!Objects.equals(sss[i], "")){
                            if (!map.containsKey(sss[i])){
                                map.put(sss[i],1);
                            }else {
                                map.put(sss[i],map.get(sss[i])+1);
                            }}}
                }
                b--;
            }
        }
        //输出单词的个数
        System.out.println(map.size());
        //将HashMap的键值对取出放入List集合中
        //方便去进行排序
        List<Map.Entry<String,Integer>> list = new ArrayList<>(map.entrySet());
        //传入比较器
        list.sort((o1, o2) -> {
            //先判断词频是否相同,再通过compareTo方法比较两个单词的字典顺序
            if (o1.getValue().equals(o2.getValue())){
                return o1.getKey().compareTo(o2.getKey());
            }
            //比较词频
            return o2.getValue() - o1.getValue();
        });
        //通过Iterator迭代器进行输出
        Iterator<Map.Entry<String, Integer>> iter = list.iterator();
        //题目要求输出单词数目的10%
        int n=map.size()/10;
        while(iter.hasNext()){
            Map.Entry<String, Integer> item = iter.next();
            if (n==0)
                break;
            String key = item.getKey();
            int value = item.getValue();
            System.out.println(value+":"+key);
            n--;
        }
    }
}

以上都是我个人的解题思路,有什么不足或者建议可以评论或者私信,一起交流学习



目录
相关文章
|
7月前
|
自然语言处理 算法
算法刷题(二十三):Bigram 分词
算法刷题(二十三):Bigram 分词
69 0
|
3月前
|
Unix Shell Linux
LeetCode刷题 Shell编程四则 | 194. 转置文件 192. 统计词频 193. 有效电话号码 195. 第十行
本文提供了几个Linux shell脚本编程问题的解决方案,包括转置文件内容、统计词频、验证有效电话号码和提取文件的第十行,每个问题都给出了至少一种实现方法。
LeetCode刷题 Shell编程四则 | 194. 转置文件 192. 统计词频 193. 有效电话号码 195. 第十行
|
4月前
|
Python
【Leetcode刷题Python】生词本单词整理
文章提供了一个Python程序,用于帮助用户整理和排版生词本上的单词,包括去除重复单词、按字典序排序,并按照特定的格式要求进行打印排版。
44 3
|
7月前
|
存储 索引
leetcode139单词拆分刷题打卡
leetcode139单词拆分刷题打卡
49 0
|
7月前
|
自然语言处理 Python
Python实现词频统计
Python实现词频统计
|
7月前
leetcode127单词接龙刷题打卡
leetcode127单词接龙刷题打卡
37 0
|
7月前
|
算法
刷题专栏(二十):单词规律
刷题专栏(二十):单词规律
61 0
|
算法 测试技术
蓝桥算法_单词分析-wordAnalysis
蓝桥算法_单词分析-wordAnalysis
|
存储 自然语言处理 索引
【刷题日记】 最常见的单词
本次刷题日记的第 36 篇,力扣题为:最常见的单词 ,简单
|
存储 搜索推荐 Go
【刷题日记】692. 前K个高频单词
本次刷题日记的第 59 篇,力扣题为:692. 前K个高频单词,中等