项目里面用到了分词,但是得到很多无关的分词,比如标点,各种符号之类的。后来在黑名单里面加了中文停用词,能去除绝大部分,但是还是有一些奇奇怪怪的符号去不掉。所以求一个正则:只能是 (数字,字母(不区分大小写),汉字)或其任意组合。
比如
1.abcF
2.as212
3.das你好1d
4.34D4H好
5.大家
u4E00-u9FA5uF900-uFA2D
加上
w
public static void main(String[] args) {
// TODO implement RegexStuff.main
String regex = "([\u4E00-\u9FA5\uF900-\uFA2D]|\\w)+";
//Pattern pattern = Pattern.compile(regex);
String str1 = "abcF";
String str2 = "as212";
String str3 = "das你好1d";
String str4 = "34D4H好";
String str5 = "大家";
System.out.println(str1.matches(regex)); // true
System.out.println(str2.matches(regex)); // true
System.out.println(str3.matches(regex)); // true
System.out.println(str4.matches(regex)); // true
System.out.println(str5.matches(regex)); // true
}
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。