比较准确完整的中文字符正则校验

2018-11-09 02:38:03来源:博客园 阅读 ()

新老客户大回馈,云服务器低至5折

网上大多数校验中文的正则都是\u4e00-\u9fa5,经过实际测试,这个正则无法匹配中文标点,如(),。等

仔细研究了unicode的规范,本着尽量宽泛、遵循unicode分类的原则,总结了一套比较准确完整的校验规则:
 
// http://www.unicode.org/charts/PDF/U2000.pdf 一般标点
// http://www.unicode.org/charts/PDF/U3000.pdf CJK符号和标点
// http://www.unicode.org/charts/PDF/U4E00.pdf CJK统一表意文字
// http://www.unicode.org/charts/PDF/UFF00.pdf 半宽全宽形状
String COMMON_STRING_REGEX = "[\u2000-\u206f\u3000-\u303f\u4e00-\u9fef\uff00-\uffef]*";

  

标签:

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有

上一篇:JMH使用说明

下一篇:Spring知识点总结(五)Spring整合JDBC