开发者社区> 问答> 正文

中文匹配汉字多次失败:报错

$str = '中国';

preg_match_all($pattern,$str,$out); //这个这则匹配汉字,很艰难

$pattern_1 = '/[[\x80-\xff]]/';

$pattern_2 = '/[\x4e00-\x9fa5]/';

print_r($out);  //汉字部分都是乱码

编码格式是gbk,还是utf-8,都测试都无效.

 

 

展开
收起
kun坤 2020-06-14 06:31:19 382 0
1 条回答
写回答
取消 提交回答
  • [^\u4e00-\u9fa5]

    这是一段匹配除了中文以外的字符串

    http://regexpal.com/ 测试

    http://unicodelookup.com (资料)

    ######
    function str_cut($string, $length, $dot = '...')
    {
        $strlen = strlen($string);
        if($strlen <= $length) return $string;
        $string = str_replace(array(' ', '&', '"', ''', '“', '”', '—', '<', '>', '·', '…'), array(' ', '&', '"', "'", '“', '”', '—', '<', '>', '·', '…'), $string);
        $strcut = '';
        if(strtolower(CHARSET) == 'utf-8')
        {
            $n = $tn = $noc = 0;
            while($n < $strlen)
            {
                $t = ord($string[$n]);
                if($t == 9 || $t == 10 || (32 <= $t && $t <= 126)) {
                    $tn = 1; $n++; $noc++;
                } elseif(194 <= $t && $t <= 223) {
                    $tn = 2; $n += 2; $noc += 2;
                } elseif(224 <= $t && $t < 239) {
                    $tn = 3; $n += 3; $noc += 2;
                } elseif(240 <= $t && $t <= 247) {
                    $tn = 4; $n += 4; $noc += 2;
                } elseif(248 <= $t && $t <= 251) {
                    $tn = 5; $n += 5; $noc += 2;
                } elseif($t == 252 || $t == 253) {
                    $tn = 6; $n += 6; $noc += 2;
                } else {
                    $n++;
                }
                if($noc >= $length) break;
            }
            if($noc > $length) $n -= $tn;
            $strcut = substr($string, 0, $n);
        }
        else
        {
            $dotlen = strlen($dot);
            $maxi = $length - $dotlen - 1;
            for($i = 0; $i < $maxi; $i++)
            {
                $strcut .= ord($string[$i]) > 127 ? $string[$i].$string[++$i] : $string[$i];
            }
        }
        $strcut = str_replace(array('&', '"', "'", '<', '>'), array('&', '"', ''', '<', '>'), $strcut);
        return $strcut.$dot;
    
    }

     

    这个函数是phpcms 2008 中的截取字符串的函数,写的有点多,所以我希望要找个正则匹配的,简单好维护,呵呵

    ######
    $str ='中国';
    $result = preg_match("/[\x{4e00}-\x{9fa5}]/u",$str); 
    print_r($result);
    php里面是这样的######

    这个我已经解决了,还是感谢下,哈~

    我后来查了下,相关版本 比如: [\u4e00-\u9fa5]    [\x{4e00}-\x{9fa5}]/u  ,关于正则匹配的问题涉及到编码问题,还是需要细细考虑下。

    over。

    2020-06-15 11:09:08
    赞同 展开评论 打赏
问答地址:
问答排行榜
最热
最新

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载