php 不同编码下的字符串长度区分

UTF-8的中文字符串是三个字节
代码如下:

<?php
//编码UTF-8
echo strlen('测试文字a测试文字');
echo '-';
echo mb_strlen('测试文字a测试文字','utf-8');
?>

输出:25-9

GB2312的中文字符串是二个字节

代码如下:

<?php
//编码GB2312
echo strlen('测试文字a测试文字');
echo '-';
echo mb_strlen('测试文字a测试文字','Gb2312');
?>

输出:17-9

在Mysql数据库(5.1以后的版本)中,如果字段类型为varchar(10)则可插入10个字符(不是字节);
所以在判断字符串的长度时需要根据文档编码来区分。
符一个简单的UTF-8下字符串截取(按字符个数截取)

代码如下:

<?
/*
* UTF-8字符串截取
* $str 要截取的字串
* $start 截取起始位置
* $length 截取长度
*/
function cutStr($str,$start,$length) {
$restr = '';
$j = 0;
$end = $length + $start - 1;
$plen = strlen($str);
for($i=0;$i<$plen;$i++) {
$restr .= ord($str[$i])>127 ? $str[$i].$str[++$i].$str[++$i] : $str[$i];
$j++;
if ($j < $start){$restr = '';}
if ($j >= $end){break;}
}
$restr .='';
return $restr;
}
$str = '中新网9月24日电 二十国集团(G20)领导人第三次金融峰会今日将在美国匹兹堡召开。';
echo $str;
echo '<br>';
echo utf8_substr($str,0,25);
echo '<br>';
?>

注意:strlen()是PHP自带的计算英文字符串的函数。mb_strlen()是PHP自带的计算指定编码的字符串个数。

其它:不适用系统函数计算字符串长度的方法

GBK字符串长度

中文字符计算为2个字符,英文字符计算为1个,可以统计中文字符串长度的函数。

<?php

            function abslength($str){
                $len=strlen($str);
                 $i=0;
                while($i<$len)
              {
                   if(preg_match("/^[".chr(0xa1)."-".chr(0xff)."]+$/",$str[$i]))
                  {
                           $i+=2;
                     }
                   else
                  {
                             $i+=1;
                  }
               }
              return $i;
            }

       $strUserName = "我是山西人";
               echo abslength($strUserName);
       ?>

UTF8字符串长度

下面定义的strlen_utf8函数可以统计UTF-8字符串的长度,但不同的是,该函数并不考虑字节,这有些类似 Javascript 中字符串的length方法,一个字符全部按 1 个长度计算。

<?php

// 说明:计算 UTF-8 字符串长度(忽略字节的方案)
/*
* $str@要计算的字符串
* return@返回字符串的长度
*/
function strlen_utf8($str) {
$i = 0;
$count = 0;
$len = strlen ($str);
while ($i < $len) {
   $chr = ord ($str[$i]);
   $count++;
   $i++;
   if($i >= $len) break;
   if($chr & 0x80) {
    $chr <<= 1;
    while ($chr & 0x80) {
     $i++;
     $chr <<= 1;
    }
   }
}
return $count;
}
$str = "
www.TianZhiGang.com个人博客";
echo strlen_utf8($str);
echo '<br/>';
echo mb_strlen($str,'UTF-8');
?>



上一篇: vb实现延时执行的几种方法
下一篇: Vb编程常见的7个问题
文章来自: 本站原创
引用通告: 查看所有引用 | 我要引用此文章
Tags: php
相关日志:
评论: 1 | 引用: 0 | 查看次数: 3665
大真[2010-05-11 09:40 AM | | | 222.68.177.238 | del | 回复回复]
沙发
兄弟,一直关注你的博客,有空交流一下,加我QQ:china1910#qq.com
发表评论
昵 称:
密 码: 游客发言不需要密码.
邮 箱: 邮件地址支持Gravatar头像,邮箱地址不会公开.
网 址: 输入网址便于回访.
内 容:
验证码:
选 项:
虽然发表评论不用注册,但是为了保护您的发言权,建议您注册帐号.
字数限制 1000 字 | UBB代码 开启 | [img]标签 关闭

 广告位

↑返回顶部↑