完全转换UTF-8为GB2312的PHP函数

  开始是用“$re=iconv("UTF-8","GB2312",$snoopy->results);”将utf8转换成gb2312,结果经常出错,到了一半就看不到后文了。后来用“$re=iconv("UTF-8","GB2312//IGNORE",$snoopy->results);”,加上了忽略错误,好了点,可以转换到底了!可是今天又发现,还是有部分网页无法转换。后来仔细研究发现原来iconv只能转换3字符的utf8码,如果需要全码转换需要另外写函数。

  首先需要了解utf8的构成。

  基础:

  1、单独使用iconv函数只能转换GB2312字符,外文字符无法转换。

  2、没有现成的函数可以用。

  3、bindec()函数:将二进制格式的“01”字符串转换为十进制数。

  4、decbin()函数:将十进制数转换为二进制字符串,如decbin(224)="11100000"。

  思路:因为UTF-8分别有1、2、3字节编码,中日韩文都是3字节编码,处理时根据字符编码中首字节大小区分字节数量。

  1、如首字节小于128,为ASCII码。

  2、128~192,非UTF-8编码,且处理为“&#ord();”。

  3、192~224, 双字节UTF-8编码。

  4、224~240,三字节编码。

  5、240~248,四字节编码。

  6、……

  7、对于三字节编码的尝试用iconv转换成GB2312。

  8、非GB2312的多字节字符,尝试把UTF-8转换成Unicode,再取到Unicode十进制值。

  9、可以考虑使用位运算,也可以用bindec()函数。

  程序代码:

PHP代码
  1. function GetGB2312String($name)   
  2. {   
  3. $tostr = "";   
  4. for($i=0;$i<strlen($name);$i++)   
  5. {   
  6.    $curbin = ord(substr($name,$i,1));   
  7.    if($curbin < 0x80)   
  8.    {   
  9.     $tostr .= substr($name,$i,1);   
  10.    }elseif($curbin < bindec("11000000")){   
  11.     $str = substr($name,$i,1);   
  12.     $tostr .= "&#".ord($str).";";   
  13.    }elseif($curbin < bindec("11100000")){   
  14.     $str = substr($name,$i,2);   
  15.     $tostr .= "&#".GetUnicodeChar($str).";";   
  16.     $i += 1;   
  17.    }elseif($curbin < bindec("11110000")){   
  18.     $str = substr($name,$i,3);   
  19.     $gstr= iconv("UTF-8","GB2312",$str);   
  20.     if(!$gstr)   
  21.     {   
  22.     $tostr .= "&#".GetUnicodeChar($str).";";   
  23.     }else{   
  24.     $tostr .= $gstr;   
  25.     }   
  26.     $i += 2;   
  27.    }elseif($curbin < bindec("11111000")){   
  28.     $str = substr($name,$i,4);   
  29.     $tostr .= "&#".GetUnicodeChar($str).";";   
  30.       
  31.     $i += 3;   
  32.    }elseif($curbin < bindec("11111100")){   
  33.     $str = substr($name,$i,5);   
  34.     $tostr .= "&#".GetUnicodeChar($str).";";   
  35.     $i += 4;   
  36.    }else{   
  37.     $str = substr($name,$i,6);   
  38.     $tostr .= "&#".GetUnicodeChar($str).";";   
  39.     $i += 5;   
  40.    }   
  41. }   
  42. return $tostr;   
  43. }//end function   
  44. function GetUnicodeChar($str)   
  45. {   
  46. $temp = "";   
  47. for($i=0;$i<strlen($str);$i++)   
  48. {   
  49.    $x = decbin(ord(substr($str,$i,1)));   
  50.    if($i == 0)   
  51.    {   
  52.     $s = strlen($str)+1;   
  53.     $temp .= substr($x,$s,8-$s);   
  54.    }else{   
  55.     $temp .= substr($x,2,6);   
  56.    }   
  57. }   
  58. return bindec($temp);   
  59. }//end function  

调用方法:

PHP代码
  1. $re=GetGB2312String($snoopy->results);  


上一篇: Jquery实现链接批量设置新窗口打开
下一篇: VB 窗体实现文件拖拽获取路径方法
文章来自: 本站原创
引用通告: 查看所有引用 | 我要引用此文章
Tags: php
相关日志:
评论: 0 | 引用: 0 | 查看次数: 2137
发表评论
昵 称:
密 码: 游客发言不需要密码.
邮 箱: 邮件地址支持Gravatar头像,邮箱地址不会公开.
网 址: 输入网址便于回访.
内 容:
验证码:
选 项:
虽然发表评论不用注册,但是为了保护您的发言权,建议您注册帐号.
字数限制 1000 字 | UBB代码 开启 | [img]标签 关闭

 广告位

↑返回顶部↑