最近改我的博客时总会有乱码现象,后来想想肯定是因为抓取内容时,
编码出了问题,后经过查找,终于找到一个解决办法.
对抓取的内容进行编码转换,这样就可以实现了.
php有2个编码转换的函数: iconv() 函数 和 mb_convert_encoding() 函数.
1.mb_convert_encoding() 函数.
mb_convert_encoding 函数为php内部多字节字符串编码转换函数,可以在有需要的使用场合(如:解决在GB2312编码环境下使用Ajax产生的中文字乱码的问题)方便进行编码转换,以解决网页乱码的问题,使用非常方便,效率非常高,几乎支持所有编码。PHP 4 >= 4.0.6、PHP 5 版本支持。
函数原型:
/**
* 多字节字符串编码转换函数 * * @param string str 需要进行编码转换的字符串 * @param string to_encoding 指定转换为某种编码,如:gb2312、gbk、utf-8等 * @param mixed from_encoding 混合指定原来字串的编码,如:同时指定 JIS, eucjp-win, sjis-win 混合编码 * @return string string mb_convert_encoding ( string str, string to_encoding [, mixed from_encoding] ) |
使用举例:
1、把 GBK 编码字串转换成 UTF-8 编码字串
- <?php
- header(“content-Type: text/html; charset=Utf-8”);
- echo mb_convert_encoding(“你是我的好朋友”, “UTF-8”, “GBK”);
- ?>
2、把 UTF-8 编码字串转换成 GB2312 编码字串
- // 注意将此文件存盘成 utf-8 编码格式文件再测试
- <?php
- header(“content-Type: text/html; charset=gb2312”);
- echo mb_convert_encoding(“你是我的好朋友”, “gb312”, “utf-8”);
- ?>
3、对整个页面进行转换
该方法适用所有编码环境。这样把前128个字符以外(显示字符)的字符集都用 NCR(Numeric character reference,如“汉字”将转换成“汉字”这种形式)来表示,这样的编码在任意编码环境下页面都能正 常显示。
在php文件的头部加上下面三行代码:
- mb_internal_encoding(“gb2312”); // 这里的gb2312是你网站原来的编码
- mb_http_output(“HTML-ENTITIES”);
- ob_start(‘mb_output_handler’);
使用mb_convert_encoding 函数需启用PHP 的mbstring (multi-byte string)扩展。
如果没有没有开启php的mbstring扩展,则需要做如下设置,让php支持该扩展。
1、windows 服务器环境
编辑 php.ini 文件,将; extension=php_mbstring.dll 前面的 ; 去掉,重启网页服务器。
2、Linux服务器环境
在编译配置时加入 –enable-mbstring=cn 编译参数,再进行PHP的编译安装。
2.iconv() 函数
Definition and Usage 定义和用法 iconv()函数的作用是:转换字符串的编码。
Description string iconv ( string in_charset, string out_charset, string str )
Tips and Notes 注意点注意:第二个参数,除了可以指定要转化到的编码以外,还可以增加两个后缀://TRANSLIT 和 //IGNORE,其中 //TRANSLIT 会自动将不能直接转化的字符变成一个或多个近似的字符,//IGNORE 会忽略掉不能转化的字符,而默认效果是从第一个非法字符截断。
gb2312转换成utf-8
$utf=iconv(‘GB2312’, ‘UTF-8’, $_REQUEST[‘keyword’]);
将字符串utf-8码转换为gb2312码
$str = iconv(“UTF-8″,”GB2312//TRANSLIT”,$str);
注意:但是需要先enable mbstring 扩展库。两者区别:mb_convert_encoding 中根据内容自动识别编码;mb_convert_encoding功能强大,但是执行效率比iconv差太多;
转载请注明:夜阑小雨 » php编码转换函数介绍