电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁技術文章
文章詳情頁

PHP網站開發遇到的中文編碼

瀏覽:60日期:2024-02-22 18:58:22

PHP程序設計中中文編碼問題曾經困擾很多人,導致這個問題的原因其實很簡單,每個國家(或區域)都規定了計算機信息交換用的字符編碼集,如美國的擴展 ASCII 碼, 中國的 GB2312-80,日本的 JIS 等。作為該國家/區域內信息處理的基礎,字符編碼集起著統一編碼的重要作用。字符編碼集按長度分為 SBCS(單字節字符集),DBCS(雙字節字符集)兩大類。早期的軟件(尤其是操作系統),為了解決本地字符信息的計算機處理,出現了各種本地化版本(L10N),為了區分,引進了 LANG, Codepage 等概念。但是由于各個本地字符集代碼范圍重疊,相互間信息交換困難;軟件各個本地化版本獨立維護成本較高。因此有必要將本地化工作中的共性抽取出來,作一致處理,將特別的本地化處理內容降低到最少。這也就是所謂的國際化(118N)。各種語言信息被進一步規范為 Locale 信息。處理的底層字符集變成了幾乎包含了所有字形的 Unicode。

現在大部分具有國際化特征的軟件核心字符處理都是以 Unicode 為基礎的,在軟件運行時根據當時的ocale/Lang/Codepage 設置確定相應的本地字符編碼設置,并依此處理本地字符。在處理過程中需要實現 Unicode 和本地字符集的相互轉換,甚或以 Unicode 為中間的兩個不同本地字符集的相互轉換。這種方式在網絡環境下被進一步延伸,任何網絡兩端的字符信息也需要根據字符集的設置轉換成可接受的內容。

數據庫中的字符集編碼問題

流行的關系數據庫系統都支持數據庫字符集編碼,也就是說在創建數據庫時可以指定它自己的字符集設置,數據庫的數據以指定的編碼形式存儲。當應用程序訪問數據時,在入口和出口處都會有字符集編碼的轉換。對于中文數據,數據庫字符編碼的設置應當保證數據的完整性。GB2312、GBK、UTF-8 等都是可選的數據庫字符集編碼;當然我們也可以選擇 ISO8859-1 (8-bit),只是我們得在應

用程序寫數據之前先將 16Bit 的一個漢字或 Unicode 拆分成兩個 8-bit 的字符,讀數據之后也需要將兩個字節合并起來,同時還要判別其中的 SBCS 字符,因此我們并不推薦采用 ISO8859-1 作為數據庫字符集編碼。這樣不但沒有充分利用數據庫自身的字符集編碼支持,而且同時也增加了編程的復雜度。編程時,可以先用數據庫管理系統提供的管理功能檢查其中的中文數據是否正確。

PHP 程序在查詢數據庫之前,首先執行 mysql_query('SET NAMES xxxx'); 其中 xxxx 是你網頁的編碼(charset=xxxx),如果網頁中 charset=utf8,則 xxxx=utf8,如果網頁中 charset=gb2312,則xxxx=gb2312,幾乎所有 WEB 程序,都有一段連接數據庫的公共代碼,放在一個文件里,在這文件里,加入 mysql_query('SET NAMES xxxx') 就可以了。

SET NAMES 顯示客戶端發送的 SQL 語句中使用什么字符集。因此,SET NAMES 'utf-8' 語句告訴服務器“將來從這個客戶端傳來的信息采用字符集 utf-8”。它還為服務器發送回客戶端的結果指定了字符集(例如,如果你使用一個 SELECT 語句,它表示列值使用了什么字符集)。

定位問題時常用的技巧

定位中文編碼問題通常采用最笨的也是最有效的辦法―在你認為有嫌疑的程序處理后打印字符串的內碼。通過打印字符串的內碼,你可以發現什么時候中文字符被轉換成 Unicode,什么時候Unicode 被轉回中文內碼,什么時候一個中文字成了兩個 Unicode 字符,什么時候中文字符串被轉成了一串問號,什么時候中文字符串的高位被截掉了……

取用合適的樣本字符串也有助于區分問題的類型。如:'aa啊 aa?@aa' 等中英相間,GB、GBK特征字符均有的字符串。一般來說,英文字符無論怎么轉換或處理,都不會失真(如果遇到了,可以嘗試著增加連續的英文字母長度)。

解決各種應用的亂碼問題

1) 使用 標簽設置頁面編碼

這個標簽的作用是聲明客戶端的瀏覽器用什么字符集編碼顯示該頁面,xxx 可以為 GB2312、GBK、UTF-8(和 MySQL 不同,MySQL 是 UTF8)等等。因此,大部分頁面可以采用這種方式來告訴瀏覽器顯示這個頁面的時候采用什么編碼,這樣才不會造成編碼錯誤而產生亂碼。但是有的時候我們會發現有了這句還是不行,不管 xxx 是哪一種,瀏覽器采用的始終都是一種編碼,這個情況我后面會談到。

請注意, 是屬于 HTML 信息的,僅僅是一個聲明,僅表明服務器已經把 HTML 信息傳到了瀏覽器。

2) header('content-type:text/html; charset=xxx');

這個函數 header() 的作用是把括號里面的信息發到 http 標頭。如果括號里面的內容為文中所說那樣,那作用和 標簽基本相同,大家對照第一個看發現字符都差不多的。但是不同的是如果有這段函數,瀏覽器就會永遠采用你所要求的 xxx 編碼,絕對不會不聽話,因此這個函數是很有用的。為什么會這樣呢?那就得說說 http 標頭和 HTML信息的差別了:

http 標頭是服務器以 http 協議傳送 HTML 信息到瀏覽器前所送出的字串。而 標簽是屬于 HTML 信息的,所以 header() 發送的內容先到達瀏覽器,通俗點就是 header() 的優先級高于 (不知道可不可以這樣講)。假如一個 php 頁面既有header('content-type:text/html;charset=xxx'),又有,瀏覽器就只認前者 http 標頭而不認 meta 了。當然這個函數只能在 php 頁面內使用。

同樣也留有一個問題,為什么前者就絕對起作用,而后者有時候就不行呢?這就是接下來要談的Apache 的原因了。

3) AddDefaultCharset

Apache 根目錄的 conf 文件夾里,有整個 Apache 的配置文檔 httpd.conf。

用文本編輯器打開 httpd.conf,第 708 行(不同版本可能不同)有 AddDefaultCharset xxx,xxx為編碼名稱。這行代碼的意思:設置整個服務器內的網頁文件 http 標頭里的字符集為你默認的 xxx字符集。有這行,就相當于給每個文件都加了一行 header('content-type:text/html; charset=xxx')。這下就明白為什么明明 設置了是 utf-8,可瀏覽器始終采用 gb2312 的原因。

如果網頁里有 header('content-type:text/html; charset=xxx'),就把默認的字符集改為你設置的字符集,所以這個函數永遠有用。如果把 AddDefaultCharset xxx 前面加個'#',注釋掉這句,而且頁面里不含 header('content-type…'),那這個時候就輪到 meta 標簽起作用了。

下面列出以上的優先順序:

.. header('content-type:text/html; charset=xxx')

.. AddDefaultCharset xxx

..

如果你是 web 程序員,建議給你的每個頁面都加個header('content-type:text/html;charset=xxx'),這樣就可以保證它在任何服務器都能正確顯示,可移植性也比較強。

4) php.ini 中的 default_charset 配置:

php.ini 中的 default_charset = 'gb2312' 定義了 php 的默認語言字符集。一般推薦注釋掉此行,讓瀏覽器根據網頁頭中的 charset 來自動選擇語言而非做一個強制性的規定,這樣就可以在同臺服務器上提供多種語言的網頁服務。

結束語

其實 php 開發中的中文編碼并沒有想像的那么復雜,雖然定位和解決問題沒有定規,各種運行環境也各不盡然,但后面的原理是一樣的。了解字符集的知識是解決字符問題的基礎。不過,隨著中文字符集的變化,不僅僅是 php 編程,中文信息處理中的問題還是會存在一段時間的。

標簽: PHP
主站蜘蛛池模板: 大通天成企业资质代办_承装修试电力设施许可证_增值电信业务经营许可证_无人机运营合格证_广播电视节目制作许可证 | 寮步纸箱厂_东莞纸箱厂 _东莞纸箱加工厂-东莞市寮步恒辉纸制品厂 | 手持式线材张力计-套帽式风量罩-深圳市欧亚精密仪器有限公司 | 螺钉式热电偶_便携式温度传感器_压簧式热电偶|无锡联泰仪表有限公司|首页 | 领袖户外_深度旅游、摄影旅游、小团慢旅行、驴友网 | 并离网逆变器_高频UPS电源定制_户用储能光伏逆变器厂家-深圳市索克新能源 | 安徽合肥格力空调专卖店_格力中央空调_格力空调总经销公司代理-皖格制冷设备 | 盛源真空泵|空压机-浙江盛源空压机制造有限公司-【盛源官网】 | 企业VI设计_LOGO设计公司_品牌商标设计_【北京美研】 | 电销卡_稳定企业大语音卡-归属地可选-世纪通信| 广东健伦体育发展有限公司-体育工程配套及销售运动器材的体育用品服务商 | 减速机三参数组合探头|TSM803|壁挂式氧化锆分析仪探头-安徽鹏宸电气有限公司 | 高防护蠕动泵-多通道灌装系统-高防护蠕动泵-www.bjhuiyufluid.com慧宇伟业(北京)流体设备有限公司 | 浙江上沪阀门有限公司| 十二星座查询(性格特点分析、星座运势解读) - 玄米星座网 | 纯水设备_苏州皙全超纯水设备水处理设备生产厂家 | 济南铝方通-济南铝方通价格-济南方通厂家-山东鲁方通建材有限公司 | 济南侦探调查-济南调查取证-山东私家侦探-山东白豹调查咨询公司 密集架|电动密集架|移动密集架|黑龙江档案密集架-大量现货厂家销售 | 进口便携式天平,外校_十万分之一分析天平,奥豪斯工业台秤,V2000防水秤-重庆珂偌德科技有限公司(www.crdkj.com) | 鲁尔圆锥接头多功能测试仪-留置针测试仪-上海威夏环保科技有限公司 | 百方网-百方电气网,电工电气行业专业的B2B电子商务平台 | 碳纤维复合材料制品生产定制工厂订制厂家-凯夫拉凯芙拉碳纤维手机壳套-碳纤维雪茄盒外壳套-深圳市润大世纪新材料科技有限公司 | SEO网站优化,关键词排名优化,苏州网站推广-江苏森歌网络 | 细砂提取机,隔膜板框泥浆污泥压滤机,螺旋洗砂机设备,轮式洗砂机械,机制砂,圆锥颚式反击式破碎机,振动筛,滚筒筛,喂料机- 上海重睿环保设备有限公司 | 杰福伦_磁致伸缩位移传感器_线性位移传感器-意大利GEFRAN杰福伦-河南赉威液压科技有限公司 | 北京四合院出租,北京四合院出售,北京平房买卖 - 顺益兴四合院 | 黑田精工电磁阀-CAMMOZI气缸-ROSS电磁-上海茂硕机械设备有限公司 | 潍坊大集网-潍坊信息港-潍坊信息网| 安徽泰科检测科技有限公司【官方网站】 | 污水处理设备维修_污水处理工程改造_机械格栅_过滤设备_气浮设备_刮吸泥机_污泥浓缩罐_污水处理设备_污水处理工程-北京龙泉新禹科技有限公司 | 精密五金冲压件_深圳五金冲压厂_钣金加工厂_五金模具加工-诚瑞丰科技股份有限公司 | 北京易通慧公司从事北京网站优化,北京网络推广、网站建设一站式服务商-北京网站优化公司 | 废气处理设备-工业除尘器-RTO-RCO-蓄热式焚烧炉厂家-江苏天达环保设备有限公司 | 比亚迪叉车-比亚迪电动叉车堆垛车托盘车仓储叉车价格多少钱报价 磁力去毛刺机_去毛刺磁力抛光机_磁力光饰机_磁力滚抛机_精密金属零件去毛刺机厂家-冠古科技 | SDI车窗夹力测试仪-KEMKRAFT方向盘测试仪-上海爱泽工业设备有限公司 | 济南铝方通-济南铝方通价格-济南方通厂家-山东鲁方通建材有限公司 | 福建自考_福建自学考试网| 早报网 | 工控机,嵌入式主板,工业主板,arm主板,图像采集卡,poe网卡,朗锐智科 | 杭州货架订做_组合货架公司_货位式货架_贯通式_重型仓储_工厂货架_货架销售厂家_杭州永诚货架有限公司 | 气动球阀_衬氟蝶阀_调节阀_电动截止阀_上海沃托阀门有限公司 |