中日韓字符集兼容,網(wǎng)絡(luò )編程常用的幾種字符編碼
關(guān)于【中日韓字符集兼容】,網(wǎng)絡(luò )編程常用的幾種字符編碼,今天隨風(fēng)小編給您分享一下,如果對您有所幫助別忘了關(guān)注本站哦。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ㎎ ㎏ ? ? ? ? ? ? ? ? ? ? ? ? ㎜ ㎝ ㎞ ? ? ㎡ ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ㏄ ? ? ? ? ? ? ? ? ? ㏎ ? ? ㏑ ㏒ ? ? ㏕ ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
- 推薦閱讀:
網(wǎng)絡(luò )編程常用的幾種字符編碼
亂碼是所有程序員都經(jīng)歷過(guò)的噩夢(mèng)。
拯救你生命的只有 UTF-8。
如果你不知道用什么字符集,用 UTF-8,如果沒(méi)有強制要求,也用 UTF-8,相信我,沒(méi)錯的。
從上面的網(wǎng)頁(yè)使用的編碼就知道為什么了。如果你的公司還在使用 ISO-8895-1 的話(huà),你可以好好鄙視下,說(shuō)明這公司負責技術(shù)的不行嘛。
如果你公司是中文公司,被強制使用 GBK 或者 GB18030,你就不要鄙視了,因為使用 GB 字符集是在中國大陸銷(xiāo)售的軟件的強制標準,但是還使用 GB 2312 的話(huà),你也可以鄙視下了。
歐美的編碼
歐美常常使用的編碼是不適合中文使用的,換句話(huà)說(shuō)就是你寫(xiě)的代碼沒(méi)有辦法接受中文的輸入也沒(méi)有辦法存儲中文,當然也沒(méi)有辦法存儲日韓文字了。
ASCII 編碼
(American Standand Code for InformationInterchange) 的縮寫(xiě)
ASCII 碼是計算機最開(kāi)始支持的基于拉丁字母的編碼,一個(gè)字符用一個(gè)字節表示,只用了低 7 位,最高位為 0,因此總共有 128 個(gè)ASCII碼,范圍為 0~127。
這個(gè)編碼應該是大學(xué)計算機課程的第一節課,就是要學(xué)習 ASCII 編碼。
這個(gè)字符集簡(jiǎn)單來(lái)說(shuō)就是只能用于英文,字符集太小,啥都存不下。
ISO-8859-1 編碼
ISO -8859-1編碼 是單字節編碼 ,向下兼容ASCII,其編碼*范圍是0x00-0xFF,0x00-0x7F之間完全和ASCII一致,0x80-0x9F之間是控制字符,0xA0-0xFF之間是文字符號。
因為 ASCII 字符集實(shí)在太小了,現在就有了 ISO-8859-1。
對我們來(lái)說(shuō)這個(gè)字符集的最大問(wèn)題就是不能支持中文,韓語(yǔ),日文,在歐美國家用用還行。
但是很多軟件默認都使用 ISO-8859-1,歐美國家的程序員又沒(méi)有太多字符集的需求,因此很有可能會(huì )默認就使用這個(gè)字符集,所以你也可以吐槽下。
中文字符集
中文字符集就是我們常用的 GB 字符集了。
GB是國標 兩字的拼音首字,2312 是標準序號。GB 有 3 個(gè)版本,按照字符集的大小排序,其實(shí)也是按照發(fā)布時(shí)間排序。
GB2312
最早的中文字符集,和 ASCII 字符集一樣,字符集太小,很多漢字打不出來(lái),異體字也打不出來(lái)。
GB2312 規定對收錄的每個(gè)字符采用兩個(gè)字節表示。
GBK
即漢字國標擴展碼。
GBK編碼,是對GB2312編碼的擴展,因此完全兼容GB2312-80標準。GBK編碼依然采用雙字節編碼方案,其編碼范圍:8140-FEFE,剔除xx7F碼位,共23940個(gè)碼位。共收錄漢字和圖形符號21886個(gè),其中漢字(包括部首和構件)21003個(gè),圖形符號883個(gè)。GBK編碼支持國際標準ISO/IEC10646-1和國家標準GB13000-1中的全部中日韓漢字,并包含了BIG5編碼中的所有漢字。GBK編碼方案于1995年12月15日正式發(fā)布,這一版的GBK規范為1.0版。
Windows 95 系統就是以GBK為內碼,又由于GBK同時(shí)也涵蓋了Unicode 所有CJK漢字,所以也可以和Unicode 做一一對應。
從 2000 年以后的程序設計相關(guān),如果是中文的話(huà),基本上都會(huì )使用 GBK 字符集了,已經(jīng)不怎么使用 GB2312 字符集了。
因為 GBK 的字符存儲得更多,生僻字也可以顯示了。
GB18030
2000年3月17日發(fā)布的漢字編碼國家標準GB18030編碼,是對GBK編碼的擴充,覆蓋中文、日文、朝鮮語(yǔ)和中國少數民族文字,其中收錄27484個(gè)漢字。
GB18030字符集采用單字節、雙字節和四字節三種方式對字符編碼。兼容GBK和GB2312字符集。
它完全兼容ASCII碼與GBK碼。
GB18030 是對 GBK 編碼的進(jìn)一步擴充,字符集更大,可以存儲的漢字更多。
但是針對 Web 開(kāi)發(fā)來(lái)說(shuō),其實(shí)我們也用不到那么多漢字,所以現在很多網(wǎng)站還是在使用 GBK 的編碼。
BIG5
這個(gè)簡(jiǎn)稱(chēng)就是繁體中文使用的,主要在臺灣,香港地區使用。
BIG5編碼又稱(chēng)大五碼,是繁體中文字符集編碼標準,共收錄13060個(gè)中文字,其中有二字為重復編碼。
BIG5重復地收錄了兩個(gè)相同的字:“兀、?!保ˋ461及C94A)、“嗀、嗀”(DCD1及DDFC)。
適用于臺灣和香港地區的繁體中文系統軟件等。不過(guò)由于編碼本身存在的問(wèn)題,已經(jīng)基本改用 Unicode 編碼了。
BIG5 目前已經(jīng)不怎么使用了,我們在這里列出來(lái)就是想說(shuō)明下曾經(jīng)還有一個(gè)這樣的編碼而已。
Unicode
你的救星來(lái)了。
Unicode(統一碼、萬(wàn)國碼、單一碼、標準萬(wàn)國碼)編碼就是為了表達任意語(yǔ)言的任意字符而設計的。
目前的情況是大部分程序,數據庫,通訊協(xié)議都會(huì )使用 UTF-8 編碼。
使用 UTF-8 編碼能夠適配所有的字符集并且不容易出現亂碼問(wèn)題。
如果你不知道你要什么編碼,用 UTF-8 編碼就沒(méi)錯的了。
Java 中 String 字符串的存儲是使用 UTF-16 編碼存儲的,在 JDK 9+ 以后的版本,Java 對 String 的存儲進(jìn)行了壓縮以增加空間使用率。
如果你是早期的程序員,你一定經(jīng)歷過(guò)轉碼的痛苦,不要想太多,UTF-8 才是你的真愛(ài)。
本文關(guān)鍵詞:中日韓通用漢字表,中日韓通用漢字unicode,中日韓超大字符集,中日韓統一漢字編碼,中日韓統一漢字字符碼。這就是關(guān)于《中日韓字符集兼容,網(wǎng)絡(luò )編程常用的幾種字符編碼》的所有內容,希望對您能有所幫助!更多的知識請繼續關(guān)注我們!
版權聲明: 本站僅提供信息存儲空間服務(wù),旨在傳遞更多信息,不擁有所有權,不承擔相關(guān)法律責任,不代表本網(wǎng)贊同其觀(guān)點(diǎn)和對其真實(shí)性負責。如因作品內容、版權和其它問(wèn)題需要同本網(wǎng)聯(lián)系的,請發(fā)送郵件至 舉報,一經(jīng)查實(shí),本站將立刻刪除。