標籤: 暫無標籤

1簡介

內碼是指計算機漢字系統中使用的二進位字元編碼,是溝通輸入、輸出與系統平台之間的交換碼,通過內碼可以達到通用和高效率傳輸文本的目的。比如MS Word中所存儲和調用的就是內碼而非圖形文字。英文ASCII 字元採用一個位元組的內碼錶示,中文字元如國標字符集中,GB2312、GB12345、GB13000皆用雙位元組內碼,GB18030(27,533漢字)雙位元組內碼漢字為20,902個,其餘6,631個漢字用四位元組內碼。

2分類

字元編碼:字元編碼就是以二進位的數字來對應字符集的字元,目前用得最普遍的字符集是ANSI,對應ANSI字符集的二進位編碼就稱為ANSI碼,DOS和Windows系統都使用了ANSI碼,但在系統中使用的字元編碼要經過二進位轉換,稱為系統內碼。
漢字內碼:ANSI碼是單一位元組(8位二進位數)的編碼集,最多只能表示256個字元,不能表示眾多的漢字字元,各個國家和地區在ANSI碼的基礎上又設計了各種不同的漢字編碼集,以能夠處理大數量的漢字字元。這些編碼使用單位元組來表示ANSI的英文字元(即兼容ANSI碼),使用雙位元組來表示漢字字元。由於一個系統中只能有一種漢字內碼,不能識別其它漢字內碼的字元,造成了交流的不便。
GB碼:GB碼是1980年國家公布的簡體漢字編碼方案,在大陸、新加坡得到廣泛的使用,也稱國標碼。國標碼對6763個漢字集進行了編碼,涵蓋了大多數正在使用的漢字。
GBK碼:GBK碼是GB碼的擴展字元編碼,對多達2萬多的簡繁漢字進行了編碼,簡體版的Win95和Win98都是使用GBK作系統內碼。
BIG5碼:BIG5碼是針對繁體漢字的漢字編碼,目前在台灣、香港的電腦系統中得到普遍應用。
HZ碼:HZ碼是在Internet上廣泛使用的一種漢字編碼。
ISO-2022CJK碼:ISO-2022是國際標準組織(ISO)為各種語言字元制定的編碼標準。採用二個位元組編碼,其中漢語編碼稱ISO-2022 CN,日語、韓語的編碼分別稱JP、KR。一般將三者合稱CJK碼。目前CJK碼主要在Internet網路中使用。
Unicode碼:Unicode碼也是一種國際標準編碼,採用二個位元組編碼,與ANSI碼不兼容。目前,在網路、Windows系統和很多大型軟體中得到應用。

3內碼轉換

由於歷史、地區原因,有時一種文字會出現多種編碼方案,特別是漢字。由於不同於系統內碼的字元不能在該系統中正常顯示,必須要進行字元的內碼轉換,即將非系統內碼的字元轉換為系統可以識別的內碼字元。南極星就是這樣的優秀軟體,其它如四通利方、MagicWin98、兩岸通、漢字通等都是這樣的內碼轉換工具。

相關評論

同義詞:暫無同義詞