評論(0

香港增補字符集

標籤:字符集字形

香港增補字符集(Hong Kong Supplementary Character Set,簡稱 HKSCS)是香港政府基於繁體中文電腦操作環境中最流行的Big5(大五碼)之上擴展的字元集標準,是現時香港的中文資訊交換內碼標準。香港增補字符集以前稱為《政府通用字型檔》(Government Common Character Set, 簡稱 GCCS),本來只是香港政府內部統一使用的造字檔,有三千多字。

1簡介

由於香港電腦業界不斷要求政府迎合本地需要,提出官方的字符集方案,以便與政府進行文件來往,於是香港政府便在1995年把這個內部使用的標準公開。到了1999年,此字集增加到四千多字,並改為現名。字符集所收羅的字,主要包括香港的地名、人名用漢字、粵語漢字及異體字,也有小部份簡體字。除此之外,此字符集亦把倚天中文系統收錄的日語平假名、片假名及俄語西里爾字母包括在內。此字符集由中文界面諮詢委員會管理,仍在不斷擴編之中。最新版本為 2005 年 5 月推出的 HKSCS-2004,收錄 4,941 個字元。

2源起

1980年代中期, 台灣的中文電腦的通行內碼為 Big5 編碼。1990年代初期,香港電腦應用逐漸普及,而政府各部門也電腦化。和台灣一樣,香港也是使用繁體中文的地方,是故也採用了 Big5 編碼。可是 Big5 碼本身沒有收錄香港常用的廣東字、一些人名地名用字、一些學科用字,於是香港政府各部門使用 Big5 的外字區,自行補上這些字,並在政府內部使用。香港業界也不斷要求政府,本地需要一套標準字符集來作電子文件來往。到1995年,互聯網在香港起步,而政府也推出了自己的網站。各人電腦的中文系統雖然都用 Big5 編碼, 但都沒有政府用的外字,更可能用了自己的外字,使在瀏覽網頁時不能顯示正確的字元。香港政府於是把內部使用的 Big5 外字集公開,讓各界可以下載安裝這批字,使電腦能顯示正確的字元,並把這套字命名為「政府通用字型檔」。

3負責機構

負責整套字符集管理的為中文界面諮詢委員會, 簡稱「中諮會」, 英文名 Chinese Language Interface Advisory Committee (CLIAC)。1999年5月由前資訊科技署成立, 現隸屬「政府資訊科技總監辦公室」。中諮會轄下有兩個工作小組: 中文電腦用字工作小組、中文資訊科技工作小組。中文電腦用字工作小組審核待增收字元, 納入和編配碼位等工作;中文資訊科技工作小組解決技術問題及與國際標準 ISO/IEC 10646(簡稱 ISO10646)接軌等工作。各組成員來自學術界、語言學界、出版界和資訊科技界等。

4字元分類

在 HKSCS-2004 版本,漢字字元共 4500 個,其中 3353 字可在大型的字典(如《漢語大字典》)中查到,包括簡化字、異體字、日語漢字等。其餘在各大中文字典中查不到的字中,有粵語方言字(有些可在方言字典及學術著作中查到)、人名、公司名、地方名、變形部首、附形、訛字。有些字來自入境事務處、公司註冊處、稅務局、地政總署。
各類符號共 441 個,有漢字筆形、漢語拼音字母、國際音標符號、漢字元件、畫表符號、日本平假名、片假名等。

5部首、畫數、讀音

香港增補字符集在 2005 年才有畫數、部首、粵音等資料給用戶參考, 還說明方便檢索, 而非作為規範標準。(漢字的部首在不同的字典中, 歸部也不盡相同)

6 編碼和 Big5 的關係

香港增補字符集當初因為是補充 Big5 的收字不足,使用其外字區而發展的,所以受制於 Big5 的編碼架構,外字的總數最多只能到 6217 個(每區塊 157 字,有 39 區塊半)。除去已用碼位,剩下千餘個碼位,其中有部分會保留給用戶造字。
早期的倚天中文系統、國喬中文系統等對造字缺乏管理,而又沒有文字專家的審定,因此當時造字很是混亂,有些甚至可能只是臨時使用的「錯字」(尋遍各大字典、專書也查不到的字);製作這些中文系統的廠商又對字形、字體缺乏認識,有些字會因為字體不同而字形稍有差別,分別編進了兩個碼位中。又有同一字有系統區及造字區兩個碼位,有些聯綿詞只收其一不收其二;這個問題帶到了政府通用字型檔和香港增補字符集中,字集因要反向相容而跳過了一些碼位。
Big5 原來的編碼,只有漢字、標點、注音符號等字元及少數圖形,後來經過台灣廠商的增收,多了 7 個「倚天字」(如里、恆)及日文的假名,最後這批字元又被香港增補字符集收入。
香港增補字符集所使用的 Big5 的外字區分幾個區段:
「造字區一」(FA40 — FEFE):早期的 GCCS 字符集已經填滿這一段。
「造字區二」(C6A1 — C8FE):倚天用了這段來放日文假名等符號。這些符號在 HKSCS 1999 年的版本被收納。
「造字區三」(8140 — A0FE):香港增補字符集把這段開頭的 (8140 — 84FE) 保留給用戶,新增的字元只用其餘的碼位。
「廠商造字區」(F9D6 — F9FE):這段開始的七個碼位用來存放里、恆等「倚天字」,之後的碼位被微軟的繁體中文 Windows 用來存放製表符號。後來 HKSCS 1999 年版本將之全部收納。
可是一般提及 HKSCS 的文件,包括來自香港政府的,都沒有註明 HKSCS 以外的一般繁體字編碼(即是 Big5 本身)使用哪個版本。Big5 在 2003 年前就只有一個版本,不會造成混淆,但 HKSCS-2004 的文件仍沒有指定 Big5 部份是 2003 年之後還是之前的版本,雖然到目前為止並沒有任何系統使用 Big5-2003。

7 編碼和和 ISO 10646/Unicode 的關係

1995 年的政府通用字型檔本來是內部使用的,到 1999 年才成立中諮會專門去負責增收及審核字元的工作,並與 ISO 10646 接軌。中諮會的成員會把香港增補字符集交到 ISO 的表意文字小組中,盡量讓其所有字元納入國際標準。表意文字小組會定期開會審議漢字的收納等工作, 成員是來自世界各地的專家。
香港字在 Big5HKSCS 內的碼位,都能對應到 ISO 10646 中日韓漢字區段中的碼位,或 Private Use Area(用戶造字區,簡稱 PUA)內。隨著版本的更新,造字區的字會逐漸搬到中日韓漢字擴展區內。將所有已納入的 HKSCS 字元搬到正式中日韓漢字擴展區段(非 PUA 區段)的工作在 2005 年完成,對應於 ISO 10646:2003 的第一修訂版,相應的 Unicode 版本為 Unicode 4.1。
不過,因為目前流傳極多使用舊版 HKSCS 的系統產生出來的文件,為了方便過渡,在 HKSCS 的定義中,在 Unicode PUA 所分配的字元位置會予以保留,不會給新加入而且未分配正式 Unicode 位置的字元使用。

8字體的提供

最初的香港字,是由早期的台灣廠商 (像倚天等) 和用戶自行造字所得。因為大部份都不合標準和沒有流通,所以沒有沿用至今。後來,Truetype 字體盛行,中文字的廠商都開始加入香港字,但因為是商業性質,沒有足夠的流通量。另外,在支援超大字型檔的字體方面,因為 HKSCS 某些字和大陸 GBK 碼有衝突,廠商經常會因市場關係捨棄一些香港字。
香港政府的「數碼 21」網頁 (詳見下面的外部連結) 有提供由華康授權的香港字參考宋體,但一來是使用條款苛刻而不可能廣泛使用,二來是沒有推廣,致使政府內部人員也不知道這套字體的存在。
目前由商業主導的情況漸有改變,近況如下:
開放源碼字體
文鼎在 1999 年捐了四套字體 (繁簡明體和楷書) 給自由軟體界,但當中沒有香港字。後來高盛華 (Arne Götje ) 發起計劃將繁簡體合併,稱之為 CJK Unifonts。當中,Akar、Zunix 等人在 2004 年末另外發起香港 freefonts 計劃,將香港字加入CJK Unifonts之內,到了 2005-09-01 完成將 HKSCS 2004 加入 CJK Unifonts 的工作。目前 CJKUnifonts 已被收錄在各大 Linux distribution 之內。
商業字體
最早一套宣稱支援 HKSCS 2004 的字體,是華康「金蝶 2006 H.K. Edition」,在 2005-11-14 推出。
增收字元
「中諮會」會讓各界申請新字元,不過要經過審核批准,才會給字元編配碼位。而用戶自造的字,可視乎需要加入,特別是一些人名地名等會經過互聯網傳送的字。另外,這些增收的字元不一定能夠收錄在 Unicode 之內,例如一些能夠表示成 Unicode 複合字元的字或符號,便不會收錄。
另外因為現在餘下的 big5 相容碼位不多(2005 年 9 月為止只剩 487 個未用),中文界面諮詢委員會暫定打算在 2007-08 年停止為字元提供 big5 碼位,並在之前盡量協助業界和一般用戶過渡至 Unicode。

9操作系統的支援

香港增補字符集開始時只有 Windows 版本的 Big5 編碼, 後來與 ISO 10646 接軌後, 才開始在 Linux、MacOS 等系統中使用。理論上因為 ISO 10646 已收納香港增補字符集, 任何支援 ISO 10646 的系統都可使用香港字。但實際上,許多舊的程式內部是使用 UCS-2(每個字占 2 位元組)儲存字串,無法表示許多放在基本多文種平面 (簡稱 BMP) 以外的所有香港字。只有使用 UCS-4(每個字占 4 位元組)作為內部儲存字串編碼的程式,才能夠完整地顯示所有香港字。
Windows顯示和處理字元
根據 Microsoft 的網頁,在 Longhorn 或以後的版本將不再支援 HKSCS-2004 的 Big5 擴展編碼(通常稱為 Big5HKSCS),而只使用 Unicode 中的香港字支援。
至於 HKSCS-2001,可以在微軟的網頁(請看下面的外部連結)中下載香港增補字符集;它支援 Windows 98、NT、2000 和 XP。可是安裝該套件和其它軟體(例如 Office)需要有一定的次序,而且它和別的 Big5 外字集並不相容,必須先瀏覽有關文件方可安裝。
Linux顯示和處理字元
自從 glibc 在 2000 年加入香港字 (同時包括 big5hkscs 和 unicode 碼兩者的轉換表) 的支援後,就幾乎沒有再更新過,其中的 Big5 部份更是來自年代久遠的 Big5 / Unicode 轉換碼錶,當中有不少錯誤之處,令一些文件和網頁無論使用 Big5 還是 Big5HKSCS 轉換至 Unicode 都會出現錯誤。暫時未有任何更新。相反地,如果單是使用 unicode 作為系統編碼,處理香港字則沒有問題。
桌面環境方面,KDE 3.x 桌面因為使用 QT 3.x,而 QT 3.x 內部使用 UCS-2 儲存字元,因此 KDE 3.x 只能有限度地顯示少部份香港字。這情況期望在 KDE 4.0 解決。
GNOME 沒有這方面的問題,只要是使用 Unicode,在 2004 至 05 年間就已經能夠顯示所有 BMP 以外的字元。
MacOS顯示和處理字元
Mac OS X 10.0 至 10.2 版本支援的版本為 HKSCS 1999,暫時未知道最新版的 Mac OS X 支援哪個版本。

10使用地區

除了香港使用香港字以外,現在台灣的中文電腦也有少部分使用它的 (台灣也有自己的一兩套外字集)。而同樣使用粵語和繁體字的澳門當然也使用這套字集,也許還有其它華語地區會使用。

11評價

香港增補字符集因為一直需要和 Big5 碼相容,所以可以說是一套先天不足的字集。它要處理前期許多遺留下來的問題,也有外字字數上限,致使香港政府打算在 2007-08 年放棄它的 Big5 編碼。如果系統使用 Unicode 編碼,用它反而較好。當今的趨勢是使用 Unicode,它有足夠的字元,幾乎可以滿足文字學家、字典專家的用字要求。但因為相容性的關係,要將整個系統由使用 Big5 碼轉換至 Unicode 頗費時,因此還會有人暫時不願意轉換。
上一篇[簡繁轉換]  

相關評論

同義詞:暫無同義詞