Big5(大五码)
字符集名称:Big5
字符集别称:csBig5
Big5,又称为大五码或五大码,是使用繁体中文(正体中文)社群中最常用的电脑汉字字符集标准,共收录13,060个汉字。
中文码分为中文内码及中文交换码两类,Big5属中文内码,知名的中文交换码有CCCII、CNS11643。
Big5虽普及于台湾、香港与澳门等繁体中文通行区,但长期以来并非当地的国家标准,而只是业界标准(de facto standard)。倚天中文系统、Windows等主要系统的字符集都是以Big5为基准,但厂商又各自增删,衍生成多种不同版本。
2003年,Big5被收录到台湾官方标准的附录当中,取得了较正式的地位。这个最新版本被称为Big5-2003。
现在,除了台湾外,其他使用繁体汉字的地区,如香港、澳门,及使用繁体汉字的海外华人,都普遍使用Big5码。这已经成为繁体中文显示的标准格式。
字节结构
Big5码是一套双字节字符集,使用了双八码储存方法,以两个字节来安放一个字。第一个字节称为“高位字节”,第二个字节称为“低位字节”。
“高位字节”使用了0x81-0xFE,“低位字节”使用了0x40-0x7E,及0xA1-0xFE。在Big5的分区中:
0x8140-0xA0FE | 保留给使用者自定义字符(造字区) |
0xA140-0xA3BF | 标点符号、希腊字母及特殊符号, 包括在0xA259-0xA261,安放了双音节度量衡单位用字:兙兛兞兝兡兣嗧瓩糎。 |
0xA3C0-0xA3FE | 保留。此区没有开放作造字区用。 |
0xA440-0xC67E | 常用汉字,先按笔划再按部首排序。 |
0xC6A1-0xC8FE | 保留给使用者自定义字符(造字区) |
0xC940-0xF9D5 | 次常用汉字,亦是先按笔划再按部首排序。 |
0xF9D6-0xFEFE | 保留给使用者自定义字符(造字区) |
值得留意的是,Big5重复地收录了两个相同的字:“兀、兀”(0xA461[U+5140]及0xC94A[U+FA0C])、“嗀、嗀”(0xDCD1[U+55C0]及0xDDFC[U+FA0D])。
因为低位元字符中包含了编程语言、shell、script 中,字串或命令常会用到的特殊字符,例如0x5C “\”、0x7C “|”等。“\” 在许多用途的字串中是当作转义符号又称为跳脱字符,例如 \n(换行)、\r(归位)、\t(tab)、\\(\本身符号)、\"(引号)等等。而 “|” 在UNIX操作系统中大多当作命令管线的使用,如 "ls -la | more" 等等。如果在字串中有这些特殊的转义字符,会被程式或直译器解释为特殊用途。但是因为是中文的原因,故无法正确解释为上面所述的行为,因此程式可能会忽略此转义符号或是中断执行。若此,就违反了使用者本来要当成中文字符一部份使用的本意。
在常用字如“功”(0xA55C)、“許”(0xB35C)、“盖”(0xBB5C)、“育”(0xA87C)中时常出现,造成了许多软件无法正确处理以Big5编码的字串或文件。这个问题被戏谑性地人名化,称为“許功蓋”或“許蓋功”(这三个字都有这种问题)。
一般的解决方法,是额外增加“\”的字符,因为“\\”会被解释为“\”,所以“成功\因素”这个字串就能无误地被程式当作“成功\因素”的字串来处理。但是额外的困扰是,有些输出功能并不会把“\”当作特殊字符看待,所以有些程式或网页就会错误地常常出现在“许功盖”这些字后面多了“\”。
在倚天中文系统,以及后来的Windows 3.1、95及98中,定义了四个私人造字区范围:0xFA40-0xFEFE、0x8E40-0xA0FE、0x8140-0x8DFE、0xC6A1-0xC8FE。
私人造字区的原意,是供使用者加入本来在编码表中缺少的字符,但当每个使用者都在不同的地方加上不同的字符后,当交换资料时,对方便难以知道某一个编码究竟想表达什么字。
Big5未收录汉字
自中文电脑流行后,由于很多日常用字被视为异体字而未收录。很多人,甚至电视台的字幕、报纸的用字习惯都被改变。
例如台湾教育部视“着”为“著”的异体字,故没有收录“着”字。康熙字典中的一些部首用字(如“亠”、“疒”、“辵”、“癶”等)、常见的人名用字(如“堃”(前中华民国前行政院长游锡堃)、“煊”(中华民国监察院院长、前财政部长王建煊)、“栢”(歌手张柏芝)、“喆”(歌手陶喆)等),虽被中文社会广泛采用,也没有收录到Big5之中。
在互联网上,实在不难看到人们把游锡堃、王建煊、陶喆等名字,写成为“游锡方方土”、“王建火宣”和“陶吉吉”等写法。电视上日本动画的中文字幕中也会看到像“木坚”这样的字。
在仓颉中却可打之
"邨"与"着"在香港里极为常用
未收录的字 | 有收录的字 | 原因 | 仓颉码 |
---|---|---|---|
綫 | 線 | 俗字 | 女火戈戈 |
綉 | 繡 | 俗字 | 女火竹木尸 |
邨 | 村 | 被认为是异体字 | 心山弓中(2) |
滙 | 匯 | 异体字 | 水尸人土 |
栢 | 柏 | 异体字 | 木一日 |
峯 | 峰 | 异体字 | 山竹水十(2) |
頴 | 穎 | 异体字 | 心火一月金(3) |
着 | 著 | 被认为是异体字 | 廿手月山 |
双 | 雙 | 简体字 | 水水(2) |