• 字体
  • 字体家族
  • 字体公司
  • 字体设计师
  • 字体样张
  • 资讯
  • 帮助
字客网>资讯>详情

Big5(大五码)

时间:2008-05-11 22:18:39| 术语|浏览:4753|作者:
导语字符集名称:Big5字符集别称:csBig5Big5,又称为大五码或五大码,是使用繁体中文(正体中文)社群中最常用的电脑汉字字符集标准,共收录13,060个汉字。中文码分为中文内码及中文交换码两类,Big5属中文内码,知名的中文交换码有CCCII

字符集名称:Big5

字符集别称:csBig5

Big5,又称为大五码或五大码,是使用繁体中文(正体中文)社群中最常用的电脑汉字字符集标准,共收录13,060个汉字。

中文码分为中文内码及中文交换码两类,Big5属中文内码,知名的中文交换码有CCCII、CNS11643。

Big5虽普及于台湾、香港与澳门等繁体中文通行区,但长期以来并非当地的国家标准,而只是业界标准(de facto standard)。倚天中文系统、Windows等主要系统的字符集都是以Big5为基准,但厂商又各自增删,衍生成多种不同版本。

2003年,Big5被收录到台湾官方标准的附录当中,取得了较正式的地位。这个最新版本被称为Big5-2003。

现在,除了台湾外,其他使用繁体汉字的地区,如香港、澳门,及使用繁体汉字的海外华人,都普遍使用Big5码。这已经成为繁体中文显示的标准格式。

字节结构

Big5码是一套双字节字符集,使用了双八码储存方法,以两个字节来安放一个字。第一个字节称为“高位字节”,第二个字节称为“低位字节”。

“高位字节”使用了0x81-0xFE,“低位字节”使用了0x40-0x7E,及0xA1-0xFE。在Big5的分区中:

0x8140-0xA0FE 保留给使用者自定义字符(造字区)
0xA140-0xA3BF 标点符号、希腊字母及特殊符号,
包括在0xA259-0xA261,安放了双音节度量衡单位用字:兙兛兞兝兡兣嗧瓩糎。
0xA3C0-0xA3FE 保留。此区没有开放作造字区用。
0xA440-0xC67E 常用汉字,先按笔划再按部首排序。
0xC6A1-0xC8FE 保留给使用者自定义字符(造字区)
0xC940-0xF9D5 次常用汉字,亦是先按笔划再按部首排序。
0xF9D6-0xFEFE 保留给使用者自定义字符(造字区)

值得留意的是,Big5重复地收录了两个相同的字:“兀、兀”(0xA461[U+5140]及0xC94A[U+FA0C])、“嗀、嗀”(0xDCD1[U+55C0]及0xDDFC[U+FA0D])。

因为低位元字符中包含了编程语言、shell、script 中,字串或命令常会用到的特殊字符,例如0x5C “\”、0x7C “|”等。“\” 在许多用途的字串中是当作转义符号又称为跳脱字符,例如 \n(换行)、\r(归位)、\t(tab)、\\(\本身符号)、\"(引号)等等。而 “|” 在UNIX操作系统中大多当作命令管线的使用,如 "ls -la | more" 等等。如果在字串中有这些特殊的转义字符,会被程式或直译器解释为特殊用途。但是因为是中文的原因,故无法正确解释为上面所述的行为,因此程式可能会忽略此转义符号或是中断执行。若此,就违反了使用者本来要当成中文字符一部份使用的本意。

在常用字如“功”(0xA55C)、“許”(0xB35C)、“盖”(0xBB5C)、“育”(0xA87C)中时常出现,造成了许多软件无法正确处理以Big5编码的字串或文件。这个问题被戏谑性地人名化,称为“許功蓋”或“許蓋功”(这三个字都有这种问题)。

一般的解决方法,是额外增加“\”的字符,因为“\\”会被解释为“\”,所以“成功\因素”这个字串就能无误地被程式当作“成功\因素”的字串来处理。但是额外的困扰是,有些输出功能并不会把“\”当作特殊字符看待,所以有些程式或网页就会错误地常常出现在“许功盖”这些字后面多了“\”。

在倚天中文系统,以及后来的Windows 3.1、95及98中,定义了四个私人造字区范围:0xFA40-0xFEFE、0x8E40-0xA0FE、0x8140-0x8DFE、0xC6A1-0xC8FE。

私人造字区的原意,是供使用者加入本来在编码表中缺少的字符,但当每个使用者都在不同的地方加上不同的字符后,当交换资料时,对方便难以知道某一个编码究竟想表达什么字。

Big5未收录汉字

自中文电脑流行后,由于很多日常用字被视为异体字而未收录。很多人,甚至电视台的字幕、报纸的用字习惯都被改变。

例如台湾教育部视“着”为“著”的异体字,故没有收录“着”字。康熙字典中的一些部首用字(如“亠”、“疒”、“辵”、“癶”等)、常见的人名用字(如“堃”(前中华民国前行政院长游锡堃)、“煊”(中华民国监察院院长、前财政部长王建煊)、“栢”(歌手张柏芝)、“喆”(歌手陶喆)等),虽被中文社会广泛采用,也没有收录到Big5之中。

在互联网上,实在不难看到人们把游锡堃、王建煊、陶喆等名字,写成为“游锡方方土”、“王建火宣”和“陶吉吉”等写法。电视上日本动画的中文字幕中也会看到像“木坚”这样的字。

在仓颉中却可打之
"邨"与"着"在香港里极为常用

未收录的字 有收录的字 原因 仓颉码
俗字 女火戈戈
俗字 女火竹木尸
被认为是异体字 心山弓中(2)
异体字 水尸人土
异体字 木一日
异体字 山竹水十(2)
异体字 心火一月金(3)
被认为是异体字 廿手月山
简体字 水水(2)

0
  • 关注字客网公众号领取Z码
  • 关注字体先森公众号抽取SVIP
Big5(大五码) 网友点评
游客:文明上网,理性发言。 看不清?换一张
Big5(大五码) 最新评论
暂无相关评论