2008-03-11
[zz]GB2312/GBK/GB18030/BIG5 的历史
关键字: 字符集
http://iask.sina.com.cn/b/7837434.html?from=related
GBK中的“K”是扩展的意思,而GB2312中的“2312”以及GB18030中的“18030”是国家标准的代号,BIG5是港澳台地区的编码。
下面详细介绍一下字库情况,你就可看出其区别:
(一)GB2312-80字库
从1975年开始,我国为了研究汉字的使用频度,进行了大规模的字频统计工作,内容包括工业、农业、军事、科技、政治、经济、文学、艺术、教育、体育、医药卫生、天文地理、自然、化学、文字改革、考古等多方面的出版物,在数以亿计的浩翰文献资料中,统计出实际使用的不同的汉字数为6335个,而其中有 3000多个汉字的累计使用频度达到了99.9%,而另外的3000多个累计频度不到0.1%,说明了常用汉字与次常用汉字的数量不足7000个,这就为国家制定汉字库标准提供了依据。1980年颁布了《信息交换用汉字编码字符集--基本集》的国标交换码,国家标准号为:GB2312-80,选入了 6763个汉字,分为两级,一级字库中有3755个,是常用汉字,二级字库中有3008个,是次常用汉字;还选入了682个字符,包含有数字、一般符号、拉丁字母、日本假名、希腊字母、俄文字母、拼音符号、注音字母等。
(二)大字符集字库(又叫GBK字库)
国际标准化组织为了将世界各民族的文字进行统一编码,制定了UCS标准。根据这一标准,中、日、韩三国共同制定了《CJK统一汉字编码字符集》,其国际标准号为:ISO/IEC10646,国家标准号为:GB13000-90,该汉字编码字符集就是通常人们所说的大字符集,它编入了20902个汉字,收集了大陆一二级字库中的简体字,台湾《通用汉字标准交换码》中的繁体字,58个香港特别用字和92个延边地区朝鲜族“吏读”字,甚至涵盖了日文与韩文中的通用汉字,满足了方方面面的需要。Windows95/98/NT/2000中都装入了大字符集汉字库,人们一般称它为GBK字库。有了GBK字库,还要有对应的汉字输入法,才能输入其中的全部汉字,如果某种汉字输入法仅编入了一二级字库,仍然只能输入6763个汉字。
(三)台湾 BIG5 字库
港澳台地区普遍使用台湾的《通用汉字标准交换码》,地区标准号为:CNS11643,选入了13 000多个繁体汉字,这就是人们讲的BIG5码,或叫大五码。 钱码的“海外繁体版”编入了BIG5字库,能输入13 000多个繁体汉字。
四)新标准汉字库 (GB18030-2000)
2000年3月,国家信息产业部和质量技术监督局在北京联合发布了两项新标准,一项叫做《信息技术和信息交换用汉字编码字符集、基本集的扩充》,国家标准号为:GB18030-2000,收录了27533个汉字,还收录了藏、蒙、维等主要少数民族的文字,以期一举解决邮政、户政、金融、地理信息系统等生僻汉字与主要少数民族语言的输入,该标准于2000年12月31日强制执行;另一项是《信息技术和数字键盘汉字输入通用要求》,国家标准号是: GB/T18031-2000,为数字键盘输入提供了统一的标准。 新标准汉字库已经公布,迫切需要与之相应的输入方法。
(五)方正超大字符集
方正超大字符集字体包括了上面提到的全部汉字以及在第二平面中(42,711)选出的36,862个在中国大陆,香港特别行政区(以及部分台湾地区)使用的汉字。因此包括西文等常用字符在内,宋体-方正超大字符集共包括65,531个字符。这是目前包含字数最全的字库。要安装该字库需在安装WinXP时采用自定义安装,选择安装宋体-方正超大字符集,但是一般的输入法是无法打出这么多的字的,但可以用“插入”—“符号”的方法选择插入。
GBK中的“K”是扩展的意思,而GB2312中的“2312”以及GB18030中的“18030”是国家标准的代号,BIG5是港澳台地区的编码。
下面详细介绍一下字库情况,你就可看出其区别:
(一)GB2312-80字库
从1975年开始,我国为了研究汉字的使用频度,进行了大规模的字频统计工作,内容包括工业、农业、军事、科技、政治、经济、文学、艺术、教育、体育、医药卫生、天文地理、自然、化学、文字改革、考古等多方面的出版物,在数以亿计的浩翰文献资料中,统计出实际使用的不同的汉字数为6335个,而其中有 3000多个汉字的累计使用频度达到了99.9%,而另外的3000多个累计频度不到0.1%,说明了常用汉字与次常用汉字的数量不足7000个,这就为国家制定汉字库标准提供了依据。1980年颁布了《信息交换用汉字编码字符集--基本集》的国标交换码,国家标准号为:GB2312-80,选入了 6763个汉字,分为两级,一级字库中有3755个,是常用汉字,二级字库中有3008个,是次常用汉字;还选入了682个字符,包含有数字、一般符号、拉丁字母、日本假名、希腊字母、俄文字母、拼音符号、注音字母等。
(二)大字符集字库(又叫GBK字库)
国际标准化组织为了将世界各民族的文字进行统一编码,制定了UCS标准。根据这一标准,中、日、韩三国共同制定了《CJK统一汉字编码字符集》,其国际标准号为:ISO/IEC10646,国家标准号为:GB13000-90,该汉字编码字符集就是通常人们所说的大字符集,它编入了20902个汉字,收集了大陆一二级字库中的简体字,台湾《通用汉字标准交换码》中的繁体字,58个香港特别用字和92个延边地区朝鲜族“吏读”字,甚至涵盖了日文与韩文中的通用汉字,满足了方方面面的需要。Windows95/98/NT/2000中都装入了大字符集汉字库,人们一般称它为GBK字库。有了GBK字库,还要有对应的汉字输入法,才能输入其中的全部汉字,如果某种汉字输入法仅编入了一二级字库,仍然只能输入6763个汉字。
(三)台湾 BIG5 字库
港澳台地区普遍使用台湾的《通用汉字标准交换码》,地区标准号为:CNS11643,选入了13 000多个繁体汉字,这就是人们讲的BIG5码,或叫大五码。 钱码的“海外繁体版”编入了BIG5字库,能输入13 000多个繁体汉字。
四)新标准汉字库 (GB18030-2000)
2000年3月,国家信息产业部和质量技术监督局在北京联合发布了两项新标准,一项叫做《信息技术和信息交换用汉字编码字符集、基本集的扩充》,国家标准号为:GB18030-2000,收录了27533个汉字,还收录了藏、蒙、维等主要少数民族的文字,以期一举解决邮政、户政、金融、地理信息系统等生僻汉字与主要少数民族语言的输入,该标准于2000年12月31日强制执行;另一项是《信息技术和数字键盘汉字输入通用要求》,国家标准号是: GB/T18031-2000,为数字键盘输入提供了统一的标准。 新标准汉字库已经公布,迫切需要与之相应的输入方法。
(五)方正超大字符集
方正超大字符集字体包括了上面提到的全部汉字以及在第二平面中(42,711)选出的36,862个在中国大陆,香港特别行政区(以及部分台湾地区)使用的汉字。因此包括西文等常用字符在内,宋体-方正超大字符集共包括65,531个字符。这是目前包含字数最全的字库。要安装该字库需在安装WinXP时采用自定义安装,选择安装宋体-方正超大字符集,但是一般的输入法是无法打出这么多的字的,但可以用“插入”—“符号”的方法选择插入。
评论
iunknown
2008-03-20
vim 显示 utf8 文件
set termencoding=cp936
set enc=utf-8
set termencoding=cp936
set enc=utf-8
iunknown
2008-03-20
http://www.joelonsoftware.com/articles/Unicode.html
There are hundreds of traditional encodings which can only store some code points correctly and change all the other code points into question marks.
UTF 7, 8, 16, and 32 all have the nice property of being able to store any code point correctly.
The traditional store-it-in-two-byte methods are called UCS-2 (because it has two bytes) or UTF-16 (because it has 16 bits), and you still have to figure out if it's high-endian UCS-2 or low-endian UCS-2.
There are actually a bunch of other ways of encoding Unicode. There's something called UTF-7, which is a lot like UTF-8 but guarantees that the high bit will always be zero, so that if you have to pass Unicode through some kind of draconian police-state email system that thinks 7 bits are quite enough, thank you it can still squeeze through unscathed. There's UCS-4, which stores each code point in 4 bytes, which has the nice property that every single code point can be stored in the same number of bytes, but, golly, even the Texans wouldn't be so bold as to waste that much memory.
There are hundreds of traditional encodings which can only store some code points correctly and change all the other code points into question marks.
UTF 7, 8, 16, and 32 all have the nice property of being able to store any code point correctly.
The traditional store-it-in-two-byte methods are called UCS-2 (because it has two bytes) or UTF-16 (because it has 16 bits), and you still have to figure out if it's high-endian UCS-2 or low-endian UCS-2.
There are actually a bunch of other ways of encoding Unicode. There's something called UTF-7, which is a lot like UTF-8 but guarantees that the high bit will always be zero, so that if you have to pass Unicode through some kind of draconian police-state email system that thinks 7 bits are quite enough, thank you it can still squeeze through unscathed. There's UCS-4, which stores each code point in 4 bytes, which has the nice property that every single code point can be stored in the same number of bytes, but, golly, even the Texans wouldn't be so bold as to waste that much memory.
iunknown
2008-03-13
http://www.cl.cam.ac.uk/~mgk25/ucs/utf-8-history.txt
UTF-8 was designed, in front of my eyes, on a placemat in a New Jersey diner one night in September or so 1992.
UTF-8 was designed, in front of my eyes, on a placemat in a New Jersey diner one night in September or so 1992.
iunknown
2008-03-12
http://www.cl.cam.ac.uk/~mgk25/unicode.html
If you use the term “UCS”, “ISO 10646”, or “Unicode”, this just refers to a mapping between characters and integers. This does not yet specify how to store these integers as a sequence of bytes in memory.
If you use the term “UCS”, “ISO 10646”, or “Unicode”, this just refers to a mapping between characters and integers. This does not yet specify how to store these integers as a sequence of bytes in memory.
iunknown
2008-03-11
http://www.linuxforum.net/doc/i18n-new.html
"中文化"是一个很模糊的概念.在Linux上的"中文化"它既包含使 软件或系统国际化,又包含使软件本地化.也就是说, "中文化"不仅仅 是只把软件本地化这么简单的事情, 更重要的是因为Linux直接支持中文的软件太少, 做"中文化"必须先做"国际化".
但是, Unicode作为一种编码也有它的缺陷, 比如编码的位置与排序无关,所以使软件支持Unicode仅仅是国际化的第一步, 实际情况中还需要与语言相关的信息和规则.所以Unicode一般作为程序的内部处理编码, 必须提供与其它 编码的双向转换表.
在实际应用中, 字符串往往是中文和英文的混和字符串, 所以必须使用两种字体来绘出该字符串, 这种指定两种或两种以上的字体的描述就是字体集.字体集一般的格式是把多种字体用逗号隔开
令人遗憾的是, 中文的GB编码和Big5编码有重叠区域, 不能区分开来, 所以字体集并不能同时指定GB和Big5的字体.
在文本浏览,网页浏览或网页翻译时, 通常需要自动识别汉字的内码, 但是中文的GB编码和Big5编码有重叠区域,所以很难区分开.目前公开 源代码的识别软件很少, 识别结果不能令人满意,远没有达到目前商业软件 的识别水平.
按国际化的级别来分, 下列几种情况都属于国际化:
1. 语言可以切换.在系统启动时可以设置某种语言
2. 使用不同语言的软件可以同时使用, 在应用软件启动时可以 设置某种语言
3. 使用不同语言的软件可以同时使用, 而且应用软件的语言可 以动态切换
4. 使用不同语言的软件可以同时使用, 而且在应用软件中可以 同时使用不同语言
显然, 第(4)种国际化方式是最完善的方式, 其次是第(3)种,第(2)种 和第(1)种.mltalk 最终决定使用第(3)种, 原因是需要支持第(4)种的 X窗口系统供应商是少数的.从目前Linux上的国际化情况看,支持第(2), (3)种的国际化软件是最常见的, 但是第(4)种软件比较少见,而且应用的 意义不是很大.
"中文化"是一个很模糊的概念.在Linux上的"中文化"它既包含使 软件或系统国际化,又包含使软件本地化.也就是说, "中文化"不仅仅 是只把软件本地化这么简单的事情, 更重要的是因为Linux直接支持中文的软件太少, 做"中文化"必须先做"国际化".
但是, Unicode作为一种编码也有它的缺陷, 比如编码的位置与排序无关,所以使软件支持Unicode仅仅是国际化的第一步, 实际情况中还需要与语言相关的信息和规则.所以Unicode一般作为程序的内部处理编码, 必须提供与其它 编码的双向转换表.
在实际应用中, 字符串往往是中文和英文的混和字符串, 所以必须使用两种字体来绘出该字符串, 这种指定两种或两种以上的字体的描述就是字体集.字体集一般的格式是把多种字体用逗号隔开
令人遗憾的是, 中文的GB编码和Big5编码有重叠区域, 不能区分开来, 所以字体集并不能同时指定GB和Big5的字体.
在文本浏览,网页浏览或网页翻译时, 通常需要自动识别汉字的内码, 但是中文的GB编码和Big5编码有重叠区域,所以很难区分开.目前公开 源代码的识别软件很少, 识别结果不能令人满意,远没有达到目前商业软件 的识别水平.
按国际化的级别来分, 下列几种情况都属于国际化:
1. 语言可以切换.在系统启动时可以设置某种语言
2. 使用不同语言的软件可以同时使用, 在应用软件启动时可以 设置某种语言
3. 使用不同语言的软件可以同时使用, 而且应用软件的语言可 以动态切换
4. 使用不同语言的软件可以同时使用, 而且在应用软件中可以 同时使用不同语言
显然, 第(4)种国际化方式是最完善的方式, 其次是第(3)种,第(2)种 和第(1)种.mltalk 最终决定使用第(3)种, 原因是需要支持第(4)种的 X窗口系统供应商是少数的.从目前Linux上的国际化情况看,支持第(2), (3)种的国际化软件是最常见的, 但是第(4)种软件比较少见,而且应用的 意义不是很大.
iunknown
2008-03-11
http://www.ibm.com/developerworks/cn/linux/i18n/unicode/linuni/
ASCII 是一个编码字符集(coded character set,CCS),换句话说,它是整数到字符表示的映射。ASCII 编码字符集允许用一个八位(基于二进制的,用值 0 或 1 表示的)字段或字节(2^8 =256)表示 256 个字符。
C 语言库将会依次测试环境变量 LC_ALL、LC_CTYPE 和 LANG。其中第一个含值的环境变量将决定为 LC_CTYPE 类别装入哪种语言环境数据。语言环境数据分裂成独立的类别。值 LC_CTYPE 定义了字符编码,而 LC_COLLATE 定义了排序顺序。我们用 LANG 环境变量为所有类别设置缺省语言环境,但 LC_* 变量可以用来覆盖单个类别。
ASCII 是一个编码字符集(coded character set,CCS),换句话说,它是整数到字符表示的映射。ASCII 编码字符集允许用一个八位(基于二进制的,用值 0 或 1 表示的)字段或字节(2^8 =256)表示 256 个字符。
C 语言库将会依次测试环境变量 LC_ALL、LC_CTYPE 和 LANG。其中第一个含值的环境变量将决定为 LC_CTYPE 类别装入哪种语言环境数据。语言环境数据分裂成独立的类别。值 LC_CTYPE 定义了字符编码,而 LC_COLLATE 定义了排序顺序。我们用 LANG 环境变量为所有类别设置缺省语言环境,但 LC_* 变量可以用来覆盖单个类别。
iunknown
2008-03-11
前面提到从ASCII、GB2312、GBK到GB18030的编码方法是向下兼容的。而Unicode只与ASCII兼容(更准确地说,是与ISO-8859-1兼容),与GB码不兼容。例如“汉”字的Unicode编码是6C49,而GB码是BABA。
iunknown
2008-03-11
http://www.fmddlmyy.cn/text16.html
文字的显示应该是这样的:
* 步骤1:文字首先以某种编码保存在文件中。
* 步骤2:Windows将文件中的文字编码映射到Unicode。
* 步骤3:Windows按照Unicode在字体文件中查找字体图像,画到窗口上。
代码页(Code Page)是个古老的专业术语,据说是IBM公司首先使用的。代码页和字符集的含义基本相同,代码页规定了适用于特定地区的字符集合,和这些字符的编码。可以将代码页理解为字符和字节数据的映射表。
在Windows 2000以后,Windows统一采用UTF-16作为内部字符编码。现在,安装一个代码页就是安装一张代码页转换表。通过代码页转换表,Windows 既可以将代码页的编码转换到UTF-16,也可以将UTF-16转换到代码页的编码。代码页转换表的具体实现可以是一个以nls为后缀的数据文件,也可以是一个提供转换函数的动态链接库。有的代码页是不需要安装的。例如:Windows将UTF-7和UTF-8分别作为代码页65000和代码页 65001。UTF-7、UTF-8和UTF-16都是基于Unicode的编码方案。它们之间可以通过简单的算法直接转换,不需要安装代码页转换表。
在安装过一个代码页后,Windows就知道怎样将该代码页的文本转换到Unicode文本,也知道怎样将Unicode文本转换成该代码页的文本。
其实,如果全世界人民在计算机刚发明时就统一采用Unicode作为字符编码,那么代码页就没有存在的必要了。可惜在Unicode被发明前,世界各国人民都发明并使用了各种字符编码方案。所以,Windows必须通过代码页支持已经被广泛使用的字符编码。从这种意义看,代码页主要是为了兼容现有的数据、程序和习惯而存在的。
文字的显示应该是这样的:
* 步骤1:文字首先以某种编码保存在文件中。
* 步骤2:Windows将文件中的文字编码映射到Unicode。
* 步骤3:Windows按照Unicode在字体文件中查找字体图像,画到窗口上。
代码页(Code Page)是个古老的专业术语,据说是IBM公司首先使用的。代码页和字符集的含义基本相同,代码页规定了适用于特定地区的字符集合,和这些字符的编码。可以将代码页理解为字符和字节数据的映射表。
在Windows 2000以后,Windows统一采用UTF-16作为内部字符编码。现在,安装一个代码页就是安装一张代码页转换表。通过代码页转换表,Windows 既可以将代码页的编码转换到UTF-16,也可以将UTF-16转换到代码页的编码。代码页转换表的具体实现可以是一个以nls为后缀的数据文件,也可以是一个提供转换函数的动态链接库。有的代码页是不需要安装的。例如:Windows将UTF-7和UTF-8分别作为代码页65000和代码页 65001。UTF-7、UTF-8和UTF-16都是基于Unicode的编码方案。它们之间可以通过简单的算法直接转换,不需要安装代码页转换表。
在安装过一个代码页后,Windows就知道怎样将该代码页的文本转换到Unicode文本,也知道怎样将Unicode文本转换成该代码页的文本。
其实,如果全世界人民在计算机刚发明时就统一采用Unicode作为字符编码,那么代码页就没有存在的必要了。可惜在Unicode被发明前,世界各国人民都发明并使用了各种字符编码方案。所以,Windows必须通过代码页支持已经被广泛使用的字符编码。从这种意义看,代码页主要是为了兼容现有的数据、程序和习惯而存在的。
iunknown
2008-03-11
http://www.fmddlmyy.cn/text24.html
GB2312有6763个汉字,GBK有21003个汉字,GB18030-2000有27533个汉字,GB18030-2005有70244个汉字。
GB2312有6763个汉字,GBK有21003个汉字,GB18030-2000有27533个汉字,GB18030-2005有70244个汉字。
iunknown
2008-03-11
http://tieba.baidu.com/f?kz=157050302
从GB2312-1980编码开始,汉字都是采用双字节编码。为了与系统中基本的ASCII字符集区分开,所有汉字编码的每个字节的第一位都是1。例如: “啊”字的编码为0xB0A1。GB2312的汉字编码规则为:第一个字节的值在0xB0到0xF7之间,第二个字节的值在0xA0到0xFE之间。 GB12345和GB13000是对GB2312-1980的扩充,所有已经包含在GB2312中的汉字编码不变,另外增加更多的码位。其编码规则大致为:第一个字节的值在0x81到0xFE之间,第二个字节的值在0x40到0xFE之间。由于GB13000是对GB2312的扩展,所以也被成为 GBK。
GB18030也是对GB2312的扩展,其编码长度由2个字节变为1~4个字节。其中包括:
* 单字节,其值从0到0x7F。
* 双字节,第一个字节的值从0x81到0xFE,第二个字节的值从0x40到0xFE(不包括0x7F)。
* 四字节,第一个字节的值从0x81到0xFE,第二个字节的值从0x30到0x39,第三个字节的值从0x81到0xFE,第四个字节的值从0x30到0x39。
从GB2312-1980编码开始,汉字都是采用双字节编码。为了与系统中基本的ASCII字符集区分开,所有汉字编码的每个字节的第一位都是1。例如: “啊”字的编码为0xB0A1。GB2312的汉字编码规则为:第一个字节的值在0xB0到0xF7之间,第二个字节的值在0xA0到0xFE之间。 GB12345和GB13000是对GB2312-1980的扩充,所有已经包含在GB2312中的汉字编码不变,另外增加更多的码位。其编码规则大致为:第一个字节的值在0x81到0xFE之间,第二个字节的值在0x40到0xFE之间。由于GB13000是对GB2312的扩展,所以也被成为 GBK。
GB18030也是对GB2312的扩展,其编码长度由2个字节变为1~4个字节。其中包括:
* 单字节,其值从0到0x7F。
* 双字节,第一个字节的值从0x81到0xFE,第二个字节的值从0x40到0xFE(不包括0x7F)。
* 四字节,第一个字节的值从0x81到0xFE,第二个字节的值从0x30到0x39,第三个字节的值从0x81到0xFE,第四个字节的值从0x30到0x39。
iunknown
2008-03-11
http://www.sqlite.com.cn/MySqlite/4/256.Html
我们知道,计算机中的每一个字符都有一个内码。在默认情况下,计算机排序时,比较两个字符的大小就是比较字符内码的大小,这对于英文来说没有问题,因为英文字母的内码是按字母顺序递增的。对于中文来说,就比较麻烦了:首先,中文的排序方式有多种,比如按内码排序、按拼音排序和按笔画排序,要通过参数指定排序的方式,否则计算机就按内码排序了。其次,汉字的内码顺序即不同于拼音顺序,也不同于按笔画顺序。在GB2312编码中,汉字基本上按拼音排序(据说有例外,不太清楚)。在GBK中,它在GB2312基础上进行了扩充,兼容GB2312中的所有字符,所以不是按拼音排序了。在Unicode中,汉字的排列似乎更没有什么规律可言了。
我们知道,计算机中的每一个字符都有一个内码。在默认情况下,计算机排序时,比较两个字符的大小就是比较字符内码的大小,这对于英文来说没有问题,因为英文字母的内码是按字母顺序递增的。对于中文来说,就比较麻烦了:首先,中文的排序方式有多种,比如按内码排序、按拼音排序和按笔画排序,要通过参数指定排序的方式,否则计算机就按内码排序了。其次,汉字的内码顺序即不同于拼音顺序,也不同于按笔画顺序。在GB2312编码中,汉字基本上按拼音排序(据说有例外,不太清楚)。在GBK中,它在GB2312基础上进行了扩充,兼容GB2312中的所有字符,所以不是按拼音排序了。在Unicode中,汉字的排列似乎更没有什么规律可言了。
iunknown
2008-03-11
http://bbs.jjol.cn/showthread.php?t=2870
这里主要说明一下本资料的相关来源。
①《现汉》2005版,单字14282个,是俺手工录入的,校对过多次,资料可靠。
②《快速识别多音字》,5147字,是我校对的,资料可靠。
③《中华成语全典》(崇文出版社),《精编成语辞典》(上海辞书出版社),5032字,粗校。
④《快速识别形似字》,1115字,精校。
⑤《汉语大字典》,手工查询375字。
⑥GBK字序拼音,21015字,精校,资料可靠。
以上资料都是带调拼音资料。
无调拼音的资料来源:
①从不同来源搜罗而来,一般较可靠。有不少错误很多的资料一律不加入。
③ffffccc在紫光论坛发布的资料。单字26823字,有1529字和我的资料不重复,加在后面。
对比
微软全拼的字音总共27954个(接近28000),是较全的。
本资料字音32026个,多出4000余个。
简体字的字频资料:主要参考了北京语言大学的资料。
繁体字的字频资料:主要参考了香港中文大学的资料。
多音字的字音频率比例计算:是根据几个可靠的词库计算的。
这里主要说明一下本资料的相关来源。
①《现汉》2005版,单字14282个,是俺手工录入的,校对过多次,资料可靠。
②《快速识别多音字》,5147字,是我校对的,资料可靠。
③《中华成语全典》(崇文出版社),《精编成语辞典》(上海辞书出版社),5032字,粗校。
④《快速识别形似字》,1115字,精校。
⑤《汉语大字典》,手工查询375字。
⑥GBK字序拼音,21015字,精校,资料可靠。
以上资料都是带调拼音资料。
无调拼音的资料来源:
①从不同来源搜罗而来,一般较可靠。有不少错误很多的资料一律不加入。
③ffffccc在紫光论坛发布的资料。单字26823字,有1529字和我的资料不重复,加在后面。
对比
微软全拼的字音总共27954个(接近28000),是较全的。
本资料字音32026个,多出4000余个。
简体字的字频资料:主要参考了北京语言大学的资料。
繁体字的字频资料:主要参考了香港中文大学的资料。
多音字的字音频率比例计算:是根据几个可靠的词库计算的。
iunknown
2008-03-11
http://blog.chinaunix.net/u/14721/showart.php?id=104645
首先介绍一下GB编码格式和UNICODE编码格式。所谓“GB”,也就是国标,国家标准的意思(非国际标准)。最早的国家文字编码标准是GB2312,包括一级字库和二级字库,一级字库包含2312个汉字,也就是最常用的汉字。GB2312包含的文字大约有5000多个,据说是以涵盖《毛主席语录》所有汉字为标准的。这个标准是目前在中国大陆使用最广文字编码。GBK是后来在GB2312的基础再加入了许多汉字,更为完善,可以说基本包含现代汉语的所有文字。GB18030是新出台的国家标准,向下兼容GBK和GB2312,这也是目前中国政府强制执行的标准,所有在中国上市的操作系统都必须支持此编码。这个编码不仅包含简体和繁体汉字,还包含了日韩文字和少数民族的文字。而UNICODE是国际标准,是为了统一世界上无数的编码而设计的,是 ASCII码的传承。也就是说它包含ASCII码以及世界各地各种文字的编码。在中文方面,其涵盖了GBK编码的中文字符。UNICODE按照存储空间的不同又分为UTF-8/UTF-16/UTF-32等等。现在使用最广的是UTF-8。值得注意的是,并不是说我用了某种编码,此编码支持的文字都能显示。这还依赖于系统所用字体。到目前为止,还没有一款能够真正支持GB18030和 UTF8标准所有字符的字体(工程太浩瀚了)。
首先介绍一下GB编码格式和UNICODE编码格式。所谓“GB”,也就是国标,国家标准的意思(非国际标准)。最早的国家文字编码标准是GB2312,包括一级字库和二级字库,一级字库包含2312个汉字,也就是最常用的汉字。GB2312包含的文字大约有5000多个,据说是以涵盖《毛主席语录》所有汉字为标准的。这个标准是目前在中国大陆使用最广文字编码。GBK是后来在GB2312的基础再加入了许多汉字,更为完善,可以说基本包含现代汉语的所有文字。GB18030是新出台的国家标准,向下兼容GBK和GB2312,这也是目前中国政府强制执行的标准,所有在中国上市的操作系统都必须支持此编码。这个编码不仅包含简体和繁体汉字,还包含了日韩文字和少数民族的文字。而UNICODE是国际标准,是为了统一世界上无数的编码而设计的,是 ASCII码的传承。也就是说它包含ASCII码以及世界各地各种文字的编码。在中文方面,其涵盖了GBK编码的中文字符。UNICODE按照存储空间的不同又分为UTF-8/UTF-16/UTF-32等等。现在使用最广的是UTF-8。值得注意的是,并不是说我用了某种编码,此编码支持的文字都能显示。这还依赖于系统所用字体。到目前为止,还没有一款能够真正支持GB18030和 UTF8标准所有字符的字体(工程太浩瀚了)。
发表评论
- 浏览: 79324 次

- 详细资料
搜索本博客
我的相册
vim
共 2 张
共 2 张
最近加入圈子
最新评论
-
集成 IOCP 到 Libevent
去找了 memcached for win32 的源代码,结果可以顺利编译,并且 ...
-- by iunknown -
集成 IOCP 到 Libevent
qiezi 写道GetQueuedCompletionStatusEx也支持超时 ...
-- by iunknown -
集成 IOCP 到 Libevent
GetQueuedCompletionStatusEx也支持超时,用它代替sel ...
-- by qiezi -
集成 IOCP 到 Libevent
linux/solaris上的aio有多种回调/通知方式,可能和libevent ...
-- by qiezi -
集成 IOCP 到 Libevent
SPServer是一个很不错的框架,受到启发,我用boost::asio实现了一 ...
-- by wow






评论排行榜