| 网站首页 | Ps下载中心 | 字体下载 | 笔刷下载 | PSD素材 | 矢量素材 | 图片素材 | Ps教程 | 设计学院 | Photoshop作品 | 书法艺术 | 
也谈生僻字的信息处理
(载入中...)

  摘要?#27721;?#23383;生僻字的输入,一?#31508;?#22256;扰文史工作者的难题,本文试在前人的研究基础上,提出一些关于汉字信息处理的设想和相关的解决方案。
  关键字:生僻字;字符集;信息处理

  汉字的信息处理经过多年的摸索,冲破了以前汉字不能进入计算机的迷信,取得了?#19978;?#30340;成绩,但离能完全满足实际使用的需要还有很长一段距离。
  我们先回顾一下计算机中的字库,然后讨论生僻字的信息处理方法。

                一、汉字库发展简介

  汉字库通俗地说就是计算机软件系统中的汉字仓库,依据不同的标准,字库中汉字的数量是不同的,以前的主要标准有:
  1、GB 2312 汉字编码字符集
  从1975年开始,我国为?#25628;?#31350;汉字的使用频度,进行了大规模的字频统计工作,内容包括工业、农业、军事、科技、政治、经济、文学、艺术、教育、体育、医药卫生、天文地理、自然、化学、文字改革、考古等多方面的出版物,在数以亿计的浩瀚文献资料中,统计出实际使用的不同的汉字数为6335个,而其中有3000多个汉字的累计使用频度达到了99.9%,而另外的3000多个累计频度不到0.1%,?#24471;?#20102;常用汉字与次常用汉字的数量不足7000个,这就为国家制定汉字库标准提供了依据。1980年颁布了《信息交换用汉字编码字符集—基本集》的国标交换码,国家标准号为:GB2312-80,选入了6763个汉字,分为两级,一级字库中有3755个,是常用汉字,二级字库中有3008个,是次常用汉字;还选入了682个字符,包含有数字、一般符号、拉丁字母、日本假名、希腊字母、俄文字母、拼音符号、注音字母?#21462;?#20197;前我国大陆的各种中文DOS版本、Windows3.1 /3.2版本,装入的字库都是国标一二级字库。遇到“镕、啰、瞭、袆、祎、曌、赟、贇、鱻、驫、犇……”等汉字,既无法输入,又不能打印。
后来国家技术监督局又颁布了一个与之相对应的繁体字集,全称《信息交换用汉字编码字符集辅助集》,标准号为GB/T12345-90。
  2、台湾 BIG5 字库
  BIG-5码是通行于台湾、香港地区的一个繁体字编码方案,俗称“大五码”。地区标准号为:CNS11643,这就是人们讲的BIG5码。
  BIG-5码?#31456;?#27721;字13053个,分为常用字和次常用字两部分,各部分中的汉字按笔划/部首排?#23567;?#20854;中常用字5401个,包括台湾教育管理部门颁布的《常用汉字标准字体表》中的全部汉字4808个,台湾中小学教科书常用字587个,异体字6个;次常用字7652个,包括台湾教育管理部门颁布的《次常用汉字标准字体表》的全部汉字6341个,《罕用汉字标准字体表》中使用频率较高的字1311个。
  后来为了协助解决众多使用BIG5码单位于进行公文电子传递时遇到自造字无法转换CNS的问题,实行了“BIG5码字集扩编计划?#20445;?986年7月扩编完成,这就是所谓的“BIG5+码”。
  BIG5+码系以CNS为蓝本,共增编标准字集4760个字符与推荐字集3250个字符;其标准字集即纳编CNS第3字面字集内之4145个,第4个字面字集内之219个字,均为一般文书常用之中文字,总支持文字量达141376个
  3、大字符集字库(又叫GBK字库)
国?#26102;?#20934;化组织为了将世界各民族的文字进行统一编码,制定了UCS标准。根据这一标准,?#23567;?#26085;、韩三国共同制定了《CJK统一汉字编码字符集》,其国?#26102;?#20934;号为:ISO/IEC10646,国家标准号为:GB13000-90,该汉字编码字符集就是通常人们所说的大字符集,它编入了20902个汉字,收集了大陆一二级字库中的简体字,台湾《通用汉字标准交换码》中的繁体字,58个香港特别用字和92个延边地区朝?#39318;濉?#21519;读”字,甚至涵盖了日文与韩文中的通用汉字,满足了方方面面的需要。Windows95/98/NT/2000中都装入了大字符集汉字库,人们一般称它为GBK(“国家标准扩展”的拼音缩写)字库。
  4、新标准汉字库
  2000年3月,国家信息产业部和质量技术监督局在?#26412;?#32852;合发布了《信息技术和信息交换用汉字编码字符集、基本集的扩充》,国家标准号为:GB18030-2000,?#31456;?#20102;27000多个汉字,还?#31456;?#20102;藏、蒙、维等主要少数民族的文字,以期一举解决邮政、户政、金融、地理信息系统等生僻汉字与主要少数民族语言的输入,该标准于2000年12月31日强制执?#23567;?GB 18030-2000 作为 GBK for Unicode 3.0 的更新而诞生,它带有包含所有Unicode 的扩展,完全向下兼容 GB 2312-1980 和 GBK。

               二、对于汉字库设计的想法

  字集不是越大越好,因为?#25191;?#20110;大型字典辞书的字有一部?#36136;?#21382;史用字,还有大量的异体字。根据使用的需要和研究的情况,?#38498;?#23383;的信息处理可以分为几个层次
  1、日常生活用字:(可有一个人名、地名辅助集和错字集)
  日常生活用字就是常用字,这个数字可能就在3000字左右,再加上一些次常用字,可能也就在6000字左右,当然,其中哪些是常用字,哪些是次常用字,具体的字可能要随着时代不同而发生变化。日常生活用字要求有规范性,现在进行的“规范汉字表”课题研究可能有助于此字集的确定。
人名和地名用字是一个比较特殊的问题,国家语?#26197;?#23383;工作委员会正在进?#23567;?#20154;名、地名规?#19969;?#30340;研究,如果?#25628;?#31350;成果面世,则可能有助于解决现代人的人名、地名用字问题。
此集中最好还应该有一个错字集,在早期识字教育和对外汉语教学中,经常要使用到一些错别字,别字好打,缺笔少划的错字没有办法处理,所以应特置一个错字集,有利于错别字教学的信息化与错别字的集中纠正。
  2、一般古籍整理用字:(应该有一个异体字辅助集)
  古籍用字,数量比现代生活用字多。因为历代沉积下来的异体字、死字比较多。关于这个问题,首先应该进行异体字的整理,异体字整理完成后,正体字就可以确定一个数量。为了保持古籍版本原样,古籍整理工作者和语?#26197;?#23383;研?#31354;?#20063;要用到异体字,所以附录一个异体字集。
  还有一个问题就是方言字,很多方言字来源于古代的字典辞书、地方韵书和方言?#23454;洌?#23569;部分来源于民间文艺作品。首先方言字有一个规范的问题,那些有本字又意义比较明确的,应该首先选用本字。如本字不明,可沿用俗字。
  3、古文字用字:(也有一个异体字辅助集)
  关于古文字,一般定义为小篆以前的文字为古文字,其中有很多字还不可识,这种情况,就首先要区分出可识字(与小篆或楷书有对应字)与不可识字,然后进行异体字的整理。并且要能为每个不可识字设计可以调用的编码,以利于检索。
  汉字库的设计,针对不同的用户与使用目的,分级分层次是很必要的。各级之中首先要全,同时要考虑各级之间正体字与异体字、繁体与简体、古文字与今字的正确对应?#21462;?BR>  此外,各种常用图符也可考虑?#31456;?#21040;各级字库中,如传世古籍中出现的圈点符号、古文字中的有句读作用的符号。少数民族和外域的汉字型变体字,也可考虑单置一类,以有利于文字的比较研究。

[1] [2] 下一页

本类热门教程:

Font Creator Program使用

用Font Creator修改字体文

Windows系统中OpenType(ot

打造你自己的字体

方正GBK编码字库清单
最新更新教程:
Powered by:www.jllllh.com.cn〖粤ICP备09027937号〗〖粤公网安备44078402440812号〗All Rights Reserved.
赛车北京pk10历史记录
作者:佚名    教程来源:不详    点击数:    更新时间:2012-6-26