汉字简繁转换之我见
汉语有两种书面形式:中华人民共和国和新加坡使用的简体中文,和台湾,香港,澳门以及大多数海外华人使用的繁体中文。但是存在一种常见的误解,认为相互转换只需要从一个字符集对应到另一个字符集就可以了,例如从国标码(GB2312)转换到大五码(Big5)。虽然很多代码转换工具实现了简繁汉字一一对应转换,但事实上不是这么简单,简繁汉字并不全是一一对应的,一个简体字可以对应多个繁体字,如:发现、发明的“发”对应的繁体字是“發”,头发、发菜的“发”对应的繁体字是“髮”
以后、今后的“后”对应的繁体字是“後”,太后、皇后的“后”对应的繁体字是“后”
GB2312编码中本身就含有繁体字,汉字简繁转换时是由GB2312简体转换为GB2312繁体,还是转换为Big5繁体?这也是一个问题,从文件的角度来讲只需由GB2312简体转换为GB2312繁体就可以了,但网站还是由GB2312简体转换为Big5繁体比较合适。但这样又引出了另一个问题:需要对数据库进行动态处理的简繁网站怎操作数据库?因为每个页面只能定义一种语言属性,分别用GB2312简体和Big5繁体各修改一次数据显然不大合适;数据库只含一种语言,加载页面时再转换也不大合适,一当数据多时显示会变得很慢。
标点符号和特殊符号也是我们比较容易忽略的问题,GB2312简体和Big5繁体的标点符号和特殊符号是有好大区别的,我们应该给予足够的正视。
两岸三地习惯的不同,会有一些用语的不同,如大陆的“调制解调器”、“服务员”、“胶卷”在港台称为“数据机”、“侍应生”、“菲林”,在文字表达上是完全不同的。
简体字和繁体字不是一一对应的,多个简体字对应的是一个繁体字是经常见到的,还有些难检字、转换不了的字(可能是Big5繁体编码里没有),如“邨、堃、凼、砹、酶”就属这一类字符,对这些字应该如何处理?象香港政府的网站部分就是用图片来代替,这是一个非常不易处理的问题。
以上是我们对汉字简繁转换的一些看法,GbToBig5 3.0 汉字简繁转换ASP插件就是为解决这些问题而开发的。
GbToBig5 3.0 汉字简繁转换ASP插件当作 asp 的一个插件独立使用,实现真正的BIG5编码转换,而不是页面显示上的繁体字,它具有如下的特点:
1、采集的字符超过 10000 个,绝大多数不常用的字符都能转换;
2、可以实现GB2312简体转BIG5繁体、BIG5繁体转GB2312简体、GB2312简体转GB2312繁体、GB2312繁体转GB2312简体;
3、GB2312简体转BIG5繁体是真正意义的BIG5繁体编码,不是页面显示上的GB2312繁体;
4、增加了对标点符号和特殊符号的转换,如“ ‰、№、℃、℉、∑、㊣”等,对一些不常用的符号都能正确转换;
5、加强了一字多义词的转换,如“发、后、凶”等对应的繁体字有多个,根据组词的不同而异;
6、增加部分港台和大陆习惯不同的用语,如“服务员”转换为“侍应生”;府的网站上这些字符都会以特殊的方式显示,比如用图片代替,香港常用的字符“邨、堃、凼”就属这一类字符;
7、不需在服务器端注册任何组件,在任何ASP页面都可以调用;
8、能方便地对数据库进行操作,实现数据库包含简体和繁体字段。
[url=http://www.netmaster.net.cn/CN/services.asp]http://www.netmaster.net.cn/CN/services.asp[/url]
QQ:544690783 学习学习
页:
[1]