java的中文问题历史悠久,连绵不绝,至今也没有完全解决,但是上有政策下有对策,我们总是有办法搞定它的。跟java相关的中文问题主要有两类,一类是编程的问题,涉及到i/o,内码转换等。第二类是java运行环境的配置,涉及字体,属性配置等。我刚刚用了一天的时间解决这些问题,觉得很有必要给自己写个备忘录之类的。
我看还是从问题入手吧,这样不致于让大家打瞌睡。我想写个程序,这个程序有个基本功能就是显示文件内容,我用jtextarea来做显示的事情,程序简单的到家了,但是就是中文都是乱码。我的配置是jbuilder7,jbuilder自带的jdk1.3.3_b24,我自己装的jdk是jdk1.4.0_02_b02,都是主流的jdk。操作系统是英文windows2000加中文支持包。
我尝试换jdk,1.3.3和1.4.0都不行,down一个最新的j2sdk-1_4_1-rc也是不行,好像不是jdk的问题,于是我就把精力集中到i/o的编码转换上,我查阅了网上若干关于java中文问题的文章,把编码转换搞的倍儿清楚,可是怎么试,换什么编码折腾都不行,反而显示的更糟糕,当初还是乱的有些规矩,就是象在纯英文系统上显示的那样,好歹我还知道那是汉字,只是显示不出来,等我折腾编码,就变得都是问号了。唉,郁闷!
编码转换心得:
java内部是unicode编码,在i/o时如果使用reader/writer就要发生编码转换,使用系统属性file.encoding作为编码方式。如果使用stream就没有转换的事情了,那是binary的数据。
有用的方法有:1。在reader/writer上加encoding的选项,注意编码的方向,在reader中的encoding表示把数据从encoding转换成unicode,writer就是把unicode的字符转换成encoding格式的。2。用string.getbyte()把字符串转换成指定编码。
常用的编码格式:iso8859_1,这个是英文系统缺省的8bit编码,因为是8bit的,所以不会把汉字的高位删去,所以用它也是可以处理汉字的(我自己这么理解,总觉得有些不妥,但又不知道不妥在何处,还望高人指出)。gb2312和gbk,汉字编码,推荐使用gbk,它兼容gb2312并且支持更多汉字。unicode,一个大的字符集,不知是不是国际标准反正大家都支持,使用16位对每个字符编码,汉字虽然正合适,但英文却吃亏了,要用多一倍的空间来存储,所以很多人还是老大不乐意,写的程序不支持unicode。
jsp/servlet的中文问题有两种解决办法:1。不在程序中进行编码转换,把这个工作交给浏览器,方法就是用javac ?cencoding gbk *.java来编译所有的bean,然后在jsp页面上加
或者是在html中直接加:
到底加那个,试试就知道了,我也搞不清楚了。
2。在程序中指定编码,用javac ?cencoding iso8859_1 *.java来编译所有的bean,在涉及到中文显示的程序上加
str=new string(str.getbytes(“iso8859_1”));
上面两种方法不能混用,意思就是要么就是gbk,要么就是iso8859_1,从里到外都一样就好了。
数据库jdbc的中文问题,一般只要按照数据库指定的编码进行转换,比如按照iso8859_1读,iso8859_1写,一般就没什么问题了。
虽然有这些编码上的心得,但是并不能解决我的问题。看来我的程序输入输出用的都是iso8859_1,我的问题跟编码没什么关系。是不是字体的问题呢?在swing的组件中,字体总是那么几个,基本上是定死的,选那个都不行。但是我突然发现可以更改这些字体的配置,就是font.properties 这个文件,一般jdk都带了中文的字体配置文件,可能是font.properties.zh之类的,不同版本的jdk名字有些差别,你要做的就是用中文的配置覆盖font.properties文件。我满心欢喜的以为成功了,但是失败无情的又一次打击了我。不是这种方法不对,但是在windows系统中,java能够比较自动的检查你的系统编码,使用最合适的字体配置文件,一般不需要你改动了,在jdk1.2之前确实是要这么改的,难怪那篇文章是jdk1.1的文档呢。
连font.properties也不灵了,唉,是不是jbuilder有问题呀?到了这儿,我不得不怀疑它了,虽然它从没让我失望过,我关掉jbuilder,拿起jdk命令行,哎呀!可爱的中文竟然出来了!简直是…..莫名其妙呀,因为jbuilder也是用的这个jdk呀?没理由呀,我再次打开jbuilder,运行,乱码!怪事…….我来看看…..我把jbuilder里面的执行命令拷贝到dos窗口里手动执行….没有中文…..怪怪怪,我仔细对照我手敲的命令和jbuilder拷出来的命令,除了我用的是java它用的是javaw之外,别的几乎都一样,难道…….这个java和javaw竟然会不一样?
唉…….要我说什么呢,答案就是这个了,javaw会使用与java不同的local配置进行工作,导致了我一直看不到中文,而java就是好好的。jbuilder也是好好的,没有问题,调用javaw也不是它的错,难道你想每次运行或者调试的时候蹦出个dos黑框么?呵呵。这是jdk的一个bug,我在java的网站上查到这个bug,描述的情况跟我的一样,然后sun说这个bug已经修复了,嘿嘿,简直就是扯淡!修复个茄子!bug编号是:4629351。不信可以去看看。
但是难道我就不能在jbuilder里面看我可爱的中文了吗?好像jbuilder5的时候还能选择是用java还是javaw,现在好像没法儿选了。怎么才能让javaw支持中文呢?经过又是一番苦苦查找,竟然没有什么结果,郁闷!正当苦闷之时,突然想起当初配置过unix下的tomcat,好像加了些启动参数,就能让tomcat支持中文了,赶快翻出以前的文档,啊,幸好我当初写了工作心得,要不然又抓瞎了。其实道理很简单,就是给java虚拟机加上一些属性:
-dfile.encoding=gbk -ddefault.client.encoding=gbk -duser.language=zh -duser.region=cn
把它跟在javaw的命令行后面当参数,哈哈,搞定!
在jbuilder中选择project->project properties->run->edit->vm parameters,填上就行了!
配置心得:
在jdk低版本和unix下,需要改动font.properties,让java vm能够找到合适的字体来显示汉字。
目前为止,javaw有bug,只使用英文的local,需要给vm加上属性才行正常显示中文。