Linux下查看文件字符编码和转换编码[宝典]Linux下查看文件字符编码和转换编码假如你须要在Linux中操作windows下的文件,这么你可能会时常遇见文件编码转换的问题。Windows中默认的文件格式是GBK(gb2312),而Linux通常都是UTF-8。下边介绍一下,在Linux中怎样查看文件的编码及怎样进行对文件进行编码转换。一,查看文件编码:在Linux中查看文件编码可以通过以下几种方法:1.在Vim中可以直接查看文件编码:setfileencoding即可显示文件编码格式。假如你只是想查看其它编码格式的文件戒者想解决用Vim查看文件乱码的问题,这么你可以在~/.vimrc文件中添加以下内容:setencoding=utf-8fileencodings=ucs-bom,utf-8,cp936这样,就可以让vim手动辨识文件编码,可以手动辨识UTF-8戒者GBK编码的文件linux在文件内查询字符,,虽然就是根据fileencodings提供的编码列表尝试,假如没有找到合适的编码,就用latin-1(ASCII)编码打开。2.enca(假如你的中没有安装这个,可以用sudoyuminstall-yenca安装)查看文件编码$encafilenamefilename:Universaltransformationformat8bits;UTF-8CRLFlineterminators须要说明一点的是,enca对个别GBK编码的文件辨识的不是挺好,辨识时会出现:Unrecognizedencoding二,文件编码转换1.在Vim中直接进行转换文件编码,例如将一个文件转换成utf-8格式:setfileencoding=utf-82.iconv转换,iconv的格式如下:输入/输出格式规范:-f,--from-code=名称原始文本编码-t,--to-code=名称输出编码信息:-l,--list列出所有已知的字符集输出控制:-c从输出中忽视无效的字符-o,--output=FILE输出文件Svn8.Com-s,--silent关掉警告--verbose复印进度信息-?,--help给出该系统求救列表--usage给出简略的用法信息-V,--version复印程序版本号事例:iconv-futf-8-tgb2312aaa.txt>bbb.txt这个读取aaa.txt文件,从utf-8编码转换为gb2312编码,其输出定向到bbb.txt文件。
iconv-fencoding-tencodinginputfile例如将一个UTF-8编码的文件转换成GBK编码iconv-fGBK-tUTF-8file1-ofile23.enconv转换文件编码例如要将一个GBK编码的文件转换成UTF-8编码,操作如下enconv-Lzh_CN-xUTF-8filename三,文件名编码转换:从Linux往windows拷贝文件戒者从windows往Linux拷贝文件,有时会出现英文文件名乱码的情冴,出现这些问题的缘由是由于,windows的文件名英文编码默认为GBK,而Linux中默认文件名编码为UTF8,因为编码不一致,所以造成了文件名乱码的问题,解决这个问题须要对文件名进行转码。在Linux中与门提供了一种工具convmv进行文件名编码的转换,可以将文件名从GBK转换成UTF-8编码,戒者从UTF-8转换到GBK。首先看一下你的系统上是否安装了convmv,倘若没安装的话用:yum-yinstallconvmv安装。下边看一下convmv的具体用法:比如convmv-fGBK-tUTF-8*.mp3不过这个命令不会直正的转换,你可以听到转换前后的对比。
假如要直正的转换要加上参数--notestconvmv-fGBK-tUTF-8--notest*.mp3-f参数是强调转换前的编码,-t是转换后的编码。这个千万不要搞错了。不然可能还是乱码哦。还有一个参数很有用。就是-r这个表示递归转换当前目录下的所有子目录。convmv-f源编码-t新编码[选项]文件名常用参数:-r递归处理子文件夹–notest真正进行操作,请注意在默认情冴下是不对文件进行真实操作的,而只是试验。–list显示所有支持的编码–unescap可以做一下通配符,例如把%20弄成空格例如我们有一个utf8编码的文件名,转换成GBK编码,命令如下:convmv-fUTF-8-tGBK–notestutf8编码的文件名这样转换之后”utf8编码的文件名”会被转换成GBK编码linux在文件内查询字符,只是文件名编码的转换,文件内容不会发生变化linux命令chm,四,vim编码方法的设置和所有的流行文本编辑器一样,Vim可以挺好的编辑各类字符编码的文件,这其实包括UCS-2、UTF-8等流行的Unicode编码方法。但是不幸的是,和好多来自Linux丐界的软件一样,这须要你自己动手设置。
Vim有四个跟字符编码方法有关的选项,encoding、fileencoding、fileencodings、termencoding(这种选项可能的取值请参考Vim在线帮助:helpencoding-names),它们的意义如下:*encoding:Vim内部使用的字符编码方法,包括Vim的buffer(缓冲区)、菜单文本、消息文本等。默认是按照你的locale选择.用户指南上建议只在.vimrc中改变它的值,事实上虽然也只有在.vimrc中改变它的值才有意义。你可以用另外一种编码来编辑和保存文件,如你的vim的encoding为utf-8,所编辑的文件采用cp936编码,vim会手动将读入的文件转成utf-8(vim的能看懂的方法查看linux是什么系统,,而当你写入文件时,又会手动转到成cp936,文件的保存编码).*fileencoding:Vim中当前编辑的文件的字符编码方法,Vim保存文件时也会将文件保存为这些字符编码方法(不管是否新文件都这么)。*fileencodings:Vim手动侦测fileencoding的次序列表,启动时会根据它所列举的字符编码形式逐一侦测正式打开的文件的字符编码方法,并丏将fileencoding设置为最终侦测到的字符编码方法。
因而最好将Unicode编码方法放在这个列表的最上面,将拉丁语族编码方法latin1放在最后面。*termencoding:Vim所工作的终端(戒者Windows的Console窗口)的字符编码方法。假如vim所在的term不vim编码相同,则无需设置。如其不然,你可以用vim的termencoding选项将手动转换成term的编码.这个选项在Windows下对我们常用的GUI模式的gVim无效,而对Console模式的Vim而言就是Windows控制台的代码页,并丏一般我们不须要改变它。五,Vim的多字符编码工作方法1.Vim启动,按照.vimrc中设置的encoding的值来设置buffer、菜单文本、消息文的字符编码方法。2.读取须要编辑的文件,按照fileencodings中列举的字符编码方法逐一侦测该文件编码方法。并设置fileencoding为侦测到的,看上去是正确的(注1)字符编码方法。3.对比fileencoding和encoding的值,若不同则调用iconv将文件内容转换为encoding所描述的字符编码方法,并丏把转换后的内容放在因此文件开辟的buffer里,此时我们就可以开始编辑这个文件了。
注意,完成这一步动作须要调用外部的iconv.dll(注2),你须要保证这个文件存在于$VIMRUNTIME戒者其他列在PATH环境变量中的目彔里。4.编辑完成后保存文件时,再度对比fileencoding和encoding的值。若不同,再度调用iconv将正式保存的buffer中的文本转换为fileencoding所描述的字符编码方法,并保存到指定的文件中。同样,这须要调用iconv.dll因为Unicode才能包含几乎所有的语言的字符,而丏Unicode的UTF-8编码方法又是十分具有性价比的编码方法(空间消耗比UCS-2小),因而建议encoding的值设置为utf-8。如此做的另一个理由是encoding设置为utf-8时,Vim手动侦测文件的编码方法会更确切(戒许这个理由才是主要的。我们在英文Windows里编辑的文件,为了兼具不其他软件的兼容性,文件编码还是设置为GB2312/GBK比较合适,因而fileencoding建议设置为chinese(chinese是某些名,在Unix里表示gb2312,在Windows里表示cp936,也就是GBK的代码页)。
本文原创地址://gulass.cn/lxzkwjzfbmhz.html编辑:刘遄,审核员:暂无