Linux vim顯示utf-8文檔亂碼怎么辦

時間：2015-11-12 15:40:15 孫勝652由分享

　　在Linux系統(tǒng)操作證，Vim是文本編輯器，在使用Vim的時候，居然顯示utf-8文檔亂碼，遇到這種情況要如何解決呢?下面學習啦小編就給大家介紹下Linux如何解決Vim顯示utf-8文檔亂碼問題，一起來看看吧。

　　1.相關(guān)基礎(chǔ)知識介紹

　　在Vim中，有四個與編碼有關(guān)的選項，它們是：fileencodings、fileencoding、encoding和termencoding。在實際使用中，任何一個選項出現(xiàn)錯誤，都會導致出現(xiàn)亂碼。因此，每一個Vim用戶都應(yīng)該明確這四個選項的含義。下面，我們詳細介紹一下這四個選項的含義和作用。

　　(1)encoding

　　encoding是Vim內(nèi)部使用的字符編碼方式。當我們設(shè)置了encoding之后，Vim內(nèi)部所有的buffer、寄存器、腳本中的字符串等，全都使用這個編碼。Vim 在工作的時候，如果編碼方式與它的內(nèi)部編碼不一致，它會先把編碼轉(zhuǎn)換成內(nèi)部編碼。如果工作用的編碼中含有無法轉(zhuǎn)換為內(nèi)部編碼的字符，在這些字符就會丟失。因此，在選擇 Vim 的內(nèi)部編碼的時候，一定要使用一種表現(xiàn)能力足夠強的編碼，以免影響正常工作。

　　由于encoding選項涉及到Vim中所有字符的內(nèi)部表示，因此只能在Vim啟動的時候設(shè)置一次。在Vim工作過程中修改encoding會造成非常多的問題。用戶手冊上建議只在 .vimrc中改變它的值，事實上似乎也只有在 .vimrc中改變它的值才有意義。如果沒有特別的理由，請始終將encoding設(shè)置為utf-8。為了避免在非UTF-8的系統(tǒng)如Windows下，菜單和系統(tǒng)提示出現(xiàn)亂碼，可同時做這幾項設(shè)置：

　　set encoding=utf-8

　　set langmenu=zh_CN.UTF-8

　　language message zh_CN.UTF-8

　　(2)termencoding

　　termencoding是Vim用于屏幕顯示的編碼，在顯示的時候，Vim會把內(nèi)部編碼轉(zhuǎn)換為屏幕編碼，再用于輸出。內(nèi)部編碼中含有無法轉(zhuǎn)換為屏幕編碼的字符時，該字符會變成問號，但不會影響對它的編輯操作。如果termencoding沒有設(shè)置，則直接使用encoding不進行轉(zhuǎn)換。

　　舉個例子，當你在Windows下通過telnet登錄Linux工作站時，由于Windows的telnet是GBK編碼的，而Linux下使用UTF-8編碼，你在telnet下的Vim中就會亂碼。此時有兩種消除亂碼的方式：一是把Vim的encoding改為gbk，另一種方法是保持encoding為utf-8，把termencoding改為gbk，讓Vim在顯示的時候轉(zhuǎn)碼。顯然，使用前一種方法時，如果遇到編輯的文件中含有GBK無法表示的字符時，這些字符就會丟失。但如果使用后一種方法，雖然由于終端所限，這些字符無法顯示，但在編輯過程中這些字符是不會丟失的。

　　對于圖形界面下的GVim，它的顯示不依賴TERM，因此termencoding對于它沒有意義。在GTK2下的GVim 中，termencoding永遠是utf-8，并且不能修改。而Windows下的GVim則忽略termencoding的存在。

　　(3)fileencoding

　　當Vim從磁盤上讀取文件的時候，會對文件的編碼進行探測。如果文件的編碼方式和Vim的內(nèi)部編碼方式不同，Vim就會對編碼進行轉(zhuǎn)換。轉(zhuǎn)換完畢后，Vim會將fileencoding選項設(shè)置為文件的編碼。當Vim存盤的時候，如果encoding和fileencoding不一樣，Vim就會進行編碼轉(zhuǎn)換。因此，通過打開文件后設(shè)置fileencoding，我們可以將文件由一種編碼轉(zhuǎn)換為另一種編碼。但是，由前面的介紹可以看出，fileencoding是在打開文件的時候，由Vim進行探測后自動設(shè)置的。因此，如果出現(xiàn)亂碼，我們無法通過在打開文件后重新設(shè)置fileencoding來糾正亂碼。

　　簡而言之，fileencoding是Vim中當前編輯的文件的字符編碼方式，Vim保存文件時也會將文件保存為這種字符編碼方式 (不管是否新文件都如此)。

　　(4)fileencodings

　　編碼的自動識別是通過設(shè)置fileencodings實現(xiàn)的，注意是復數(shù)形式。fileencodings是一個用逗號分隔的列表，列表中的每一項是一種編碼的名稱。當我們打開文件的時候，VIM按順序使用fileencodings中的編碼進行嘗試解碼，如果成功的話，就使用該編碼方式進行解碼，并將fileencoding設(shè)置為這個值，如果失敗的話，就繼續(xù)試驗下一個編碼。

　　因此，我們在設(shè)置fileencodings的時候，一定要把要求嚴格的、當文件不是這個編碼的時候更容易出現(xiàn)解碼失敗的編碼方式放在前面，把寬松的編碼方式放在后面。例如，latin1是一種非常寬松的編碼方式，任何一種編碼方式得到的文本，用latin1進行解碼，都不會發(fā)生解碼失敗——當然，解碼得到的結(jié)果自然也就是理所當然的“亂碼”。因此，如果你把latin1放到了fileencodings的第一位的話，打開任何中文文件都是亂碼也就是理所當然的了。

　　以下是網(wǎng)上推薦的一個fileencodings設(shè)置：

　　set fileencodings=ucs-bom，utf-8，cp936，gb18030，big5，euc-jp，euc-kr，latin1

　　其中，ucs-bom是一種非常嚴格的編碼，非該編碼的文件幾乎沒有可能被誤判為ucs-bom，因此放在第一位。

　　utf-8也相當嚴格，除了很短的文件外(例如許多人津津樂道的GBK編碼的“聯(lián)通”被誤判為UTF-8編碼的經(jīng)典錯誤)，現(xiàn)實生活中一般文件是幾乎不可能被誤判的，因此放在第二位。

　　接下來是cp936和gb18030，這兩種編碼相對寬松，如果放前面的話，會出現(xiàn)大量誤判，所以就讓它們靠后一些。cp936的編碼空間比gb18030小，所以把cp936放在gb18030前面。

　　至于big5、euc-jp和euc-kr，它們的嚴格程度和cp936差不多，把它們放在后面，在編輯這些編碼的文件的時候必然出現(xiàn)大量誤判，但這是Vim內(nèi)置編碼探測機制沒有辦法解決的事。由于中國用戶很少有機會編輯這些編碼的文件，因此我們還是決定把cp936和gb18030放在前面以保證這些編碼的識別。

　　最后就是latin1了。它是一種極其寬松的編碼，以至于我們不得不把它放在最后一位。不過可惜的是，當你碰到一個真的latin1編碼的文件時，絕大部分情況下，它沒有機會fall-back到latin1，往往在前面的編碼中就被誤判了。不過，正如前面所說的，中國用戶沒有太多機會接觸這樣的文件。

　　如果編碼被誤判了，解碼后的結(jié)果就無法被人類識別，于是我們就說，這個文件亂碼了。此時，如果你知道這個文件的正確編碼的話，可以在打開文件的時候使用 ++enc=encoding 的方式來打開文件，如：

　　：e ++enc=utf-8 myfile.txt

　　上面就是Linux解決Vim顯示utf-8文檔亂碼的方法介紹了，出現(xiàn)該亂碼問題后，可通過重新設(shè)置fileencodings來解決，希望對你有所幫助。