計(jì)算機(jī)及編碼
計(jì)算機(jī)及編碼
計(jì)算機(jī)是不能識(shí)別我們?nèi)祟?lèi)的文字的,為什么計(jì)算能識(shí)別人類(lèi)的語(yǔ)言,原因是計(jì)算機(jī)能把我們輸入的指令轉(zhuǎn)化成它認(rèn)識(shí)的語(yǔ)言,而這些語(yǔ)言就是編碼.
計(jì)算機(jī)編碼指電腦內(nèi)部代表字母或數(shù)字的方式.常見(jiàn)的編碼方式有:ASCII編碼,GB2312編碼(簡(jiǎn)體中文),GBK,BIG5編碼(繁體中文),ANSI編碼,unicode,utf-8編碼等
編碼分類(lèi)編輯
ASCIIASCII(American Standard Code for Information Interchange,美國(guó)信息互換標(biāo)準(zhǔn)代碼)是基于羅馬字母表的一套電腦編碼系統(tǒng),它主要用于顯示現(xiàn)代英語(yǔ)和其他西歐語(yǔ)言。它是現(xiàn)今最通用的單字節(jié)編碼系統(tǒng),并等同于國(guó)際標(biāo)準(zhǔn)ISO 646。
GB2312又稱(chēng)為GB2312-80字符集,全稱(chēng)為《信息交換用漢字編碼字符集·基本集》,由原中國(guó)國(guó)家標(biāo)準(zhǔn)總局發(fā)布,1981年5月1日實(shí)施,是中國(guó)國(guó)家標(biāo)準(zhǔn)的簡(jiǎn)體中文字符集。它所收錄的漢字已經(jīng)覆蓋99.75%的使用頻率,基本滿足了漢字的計(jì)算機(jī)處理需要。在中國(guó)大陸和新加坡獲廣泛使用。
BIG5又稱(chēng)大五碼或五大碼,1984年由臺(tái)灣財(cái)團(tuán)法人信息工業(yè)策進(jìn)會(huì)和五間軟件公司宏碁 (Acer)、神通 (MiTAC)、佳佳、零壹 (Zero One)、大眾 (FIC)創(chuàng)立,故稱(chēng)大五碼。
GB 18030字符集標(biāo)準(zhǔn)解決漢字、日文假名、朝鮮語(yǔ)和中國(guó)少數(shù)民族文字組成的大字符集計(jì)算機(jī)編碼問(wèn)題。該標(biāo)準(zhǔn)的字符總編碼空間超過(guò)150萬(wàn)個(gè)編碼位,收錄了27484個(gè)漢字,覆蓋中文、日文、朝鮮語(yǔ)和中國(guó)少數(shù)民族文字。滿足中國(guó)大陸、香港、臺(tái)灣、日本和韓國(guó)等東亞地區(qū)信息交換多文種、大字量、多用途、統(tǒng)一編碼格式的要求。并且與Unicode 3.0版本兼容,填補(bǔ)Unicode擴(kuò)展字符字匯“統(tǒng)一漢字?jǐn)U展A”的內(nèi)容。并且與以前的國(guó)家字符編碼標(biāo)準(zhǔn)(GB2312,GB13000.1)兼容。
不同的國(guó)家和地區(qū)制定了不同的標(biāo)準(zhǔn),由此產(chǎn)生了 GB2312, BIG5, JIS 等各自的編碼標(biāo)準(zhǔn)。這些使用 2 個(gè)字節(jié)來(lái)代表一個(gè)字符的各種漢字延伸編碼方式,稱(chēng)為 ANSI 編碼。在簡(jiǎn)體中文系統(tǒng)下,ANSI 編碼代表 GB2312 編碼,在日文操作系統(tǒng)下,ANSI 編碼代表 JIS 編碼。
Unicode字符集編碼是(Universal Multiple-Octet Coded Character Set) 通用多八位編碼字符集的簡(jiǎn)稱(chēng),支持世界上超過(guò)650種語(yǔ)言的國(guó)際字符集。Unicode允許在同一服務(wù)器上混合使用不同語(yǔ)言組的不同語(yǔ)言。它是由一個(gè)名為 Unicode 學(xué)術(shù)學(xué)會(huì)(Unicode Consortium)的機(jī)構(gòu)制訂的字符編碼系統(tǒng),支持現(xiàn)今世界各種不同語(yǔ)言的書(shū)面文本的交換、處理及顯示。該編碼于1990年開(kāi)始研發(fā),1994年正式公布,最新版本是2005年3月31日的Unicode 4.1.0。Unicode是一種在計(jì)算機(jī)上使用的字符編碼。它為每種語(yǔ)言中的每個(gè)字符設(shè)定了統(tǒng)一并且唯一的二進(jìn)制編碼,以滿足跨語(yǔ)言、跨平臺(tái)進(jìn)行文本轉(zhuǎn)換、處理的要求。
UTF-8是Unicode的其中一個(gè)使用方式。 UTF是 Unicode Translation Format,即把Unicode轉(zhuǎn)做某種格式的意思。UTF-8便于不同的計(jì)算機(jī)之間使用網(wǎng)絡(luò)傳輸不同語(yǔ)言和編碼的文字,使得雙字節(jié)的Unicode能夠在現(xiàn)存的處理單字節(jié)的系統(tǒng)上正確傳輸。UTF-8使用可變長(zhǎng)度字節(jié)來(lái)儲(chǔ)存 Unicode字符,例如ASCII字母繼續(xù)使用1字節(jié)儲(chǔ)存,重音文字、希臘字母或西里爾字母等使用2字節(jié)來(lái)儲(chǔ)存,而常用的漢字就要使用3字節(jié)。輔助平面字符則使用4字節(jié)。
UTF-32、UTF-16和 UTF-8 是 Unicode 標(biāo)準(zhǔn)的編碼字符集的字符編碼方案,UTF-16 使用一個(gè)或兩個(gè)未分配的 16 位代碼單元的序列對(duì) Unicode 代碼點(diǎn)進(jìn)行編碼;UTF-32 即將每一個(gè) Unicode 代碼點(diǎn)表示為相同值的 32 位整數(shù)
RFC2045按照定義,Base64被定義為:Base64內(nèi)容傳送編碼被設(shè)計(jì)用來(lái)把任意序列的8位字節(jié)描述為一種不易被人直接識(shí)別的形式。