2012年5月3日 星期四

第二章 文字媒體


一、文字的格式


內碼
文字在電腦內部的儲存與表現方式
ASCII 碼
目前最為通用的文字碼
包含大小寫英文字母、阿拉伯數字、各種標點符號及一些特殊的內碼
以 8 個位元代表
ASCII 碼總共為 0~255,在一般的計算機概論書籍都可以看到 ASCII 內碼的對照表
BIG-5 碼
廣泛使用的一種中文內碼
以 16 位元來表示一個中文字
16 位元共有 216 種也就是 65536 種組合,已能滿足一般中文字所需的數量
早期中文內碼的不統一造成文字資料在不同系統中交換的困難
大陸中文內碼以使用 GB 碼為多,和 BIG-5 碼不相容,文字資料必須轉碼


二、Unicode


ISO10646則是由國際標準化組織制定的編碼標準,
UNICODE 則是由非盈利的電腦組織UNICODE研討會負責維護和改進的一種字符編碼,並符合國際ISO10646標準。
ISO10646 及UNICODE 的字碼架構:它們均為多國語文內碼系統。
ISO10646之漢字碼長度:4 BYTE,
UNICODE 之漢字碼長度:2 BYTE,新版UNICODE之漢字碼長度:2-4 BYTE。
作業系統的主要廠商微軟已在Windows 98 中使用了新版UNICODE。另外資訊業界的一些大公司如Apple、HP、IBM、Lotus、Novell、Sybase 等亦是UNICDOE研討會的成員,在他們的產品中也已經或即將支援UNICODE。
Unicode 是一個超大的文字庫,他蒐集了世界上所有語言的大部分文字,而收錄在同一個文字庫裡。包括 繁/簡體中文、日文、韓文,以及許多想不到的語文
Unicode 裡,無論是英文還是漢字、假名,每個字都是兩個 bytes(位元組)。

Unicode 裡,無論是英文還是漢字、假名,每個字都是兩個 bytes(位元組)。
Windows 2000/XP 下,文字是 Unicode,讀取到不同的內碼時,都會跟 Unicode 之間作轉換
網站下載字碼會被轉成Unicode,若由中文版IE,查詢日文網站,Copy網頁上的文字,填入表單後再送出,該漢字會轉成big5字碼再送出。


Unicode不同版本的標準都收錄在 ftp.unicode.org,最新版本都收錄在ftp.unicode.org/UNIDATA,版本編號為4.0.0。
Unicode皆以16進位,開頭以“U+”表示
Unicode 只是一個字形和內碼上的標準,並沒有定義實際在電腦上存取的方法,因此Unicode協會便定義了一整套的電腦存取Unicode編碼的轉換格式,並考慮了與其它編碼方式兼容,稱之為UTF(Unicode/UCS Transformation Format,統一碼/通用字集變換格式)。常用的格式有UTF-8和UTF-16
UTF-8是一種不等幅的編碼方式,可能需要1,2,3個bytes來儲存,ascii字元不需做轉換,保持原狀﹔但其他的語文資料則須透過程式來做轉換,容量會因每個自需要額外多用1~2個bytes來編碼而變大。
UTF-16基本上就是Unicode雙byte編碼的實現


三、UTF-8的轉換(Unicode->UTF-8) 

U+0000~U+007F (1 byte,128個) ,存放ASCII
U+0080~U+07FF (2 byte,1920個)
U+0800~U+FFFF (3 bytes,63488個)


四、BIG-5 碼 


BIG-5 碼的內容有常用字 5,401 個、次常用國字 7,693 個及符號 471 個,共計約 13600 字。
台灣的內碼是 BIG5,日本的內碼是 Shift-JIS,但在 Windows 2000/XP 下,藉由核心的 Unicode 作為橋樑,在一般的情況下,應該資料可以互相共享才對。
真正的問題在於 BIG5 的缺字。當某個字 Shift-JIS 有,但是 BIG5 沒有時,那個字轉換成 BIG5,就會變成問號


五、文字的格式


字型
在外部顯現可讓人們看見的文字形狀
點陣字
描邊字

字型-點陣字

最早發展出來的字型表現方式 ,將文字以一個個方格點排列成矩形所構成 ,依使用的點之數量不同,品質亦不同
    *點陣字的缺點
鋸齒狀現象 ,不管是多少個點所構成的字型,只要是放得夠大,就會看得出鋸齒狀的現象
字型無法自由放大
必須搭配對應的字型,例如:對於小的字,可用 16x16 字型,大一點的字則必須使用 32x32 或解析度更高的字型
字型解析度過高時,相當浪費儲存空間, 128x128 點陣字所佔儲存空間為 16x16 點陣字型的 64 倍


字型-描邊字

採用數學運算方式產生的字型
描邊字儲存字型所對應的數學式,使用時依公式計算轉換為對應的字形輪廓
在放大或縮小時,不會像點陣字一樣有形成鋸齒狀的問題
系統中,包含的基本中文字型中即有「細明體」、「新細明體」與「標楷體」。這些字體稱為 TrueType 字型,屬於描邊字型



六、輸入文字


外部文字檔案獲得
直接讀取他人完成之文字檔
光學字元掃瞄 
經由掃瞄器掃瞄再透過光學字元辨識處理
手寫辨識 
在觸控板上書寫文字,系統依筆畫的順序與位置辨識所書寫的文字 ,適用於PDA、掌上型電腦
語音辨識 
使用前輸入者必須先對系統進行一系列的樣本輸入,好讓系統分析輸入者的口音特質
鍵盤輸入 
目前主要的輸入方法



七、內碼

以0、1兩種符號組合而成
例如:01000001
二進位數表示「65」,ASCII碼表示「A」
我們常用的內碼有
ASCII碼
BIG-5碼:中文內碼的一種
*相同語言的不同內碼,須經由轉碼的動作,才能夠辨識,否則會變成亂碼。

內碼與亂碼(1)
文字經由內碼設計表示其涵義,但需搭配適合的展現工具才能讓我們閱讀
例如
以十六進制來顯示BIG-5碼

內碼與亂碼(2)
以ASCII碼來呈現BIG-5碼
內碼與亂碼(2)
BIG-5碼正確表式方式

字型與字體(1)
字型
是固定大小的圖形化字元集合
字體
一群圖像化的字元 ,字體通常包含各種大小 (size) 與樣式 (style)
樣式
如粗體、斜體、底線與刪除線等

字型與字體(2)
字體可分
有襯線字體 (serif)
襯線就是加在英文字母豎線上下端的裝飾細線
例如新細明體與Times New Roman都是有襯線字體
無襯線字體 (sans serif)
例如Helvetica與Microsoft Sans Serif字體為無襯線字體

字型與字體(3)
有襯線字體
無襯線字體

字型與字體(4)
變字寬:每個字元的寬度不一樣
固定字寬:每個字元的寬度相同
字距:兩個字元間距離

點陣字
文字以一個個方格點排列成矩形所構成
缺點
字型放大,會產生鋸齒狀現象
當字型解析度過高時,相當浪費儲存空間

描邊字
採用數學運算方式產生的字型
放大或縮小時,不會像點陣字一樣有形成鋸齒狀的問題,而且也比較美觀自然


八、數位化文字的應用

文件資料儲存
例如:儲存金庸的小說
資料搜尋與比對 
請試者用「yahoo」或「蕃薯藤」查詢「多媒體」,看看能找到什麼!


參考自:http://web.ntit.edu.tw/~wpin/Multimedia/F7842-CH01.ppt

沒有留言:

張貼留言