標籤

2013年8月30日 星期五

輸入法詳論

                  第三篇 輸入法詳論
        輸入法,乃是世界上方塊字所專屬的名詞。在今天的資訊時代裏,人們對中文輸入的需求,日漸殷切。漢字,迥然不同於拼音文字,它的特色之一是在表義的形符。它更是一種由形狀多樣極富變化的筆劃,所構成的文字。雖然它具有許多的優點,使其能光耀寰宇,唯獨對現代科技的產物~電腦,輸入時遇著極難突破的瓶頸。那就是學習的難易度,和輸入的速度,常常不能兩全其美。中外有許許多多的人,都致力於這方面的研究。他們每個人所獲得的成果,其實就是完成了一項,中文系統的驅動程式。 
                     
                       第一節 漢字結構與輸入法
        漢字的誕生,有著象形﹑指事﹑會意﹑形聲﹑轉注及假借等六書法則的脈絡可尋,此乃盡人皆知的事實。而六書與輸入法,關係之密切,卻鮮有人注意。妙通輸入法所擬的三種編字碼的方法,即部首取碼法﹑分離取碼法及字根取碼法,偶然地與六書的特質,若合符節。
 象形字是畫成其物,隨體詰詘。如:人﹑日﹑月﹑山﹑水等;指事字是視而可識,察而見意,如:上﹑下﹑本﹑末﹑刃等。這兩類的字,都是基本字根。它們編碼的方法,正是字根取碼法。
 會意字即比類合宜,以見指撝。如:武﹑信﹑安﹑美﹑妙等;形聲字是以事為名,取譬相成。其部首表形意,偏旁表音聲。如:江﹑河﹑杪﹑紀﹑映等。這兩類的字,全都是由兩個以上的字根所組成,其對應的編碼方法較富變化。有以分離取碼法編碼者,如:武﹑美﹑朋﹑明﹑奮等;也有以部首取碼法編碼者,如:江﹑信﹑安﹑紀﹑杪等。至於轉注﹑假借這兩類的漢字,分別是一義多字,與一字多義的文字擴充法則,站在字形的角度來看,並無產生「新字」,所以就輸入法的觀點而言,無關宏旨。現在,要詳細論述妙通輸入法,我們就先從字根取碼法開始。
                      
                        第二節 字根(Root)取碼法
        一漢字,若能成為另一漢字的一部份時,本輸入法將此種字稱為「字根」。如:「慮」是濾字的字根,它又含思字。而思字是由「田」與「心」兩個基本字根所構成。一個漢字,若按下節所述之字形分離原則,不能再分出另一漢字者,本輸入法將它稱為「基本字根」。如:山﹑水﹑日﹑月﹑口﹑目 ﹑心等。依此定義,則反﹑去﹑百﹑皮﹑步﹑…等,即非基本字根。而非屬漢字僅為一簇筆劃者,如:气 ﹑厂 等,本輸入法稱它為「字形」。
        字根取碼法,就是把筆劃互相接觸的基本字根,整個字看成一體來取筆劃的意思。玆將字根取碼的條件與方法,分述於後。
一﹑字根取碼的條件
               凡屬基本字根的漢字,無法以分離法則(見分離取碼法)加以分離者,即以字根取碼法編碼。如:心﹑內﹑水﹑來﹑飛等。
二﹑字根取碼的方法
              將整個字取其首﹑次及尾筆即可。整個字的筆劃,若在三筆以下者,即按筆順取碼。如此可得一至三碼,如:
            人 GH   TVH   JRA   RFE    CFH
                          
                        第三節 分離(Apart)取碼法
        分離取碼法,是把一個漢字分成兩部份,分別編碼後,再把它們合起來的方法。玆將分離取碼的條件﹑字形分離的原則與編碼的方法,分述如下:
一﹑分離取碼的條件        
       凡一個漢字,若按如下所述的字形分離原則,可分成兩部份者,即須以分離取碼法編碼。如:釋﹑師﹑量﹑覺﹑非﹑足﹑等。
二﹑字形分離原則
(一)筆劃互相接觸之漢字
     1.兩字根筆劃交叉﹑共用,或某字根三面以上,被某字形接觸者,不分離。如:臾(臼人)﹑重(千里)﹑田(十)﹑角(土)。以上各字皆應視為一體,不可分離。
     2.若含有另一字根者,即應分離之,但分離時不留單一筆劃。如:「百」應分出字根「日」,而非「白」。其他如:丟(王)﹑矢(大)﹑舌(干)等。而天﹑自﹑良﹑正等字,則不可再分離出任何字根。
     3.若有兩種分離方法時,取前面最大字根分離之。如:「克」應分出字根「古」,而非「十」。其他如:交(六)﹑卓(早)等。
(二)筆劃自然分離之漢字
          1.若筆劃自然分離為兩部份者,即據以分離之。如:
   竟(立)﹑查(杳)﹑帚()﹑乳()﹑兆()﹑穌(魚)
2.若筆劃從上而下,自然分離為三部份以上者,如下法分離之:
1)若下有字根,逕取該字根分離之。如:
       嘉(加) 壽(吋) 會(曰) 亨(了)
2)若下無字根,則取上面首字根或字形分離之。如:
           爵( 鬲(一) 黃(廿) 高(亠
          若筆劃從左而右,自然分離為三部份以上者,亦如上法為之:
            聯(耳) 凝(疑) 獄(狺) 讎(誰)
       3.筆劃若分離成內﹑外兩部份之形式者,兩者任一,不論
是否為根,我們稱外面部份為「外圍」。所謂分內﹑
外,即一字根或字的兩面以上,被另一字根或字形所
包圍之意,承托﹑覆蓋或包含。在此,我們將它分為下面三種類型:
1)外圍為字根者,如:糜(麻)﹑麝(鹿)﹑問(門)﹑
麾(麻)房(戶)。此外還有:毯趕題颼咸鬧式魁鼬甦或等。
2)外圍為字形者,如:厚(厂)﹑氣(气)﹑國(囗)﹑匯
(匚)﹑)。其他還有:司句同幾廣處后差左存
產疼胤尚咼周肉鳳園等字。
3)特殊形式之外圍,有如下三類:
          ㄅ:與( )還有興﹑輿。     贏(貝)尚有嬴﹑羸﹑臝。
          ㄆ:街()此外如:衡﹑衛﹑衢。辦(力)又如辨﹑瓣﹑辮。    班﹑掰﹑嬲等字亦同。 
ㄇ:裏(里)其他如裹﹑衷﹑褒。  器(犬)另有囂﹑嘂。
三﹑分離取碼的方法
(一)分上﹑下。
        上面部份取首﹑尾兩筆,下面部份則取首﹑次及尾筆等
三筆,(首尾˙首次尾),總共最多五碼。若下面
的筆劃少於三筆,即按筆取碼。如此,一個字至少編
得三碼。今舉例說明之:
     DC˙DVC    FV˙DVR    BB˙FBC    AB˙VT
     CC˙DVA     FF˙DVA    DR˙BC       DB˙C
(二)分左﹑右。
        左邊部份取首﹑尾兩筆,右邊部份則取首﹑次及尾筆等
三筆,(首尾˙首次尾),總共最多五碼。若右邊的筆劃少於三筆,即按筆取碼。如此,一個字至少編得三碼。今舉例說明之:
            形 BE˙FFF      FM˙R        YF˙AVE    AN˙BTB
      狀  YF˙BGA   BB˙FVB   BR˙BR      EB˙DTB
(三)分內﹑外。
     外圍部份取首﹑尾兩筆,其餘被包圍部份則取首﹑次及尾筆
筆,(首尾˙首次尾),總共最多五碼。其餘被包圍
部份,若筆劃足時,即按筆順取碼。如此,一個字至少
編得三碼。今舉例說明之:
      EB˙B        GR˙DVB    CG˙DVC    AY˙CFB
       ET˙BDB   T˙CDB       VTA˙YD    GR˙BFA
外圍碼在字碼中的次序,應按照筆順排列或拆開。如:
      C˙DVB˙T     BDD˙AH     C˙AAB˙Y   C˙BDN˙A
      圖D˙DVB˙B      D˙CFA˙B   A˙FGH˙D   A˙FDJ˙H
又不論是分左﹑右,上﹑下或內﹑外,若偏旁有「囗」字形時,
亦如部取碼法一般,以其內部字根或字形取碼。如:
        VJBDJ          FABDB          EBBDJ
                            
                       第四節 部首(Head)取碼法
        所謂部首取碼法,簡單地說就是,一個漢字編碼時,先確定該字的部首是什麼,然後選取該部首的一或兩筆,再取其餘部份的首﹑次及尾筆等三筆,來編碼 的方法。依此法編得的字碼,至少兩碼,最多五碼。玆將部首的選取﹑部首取碼的條件及其編碼的方法,分述於下。
一﹑部首的選取
               一般字﹑辭典裏所列的部首,總數有二百十四個。但是,我國教育部在一九九四年七月,公佈四千八百零八個常用字,以此為背景資料,經統計的結果,我們發現,所屬漢字在二十個以上的部首,約五十五個而已。其中有二十五個,自然符合了分離取碼法的條件。因此,必須以部首取碼法編碼的,只賸三十個了。
              我們還將這五十五個部首,按所屬字數的多寡排序,作成每一部首重要性之指標。部首常用度排序的前十名中,除了「忄」以外,其他九個,因所屬漢字為數眾多,故為了方便,只取單筆做為部首碼。
二﹑部首取碼的條件
               凡一個漢字,若含有在特定位置之部首,即應以部首取碼法編碼,但應遵守部首取碼的原則。玆將部首位置與取碼原則,分述於下。
(一)部首的位置
              漢字的部首,可能位在字的上﹑下﹑左或右等地方。符合部首取碼條件的,三十個特定位置之部首,以它在字裏的位置,分類如下:
    1.上面的有兩個
       2.右邊的有七個: ﹑力﹑戈﹑ ﹑頁﹑鳥。
       3.下面的有十一個:心貝女,手 ,虫糸,土皿, (火)。
       4.左邊的有十四個(見部首碼取法)。其中四個,是和下面位置的部首重覆。即:手﹑糸﹑土﹑木。
(二)部首取碼的原則
   1.一漢字,若並列有兩個特定位置之部首時,應取上捨下,如:茶﹑蜜。或應取左捨右,如:撤﹑鴻。
       2.一漢字,若有外圍特徵時,雖有特定位置之部首,仍應以分離取碼法編碼。如:塵(土)﹑膚(胃)。
       3.特定位置之部首,若被包含在該漢字的字根裏,即應以分離取碼法編碼。如:晏(安)﹑籃(監)﹑躉(萬)﹑黨(黑)﹑蹞(頃)﹑讟(讀)。
       4.符合部首取碼法條件的漢字,若其偏旁有「囗」的字形,只取內部的筆劃來編碼。如:捆(木)﹑摑(或)﹑茴(口)﹑菌(禾)﹑茵(大)。
三﹑部首取碼的方法
(一)部首碼的取法
              本輸入法漢字輸入的單元,為單一筆劃,並以實際寫法辨認之。取碼時按照筆順,完全尊重人們的書寫習慣。因此,部首碼筆劃的選取,原則上取該部首的首﹑尾兩筆;但有時為了方便,或為避免產生不必要的同碼字起見,有些部首碼,須改變筆劃的選取方法。玆分四類如下:
           1.首﹑次筆:  AF    FJ
           2.次﹑尾筆:  EN  VB    VJ     BA
           3.首筆:  D  Y   F  
           4.尾筆:  M    B  其餘,所有右邊的七個與下面的十一個部首及上面的寶蓋,全都以首﹑尾兩筆來編碼。
(二)部首取碼的方法
              一個漢字,在取得了部首碼之後,其餘的偏旁部份,按字根取碼的方法,取得一至三筆的「偏旁碼」,再把兩者按照筆順排列即可。如:
       J˙R      N˙FBB     鏡F˙ABR    AF˙FHF   EN˙VER
       AFA˙JA DBC˙FNFDA˙CJ  DVB˙JA   部ABB˙VE
                          
                       第五節 筆順的寫法
       本輸入法的特色之一,是編碼時選取筆劃的順序,完全依照人們的書寫習慣。因此,我們必須留意漢字的筆順,才能夠順利地做電腦輸入的工作。
        有時候,少部份漢字的筆順,寫法不止一種,且無所謂對錯的問題。但終究有其下筆順暢的理路可循。所以,妙通輸入法,除了參酌小學課本的筆順表以外,還兼顧大眾的書寫習慣。以下所舉的一些例子,您若能留意,將有助於漢字的輸入。
          1.首筆:(1B F      2)乃T,九及皮 G
                 (3馬長 D,止 E 4)彎A樂叟學與盥F
           2.右偏旁首筆:龍 B,耜 D,服假E
           3.中間首筆:齊 D
           4.次筆:(1)夾來巫 F。(2)凸 B,亞 D,凹 R
            5.右邊次筆:牆 F,龍 T
           6.下面次筆:華 D,處 R,與「」DBF
           7.尾筆:(1)丹舟母 C,戈 F,戶 B  2)叉卵 A,夜 H
                       (3)龍門齊黽B,耳 E,肅聯淵攝 D,鬥 T,J
        8.左邊尾筆:別 TN      9.上面尾筆:喜嘉 C,咎 J  

沒有留言:

張貼留言