DDC21 中文版索引的編制
侯漢清 汪東波 南京農業大學信息管理系
《杜威十進分類法》是世界上歷史最悠久、用戶最多的圖書分類法。中國圖書館圖書分類法編委會組織人員已將DDC第21版譯成中文。鑒於分類表的字順索引是分類法的重要組成部分,因而決定將DDC21中文版的分類表和字順索引一同譯出。現就DDC21中文版索引編制中遇到的問題及其解決方案,進行分析和討論,請同行批評指正。
一、索引類型的選擇
目前世界各國圖書分類法的索引大致分爲以下四類:
(1)直接索引,中國的《中國人民大學圖書館分類法》及《中國科學院圖書館分類法》的索引屬於這一類。
(2)相關索引,中國第二版《中國圖書館圖書分類法》(CLC)及美國的《杜威十進分類法》(DDC)等分類法的索引都屬於這一類。
(3)鏈式索引,如印度的《冒號分類法》(CC)和英國《布立斯書目分類法》(BBC)的索引。
(4)敘詞表式的索引,如《國際十進分類法》(UDC)的某些專業分類表的索引,其索引款目不僅有類名及類號,還帶有敘詞表常有的代項、分項、屬項及參項參照。實際上這種索引已成爲一種敘詞表。
實際上各種索引方法,尤其是機編索引的方法,如題內關鍵詞索引法(KWIC)或題外關鍵詞索引法(KWOC)、保留上下文索引法(PRECIS)等都可以用於分類表索引的編制。
爲DDC中文版編制一部甚麼類型的索引呢?最簡單的選擇是像DDC、CLC那樣編制一部相關索引。但是,相關索引的明顯缺陷是難以用計算機編制,編制時間長,耗費人力、物力多,而且編製的索引款目專指度較低,不少複雜槪念未得到充分輪排,可在一處查得,但在另一處卻查不到。
我們在爲DDC中文版選擇索引類型時確定了如下目標:
(1)編制的索引款目要專指,盡量與分類表的類名接近;
(2)索引能夠爲每一個類目提供多個檢索入口;
(3)要易於編制,易於使用,適宜用計算機編制,經濟省時,確保質量;
(4)符合漢語的特點,而且又能實現中、英文兩種版本的兼容。
根據上述原則,我們決定吸取、融合現有幾種分類表索引的優點,即把鏈式索引法,輪排索引法和關鍵詞索引法三種技術結合起來,編制一部題內關鍵詞型的中文輪排索引。
這種輪排索引最大的優點是便於用計算機編制,速度快,成本低,專指度高。通過索引款目,不僅可以把要查詢的主題轉換爲分類號,而且可以直接見到所要查找的類目名稱及參見(交替),用戶可以立即決定取捨,甚至可以直接進入書庫按號索書,也可以直接查找分類目錄,基本上可以省去查看分類表這一步驟。
這種輪排索引允許用戶從類名中的某一個詞彙或詞素進行查找,檢索入口多,查找方便。由於漢語詞彙具有字面成族的特點,輪排索引可以把含有同一主題詞或詞素的若干主題槪念集中在一處,這樣就便於用戶查看和選擇具有不同等級關係或相關關係系的主題槪念。
總之,這種輪排索引具有DDC21(英文版)相關索引的全部功能,而且具有DDC21(英文版)相關索引所不具備的其他優點。
二、索引編制方法的選擇
DDC中文版索引的編制有兩種做法。其一是在完成DDC21英文版分類表的漢譯工作以後,再將DDC21英文版索引譯成中文。其二是直接用計算機加工處理DDC中文版分類表,生成一部中文輪排索引。前者,簡稱直譯法,要將千餘頁的英文索引譯成中文,耗工費時,而且由英文索引譯成的中文索引往往難以與英譯中分類表保持一致,給用戶查找帶來困難。這種方法可謂吃力不討好。外文著作或工具書譯成中文時往往不採用這種方法。後者,簡稱機編法,實際上是用機編索引的工作取代了英文索引的翻譯,而且可以有效地利用DDC 中文版分類表,因而易編,省時省工。但是,這樣編成的中文分類表索引難以與英文版的分類表索引實現兼容互換。
權衡二者利弊,我們決定運用最新的機編索引技術和自動切分技術,將上述這種做法結合起來。具體地說,機編DDC中文版輪排索引包括以下步驟:
(1)手工處理DDC中文版分類表,添加一些專用符號,通過訐算機處理將其中的類目和註釋處理成獨立、完整、語義明確的主題槪念,呈主題詞或詞組的形式。
(2)將DDC21英文版索引的一級標目和二級標目譯成中文,然後經過補充和整理,加工成一個切詞詞典。
(3)先用切詞詞典自動切分前述經過處理的DDC21中文版類目及註釋,然後再用手工補切。
(4)自動生成索引款目,並結合漢語特點按雙向排序法排序。
(5)計算機輔助編輯和排版,經過人工格式校驗,最後激光輸出一部DDC21中文版索引。
制成的輪排索引,呈題內關鍵詞索引形式。索引款目包括索引標目(即關鍵詞)及其上文和下文,另外還附有參見或交替類目,最末是索引地址,即分類號。這樣制成的索引不僅檢索入口多(標引深度大於2),專指度高,便於用戶檢索,而且可以爲DDC21中、英文索引之間乃至中、英文類目之間的兼容互換架設一座橋樑。
三、機編索引過程中的人機合作
阮岡納贊(Ranganathan)巧妙地利用了類目與主題詞的對應關係,創制了鏈式索引法(Chain procedure)。它在圖書館界有著廣泛的影響,一直被用於編制分類表的字順索引以及字順主題目錄。《英國國家書目》從1950年至1969年一直用它編制索引,但是從1970年開始用保留上下文索引系統(PRECIS)代替了鏈式索引法,英國圖書館在長期使用它之後又不得不拋棄它,據說其主要原因之一是鏈式索引無法用計算機編制。[1]
是不是鏈式索引就無法用計算機編制呢?我們的實踐推翻了這一結論。我們知道,鏈式索引法是一種機械的或半自動的編制索引的方法,可以用計算機程序有效地將類鏈轉換爲索引款目。當然在對類目鏈環進行補正、刪節等項處理時,需要進行少量的人工干預。1999年我們自編軟件用鏈式索引法和關鍵詞索引法成功地爲CLC編制了一部長達1000多頁的分類表索引。這爲我們編制DDC21中文版索引提供了經驗。
DDC中文版如採用手工編制索引,那將會工程浩大,曠日持久,而且質量也難於保證。鑒於DDC中文版在計算機排版過程中產生了機讀數據,我們可以直接用這些機讀數加工索引,從而節省大量人力和物力。
我們開發了一個計算機輔助編制索引的系統[2],整個系統分爲六個模塊,其結構如下(見圖1):

(1)詞典生成模塊。本模塊引進市售的機器翻譯軟件,將DDC21英文版索引(電子數據)中的一級、二級標目(詞或詞組)譯成漢語,並盡量使其譯名與DDC分類表的譯法取得一致。經過整理形成一個自動切分用的詞典。
(2)人工處理模塊。本模塊主要由人工對DDC中文分類表中的類名和註釋進行必要的處理,手工添加各種專用符號,或對類名作必要的修改,使眾多的類目變成一個個獨立、完整、語義明確的主題槪念,另外還包括對自動切詞的補充。
(3)自動切詞模塊。本模塊主要利用上述切詞詞典,對經過加工了的分類表數據進行自動切分,從而提高分詞的速度和一致性。
(4)机器自動校驗模塊。由機器自動完成對數据文件的校驗查錯,減少人爲操作的誤差。也可利用自編的禁用詞表刪改詞表中不適當的切分,以減少多人操作的不一致性。
(5)索引生成及排序模塊。本模塊主要完成索引款目的輪排、款目拼接、款目排序和索引輸出等工作,並濾去全部切分符號和專用符號。
(6)統計管理模塊。本模塊主要是對生成的索引款目進行統計和監測,以控制索引的輪排系統和最終規模(索引條目數及印刷頁數)。
DDC中文版輪排索引的編制過程中體現了人機結合、共同分擔。我們注意充分發揮計算機在處理數據方面的優勢,由機器來完成切詞詞典翻譯和製作、自動切分、索引款目製作、輪排、排序、校驗查錯和輸出打印等事務性工作,由標引員來完成索引編制中的智力勞動,即進行必要的人工干預和處理。主要包括以下幾項工作:
1.由計算機自動刪除DDC中文版分類表機讀數據中的全部排版符號,並對類目註釋進行必要的處理,包括刪除其中的沿革註釋及方法註釋等,自動提取註釋中的主題槪念組成類目,在分類號後自動添加復分、仿分的專用符號,並將全部數據移入關係數據庫。
2.手工處理分類表的數據,其中包括下列內容:
(1)將類名或註釋中的並列槪念予以拆分;
(2)添加前限定、後限定、上位限定等專用符號;
(3)刪除無檢索意義的類目;
(4)如果添加專用符號變得很複雜,直接補正或改寫少量的類目名稱;
3.由計算機處理上一步手工添加的專用符號,生成一個新的分類表(註釋已改爲類目),其中有的一條類目被拆成兩條或多條。
4.用前述切分詞典對分類表數據進行自動切分,漏切部分由標引員補切。
5.在計算機自動校驗查錯的基礎上,由標引員對照中文版分類表校對。
6.計算機通過輪排生成索引款目,並自動排序,由標引員對機器輸出的打印稿進行格式校驗。
7.計算機輔助編輯排版,人工進行必要的編輯加工,最後激光打印輸出。
四、編制實例
1.加標專用標記的DDC21中文版分類表(片斷)
303.4 <社會>發展
.42 進化發展
.43 革命性和破壞性{發展}
.44 增長和發展
.48 # 發展原因
.482 文化之間接觸=對社會發展的影響+
同化、國際援助、商業等
.483 科學技術發展
.4832 運輸
.4832 通訊
信息技術入此#
2.經計算機處理生成的DDC21分類表(片斷)
303.4 /社會發展
303.42 /社會進化發展
303.43 /社會/革命性發展
303.43 /社會/破壞性發展
303.44 /社會增長和發展
303.48 /社會發展原因
303.482 /文化之間接觸對/社會發展的影響
303.482 /同化對/社會發展的影響
303.482 /國際/援助對/社會發展的影響
303.482 /商業對/社會發展的影響
303.483 /科學/技術對/社會發展的影響
303.4832 /運輸對/社會發展的影響
303.4832 /通信對/社會發展的影響
303.4832 /信息技術對/社會發展的影響
3.計算機生成的輪排索引(片斷)
/社會 /革命性發展 303.43
/國際/援助對/社會發展的影響 303.482
/信息 /技術對/社會發展的影響 303.4832
/科學 /技術對/社會發展的影響 303.4832
/科學/技術對/社會/破壞性發展 303.4832
/商業對/社會發展的影響 303.482
/社會發展 303.4
/文化之間接觸對 /社會發展的影響 303.482
/同化對 /社會發展的影響 303.482
/運輸對 /社會發展的影響 303.482
/科學/技術對 /社會發展的影響 303.4832
/信息技術對 /社會發展的影響 303.4832
/通信對 /社會發展的影響 303.4832
/商業對 /社會發展的影響 303.482
/國際/援助對 /社會發展的影響 303.482
/通信對/社會發展的影響 303.4832
/文化之間接觸對/社會發展的影響 303.482
/信息技術對/社會發展的影響 303.4832
/國際 /援助對/社會發展的影響 303.482
/運輸對/社會發展的影響 303.482
參考文獻
[1]Wilson,T.D.:Anintroduction to subject indexing,London,Clive Bingley,1971
[2]侯漢淸等:《漢語主題詞表》輪排索引的計算機輔助編制,情報學報,1998年17卷4期

臨時澳門市政局環境資訊中心