計算機文獻檢索論文
計算機文獻檢索論文
電子計算機文獻檢索系統(tǒng)是指廣泛利用電子計算機和現(xiàn)代化通訊技術,進行文獻加工、檢索和遠距離傳遞的自動化系統(tǒng)。下面是學習啦小編為大家整理的計算機文獻檢索論文,供大家參考。
計算機文獻檢索論文篇一
專利文獻計算機檢索技術的最新發(fā)展
[摘要]通過對近年來計算機科學、人工智能、專利文獻加工等領域的發(fā)展進行總結,從多語言混合檢索、分類檢索、語義檢索、圖像檢索以及輔助技術五個方面介紹專利文獻計算機檢索技術的最新發(fā)展。機器翻譯技術和多邊共同分類體系的完善有助于提高計算機檢索效率、消除語言障礙,而語義檢索、圖像檢索和文獻自動處理技術的發(fā)展有望使面向不同層次用戶的計算機智能化檢索系統(tǒng)得以實現(xiàn)。
[關鍵詞]專利文獻 計算機檢索 語義檢索 圖像檢索
[分類號]G352
1 前言
近年來,計算機技術、語言學以及人工智能技術的發(fā)展促進了整個信息檢索技術領域的發(fā)展,專利文獻的計算機檢索技術正成為情報檢索領域研究的熱點。下文擬從多語言混合檢索、分類檢索、語義檢索、圖像檢索以及輔助技術五個方面介紹專利文獻計算機檢索技術的最新發(fā)展。
2 多語言混合檢索
專利文獻是由各國、各地區(qū)專利局或世界知識產權局出版的官方文獻,因此一般以各局官方語言出版。雖然大部分專利文獻是英語文獻,但是仍然存在大量日文、中文、德文、法文及其他語種的文獻。出版語言的多樣性給專利文獻的檢索和利用帶來了極大的障礙,要實現(xiàn)多語言混合檢索,機器翻譯是必不可少的技術。目前一些專利局在其官方網(wǎng)站上推出了機器翻譯系統(tǒng),例如我國國家知識產權局提供有漢英機器翻譯,日本特許廳提供有日英機器翻譯,韓國知識產權局提供有韓英機器翻譯等,上述網(wǎng)絡機器翻譯系統(tǒng)對其他國家的用戶閱讀方便和使用本國專利文獻起到了幫助作用。
隨著計算機技術的發(fā)展,機器翻譯的技術也迅速發(fā)展,從傳統(tǒng)的基于規(guī)則的機器翻譯擴展到了基于實例或模版的機器翻譯、統(tǒng)計機器翻譯等。尤其是近年來語言學和人工智能技術的發(fā)展,以語義描述或以知識描述為特征的智能機器翻譯系統(tǒng)正逐步成為研究的熱點。專利文獻作為一種特殊的科技文獻,由于其具有特定的句法和語言結構,同時例如權利要求書等具有法律公示性文件的作用,這對翻譯的準確性提出了更高的要求,已有研究者通過在機器翻譯系統(tǒng)內集成多個翻譯引擎、對不同特點的內容使用不同引擎翻譯的方式來提高翻譯質量。
已有的機器翻譯系統(tǒng)基本局限于單篇文獻的機器翻譯,無法實現(xiàn)真正的多語言混合檢索。多語言混合檢索系統(tǒng)不僅可以允許混合語言的檢索式,而且同一個檢索式還可以對不同語言的專利文獻進行檢索,其實現(xiàn)方式主要有如下三種:翻譯檢索式、翻譯文獻或者兩者相結合的混合式。翻譯檢索式的工作量小,比較適合于因特網(wǎng)檢索,但由于檢索式通常缺乏語境,翻譯難度較大;翻譯文獻的方式雖然有利于提高翻譯質量,進而有利于文獻檢索,但存在的主要問題是翻譯量太大、翻譯時間長。
3 分類檢索
分類號一直是專利文獻檢索的重要手段。目前除了基本涵蓋各國專利文獻的國際專利分類(IPC)之外,美國專利商標局、日本特許廳和歐洲專利局各自都有自己的分類體系,分別是UC、FI/FT和ECLA。IPC雖然通用,但存在分類標準不統(tǒng)一、分類條目不夠完備、文獻分類更新不及時等缺陷,導致使用IPC檢索的效果欠佳。UC和FI/FT分別只能檢索美國和日本的專利文獻,ECLA雖然能夠檢索到多國的文獻,但仍然不能有效地檢索日本、韓國、中國等國的專利文獻。
為改善這種局面,美國、日本和歐洲自2000年即開始了“三邊分類和諧計劃”,該計劃旨在推進ECLA、UC和FI三個分類體系的融合以增強分類號檢索的功能,同時對現(xiàn)有IPC分類體系提出改進建議。依據(jù)2009年召開的第27次三邊會議,韓國知識產權局已經(jīng)加入上述計劃,而中國國家知識產權局也以觀察國的身份參與這項工作。此外,近年來美國專利商標局、日本特許廳、歐洲專利局、韓國知識產權局和中國國家知識產權局五局積極開展合作,其中一個重要的合作項目是“共同的分類”。該項目的實施將有利于提高分類的一致性,擴展或細化部分技術領域的分類,進而提高檢索的效率和質量。
不管是美日歐三方開展的“三邊分類和諧計劃”,還是五局共同開展的“共同的分類”項目,都必將推進專利文獻分類體系的進一步發(fā)展,實現(xiàn)真正意義上的“基于檢索的分類”,進一步增強分類號在專利文獻計算機檢索中的作用。
4 語義檢索
當前專利文獻檢索的主要手段為關鍵詞和分類號檢索,而由于一詞多義、一義多詞,專利文獻撰寫、加工和翻譯質量不一以及關鍵詞的機械匹配等問題,本質上決定了其查全率和查準率受限制。隨著計算技術、人工智能、自然語言處理等技術的發(fā)展,搜索引擎的智能化有望從根本上提高現(xiàn)有檢索系統(tǒng)的檢索質量。
搜索引擎的智能化具體表現(xiàn)為語義檢索,也稱為知識檢索或概念檢索。語義檢索是對檢索條件、信息組織及檢索結果顯示賦予一定語義成分的一種新的檢索方式。語義檢索的本質在于以語義為對象進行搜索,而不是對字符串進行簡單的機械匹配,因此可避免關鍵詞匹配檢索中由于詞和義不對應所導致的問題。
語義檢索過程一般包括對被檢索的文檔以及輸入的檢索式進行語義分析和匹配處理。這種語義分析處理依賴于詞匯的語義描述技術以及分別用于詞義鑒別和詞匯過濾的語義識別技術和詞匯鏈算法??梢酝ㄟ^諸如WordNet等語義詞典對詞匯實現(xiàn)較完備的語義描述,保證人和機器對詞匯的理解一致。
最新發(fā)展的潛在語義索引通過將文獻搜索過程中的向量空間模型和奇異值分解相結合,可以揭示文檔中的詞間關系,因而適于構建專利文獻搜索引擎”…。利用語義進行檢索還可以將專利文獻中的非技術性信息考慮在內,例如將特定的技術概念和申請人、發(fā)明人等信息進行語義聯(lián)系。此外,語義檢索還可以從用戶角度出發(fā),考慮用戶的檢索需求,從而為諸如查新、侵權等不同目的的檢索提供相應的結果。
近年來國內一些開發(fā)商也紛紛提供具有語義檢索功能的專利文獻檢索系統(tǒng),例如東方靈盾開發(fā)的專利檢索系統(tǒng)和Patenticst網(wǎng)站。Patentics網(wǎng)站除了可以實現(xiàn)傳統(tǒng)的關鍵詞檢索功能,還支持語義檢索,僅通過輸入檢索所針對的專利文獻號,即可自動對其進行語義分析、文獻檢索,并對結果進行相關度排序。當前專利文獻檢索領域還未廣泛應用語義檢索,但隨著研究的深入,相信未來的搜索引擎不僅能利用語義技術提高檢索的效率,還有望能對檢索結果進行分析、評價,甚至自動生成檢索報告。
5 圖像檢索
根據(jù)對圖像檢索所使用方法的特征可以分為基于文本的圖像檢索法(TBIR)和基于內容的圖像檢索法(cBIR)。專利文獻一般都帶有大量的附圖,包括機械結構或化學結構式附圖、電路圖、方框圖、流程圖或曲線圖等。與傳統(tǒng)的關鍵詞檢索和分類號檢索相比,CBIR更加直觀、快速,而且可以克服因文字表述差異而導致的漏檢,因此它正在成為專利文獻檢索領域的研究熱點。專利文獻的附圖都是黑白二元圖像(本文
所稱專利是指發(fā)明和實用新型專利,不包括外觀設計專利),不存在顏色和紋理等特征,因此專利文獻的圖像檢索主要是基于形狀和區(qū)域的圖像特征。
雖然目前還沒有成熟的專利文獻圖像檢索系統(tǒng),但一些研究機構已經(jīng)開發(fā)出若干可專門用于專利文獻的圖像檢索原型系統(tǒng),例如IIT Kanpur的PATseek、Informatics and Telematics Institute的PatMediat以及LTUtechnologies公司的ImageSeeker等。PATseek專門針對美國專利文獻進行圖像檢索,而PatMedia網(wǎng)站上的試驗系統(tǒng)僅針對歐洲專利局的專利文獻,這兩個圖像檢索系統(tǒng)都可實現(xiàn)直接輸入待檢索的圖像,系統(tǒng)自動進行相似度匹配,直接提供專利附圖,同時還可以進行基于文本的圖像檢索。
典型的專利圖像檢索系統(tǒng)包括專利文獻處理部分和圖像檢索部分,如圖1所示:
文獻處理部分又進一步包括文獻預處理和視覺、文本元數(shù)據(jù)提取和索引兩部分。前者是找出文獻中的圖形和對應的文字描述;后者則是進一步進行圖像特征分析和文本分析,分別提取基本的圖像特征以及能夠表示圖形含義的高層語義特征的關鍵詞,由此分別形成索引后的圖形特征矢量庫、圖像庫、文本描述關鍵詞庫和知識庫。在圖像檢索部分,基于上述提取的元數(shù)據(jù),進行圖像相似度匹配,同時還可以基于文本進行圖像檢索。與一般領域的圖形檢索相比,由于專利文獻中每幅圖形一般都對應有文字描述,即使不再進行人工標注或自動標注,都能提取到較好的高層語義特征,這對提高專利文獻圖形檢索的準確性非常有幫助。
目前因特網(wǎng)上最新版本的PatMedia專利文獻圖像檢索系統(tǒng)不僅提供有圖像輸入的檢索方式,還提供有文獻號、關鍵詞輸入的檢索方式;此外,對于檢索結果還可以進一步使用文本過濾、類別過濾等功能。下面示例性地給出了利用PatMedia進行圖像檢索的結果(見圖2、圖3),輸入如圖2所示的圖像,該系統(tǒng)可以檢索出如圖3所示的結果(僅列出部分結果)。
目前專利文獻圖像檢索系統(tǒng)僅處于試驗階段,只能對數(shù)量非常少的特定專利文獻進行檢索,且檢索結果相關度還不是很高,但由于圖像檢索具有其他任何檢索方式都不具備的優(yōu)點,相信隨著人們對專利文獻圖像檢索技術的進一步研究以及語義檢索技術的進一步發(fā)展,實現(xiàn)高精度的圖像檢索必將成為現(xiàn)實。
6 輔助技術
高質量的專利文獻是提高檢索質量的基礎。專利文獻分類、標引和摘要改寫是專利文獻加工的主要內容。傳統(tǒng)的專利文獻加工方法主要依賴于人工,其成本高且速度受限制,質量不統(tǒng)一。隨著人工智能和計算機技術的發(fā)展,開始出現(xiàn)對專利文獻進行自動分類、自動標引、自動摘要和自動聚類。
專利文獻自動分類已經(jīng)在歐洲、美國、日本得到了廣泛的研究和嘗試。例如歐洲專利局已經(jīng)利用自然語言處理的相關技術實現(xiàn)了專利文獻的自動初分類;對日本專利文獻自動分類研究表明,對于使用K臨近算法進行自動分類的情況下,先將專利文獻按部分結構化為語義單元可以提高74%的效率。
PATExpert代表了目前較先進的專利文獻自動處理技術的發(fā)展,通過基于語義網(wǎng)的語義處理技術實現(xiàn)了面向內容的專利文獻自動處理,其中的一個主要技術是利用一定的語義表示結構實現(xiàn)專利文獻知識層面的表達。該系統(tǒng)可以執(zhí)行的處理任務包括:專利文獻內容和元數(shù)據(jù)的自動抽取;全文、圖像、相關性搜索引擎;專利文獻的自動分類和聚類;面向多語言的輔助理解工具;專利價值自動評估等。
國內有一些研究機構開展了大量的基于IPC體系的專利文獻自動分類的研究,這些研究大部分集中在統(tǒng)計分類技術。近年來隨著人工智能技術的興起,基于人工智能或語義的專利文獻自動分類發(fā)展迅速,例如上文提到的Patentics試驗系統(tǒng)也開始嘗試對專利文獻進行自動分類。
中文專利文獻的自動處理仍處于研究階段,雖然國外專利文獻自動處理已經(jīng)積累了許多寶貴經(jīng)驗,但由于中文表述的特殊性,許多技術還待消化和開發(fā),例如漢語詞匯之間的分詞技術是制約自動標引質量的一個障礙。隨著信息處理自動化相關技術的發(fā)展,專利文獻的自動分類、自動標引、自動聚類和自動摘要正在逐步由半自動走向全自動化,這給搜索引擎的發(fā)展帶來了極大的便利。同時,利用語義技術實現(xiàn)基于內容的自動處理將是未來的發(fā)展主流,也是提高專利文獻自動處理質量的主要手段。
7 結語
專利文獻計算機檢索是一個涉及了多學科的研究領域,其中以語義檢索為核心的技術推動了搜索引擎、機器翻譯、圖像檢索等相關技術的發(fā)展,而由于專利文獻的特殊性,分類體系和文獻自動處理技術也在其中占據(jù)了重要地位。隨著研究的進一步深入,現(xiàn)存的語言障礙和檢索效率低下等缺陷在不久的將來必將逐漸被克服,不同層次的用戶有望借助于智能化的自動檢索系統(tǒng)便利地實現(xiàn)專業(yè)化檢索。
計算機文獻檢索論文篇二
熟悉文獻檢索工具 學會檢索文獻資料
摘 要:在學術研究和論文寫作中,我們經(jīng)常需要檢索查找資料數(shù)據(jù),但是在浩若煙海的文獻中,如何快速準確地找到所需要的文獻,這就要求我們對文獻檢索的知識和技術有一定的了解,在本文中,介紹了文獻檢索的一些基本知識,主要針對的是手工文獻檢索的方法、步驟、途經(jīng)和方法。
關鍵詞:文獻檢索; 檢索工具
中圖分類號:G250 文獻標識碼:A 文章編號:1006-3315(2012)07-144-002
德國柏林圖書館的大門上,刻有這樣一句話:“在這里是人類知識的寶庫,如果你掌握它的鑰匙的話,那么全部知識都是你的。”這把鑰匙就是圖書館各種類型的檢索工具和檢索工具書。
一、了解圖書館目錄組織,掌握目錄的檢索方法
大學生在校學習期間,由于年級的不同,利用圖書館學習所使用檢索文獻資料的工具也有所不同,低年級時最常使用的是圖書館的目錄,而到了高年級,除了使用其目錄(手檢或機檢)外,就是利用文獻檢索工具書和計算機檢索所需文獻。
圖書館的目錄,也稱藏書目錄,是按一定規(guī)則而組成的。它是向讀者揭示、宣傳館藏圖書內容,幫助讀者迅速而準確地查找文獻資料,提供檢索途徑的重要工具,也是讀者利用圖書館,發(fā)掘知識寶庫的入門鑰匙。
圖書館的目錄,對讀者而言也稱讀者目錄,它的種類較多,按文字分,有中文、西文、日文、俄文目錄;按查找途徑分,有分類、書名、著者、主題等目錄,按文獻類型分,有圖書、期刊、資料、聲象資料目錄等。
1.圖書目錄
1.1分類目錄。館藏圖書是根據(jù)各館使用的圖書分類法,按圖書內容的科學體系進行分類組成的目錄,來揭示一個圖書館的藏書。所以,讀者要想了解某學科或專業(yè)館藏圖書的情況,或者想查找到某類的圖書,就可通過分類目錄進行檢索。
1.2書名目錄,是按書名的漢語拼音或筆畫、字母順序等方法排列組成的目錄,它是從圖書名稱方面來揭示一個圖書館的藏書。如果讀者已知書名,便可利用書名目錄檢索所需圖書。
中文圖書目錄,是按漢語拼音字母順序加筆畫排列的目錄,也就是先將同音漢字(包括聲調)排在一起,然后對音同字不同的漢字再按筆畫順序和筆形順序排列。
日文書名目錄,以漢字為起始的,先按《日本實用漢字表》(也有用漢語拼音字母順序)的筆畫順序排列,同筆畫的按筆形的順序排列。書名是以日文假名起始的,則按日文五十音圖順序排列。
西文和俄文的書名目錄,都是按原文字母的順序排列而組成的目錄,但應注意,西文圖書書名前頭的冠詞,在組成書名目錄時是省略的。
1.3著者目錄,是按著者姓名漢語拼音字母順序或筆畫、字母順序排列而組成的目錄。它是從圖書著者方面揭示館藏圖書的。如果讀者想知道館藏某一作者都有哪些圖書或想借到某作者的圖書,就可利用著者目錄進行檢索。
但利用西文、俄文著者目錄時要注意,歐美人的習慣是名在前,姓在后,所以在查找時要倒過來才能查到。
1.4主題目錄,也稱標引目錄,它是用扼要的、經(jīng)過規(guī)范的詞匯,揭示圖書所研究的對象或所論述問題的基本內容。這種目錄的特點,使凡研究對象相同的圖書,都給以同樣的主題,予以集中。這種目錄的排列,是按主題詞的字母或筆畫的順序而組成的目錄。如果讀者要查找某一專題比較完整的圖書資料,就可利用主題目錄進行檢索。
另外,圖書館還編制有書本式館藏目錄,藏有一些圖書館書本式館藏目錄。這樣,讀者還可通過館藏書本式目錄查找所需圖書,或者經(jīng)查找本館無館藏時還可通過其他館書本式目錄進行檢索,查找到后便可通過館際互借或其他途徑借到所需圖書。
2.期刊目錄
期刊是連續(xù)出版物,種類相對比較穩(wěn)定。期刊目錄的排列是按刊名和分類組成兩種目錄。它是揭示館藏期刊方面的目錄。中文期刊刊名目錄,是按刊名的漢語拼音字母或筆畫順序排列的。外文期刊刊名目錄,一般是按文字字母(省略刊名前邊的冠詞)順序排列的。分類目錄,是按各館使用的圖書分類法進行分類,組成分類目錄。
另外,各館還編制有書本式館藏期刊目錄,藏有地區(qū)性和系統(tǒng)的期刊聯(lián)合目錄。如果讀者通過上述兩種途徑經(jīng)查找本館不藏此種期刊時,還可通過查找聯(lián)合目錄,查到哪個館藏有所需期刊,這樣便可通過館際互借或其他方式借到或復制方法得到所需文獻。
至于資料、聲象資料的目錄組織基本與書刊目錄組織大同小異,在這里就不一一介紹。據(jù)調查,一個了解圖書館目錄組織、熟練掌握目錄檢索方法的學生,僅用2分鐘左右就可查到所需圖書;相反,不了解目錄排列規(guī)則,不掌握目錄檢索途徑的學生,要花上l一2個小時才能查找到所需圖書。所以大學生在校學習期間,一定要了解圖書館目錄組織,熟練地利用目錄檢索所需書刊資料,將終身受益。
二、熟悉文獻檢索工具書,學會檢索文獻的途徑、方法與步驟
為了使科學技術工作者及時、有效地利用文獻資料,圖書情報文獻工作者相繼編輯了許多文獻檢索工具書。在當代信息社會中,大學生熟悉文獻檢索工具書,學會檢索文獻的途徑與方法,不僅對獨立獲取文獻進行自學和培養(yǎng)自學能力十分有益,而且還可大大增強情報意識,不斷獲取情報信息也有著重要作用。
1.熟悉查找國內外文獻的工具書
利用文獻檢索工具書檢索文獻,首要一點就是要選準文獻檢索工具書。
1.1查找國內文獻的工具書。查找國內文獻資料的工具書主要有:《全國總書目》《全國新書目》《全國報刊資料索引》《國內內部期刊索引》《內部期刊篇名目錄》、《國內科技資料目錄》《科學技術譯文通報》以及其他檢索工具書如文摘等等。
1.2查找國外文獻的工具書。查找國外文獻資料的工具書主要有:《科技文摘》《國外科技資料索引》《國外科技資料館藏目錄》《專利文摘》和《專利目錄》《國外報刊目錄》《北京圖書館外文新書通報》等等。
另外,國外版的檢索工具書主要有:《化學文摘》《生物學文摘》《科學文摘》《伍利希國際期刊目錄》《科學文摘雜志》《科學技術文獻速報》《工程索引》《地理學文摘》等等。
計算機文獻檢索論文篇三
文獻分類與檢索
【內容提要】索引的研究、編制與文獻流通形式變化息息相關。以 計算機為主體的新技術在文獻流通領域廣泛 應用,對索引理論研究及編制形成沖擊,同時也帶來變革的要求。10年來我國索引編制研究的起伏波動,說明索引研究應順應 社會文獻流通需要而變革的重要性。書目編制、數(shù)據(jù)庫建設及文獻標引、檢索 語言方面等研究的 發(fā)展趨勢,也說明新技術運用對于文獻整理帶來的新特點、新要求。索引理論研究和編制要適應新形勢、新情況,使索引編制更好地為社會服務。
索引是利用文獻的工具,與文獻流通形式的變化息息相關。10年來在索引編制理論研究方面發(fā)生了波動,說明我們關于索引編制的理念正隨著文獻整理現(xiàn)代化進步而發(fā)生深刻地變化。以往文獻以紙質載體為主,索引編制靠人工,編排技術百多年沒有發(fā)生多大改變,理論研究相對穩(wěn)定。自從計算機及其相關電子技術應用于文獻領域并成為新流通載體后,索引編制手段及索引形式發(fā)生了巨大變化,對傳統(tǒng)理念產生很大沖擊,這是造成索引研究波動的根本原因。本文就10年(1993-2002)來索引研究的狀況進行剖析,以求得一二看法,為索引研究深入發(fā)展籌謀。
1 索引理論研究低落,相關研究發(fā)展強勁
我國很早就有索引的編撰和理論研究。上世紀二三十年代,現(xiàn)代索引編制理論和方法傳到我國,曾掀起索引編制和研究的高潮,成果輝煌。新中國建立后,安定的社會 環(huán)境,先進的 政治制度,為學術研究提供了良好氛圍,索引的理論研究和編制才真正掀起高潮。雖然 “”影響了索引事業(yè)的發(fā)展,但撥亂反正后,索引研究與編制又蓬勃興起。尤其是80年代末期中國索引學會成立,領導索引研究, 組織索引開發(fā),開展學術交流,使我國索引事業(yè)走向規(guī)范化道路。
20世紀90年代初,是我國學術界研究索引理論的高峰期,1996年以后研究數(shù)量相對減少?!度珖鴪罂饕?哲社版)》報道的信息顯示了這種趨勢(見表1)。但這種滑動并不表明我國索引研究衰退,而只能說明傳統(tǒng)理論研究在減少,這是索引研究走向成熟的轉折。能說明問題的是與索引研究相關學科或索引應用理論研究走向強勁。
表1 索引編制理論研究情況(按《全國報刊索引》報道時間 統(tǒng)計)
年 代 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 共計
總 共 38 44 36 25 20 31 29 0 1 2 226
傳統(tǒng)編制 37 42 32 25 20 29 28 0 1 2 216
自動化編制 1 2 4 0 0 2 1 0 0 0 10
1.1 書目的編制研究
書目編制在我國歷史悠久,從漢代劉向著《七略》麇集眾書始,書目便成為人們查檢文獻的重要工具。其六分群書并以此編排的方法,雖然有些幼稚,但已開索引先河。書目對保存文獻并提供文獻利用的功能,在兩千多年歷史中影響巨大。書目功能雖然主要不是用于文獻查檢,可在漫長歲月中人們主要靠書目來檢索文獻,以至許多學者將索引理論在中國的不完善歸咎于書目的影響。直到現(xiàn)在關于書目編制的研究一直不衰。論述書目編制和數(shù)據(jù)庫的文獻就非常之多(不包括目錄學理論、各種目錄研究、圖書館編目及目錄組織等文章,見表2)。尤其是運用自動化手段編制書目的研究逐漸增強。
表2 書目編制理論及數(shù)據(jù)庫研究狀況(按《全國報刊索引》報道時間統(tǒng)計)
年 代 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 共計
總 共 25 17 32 10 27 51 49 36 56 51 374
書目編制 11 6 11 2 5 16 4 9 12 12 88
傳統(tǒng)編制 11 5 10 2 4 8 4 6 8 6 64
自動化編制 0 1 1 0 1 8 0 3 4 6 24
數(shù)據(jù)庫研究 3 5 10 6 17 49 41 18 32 27 208
1.2 書目數(shù)據(jù)庫建設研究
數(shù)據(jù)庫是計算機技術應用于文獻存儲后的文獻形態(tài),大多數(shù)數(shù)據(jù)庫就是電子版的書目。其多種檢索途徑又使它成為一部多功能索引。對它的研究90年代初期較少,而末期達到高峰,至今不減(見表2)。
1.3 文獻標引研究
文獻標引是揭示文獻的途徑,書目和索引的編制都離不開它。書目標引在于揭示群書篇目,索引標引所揭示的包括文獻提名在內的各種知識點。在標引技術上沒有本質區(qū)別,對它的研究一直是常見的選題。10年來研究文章比較多(見表3,不包括圖書館分類、編目所涉及的標引問題)。計算機技術大規(guī)模運用書目和索引編制以來,討論自動化標引技術的文章越來越多,說明我國文獻處理技術的研究已跟上世界發(fā)展的趨勢。
表3 文獻標引研究情況(按《全國報刊索引》報道時間統(tǒng)計)
年 代 1993 1994 1995 1996 1997 1998 1999 20
00 2001 2002 共計
總 共 28 39 34 26 46 64 48 28 50 39 402
傳統(tǒng)理論 22 36 29 21 42 49 36 16 33 29 313
自動化標引 6 3 5 5 4 15 12 12 17 10 89
1.4 文獻檢索語言研究
檢索語言是人與文獻對話的媒介,沒有這種語言就無法做到文獻規(guī)范化處理,就無法與文獻溝通。特別是計算機技術運用以后,檢索語言成為人機對話的途徑。檢索語言是具有一定規(guī)范標準的人工語言。例如《中國圖書館圖書分類法》、《漢語主題詞表》、以及各種形式的“關鍵詞表”、“著者號碼表”等。如今人們又提出用自然語言標引和檢索計算機整理的文獻,研討熱烈,有許多文章頗有見地,代表了檢索語言的方向。如何在網(wǎng)絡環(huán)境下進行文獻檢索的探討日益見多(見表4,數(shù)據(jù)不包括圖書館日常使用的分類法、主題法等)。
表4 文獻檢索語言研究狀況(按《全國報刊索引》報道時間統(tǒng)計)
年 代 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 共計
總 共 15 37 25 16 41 29 25 35 37 19 279
傳統(tǒng)理論 15 35 24 15 38 25 21 27 29 11 240
自動化語言 0 2 1 1 3 4 4 8 8 8 39
相關學科研究的強勁勢頭,是索引研究和編制的必然結果,是索引研究實用化的反映,也是索引科學與各學科交叉和融合的結果。它告示我們對應用科學理論的探討更應注重于實踐。
2 索引研究發(fā)展曲線描述了電子技術應用文獻流通領域的歷程
10年中,關于索引編制、書目編制、書目數(shù)據(jù)庫、文獻標引、檢索語言等研究,都經(jīng)歷了低→高→低的波動。駝峰從1995年開始至1999年,峰頂在1997-1998年。這正是以計算機為主體的現(xiàn)代電子技術在文獻出版、存儲、流通各環(huán)節(jié)普遍應用時期。計算機網(wǎng)絡已成為人們實際使用的文獻形式。其功能齊全、傳播速度快、存儲量大、收藏豐富、檢索方便,準確率高,都是紙質文獻所不及,有替代書本式文獻之趨勢。在人們心理(接受新生事物)、生理(適應并掌握操作技術)上產生了解、掌握、運用的欲望,因此關于新技術運用的研究探討是必然現(xiàn)象。這種研究的熱化,勢必對傳統(tǒng)理論形成沖擊。但也要經(jīng)歷由淺入深、由一般介紹到深刻研究的進程。隨著新技術的普及和運轉穩(wěn)定后,該方面研究就會減少,因而形成曲線。這個曲線記錄著計算機及其網(wǎng)絡技術在文獻流通領域應用的歷程。
2.1 計算機技術應用對傳統(tǒng)索引理論研究的沖擊
1994年研究索引理論的文章最多,隨之逐漸減少(見表1)。與研究數(shù)據(jù)庫建設、文獻標引技術和檢索語言的文章從1997年逐漸增多形成反差。形成這種反差的原因,就是學術界對計算機技術在文獻流通領域普遍應用的反映與研究探討。1994-1996年是這類研究的醞釀、寫作、發(fā)表周期。傳統(tǒng)理論逐漸減少合乎學術研究發(fā)展趨勢,但“0”發(fā)展不正常,重視一種研究而忽視其他研究的傾向不可取。傳統(tǒng)索引編制理論是一切新索引編制和索引形式的理論基礎,對其研究不可輕視。
2.2 書目數(shù)據(jù)庫研究的發(fā)展曲線(見圖1),明顯表明計算機及其網(wǎng)絡在圖書館和其他文獻傳播行業(yè)中運用的過程
關于數(shù)據(jù)庫研究的文章始見于80年代末90年代初,主要以介紹其功能作用為主。隨著計算機在文獻流通領域普及速度加快,文章數(shù)量開始增多,探討數(shù)據(jù)庫編制、檢索以及制作技術等方面內容。1995年以后研究文章開始驟增,標志著計算機在以圖書館為主體的文獻流通領域大規(guī)模應用。之后的三四年是計算機及其網(wǎng)絡技術普及應用的高峰,至90年代末基本穩(wěn)定,于是研究的文章相對減少。
附圖
圖1 文獻標引、檢索語言、書目數(shù)據(jù)庫研究情況示意圖
2.3 文獻標引的研究與檢索語言的研究相依共存,都是揭示文獻的方式和手段
檢索語言是人與文獻載體(印刷體、電子形式等)溝通的語言,通過這種語言或代表這種語言的標識符號,把文獻主體概念及其他有檢索意義的特征表示出來,作為文獻存儲和檢索的依據(jù)。沒有檢索語言,標引無法做到。不進行標引,檢索語言便毫無用處。這是索引編制的重要途徑。尤其是計算機技術應用于文獻整理后,這兩方面的研究尤為需要。從圖1可以看出,研究的高峰恰恰也在計算機技術普遍應用時期,表明了學術界對文獻標引及其檢索語言編制的重視,同時也反映出這些學者與時俱進的學風和進取精神。計算機應用是索引理論研究史上最重大的事件,它不僅隨著文獻載體轉變而變換其形態(tài),而且關系到編制方法、操作過程等環(huán)節(jié)的改革與創(chuàng)新,更重要是索引編制的觀念必須改變。這是索引編制史上一場重大的革命。
3 索引理論研究步伐不大但視野開闊
索引研究在眾學科中是小字輩,成果相對較少。研究內容大都屬于功能介紹、編制方法等探討。隨著科學研究深入 發(fā)展,人們對文獻需求廣泛,索引理論研究便向著多元化、專深化發(fā)展。特別是新型文獻載體的出現(xiàn),開闊了索引理論研究的眼界。人們從多角度多方面探求揭示文獻的途徑,10年來總體研究步伐邁得不大,但研究視野比以前開闊了許多,這本身就是索引理論研究的進步。
3.1 總體趨勢是傳統(tǒng)理論研究在減少,但反映的是對新形勢下索引研究的呼喚
索引理論研究在90年代還很穩(wěn)定。表1中1993-1999年間研究文章數(shù)量起伏不大,而且較多。說明我國學術界中有一批學者在關心索引事業(yè)的發(fā)展。在這較好的氛圍中,中國索引學會功不可沒, 組織學術研究,與國內外學界交流互通,做了許多 工作。在90年代中期,中國索引學會編輯了《索引研究論從》叢書,包括《索引的昨天與明天》、《索引技術和索引標準》、《論索引和索引方法》、《報紙索引和新聞數(shù)據(jù)庫》、《索引編制自動化》5個分冊,共收 論文114篇,聘請相關專家撰寫了有關索引編制原理及自動化編制技術、文獻標引及自動化標引技術、檢索 語言編制及 計算機語言識別技術、書目數(shù)據(jù)庫技術等方面的論文,論及問題之深,引用資料之多,學術見解之新,是索引理論研究多年未曾有過的,為中國索引理論發(fā)展起了導航作用。但近幾年研究文章驟減的狀況應該引起學術界注意,反思以往的研究是否適于新形勢、新局面的需要,如何盡快改變傳統(tǒng)觀念,建立起新技術研究體系等,為 網(wǎng)絡 環(huán)境下索引事業(yè)的發(fā)展奠定基礎。
3.2 索引研究視野逐步擴大,適應了科學技術發(fā)展的大趨勢
10年間報刊上共 發(fā)表研究索引編制理論的文章203篇(這個數(shù)字是按原始文獻發(fā)表時間 統(tǒng)計),內容包括索引編制的一般理論、自動化編制、國外索引編制、各種類型索引研究、索引史研究、對著名索引學者和編制機構研究、索引專著研究、各種檢索工具索引編制、古籍和現(xiàn)代著作索引編制等(見表5)。一般理論研究只占31.5%,其他專門研究占2/3還強。在64篇理論文章中談功能作用類27篇,編制原理類26篇,論索引事業(yè)發(fā)展8篇,對中外索引編制理論進行比較研究的3篇。從各種角度來研究索引編制,反映出索引研究的生命力,能夠適應科學技術進步而發(fā)展。
表5 1993-2002索引理論研究分類狀況(按原始文獻發(fā)表時間統(tǒng)計)
項 一般 自動 國外 索引 學者 索引 索引 檢索 古籍 現(xiàn)代 總
目 研究 化 索引 類型 機構 史 專著 工具 索引 著作 共
數(shù)量 64 12 13 62 6 7 22 10 3 4 203
3.3 索引類型的研究數(shù)量較多,表明了索引學仍是一門實用科學
只要社會需要文獻就有使用索引的要求。不論什么時候索引都是使用文獻最便捷的途徑。研究各種類型索引編制的文章62篇,幾乎占1/3,論述了10多種索引的編制(見表6)。雖然平均文章不多,但反映出學術界給予的關注。這些索引功用不同,但都是人們所需要的。
表6 類型索引研究情況(按原始文獻發(fā)表時間統(tǒng)計)
附圖
3.4 計算機技術趨于穩(wěn)定后,自動化方面的研究會減少,而研究索引類型、為學術著作編制索引會增多
新文獻載體出現(xiàn),文獻利用形式發(fā)生變化,對這方面的研究必然要出現(xiàn),但一旦普及并趨于穩(wěn)定后,介紹或說明性文章就會減少,而逐漸轉向深層次探討,文章數(shù)量就要下落。研討數(shù)據(jù)庫文章逐漸減少就是例證。而在書目編制、文獻標引、文獻編排、檢索語言等領域自動化研究逐漸增多則表明人們正在擺脫一般理論的研究,轉向實用理論、專門編制方法的探討。這也是計算機技術從應用到理論研究進展的過程。因此研究計算機應用于具體領域的文章會逐漸增多,逐步加深。
3.5 對索引史、索引研究與編制方面有貢獻的學者或機構的研究逐漸減少,而對索引著作和檢索工具索引編制研究的增多,反映出學術界更重視索引應用理論的研究,重視索引檢索功能的探討
雖然近3年這方面研究出現(xiàn)空白,但是暫時現(xiàn)象,是由于文獻載體變換中出現(xiàn)的調整期。當計算機技術運行穩(wěn)定后,由于機編速度快、抽詞準確、編排規(guī)范等優(yōu)點,節(jié)省大量編制成本和人工,勢必會出現(xiàn)編撰索引的高潮。包括為古今中外各種學術研究而編制索引。索引成果不一定是印刷型,但功能一樣。
只要文獻功能沒有消失,索引作用就不會消亡。從索引功利性能上講,計算機在文獻領域里廣泛運用,為索引編制開辟了無限光明的前景,以往可望不可及的鴻篇巨著的索引編制,如今可能在俄傾之間,輕松愉快之中成就。文獻使用步入了嶄新的時代。
4 走出“理論”的困惑,建立大索引觀,放眼于索引的實際應用
索引是“完備文獻”的重要組成部分,“完備文獻”應該是既有原始文獻又兼有檢索工具,使用起來非常方便。索引就是檢索工具,依附于文獻而存在。如今文獻形態(tài)發(fā)生了巨大變化,索引研究也要洗心革面,使其適應新形勢下人們對文獻的需求。就索引研究的現(xiàn)狀有幾方面應引起我們重視。
4.1 應突破傳統(tǒng)觀念的束縛,樹立創(chuàng)新思維
深刻研究當今人們利用文獻的特點,研究計算機及其網(wǎng)絡發(fā)展對文獻傳播的影響,網(wǎng)絡環(huán)境下人們對文獻使用的需求,以使索引編制適應人們未來利用文獻的需要。索引理論研究既要適應文獻形式變化,也應符合人們對所用文獻的了解認知、心理適應和使用習慣。不能固守傳統(tǒng)理論不放,理論與實用脫節(jié),而失去指導實踐的意義。建立創(chuàng)新思維,不能指望在短時間建立一套完備的新理論,應該樹立新的思維方式方法,敢于創(chuàng)新,敢于超前,以社會需求為研究目的,充分發(fā)揮索引在揭示文獻上的作用,為文獻利用提供快車道。
4.2 沖破“太平研究”的藩籬,增強其理性探索
現(xiàn)在許多研究是以發(fā)表文章為第一需要,所以在理論探討上,都愿說“套話”,打“貫腔”,生怕新東西叫不準,新提法不被編輯認同,因此眾云亦云,以求太平。還有個傾向,不論什么樣內容都把它寫成“理論”型,帶有“理論”味,把特征、規(guī)律、功能等大談一番。這實不可取。理論研究就是為了解決實際問題,不要拘于一定的形式,內容深淺皆可,只要論述明白一個問題就是好文章。索引是一門實用科學,應注重編撰技術的研究與探討。可在10年中關于書目、索引編排技術(不包括圖書館目錄組織)的研究只有44篇(見表7),這個數(shù)量是討論索引編制和書目編制理論314篇文章(見表1、2)的14%,占這次在《全國報刊索引》查閱1 247條信息的3.5%,表明對編制技術方面的忽視。重“理論”,輕技術,是理性不足的顯現(xiàn)。反映出業(yè)界習慣于約定俗成的運作,不善于開發(fā)與創(chuàng)新。
表7 關于書目索引編排技術研究(按《全國報刊索引》報道時間統(tǒng)計)
年代 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 共計
總共 4 2 5 5 3 6 2 6 2 9 44
傳統(tǒng) 3 2 3 4 2 3 0 4 1 2 24
自動化 1 0 2 1 1 3 2 2 1 7 20
4.3 相當研究人員對先進技術了解不足,對索引未來發(fā)展認識模糊
表1中研究傳統(tǒng)理念數(shù)量與研究自動化編制之比為216:10,不能不說明學術界對新技術反映生疏。許多選題和論述,都不談計算機運用于文獻整理后產生的影響,而談那些已被許多人談過的問題。這是因為對新技術運用不甚了解,自然就不會對未來發(fā)展有清醒認識。90年代初期計算機在我國應用較少,而西方先進國家已大規(guī)模使用,這時理論界就應有個介紹的高潮,可實際上這種文
章很少。說明我國索引界對新技術應用反映不夠,學術研究相對滯后。這種局面必須改變,不然的話我們索引研究與編制就會落伍,就會影響國家和民族科學文化事業(yè)的發(fā)展。
4.4 首先要深刻了解日新月異的新技術帶來的挑戰(zhàn),需要我們不時地更新、探索、追求,才能跟上時代的步伐,才能為文獻充分服務于社會保駕護航
要根據(jù)新形勢下社會對文獻的需要,開發(fā)出實用性強的索引產品,為社會服務。索引研究和編制要因時、因書、因人、因社會需求而宜,真能如此,社會怎不認同。
4.5 理論研究要與時俱進,與實踐相結合,以社會實際需要為前提
對于原理的討論是必須的,而專門編撰理論的研究更為重要。索引編制不順應時代,脫離實際需求,就分文不值。要形成良好的研究氛圍,建立需求→研究→新需求→新研究的機制,研究有針對性也就有了生命力。編制方法有了科學性,索引成果就會產生很大的社會效益。
4.6 樹立大索引觀,開闊研究領域,為振興國家的科學、技術、文化及經(jīng)濟建設服務
一不能把眼光局限于印刷型文獻,雖然電子型文獻目前人們不常見,但它終會成為文獻主流載體,所以要加強數(shù)據(jù)庫檢索方式方法研究的力度,使電子文獻更科學的為人們服務。二不能只重視社會科學方面文獻的索引編制,要把眼界擴展為流通于整個社會的文獻,比如經(jīng)濟建設、工業(yè)生產、商業(yè)服務業(yè)等方面,凡是能通過整序而流通于社會的文獻,或者說通過整序后有利于社會流通的文獻,都應該納入我們的視野。比如產業(yè)名錄、商品名錄等。三要注重與索引研究交叉學科的研究,這些學科間研究目的相近,技術相關,功能相連。諸如文獻的分類、編目、標引、校仇、考證以及數(shù)據(jù)庫制作技術等。雖然整理目的不同,但許多技術相近,可以相互利用,共同完成文獻的揭示與整理。
4.7 中國索引學會應加強力量引導學術研究
除組織學術活動外,更應該在索引理論研究方向上起導向作用,介紹世界上先進的編制技術和索引研究動態(tài),引進成果,翻譯有影響的學術著作,加強學術交流,使社會各界了解索引的新發(fā)展。學會也應吸收工商界有關技術人員參加,使索引研究更加實用化,直接與工農業(yè)生產和國家的經(jīng)濟建設掛鉤,更好地服務于國民經(jīng)濟建設。
總之,10年來索引研究有喜也有憂,憂中也有喜。喜,研究成果頗豐。憂,后幾年傳統(tǒng)研究滑坡?;碌脑蚴巧鐣π录夹g廣泛應用的關注,人們要有個了解熟悉的過程。在這個過程中,人們會對傳統(tǒng)技術進行重新審視、評價、借鑒并與新技術融會。后幾年傳統(tǒng)研究減少就是新舊技術融會調整的時期。今后定會出現(xiàn)個新理論蓬勃發(fā)展期,因此憂中又有喜。讓我們做好理論準備,迎接新索引編制高潮的到來。
【參考文獻】
1 《全國報刊索引(哲社版)》,1993-2002年
2 侯漢清主編.索引技術和索引標準.北京:北京圖書館出版社,1997
3 葛永慶主編.索引的昨天今天和明天.中國索引學會出版.1994
4 葛永慶主編.論索引和索引法.中國索引學會出版,1994
5 葛永慶主編.索引工作自動化.中國索引學會出版,1994
6 葛永慶主編.報紙索引和新聞數(shù)據(jù)庫.中國索引學會出版,1999
有關計算機文獻檢索論文推薦: