淺談高校數(shù)字圖書館信息數(shù)字化建設(shè)中的問題及對(duì)策
時(shí)間:
盧險(xiǎn)峰1由 分享
論文關(guān)鍵詞:數(shù)字圖書館 信息數(shù)字化 存儲(chǔ)技術(shù) 發(fā)展對(duì)策
論文摘要:數(shù)字圖書館是一個(gè)將信息資源以數(shù)字化方式存貯并通過網(wǎng)絡(luò)提供即時(shí)服務(wù)的信息系統(tǒng),因而信息資源數(shù)字化是實(shí)現(xiàn)數(shù)字圖書館的根本條件。從數(shù)字圖書館中信息資源數(shù)字化的涵義出發(fā),探討了信息數(shù)字化的關(guān)鍵技術(shù),并從內(nèi)容建設(shè)、知識(shí)產(chǎn)權(quán)、技術(shù)應(yīng)用和標(biāo)準(zhǔn)與規(guī)范4個(gè)方面分析了我國數(shù)字圖書館信息數(shù)字化中存在的主要問題,同時(shí)提出了相應(yīng)的對(duì)策和建議。
信息數(shù)字化作為數(shù)字圖書館的內(nèi)容建設(shè),是數(shù)字圖書館正常運(yùn)轉(zhuǎn)的關(guān)鍵步驟。但目前我國信息數(shù)字化中由于種種原因還存在許多問題,如重復(fù)建設(shè)、知識(shí)產(chǎn)權(quán)、技術(shù)應(yīng)用和標(biāo)準(zhǔn)與規(guī)范等問題,這些都嚴(yán)重阻礙了我國數(shù)字圖書館的健康發(fā)展。因此,我國在實(shí)施信息數(shù)字化建設(shè)過程中,不僅需要更新觀念、統(tǒng)籌建設(shè),還要規(guī)范標(biāo)準(zhǔn)、加強(qiáng)立法、提高館員素質(zhì),更要加強(qiáng)適合我國國情的技術(shù)創(chuàng)新。為此,我們需要不斷地總結(jié)經(jīng)驗(yàn),探索新的開發(fā)技術(shù)和工作方式,逐步將我國寶貴的傳統(tǒng)文化遺產(chǎn)加以數(shù)字化,進(jìn)而開發(fā)出具有中國特色的數(shù)字化產(chǎn)品。
?。睌?shù)字圖書館中的信息數(shù)字化
?。保毙畔?shù)字化的內(nèi)涵
從社會(huì)信息化環(huán)境來說,數(shù)字圖書館是運(yùn)用計(jì)算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)、通信技術(shù)等多種信息技術(shù),對(duì)不同載體和類型的信息資源進(jìn)行搜集、選擇和規(guī)范化處理,使之以數(shù)字化的方式存儲(chǔ),建立分布式的館藏信息資源庫和虛擬信息資源庫,并通過網(wǎng)絡(luò)向世界各地用戶提供無時(shí)空限制服務(wù)的信息系統(tǒng)。數(shù)字圖書館的主要職能是搜集、保存和傳遞數(shù)字化信息,可以稱之為數(shù)字化信息的存儲(chǔ)和傳遞中心,因而信息數(shù)字化建設(shè)無論從質(zhì)量還是從數(shù)量上都是數(shù)字圖書館發(fā)展的關(guān)鍵環(huán)節(jié)。
?。保残畔?shù)字化的關(guān)鍵技術(shù)
信息數(shù)字化技術(shù)包括數(shù)字化信息的生成技術(shù)、存儲(chǔ)技術(shù)和壓縮技術(shù)等,其關(guān)鍵技術(shù)是數(shù)字化信息的生成技術(shù)和存儲(chǔ)技術(shù)。
?。保?shù)字化信息的生成技術(shù)包括有鍵盤錄入和非鍵盤錄入兩種方式,目前使用較多的數(shù)字化信息的生成技術(shù)主要是第二種方式。鍵盤錄入是一種手工轉(zhuǎn)換的文本模式;非鍵盤錄入包括手寫識(shí)別技術(shù)、印刷文稿掃描識(shí)別技術(shù)、語音識(shí)別技術(shù)。在信息數(shù)字化實(shí)際工作中,我國許多數(shù)字圖書館都采用兩者相結(jié)合的方式來規(guī)避鍵盤錄入的較高錯(cuò)誤率和掃描方式對(duì)硬件的較高要求,也就是采用超星公司開發(fā)的數(shù)字化技術(shù)加上便攜式文件格式(PDF)和超文本標(biāo)記語言(HTML)格式。
?。玻?shù)字化信息的存儲(chǔ)技術(shù)包括直接存儲(chǔ)技術(shù)和網(wǎng)絡(luò)存儲(chǔ)技術(shù)。直接存儲(chǔ)技術(shù)是目前大多數(shù)數(shù)字圖書館的數(shù)據(jù)存貯技術(shù),主要包括光盤塔技術(shù)、磁盤陣列技術(shù)和磁帶庫技術(shù);網(wǎng)絡(luò)存儲(chǔ)技術(shù)是海量數(shù)據(jù)信息存儲(chǔ)的實(shí)現(xiàn)方式,包括直接附加存儲(chǔ)(DAS)、網(wǎng)絡(luò)附加存儲(chǔ)(NAS)、存儲(chǔ)區(qū)域網(wǎng)絡(luò)(SAN)、小型計(jì)算機(jī)系統(tǒng)接口(iSCSI)技術(shù)和內(nèi)容尋址存儲(chǔ)(CAS)[1]。
2信息數(shù)字化中存在的主要問題
雖然我國數(shù)字圖書館建設(shè)中的信息數(shù)字化工作取得了一定的進(jìn)步,但由于觀念和技術(shù)的落后,信息數(shù)字化建設(shè)整體上呈現(xiàn)出數(shù)字信息資源重復(fù)建設(shè)嚴(yán)重、版權(quán)保護(hù)立法不健全、缺乏有力的技術(shù)支撐、標(biāo)準(zhǔn)和規(guī)范化建設(shè)滯后等問題[2]。
?。玻敝貜?fù)建設(shè)問題
由于國內(nèi)各地區(qū)、各系統(tǒng)以及各館之間無一個(gè)權(quán)威的協(xié)調(diào)機(jī)構(gòu),也無規(guī)劃布局和分工實(shí)施計(jì)劃,數(shù)字圖書館建設(shè)缺乏全局性的統(tǒng)一規(guī)劃和政府權(quán)威部門的協(xié)調(diào),相當(dāng)多的所謂數(shù)字圖書館建設(shè)仍處于各自為政、貪大求全和相對(duì)分散的無序狀態(tài),信息資源重復(fù)現(xiàn)象的問題嚴(yán)重。近年來,我國各級(jí)政府投入數(shù)字化建設(shè)的資金總額已達(dá)36億元,在政府資金的大力支持下,各級(jí)各類數(shù)字圖書館都在進(jìn)行數(shù)字信息資源建設(shè),甚至引進(jìn)CNKI等數(shù)據(jù)庫,這種現(xiàn)象在各大高校數(shù)字圖書館的信息數(shù)字化中也非常普遍,在相當(dāng)廣的范圍內(nèi)存在著潛在的數(shù)字信息資源重復(fù)建設(shè)問題。
?。玻仓R(shí)產(chǎn)權(quán)問題
數(shù)字圖書館中信息數(shù)字化所涉及的知識(shí)產(chǎn)權(quán)問題包括信息來源的著作權(quán)尊重和數(shù)字化信息建成后自身著作權(quán)的保護(hù)。隨著數(shù)字圖書館的開通,數(shù)據(jù)庫的利用將越來越廣泛,由此產(chǎn)生的知識(shí)產(chǎn)權(quán)問題就不可避免,其中爭論的焦點(diǎn)是關(guān)于網(wǎng)絡(luò)作品的制作、傳播和使用的版權(quán)保護(hù)問題,讓一些數(shù)字圖書館在實(shí)踐中遭遇法律尷尬。著作權(quán)人公開指責(zé)圖書館界濫用權(quán)利,嚴(yán)重?fù)p害了著作權(quán)人的利益;出版界也有人認(rèn)為文獻(xiàn)信息的數(shù)字化是復(fù)制出版界的出版物,在網(wǎng)上出現(xiàn)了成千上萬的復(fù)制本、使出版界的經(jīng)濟(jì)利益受到損害;而圖書館界則認(rèn)為信息獲取的主動(dòng)權(quán)完全掌握在版權(quán)人手里,這樣會(huì)嚴(yán)重地影響知識(shí)的創(chuàng)造和傳播。因而制定網(wǎng)上數(shù)字化文獻(xiàn)的著作權(quán)法律法規(guī)已成當(dāng)務(wù)之急。
?。玻臣夹g(shù)應(yīng)用問題
隨著電子出版物的收藏和網(wǎng)絡(luò)數(shù)字化資源的采集,圖書館越來越多的信息一入館就是數(shù)字化的,而對(duì)于未數(shù)字化的傳統(tǒng)館藏,進(jìn)行數(shù)字化轉(zhuǎn)化所使用的技術(shù)主要是光學(xué)字符識(shí)別(OCR)掃描錄入方式。一般的OCR錄入系統(tǒng)能夠?qū)崿F(xiàn)對(duì)各種現(xiàn)代書籍、簡繁體書籍、報(bào)刊雜志、公文檔案的錄入識(shí)別,且識(shí)別率高,還能實(shí)現(xiàn)各種校對(duì),然而,對(duì)于館藏文獻(xiàn)的數(shù)字化而言,由于漢字的復(fù)雜性,OCR對(duì)各類中文文獻(xiàn)的識(shí)別遠(yuǎn)難于對(duì)英文和數(shù)字的識(shí)別,特別對(duì)含有繁體手寫漢字的古籍文獻(xiàn)、簡繁混排的中文文獻(xiàn)、專業(yè)性強(qiáng)的中文文獻(xiàn)以及難于機(jī)檢的漢字文獻(xiàn)。OCR技術(shù)目前還存在很大的誤識(shí)率和拒識(shí)率,為此,需要對(duì)OCR系統(tǒng)進(jìn)行深入的研究和改進(jìn),提高其應(yīng)用的全面性,并要引入中文校對(duì)、錄入質(zhì)量控制等技術(shù),從而加強(qiáng)其管理功能。
2.4標(biāo)準(zhǔn)與規(guī)范問題
目前,在信息數(shù)字化標(biāo)準(zhǔn)規(guī)范方面存在的問題主要有:①缺乏對(duì)標(biāo)準(zhǔn)規(guī)范重要性的認(rèn)識(shí);②缺乏普遍接受和廣泛應(yīng)用的關(guān)鍵標(biāo)準(zhǔn)規(guī)范;③缺乏對(duì)標(biāo)準(zhǔn)規(guī)范建設(shè)的系統(tǒng)化把握;④缺乏對(duì)標(biāo)準(zhǔn)規(guī)范的開放描述和開放應(yīng)用;⑤缺乏開放、聯(lián)合、共享的標(biāo)準(zhǔn)規(guī)范建設(shè)與應(yīng)用機(jī)制,例如圖書館在信息資源建設(shè)過程中所采用的軟件系統(tǒng)差異很大,如ILAS系統(tǒng)、圖書館集成系統(tǒng)等,其標(biāo)準(zhǔn)和格式都不一致,導(dǎo)致開發(fā)的數(shù)據(jù)庫不能兼容,檢索界面不一,檢索途徑也不同,檢索語言也無統(tǒng)一的規(guī)范控制,無法在網(wǎng)上實(shí)現(xiàn)資源共享。
論文摘要:數(shù)字圖書館是一個(gè)將信息資源以數(shù)字化方式存貯并通過網(wǎng)絡(luò)提供即時(shí)服務(wù)的信息系統(tǒng),因而信息資源數(shù)字化是實(shí)現(xiàn)數(shù)字圖書館的根本條件。從數(shù)字圖書館中信息資源數(shù)字化的涵義出發(fā),探討了信息數(shù)字化的關(guān)鍵技術(shù),并從內(nèi)容建設(shè)、知識(shí)產(chǎn)權(quán)、技術(shù)應(yīng)用和標(biāo)準(zhǔn)與規(guī)范4個(gè)方面分析了我國數(shù)字圖書館信息數(shù)字化中存在的主要問題,同時(shí)提出了相應(yīng)的對(duì)策和建議。
信息數(shù)字化作為數(shù)字圖書館的內(nèi)容建設(shè),是數(shù)字圖書館正常運(yùn)轉(zhuǎn)的關(guān)鍵步驟。但目前我國信息數(shù)字化中由于種種原因還存在許多問題,如重復(fù)建設(shè)、知識(shí)產(chǎn)權(quán)、技術(shù)應(yīng)用和標(biāo)準(zhǔn)與規(guī)范等問題,這些都嚴(yán)重阻礙了我國數(shù)字圖書館的健康發(fā)展。因此,我國在實(shí)施信息數(shù)字化建設(shè)過程中,不僅需要更新觀念、統(tǒng)籌建設(shè),還要規(guī)范標(biāo)準(zhǔn)、加強(qiáng)立法、提高館員素質(zhì),更要加強(qiáng)適合我國國情的技術(shù)創(chuàng)新。為此,我們需要不斷地總結(jié)經(jīng)驗(yàn),探索新的開發(fā)技術(shù)和工作方式,逐步將我國寶貴的傳統(tǒng)文化遺產(chǎn)加以數(shù)字化,進(jìn)而開發(fā)出具有中國特色的數(shù)字化產(chǎn)品。
?。睌?shù)字圖書館中的信息數(shù)字化
?。保毙畔?shù)字化的內(nèi)涵
從社會(huì)信息化環(huán)境來說,數(shù)字圖書館是運(yùn)用計(jì)算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)、通信技術(shù)等多種信息技術(shù),對(duì)不同載體和類型的信息資源進(jìn)行搜集、選擇和規(guī)范化處理,使之以數(shù)字化的方式存儲(chǔ),建立分布式的館藏信息資源庫和虛擬信息資源庫,并通過網(wǎng)絡(luò)向世界各地用戶提供無時(shí)空限制服務(wù)的信息系統(tǒng)。數(shù)字圖書館的主要職能是搜集、保存和傳遞數(shù)字化信息,可以稱之為數(shù)字化信息的存儲(chǔ)和傳遞中心,因而信息數(shù)字化建設(shè)無論從質(zhì)量還是從數(shù)量上都是數(shù)字圖書館發(fā)展的關(guān)鍵環(huán)節(jié)。
?。保残畔?shù)字化的關(guān)鍵技術(shù)
信息數(shù)字化技術(shù)包括數(shù)字化信息的生成技術(shù)、存儲(chǔ)技術(shù)和壓縮技術(shù)等,其關(guān)鍵技術(shù)是數(shù)字化信息的生成技術(shù)和存儲(chǔ)技術(shù)。
?。保?shù)字化信息的生成技術(shù)包括有鍵盤錄入和非鍵盤錄入兩種方式,目前使用較多的數(shù)字化信息的生成技術(shù)主要是第二種方式。鍵盤錄入是一種手工轉(zhuǎn)換的文本模式;非鍵盤錄入包括手寫識(shí)別技術(shù)、印刷文稿掃描識(shí)別技術(shù)、語音識(shí)別技術(shù)。在信息數(shù)字化實(shí)際工作中,我國許多數(shù)字圖書館都采用兩者相結(jié)合的方式來規(guī)避鍵盤錄入的較高錯(cuò)誤率和掃描方式對(duì)硬件的較高要求,也就是采用超星公司開發(fā)的數(shù)字化技術(shù)加上便攜式文件格式(PDF)和超文本標(biāo)記語言(HTML)格式。
?。玻?shù)字化信息的存儲(chǔ)技術(shù)包括直接存儲(chǔ)技術(shù)和網(wǎng)絡(luò)存儲(chǔ)技術(shù)。直接存儲(chǔ)技術(shù)是目前大多數(shù)數(shù)字圖書館的數(shù)據(jù)存貯技術(shù),主要包括光盤塔技術(shù)、磁盤陣列技術(shù)和磁帶庫技術(shù);網(wǎng)絡(luò)存儲(chǔ)技術(shù)是海量數(shù)據(jù)信息存儲(chǔ)的實(shí)現(xiàn)方式,包括直接附加存儲(chǔ)(DAS)、網(wǎng)絡(luò)附加存儲(chǔ)(NAS)、存儲(chǔ)區(qū)域網(wǎng)絡(luò)(SAN)、小型計(jì)算機(jī)系統(tǒng)接口(iSCSI)技術(shù)和內(nèi)容尋址存儲(chǔ)(CAS)[1]。
2信息數(shù)字化中存在的主要問題
雖然我國數(shù)字圖書館建設(shè)中的信息數(shù)字化工作取得了一定的進(jìn)步,但由于觀念和技術(shù)的落后,信息數(shù)字化建設(shè)整體上呈現(xiàn)出數(shù)字信息資源重復(fù)建設(shè)嚴(yán)重、版權(quán)保護(hù)立法不健全、缺乏有力的技術(shù)支撐、標(biāo)準(zhǔn)和規(guī)范化建設(shè)滯后等問題[2]。
?。玻敝貜?fù)建設(shè)問題
由于國內(nèi)各地區(qū)、各系統(tǒng)以及各館之間無一個(gè)權(quán)威的協(xié)調(diào)機(jī)構(gòu),也無規(guī)劃布局和分工實(shí)施計(jì)劃,數(shù)字圖書館建設(shè)缺乏全局性的統(tǒng)一規(guī)劃和政府權(quán)威部門的協(xié)調(diào),相當(dāng)多的所謂數(shù)字圖書館建設(shè)仍處于各自為政、貪大求全和相對(duì)分散的無序狀態(tài),信息資源重復(fù)現(xiàn)象的問題嚴(yán)重。近年來,我國各級(jí)政府投入數(shù)字化建設(shè)的資金總額已達(dá)36億元,在政府資金的大力支持下,各級(jí)各類數(shù)字圖書館都在進(jìn)行數(shù)字信息資源建設(shè),甚至引進(jìn)CNKI等數(shù)據(jù)庫,這種現(xiàn)象在各大高校數(shù)字圖書館的信息數(shù)字化中也非常普遍,在相當(dāng)廣的范圍內(nèi)存在著潛在的數(shù)字信息資源重復(fù)建設(shè)問題。
?。玻仓R(shí)產(chǎn)權(quán)問題
數(shù)字圖書館中信息數(shù)字化所涉及的知識(shí)產(chǎn)權(quán)問題包括信息來源的著作權(quán)尊重和數(shù)字化信息建成后自身著作權(quán)的保護(hù)。隨著數(shù)字圖書館的開通,數(shù)據(jù)庫的利用將越來越廣泛,由此產(chǎn)生的知識(shí)產(chǎn)權(quán)問題就不可避免,其中爭論的焦點(diǎn)是關(guān)于網(wǎng)絡(luò)作品的制作、傳播和使用的版權(quán)保護(hù)問題,讓一些數(shù)字圖書館在實(shí)踐中遭遇法律尷尬。著作權(quán)人公開指責(zé)圖書館界濫用權(quán)利,嚴(yán)重?fù)p害了著作權(quán)人的利益;出版界也有人認(rèn)為文獻(xiàn)信息的數(shù)字化是復(fù)制出版界的出版物,在網(wǎng)上出現(xiàn)了成千上萬的復(fù)制本、使出版界的經(jīng)濟(jì)利益受到損害;而圖書館界則認(rèn)為信息獲取的主動(dòng)權(quán)完全掌握在版權(quán)人手里,這樣會(huì)嚴(yán)重地影響知識(shí)的創(chuàng)造和傳播。因而制定網(wǎng)上數(shù)字化文獻(xiàn)的著作權(quán)法律法規(guī)已成當(dāng)務(wù)之急。
?。玻臣夹g(shù)應(yīng)用問題
隨著電子出版物的收藏和網(wǎng)絡(luò)數(shù)字化資源的采集,圖書館越來越多的信息一入館就是數(shù)字化的,而對(duì)于未數(shù)字化的傳統(tǒng)館藏,進(jìn)行數(shù)字化轉(zhuǎn)化所使用的技術(shù)主要是光學(xué)字符識(shí)別(OCR)掃描錄入方式。一般的OCR錄入系統(tǒng)能夠?qū)崿F(xiàn)對(duì)各種現(xiàn)代書籍、簡繁體書籍、報(bào)刊雜志、公文檔案的錄入識(shí)別,且識(shí)別率高,還能實(shí)現(xiàn)各種校對(duì),然而,對(duì)于館藏文獻(xiàn)的數(shù)字化而言,由于漢字的復(fù)雜性,OCR對(duì)各類中文文獻(xiàn)的識(shí)別遠(yuǎn)難于對(duì)英文和數(shù)字的識(shí)別,特別對(duì)含有繁體手寫漢字的古籍文獻(xiàn)、簡繁混排的中文文獻(xiàn)、專業(yè)性強(qiáng)的中文文獻(xiàn)以及難于機(jī)檢的漢字文獻(xiàn)。OCR技術(shù)目前還存在很大的誤識(shí)率和拒識(shí)率,為此,需要對(duì)OCR系統(tǒng)進(jìn)行深入的研究和改進(jìn),提高其應(yīng)用的全面性,并要引入中文校對(duì)、錄入質(zhì)量控制等技術(shù),從而加強(qiáng)其管理功能。
2.4標(biāo)準(zhǔn)與規(guī)范問題
目前,在信息數(shù)字化標(biāo)準(zhǔn)規(guī)范方面存在的問題主要有:①缺乏對(duì)標(biāo)準(zhǔn)規(guī)范重要性的認(rèn)識(shí);②缺乏普遍接受和廣泛應(yīng)用的關(guān)鍵標(biāo)準(zhǔn)規(guī)范;③缺乏對(duì)標(biāo)準(zhǔn)規(guī)范建設(shè)的系統(tǒng)化把握;④缺乏對(duì)標(biāo)準(zhǔn)規(guī)范的開放描述和開放應(yīng)用;⑤缺乏開放、聯(lián)合、共享的標(biāo)準(zhǔn)規(guī)范建設(shè)與應(yīng)用機(jī)制,例如圖書館在信息資源建設(shè)過程中所采用的軟件系統(tǒng)差異很大,如ILAS系統(tǒng)、圖書館集成系統(tǒng)等,其標(biāo)準(zhǔn)和格式都不一致,導(dǎo)致開發(fā)的數(shù)據(jù)庫不能兼容,檢索界面不一,檢索途徑也不同,檢索語言也無統(tǒng)一的規(guī)范控制,無法在網(wǎng)上實(shí)現(xiàn)資源共享。