科學(xué)知識網(wǎng)絡(luò)自相似性的實(shí)證統(tǒng)計(jì)報(bào)告分析
1 引言
科學(xué)計(jì)量學(xué)是應(yīng)用數(shù)理統(tǒng)計(jì)和計(jì)算機(jī)技術(shù)等方法對科學(xué)技術(shù)本身進(jìn)行定量分析的一門交叉學(xué)科,其定量分析的對象為科學(xué)知識,文獻(xiàn)等是科學(xué)知識的重要載體。但是在實(shí)際研究過程中獲取所有知識總體是不現(xiàn)實(shí)的,因此利用選取期刊或是關(guān)鍵詞檢索獲得數(shù)據(jù)樣本,成為科學(xué)計(jì)量學(xué)研究的最主要途徑 。這種途徑是建立在科學(xué)知識具備自相似性的假設(shè)前提下的,即樣本和總體的相似。
伴隨著科學(xué)技術(shù)的迅猛發(fā)展,科學(xué)知識也在大規(guī)模地?cái)U(kuò)張,例如每年SCI數(shù)據(jù)庫的文獻(xiàn)增長量就達(dá)到100多萬篇,巨大而復(fù)雜的科學(xué)知識數(shù)據(jù),為科學(xué)計(jì)量學(xué)提出了極大的挑戰(zhàn)。然而,復(fù)雜網(wǎng)絡(luò)分析、計(jì)算機(jī)技術(shù)、信息可視化等相關(guān)技術(shù)和方法的發(fā)展為科學(xué)計(jì)量學(xué)注入了新鮮的血液[1][2],使得科學(xué)知識圖譜[3][4]與知識可視化技術(shù)[5]成為了科學(xué)計(jì)量學(xué)的新航向,并在反恐主義研究領(lǐng)域分析[6]、科技期刊引文環(huán)境[7]等諸多領(lǐng)域得到廣泛應(yīng)用。然而,對于某一學(xué)科領(lǐng)域來說數(shù)據(jù)量過于龐大,展現(xiàn)所有數(shù)據(jù)的知識圖譜是現(xiàn)有技術(shù)無法實(shí)現(xiàn)的,所以知識圖譜的繪制只能選擇一部分高被引或其他告知標(biāo)志的文獻(xiàn),正是由于自相似性假設(shè)的存在,使得高被引文獻(xiàn)的知識圖譜也能反映總體的一部分特征。
因此,無論是科學(xué)計(jì)量學(xué)還是科學(xué)知識圖譜的研究都以科學(xué)知識自相似性的存在作為理論前提的。1990年Van Raan意識到科學(xué)知識的相似性,率先驗(yàn)證了科學(xué)知識的分形結(jié)構(gòu),并證明了隨著共被引文獻(xiàn)規(guī)模的增加,其分?jǐn)?shù)維數(shù)呈指數(shù)分布形式增加[8][9][10]。隨后Brunk GG[11]、Bailon-Moreno R[12]等在此基礎(chǔ)上,對科學(xué)知識系統(tǒng)的分形結(jié)構(gòu)進(jìn)行了探討。以上研究都局限于分形結(jié)構(gòu)的研究,關(guān)注科學(xué)論文在時間上的擴(kuò)散與增長,對于其它自相似結(jié)構(gòu)尤其是共被引網(wǎng)絡(luò)等空間結(jié)構(gòu)的自相似并沒有涉及,并且缺乏對自相似性的檢驗(yàn)與證明。除此之外,通過文獻(xiàn)的大量檢索鮮見科學(xué)知識自相似性的研究,在國內(nèi)的文獻(xiàn)中并沒有檢索到相關(guān)研究。
同時,自相似性在數(shù)據(jù)通信[13]、人類生物網(wǎng)絡(luò)[14]以及復(fù)雜網(wǎng)絡(luò)等諸多領(lǐng)域被研究,C.M.Song與S.Havlin[15] 等人利用重構(gòu)化理論來揭示復(fù)雜網(wǎng)絡(luò)的自相似分形特征;R.Guimera 與L.Danon[16]在研究中利用郵件系統(tǒng)來揭示社區(qū)結(jié)構(gòu)的自相似分形特征;陶少華[17][18]等分別研究了基于信息維數(shù)與容量維數(shù)的復(fù)雜網(wǎng)絡(luò)的自相似性,建立了基于自相似分型特征的網(wǎng)絡(luò)演化模型,并且說明動態(tài)增長的復(fù)雜網(wǎng)絡(luò)的確是自相似的,這些研究為本項(xiàng)目提供了啟示與參考。
本文主要研究科學(xué)文獻(xiàn)在空間上的自相似性,選取科學(xué)文獻(xiàn)所組成的知識網(wǎng)絡(luò)中平均聚類系數(shù)、平均最短路徑、平均度三個基本指標(biāo),隨著網(wǎng)絡(luò)規(guī)模的變化情況,建立模型驗(yàn)證科學(xué)文獻(xiàn)在網(wǎng)絡(luò)拓?fù)淇臻g中的自相似性,從而為解釋科學(xué)規(guī)律,明確科學(xué)計(jì)量學(xué)中的數(shù)據(jù)選擇尺度提供參考。
2 科學(xué)知識網(wǎng)絡(luò)的自相似模型
2.1 指標(biāo)選取
自相似性是指某一物體的局部可能在一定條件下或過程中,在某一方面例如狀態(tài)、結(jié)構(gòu)、信息、功能、時間、能量等都表現(xiàn)出與整體的相似性,即具有尺度不變性??臻g自相似性是一種非常普遍的現(xiàn)象,通常被理解為系統(tǒng)的部分和整體在空間形態(tài)和結(jié)構(gòu)上存在某種相似性。而科學(xué)文獻(xiàn)空間的自相似性是指由科學(xué)文獻(xiàn)的作者、關(guān)鍵詞或者參考文獻(xiàn)等所組成的空間結(jié)構(gòu)的局部與整體具有某種相同的性質(zhì)。目前,在科學(xué)文獻(xiàn)的計(jì)量分析中,科學(xué)知識網(wǎng)絡(luò),包括合作網(wǎng)絡(luò)、共詞網(wǎng)絡(luò)、共被引網(wǎng)絡(luò)等是科學(xué)文獻(xiàn)空間上拓?fù)浣Y(jié)構(gòu)最好的表現(xiàn)形式。
隨著對復(fù)雜網(wǎng)絡(luò)研究的深入,研究者提出了許多特征指標(biāo),來描述各種不同類型的復(fù)雜網(wǎng)絡(luò)的共同特征,同時也用來衡量各種復(fù)雜網(wǎng)絡(luò)演化模型的準(zhǔn)確性和有效性。目前,研究比較充分的統(tǒng)計(jì)特性有平均聚類系數(shù)、平均最短路徑、平均度等[19]。
(1)平均聚類系數(shù):假設(shè)網(wǎng)絡(luò)中的一個節(jié)點(diǎn)i有ki條邊將它與其它節(jié)點(diǎn)相連,這ki個節(jié)點(diǎn)稱為節(jié)點(diǎn)i的鄰居節(jié)點(diǎn),在這ki個鄰居節(jié)點(diǎn)之間最多可能有ki(ki-1)/2條邊。節(jié)點(diǎn)i的ki個鄰居節(jié)點(diǎn)之間實(shí)際存在的邊數(shù)Ni和最多可能有的邊數(shù)ki(ki-1)/2之比就定義為節(jié)點(diǎn)i的聚類系數(shù),記為Ci。整個網(wǎng)絡(luò)的聚類系數(shù)定義為網(wǎng)絡(luò)中所有節(jié)點(diǎn)i的聚類系數(shù)Ci的平均值,記為C。聚類系數(shù)用來衡量網(wǎng)絡(luò)中節(jié)點(diǎn)間連接的緊密程度。
(2)平均最短路徑:網(wǎng)絡(luò)中任何兩個節(jié)點(diǎn)i和j之間的距離pij為從其中一個節(jié)點(diǎn)出發(fā)到達(dá)另一個節(jié)點(diǎn)所要經(jīng)過的連邊的最少數(shù)目。網(wǎng)絡(luò)的平均最短距離P為網(wǎng)絡(luò)中所有節(jié)點(diǎn)對之間距離的平均值。網(wǎng)絡(luò)的平均最短路徑D主要用來衡量網(wǎng)絡(luò)的傳輸效率。
(3)平均度:網(wǎng)絡(luò)中某個節(jié)點(diǎn)i的度ki定義為與該節(jié)點(diǎn)相連接的其它節(jié)點(diǎn)的數(shù)目,也就是該節(jié)點(diǎn)的鄰居數(shù)。通常情況下,網(wǎng)絡(luò)中不同節(jié)點(diǎn)的度并不相同,所有節(jié)點(diǎn)i的度ki的的平均值稱為網(wǎng)絡(luò)的(節(jié)點(diǎn))平均度,記為。
2.2 模型建立
根據(jù)以上指標(biāo)為科學(xué)知識網(wǎng)絡(luò)的自相似性賦予如下定義:設(shè)集合科學(xué)知識網(wǎng)絡(luò) ,如果存在子網(wǎng)絡(luò),其中,使得網(wǎng)絡(luò)特征指標(biāo),則稱子網(wǎng)絡(luò)與自相似,記;如果對任意的,有,則稱具備自相似性。
(A) n=600 (B) n=1000
以合作網(wǎng)絡(luò)為例,圖1為某一領(lǐng)域節(jié)點(diǎn)數(shù)分別為600和1000時的合作網(wǎng)絡(luò)的子網(wǎng)絡(luò)圖。可以清楚直觀地看出,兩個網(wǎng)絡(luò)圖的整體結(jié)構(gòu)是相似的,隨著節(jié)點(diǎn)的增加,B的結(jié)構(gòu)并沒有實(shí)質(zhì)的改變。我們可以說當(dāng)N達(dá)到600時,網(wǎng)絡(luò)已經(jīng)呈現(xiàn)平穩(wěn)的態(tài)勢,這時節(jié)點(diǎn)的增加并不會改變整體網(wǎng)絡(luò)的性質(zhì),可以說明局部與整體具有自相似性。
根據(jù)以上定義,對于指標(biāo)y,如果網(wǎng)絡(luò)N具有自相似性,則y隨網(wǎng)絡(luò)規(guī)模的變化趨勢
即當(dāng) 達(dá)到某一值 時,序列趨于平穩(wěn),后的數(shù)值圍繞著0值上下波動,若其波動范圍很小可以近似為零,則說明隨著數(shù)據(jù)的增加,序列整體的性質(zhì)保持不變,N具有自相似性。
3 實(shí)證分析
選取材料處理技術(shù)作為案例,從Web of Science中下載該領(lǐng)域1990年到2010年的文獻(xiàn),共11609篇,然后利用Bibexcel分別形成合作網(wǎng)絡(luò),共詞網(wǎng)絡(luò)和共被引網(wǎng)絡(luò),應(yīng)用以上模型對三類科學(xué)知識網(wǎng)絡(luò)進(jìn)行分析。
合作網(wǎng)絡(luò)是科學(xué)文獻(xiàn)的作者通過合作關(guān)系建立的科學(xué)知識網(wǎng)絡(luò),網(wǎng)絡(luò)中的節(jié)點(diǎn)可以是作者、機(jī)構(gòu)、國家等科學(xué)知識的生產(chǎn)者,如果兩個作者、機(jī)構(gòu)、國家在文獻(xiàn)的作者中出現(xiàn),則他們存在合作,記;可以表示他們的合作次數(shù)或強(qiáng)度,且。本文中的合作網(wǎng)絡(luò)為作者合作網(wǎng)絡(luò),圖2中橫坐標(biāo)為網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù)即作者數(shù),其中作者按照發(fā)文量由大到小排列,例如n=10表示只選取發(fā)文量前10所組成的合作網(wǎng)絡(luò);縱坐標(biāo)分別為平均聚類系數(shù)、平均最短路徑和平均度三個網(wǎng)絡(luò)特征指標(biāo)。
(A) 平均聚類系數(shù)
(B) 平均最短路徑
(C) 平均度
圖2 合作網(wǎng)絡(luò)的特征指標(biāo)差分序列的變化曲線
(A) 平均聚類系數(shù)
(B) 平均最短路徑
(C) 平均度
圖3 共詞網(wǎng)絡(luò)的特征指標(biāo)差分序列的變化曲線
圖2中可以看出,平均聚類系數(shù)的差分序列在以后平穩(wěn)并且很快趨于零,平均最短路徑從開始,圍繞著0上下波動,平均度從 開始,逐漸趨近于0,這表明合作網(wǎng)絡(luò)具有自相似性。
共詞網(wǎng)絡(luò)是科學(xué)文獻(xiàn)中的關(guān)鍵詞或主題詞通過共現(xiàn)關(guān)系建立的科學(xué)知識網(wǎng)絡(luò),詞是是對科學(xué)知識最直接的描述,共詞網(wǎng)絡(luò)中的節(jié)點(diǎn)可以是文獻(xiàn)中標(biāo)注的關(guān)鍵詞,亦可以是來自于文獻(xiàn)的題目、摘要甚至文獻(xiàn)內(nèi)部中的、能夠清晰描述知識內(nèi)容的主題詞。如果兩個詞在同一篇文獻(xiàn)中出現(xiàn),則,他們在網(wǎng)絡(luò)存在邊的連接;可以表示他們共同出現(xiàn)的頻次或強(qiáng)度。本文中的共詞網(wǎng)絡(luò)為關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò),圖3中橫坐標(biāo)為網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù)即關(guān)鍵詞數(shù),其中關(guān)鍵詞按照頻次由大到小排列,例如n=10表示出現(xiàn)頻次前10所組成的共詞網(wǎng)絡(luò);縱坐標(biāo)分別為平均聚類系數(shù)、平均最短路徑和平均度三個網(wǎng)絡(luò)特征指標(biāo)。
從圖3可以看出,共詞網(wǎng)絡(luò)的平均聚類系數(shù)、平均最短路徑與平均度都與分別在n=62、n=132和n=132 以后趨近于0,所以共詞網(wǎng)絡(luò)具備自相似性。
共被引網(wǎng)絡(luò)是由文獻(xiàn)在參考文獻(xiàn)中的共被引關(guān)系組成的科學(xué)知識網(wǎng)絡(luò),網(wǎng)絡(luò)中 表示文獻(xiàn)。如圖3所示,如果文獻(xiàn) 和 同時被文獻(xiàn) 引用,即在文獻(xiàn) 的參考文獻(xiàn)中同時出現(xiàn),則 和 共被引,且 , 。圖4中橫坐標(biāo)為網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù)即引文數(shù),其中引文按照被引頻次由大到小排列,例如 表示被引頻次前10的引文所組成的共被引網(wǎng)絡(luò);縱坐標(biāo)分別為平均聚類系數(shù)、平均最短路徑和平均度三個網(wǎng)絡(luò)特征指標(biāo)。
(A) 平均聚類系數(shù)
(B) 平均最短路徑
(C) 平均度
圖4 共被引網(wǎng)絡(luò)的特征指標(biāo)差分序列的變化曲線
從圖4可以看出,共被引網(wǎng)絡(luò)的平均聚類系數(shù)、平均最短路徑與平均度都與分別在 n=72、n=112 和n=132 以后圍繞著0上下波動,雖然波動的幅度比較大,但是序列的均值仍近似為0,并且方差非常小,所以共被引網(wǎng)絡(luò)基本具備自相似性。
4 結(jié)論
由于科學(xué)知識規(guī)模的大規(guī)模擴(kuò)張,科學(xué)計(jì)量學(xué)受到了極大的挑戰(zhàn)。無論是科學(xué)計(jì)量學(xué)方法還是新興的科學(xué)知識圖譜都是以科學(xué)知識的自相似性為理論前提的,但是通過對國內(nèi)外文獻(xiàn)的檢索發(fā)現(xiàn),對科學(xué)文獻(xiàn)相似性的檢驗(yàn)與深入研究并不多見。本文以科學(xué)文獻(xiàn)所組成的科學(xué)知識網(wǎng)絡(luò)在空間的自相似性為研究對象,首先建立科學(xué)知識網(wǎng)絡(luò)的自相似性模型,然后在此基礎(chǔ)上提出網(wǎng)絡(luò)特征指標(biāo)收斂性檢驗(yàn)的自相似性驗(yàn)證方法,最后以材料處理技術(shù)領(lǐng)域在1990年到2010年間的11609篇論文為實(shí)例,對其合作網(wǎng)絡(luò)、共詞網(wǎng)絡(luò)和共被引網(wǎng)絡(luò)的自相似性進(jìn)行了驗(yàn)證。研究表明作者合作網(wǎng)絡(luò)與共詞網(wǎng)絡(luò)具備比較顯著的空間相似性,而共被引網(wǎng)絡(luò)基本具備自相似性,并且網(wǎng)絡(luò)特征指標(biāo)中平均聚類系數(shù)收斂的速度遠(yuǎn)快于其他指標(biāo),平均最短路徑與平均度的收斂速度基本相近。 [本文由wWw. dYLw.NE t提供,畢業(yè)論文 網(wǎng)專業(yè)代寫職稱論文和畢業(yè) 論文以及發(fā)表論文服務(wù),歡迎光臨DYlw.ne T]
參考文獻(xiàn):
[1]E Otte, R Rousseau. Social network analysis: a powerful strategy, also for the information sciences[J]. Journal of information science, 2002, 28 (6): 441-453.
[2]Chen C. Mapping Scientific Frontiers: The Quest for Knowledge Visualization[M]. London: Springer-Verlag, 2002.
[3]K B?rner, C Chen, KW Boyack. Visualizing Knowledge Domains. Annual Review of Information Science & Technology[D], B. Cronin, Editor. Information Today, Inc. American Society for Information Science and Technology: Medford, NJ, 2007, 179-255.