什么是知識(shí)挖掘
什么是知識(shí)挖掘
知識(shí)挖掘源于全球范圍內(nèi)數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)據(jù)量急劇增加,人們的需求已經(jīng)不只是簡(jiǎn)單的查詢和維護(hù),而是希望能夠?qū)@些數(shù)據(jù)進(jìn)行較高層次的處理和分析以得到關(guān)于數(shù)據(jù)總體特征和對(duì)發(fā)展趨勢(shì)的預(yù)測(cè)。以下是由學(xué)習(xí)啦小編整理關(guān)于什么是知識(shí)挖掘的內(nèi)容,希望大家喜歡!
知識(shí)挖掘的簡(jiǎn)介
數(shù)據(jù)是指有關(guān)事實(shí)的集合,記錄和事物有關(guān)的原始信息。
模式是一個(gè)用語(yǔ)言來(lái)表示的一個(gè)表達(dá)式,它可用來(lái)描述數(shù)據(jù)集的某個(gè)子集,所說(shuō)的知識(shí),是對(duì)數(shù)據(jù)包涵的信息更抽象的描述。對(duì)大量數(shù)據(jù)進(jìn)行分析的過(guò)程,包括數(shù)據(jù)準(zhǔn)備、模式搜索、知識(shí)評(píng)價(jià),以及反復(fù)的修改求精;該過(guò)程要求是非平凡的,意思是要有一定程度的智能性、自動(dòng)性(僅僅給出所有數(shù)據(jù)的總和不能算作是一個(gè)發(fā)現(xiàn)過(guò)程)。有效性是指發(fā)現(xiàn)的模式對(duì)于新的數(shù)據(jù)仍保持有一定的可信度。新穎性要求發(fā)現(xiàn)的模式是新的。潛在有用性是指發(fā)現(xiàn)的知識(shí)將來(lái)有實(shí)際效用,如用于決策支持系統(tǒng)里可提高經(jīng)濟(jì)效益。最終可理解性要求發(fā)現(xiàn)的模式能被用戶理解,它主要是體現(xiàn)在簡(jiǎn)潔性上。有效性、新穎性、潛在有用性和最終可理解性綜合在一起可稱(chēng)之為興趣性。
由于知識(shí)挖掘是一門(mén)新興學(xué)科,況且它又是一門(mén)受到來(lái)自各種不同領(lǐng)域的研究者關(guān)注的邊緣學(xué)科,因此產(chǎn)生很多不同的術(shù)語(yǔ),除了稱(chēng)為“知識(shí)挖掘”外,主要還有如下若干種稱(chēng)法:“數(shù)據(jù)發(fā)現(xiàn)”、“數(shù)據(jù)開(kāi)采”、“知識(shí)抽取”、“信息發(fā)現(xiàn)”、“知識(shí)發(fā)現(xiàn)”、“智能數(shù)據(jù)分析”、“探索式數(shù)據(jù)分析”、“信息收獲”和“數(shù)據(jù)考古”等等。“知識(shí)挖掘”被許多研究者看作僅是數(shù)據(jù)發(fā)現(xiàn)的一個(gè)步驟。相對(duì)來(lái)講,數(shù)據(jù)開(kāi)采主要流行于統(tǒng)計(jì)界、數(shù)據(jù)分析、數(shù)據(jù)庫(kù)和管理信息系統(tǒng)(MIS)界;而數(shù)據(jù)發(fā)現(xiàn)則主要流行于人工智能和機(jī)器學(xué)習(xí)界。
知識(shí)挖掘已被越來(lái)越多的領(lǐng)域所采用,并取得了較好效果。這些領(lǐng)域有科學(xué)研究、市場(chǎng)營(yíng)銷(xiāo)、金融投資、欺詐甄別、產(chǎn)品制造、通信網(wǎng)絡(luò)管理等。由加州理工學(xué)院噴氣推進(jìn)實(shí)驗(yàn)室與天文科學(xué)家合作開(kāi)發(fā)的SKICAT(SkyImageCatalogingandAnalysisTool)是第一個(gè)獲得相當(dāng)成功的知識(shí)挖掘應(yīng)用,已經(jīng)幫助科學(xué)家發(fā)現(xiàn)了16顆極其遙遠(yuǎn)的類(lèi)星體。
雖然知識(shí)挖掘已經(jīng)受到許多關(guān)注并取得了廣泛應(yīng)用,但它仍處于發(fā)展的早期,還有很多研究難題和面臨的挑戰(zhàn),如數(shù)據(jù)的巨量性、動(dòng)態(tài)性、噪聲性、缺值和稀疏性,發(fā)現(xiàn)模式的可理解性、興趣或價(jià)值性,應(yīng)用系統(tǒng)的集成,用戶的交互操作,知識(shí)的更新管理,復(fù)雜數(shù)據(jù)庫(kù)的處理等等。
知識(shí)挖掘的過(guò)程
知識(shí)挖掘(KDD)是從數(shù)據(jù)中發(fā)現(xiàn)有用知識(shí)的整個(gè)過(guò)程;數(shù)據(jù)開(kāi)采(DM)是KDD過(guò)程中的一個(gè)特定步驟,它用專(zhuān)門(mén)算法從數(shù)據(jù)中抽取模式(patterns)。1996年,F(xiàn)ayyad、PiatetskyShapiror和Smyth將KDD過(guò)程定義為:從數(shù)據(jù)中鑒別出有效模式的非平凡過(guò)程,該模式是新的、可能有用的和最終可理解的。
知識(shí)挖掘算法的好壞將直接影響到所發(fā)現(xiàn)知識(shí)的好壞。大多數(shù)的研究都集中在知識(shí)挖掘算法和應(yīng)用上。需要說(shuō)明的是,有的學(xué)者認(rèn)為,數(shù)據(jù)開(kāi)采和知識(shí)發(fā)現(xiàn)含義相同,表示成KDD/DM.它是一個(gè)反復(fù)的過(guò)程,通常包含多個(gè)相互聯(lián)系的步驟:預(yù)處理、提出假設(shè)、選取算法、提取規(guī)則、評(píng)價(jià)和解釋結(jié)果、將模式構(gòu)成知識(shí),最后是應(yīng)用。在實(shí)際,人們往往不嚴(yán)格區(qū)分知識(shí)挖掘和數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),把兩者混淆使用。一般在科研領(lǐng)域中稱(chēng)為KDD,而在工程領(lǐng)域則稱(chēng)為知識(shí)挖掘。
KDD過(guò)程是多個(gè)步驟相互連接、反復(fù)進(jìn)行人機(jī)交互的過(guò)程。具體包括:
學(xué)習(xí)某個(gè)應(yīng)用領(lǐng)域
包括應(yīng)用中的預(yù)先知識(shí)和目標(biāo)。
建立目標(biāo)數(shù)據(jù)集
選擇一個(gè)數(shù)據(jù)集或在多數(shù)據(jù)集的子集上聚焦。
數(shù)據(jù)預(yù)處理
去除噪聲或無(wú)關(guān)數(shù)據(jù),去除空白數(shù)據(jù)域,考慮時(shí)間順序和數(shù)據(jù)變化等。
數(shù)據(jù)轉(zhuǎn)換
找到數(shù)據(jù)的特征表示,用維變換或轉(zhuǎn)換方法減少有效變量的數(shù)目或找到數(shù)據(jù)的不變式。
選定知識(shí)挖掘功能
決定知識(shí)挖掘的目的。
選定知識(shí)挖掘算法
用KDD過(guò)程中的準(zhǔn)則,選擇某個(gè)特定知識(shí)挖掘算法(如匯總、分類(lèi)、回歸、聚類(lèi)等)用于搜索數(shù)據(jù)中的模式。
知識(shí)挖掘
搜索或產(chǎn)生一個(gè)特定的感興趣的模式或一個(gè)特定的數(shù)據(jù)集。⑧解釋?zhuān)航忉屇硞€(gè)發(fā)現(xiàn)的模式,去掉多余的不切題意的模式,轉(zhuǎn)換某個(gè)有用的模式,以使用戶明白。
發(fā)現(xiàn)知識(shí)
把這些知識(shí)結(jié)合到運(yùn)行系統(tǒng)中,獲得這些知識(shí)的作用或證明這些知識(shí)。用預(yù)先、可信的知識(shí)檢查和解決知識(shí)中可能的矛盾。
看過(guò)“什么是知識(shí)挖掘“的人還看了:
1.OLAP融合于數(shù)據(jù)挖掘之模型構(gòu)建論文