數(shù)據(jù)挖掘技術(shù)論文
隨著信息技術(shù)迅速發(fā)展,數(shù)據(jù)庫(kù)的規(guī)模不斷擴(kuò)大,產(chǎn)生了大量的數(shù)據(jù)。下面是小編為大家精心推薦的數(shù)據(jù)挖掘技術(shù)論文,希望能夠?qū)δ兴鶐椭?/p>
數(shù)據(jù)挖掘技術(shù)論文篇一
淺談數(shù)據(jù)挖掘
摘 要:數(shù)據(jù)挖掘是從海量數(shù)據(jù)中分析發(fā)現(xiàn)具有特定的模式、關(guān)聯(lián)規(guī)則關(guān)系以及異常信息所表達(dá)出來(lái)的特點(diǎn)功能等在統(tǒng)計(jì)學(xué)有意義的結(jié)構(gòu)和事件。該文簡(jiǎn)要分析介紹了數(shù)據(jù)挖掘的含功能、技術(shù)及其應(yīng)用等。
關(guān)鍵詞:數(shù)據(jù)挖掘 技術(shù) 應(yīng)用
中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2013)04(c)-0054-01
數(shù)據(jù)挖掘是在信息的海洋中從統(tǒng)計(jì)學(xué)的角度分析發(fā)現(xiàn)有用的知識(shí),并且能夠充分利用這些信息,發(fā)揮其巨大的作用,從而創(chuàng)造價(jià)值,為社會(huì)生產(chǎn)服務(wù)。數(shù)據(jù)挖掘工具能夠掃描整個(gè)數(shù)據(jù)庫(kù),并且識(shí)別潛在的以往未知的模式。
1 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是與計(jì)算機(jī)科學(xué)相關(guān),包括人工智能、數(shù)據(jù)庫(kù)知識(shí)、機(jī)器學(xué)習(xí)、神經(jīng)計(jì)算和統(tǒng)計(jì)分析等多學(xué)科領(lǐng)域和方法的交叉學(xué)科,是從大量信息中提取人們還不清楚的但具有對(duì)于潛在決策過(guò)程有用的信息和知識(shí)的過(guò)程[1]。數(shù)據(jù)挖掘能夠自動(dòng)對(duì)數(shù)據(jù)進(jìn)行分析,并歸納總結(jié),推理,分析數(shù)據(jù),從而幫助決策者對(duì)信息預(yù)測(cè)和決策其作用[2]。
對(duì)比數(shù)據(jù)挖掘及傳統(tǒng)數(shù)據(jù)分析(例如查詢(xún)、報(bào)表),其本質(zhì)區(qū)別在于:前者在沒(méi)有明確假設(shè)的前提下通過(guò)挖掘信息,提取有用的資料,并提升到知識(shí)層面,從而幫助提供決策支持。所以數(shù)據(jù)挖掘又稱(chēng)為知識(shí)挖掘或者知識(shí)發(fā)現(xiàn)。數(shù)據(jù)挖掘通過(guò)統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)、可視化技術(shù)、機(jī)器學(xué)習(xí)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)叢大量數(shù)據(jù)中自動(dòng)搜索隱藏在其中的有著特殊關(guān)聯(lián)性的信息[3]。
2 數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘有許多挖掘分析工具,可以在大量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)間關(guān)系,常用數(shù)據(jù)挖掘技術(shù)包括:聚類(lèi)分析和分類(lèi)分析,偏差分析等。
分類(lèi)分析和聚類(lèi)分析的主要區(qū)別在于前者是已知要處理的數(shù)據(jù)對(duì)象的類(lèi),后者不清楚處理的數(shù)據(jù)對(duì)象的類(lèi)。聚類(lèi)是對(duì)記錄分組,把相似的記錄在一個(gè)聚集里,聚集不依賴(lài)于預(yù)先定義好的類(lèi),不需要訓(xùn)練集。分類(lèi)分析是預(yù)先假定有給定的類(lèi),并假定數(shù)據(jù)庫(kù)中的每個(gè)對(duì)象歸屬于這個(gè)類(lèi),并把數(shù)據(jù)分配到這個(gè)給定類(lèi)中。通過(guò)分析訓(xùn)練集中的數(shù)據(jù),準(zhǔn)確描述每個(gè)類(lèi)別,并進(jìn)行建模、挖掘分類(lèi)規(guī)則,并依據(jù)該分類(lèi)規(guī)則,劃分其他數(shù)據(jù)庫(kù)中的數(shù)據(jù)類(lèi)別。聚類(lèi)分析是非監(jiān)督學(xué)習(xí),不依靠預(yù)先定義的類(lèi)和帶類(lèi)標(biāo)號(hào)的訓(xùn)練數(shù)據(jù)集,實(shí)體對(duì)象集合依照某種相似性度量原則,歸納為若干個(gè)類(lèi)似實(shí)體對(duì)象組成的多個(gè)類(lèi)或簇的過(guò)程,不同類(lèi)中的數(shù)據(jù)盡可能存在差異,同類(lèi)中的數(shù)據(jù)之間各個(gè)數(shù)據(jù)盡可能相似。
存在大量數(shù)據(jù)的數(shù)據(jù)庫(kù)中,數(shù)據(jù)中存在著偏差,而在偏差中也包括了大量的知識(shí)。偏差分析是當(dāng)數(shù)據(jù)庫(kù)中存在異常行為,就顯示出要采取預(yù)防措施;否則,正常的變化,則需要更新數(shù)據(jù)庫(kù)中的記錄[4]。
3 數(shù)據(jù)挖掘方法
要的數(shù)據(jù)挖掘方法包括決策樹(shù)、遺傳算法、人工神經(jīng)網(wǎng)絡(luò)、近鄰算法和規(guī)則推導(dǎo)等。通過(guò)描述和可視化來(lái)對(duì)數(shù)據(jù)挖掘結(jié)果進(jìn)行表示。
決策樹(shù)是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法。著決策集的樹(shù)形結(jié)構(gòu)代表決策樹(shù),樹(shù)型結(jié)構(gòu)表示分類(lèi)或決策集合。決策樹(shù)是采用自頂向下的遞歸方式,樹(shù)的非終端節(jié)點(diǎn)表示屬性,葉節(jié)點(diǎn)表示所屬的不同類(lèi)別。
遺傳算法是基于種群“多樣性”和“優(yōu)勝劣汰”原則等進(jìn)化理論,模擬生物進(jìn)化過(guò)程的全局優(yōu)化方法,將群體中將較劣的初始解通過(guò)復(fù)制、交叉和變異3個(gè)基本算子優(yōu)化求解的技術(shù),在求解空間隨機(jī)和定向搜索特征的多次迭代過(guò)程,直到求得問(wèn)題的最優(yōu)解[5]。
人工神經(jīng)網(wǎng)絡(luò)對(duì)人腦神經(jīng)元進(jìn)行模擬,依據(jù)其非線(xiàn)形預(yù)測(cè)模型,通過(guò)模式識(shí)別的方式展開(kāi),獲取的知識(shí)需要存儲(chǔ)在網(wǎng)絡(luò)各單元之間的連接權(quán)中。人工神經(jīng)網(wǎng)絡(luò)能夠完成分類(lèi)和聚類(lèi)等挖掘[5]。
關(guān)聯(lián)規(guī)則是進(jìn)行數(shù)據(jù)挖掘的重要的可悲發(fā)現(xiàn)的知識(shí),對(duì)于兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,并對(duì)其進(jìn)行可信度的分析,挖掘其中的關(guān)聯(lián)關(guān)系。這對(duì)于發(fā)現(xiàn)數(shù)據(jù)中存在的各種有用的信息,發(fā)現(xiàn)其數(shù)據(jù)模式和特征,然后發(fā)現(xiàn)目標(biāo)行為具有重要意義。
4 數(shù)據(jù)挖掘的應(yīng)用
在醫(yī)學(xué)領(lǐng)域,科學(xué)家從異構(gòu)和分布式基因數(shù)據(jù)發(fā)現(xiàn)的基因序列的識(shí)別、發(fā)現(xiàn)基因表達(dá)譜數(shù)據(jù)中的差異表達(dá)基因,疾病不同階段的致病基因等,運(yùn)用各種數(shù)據(jù)挖掘技術(shù)了解各種疾病之間的相互關(guān)系、發(fā)展規(guī)律,總結(jié)治療效果這對(duì)疾病的診斷、治療和醫(yī)學(xué)研究都是很有價(jià)值的。在零售業(yè)/市場(chǎng)營(yíng)銷(xiāo),通過(guò)對(duì)顧客購(gòu)物籃的分析,把顧客經(jīng)常同時(shí)買(mǎi)的商品放在一起,幫助如何擺放貨架上的商品,挖掘購(gòu)買(mǎi)商品的關(guān)聯(lián)關(guān)系,規(guī)劃如何相互搭配進(jìn)貨,促銷(xiāo)產(chǎn)品組合等商業(yè)活動(dòng)[6]。
數(shù)據(jù)挖掘在生物信息學(xué)中有著廣泛的應(yīng)用。生物信息學(xué)就是通過(guò)對(duì)生物學(xué)實(shí)驗(yàn)產(chǎn)生的海量數(shù)據(jù),進(jìn)行分類(lèi)、處理、分析和存儲(chǔ),達(dá)到深入理解生命科學(xué)中基于分子水平的生物信息的生物學(xué)意義。如差異基因表達(dá)檢測(cè)的基因芯片,就是具有高通量的特點(diǎn),并同時(shí)能夠產(chǎn)生許多生物學(xué)數(shù)據(jù),在其中蘊(yùn)含著豐富的生物學(xué)意義。分析和挖掘基因芯片數(shù)據(jù),檢測(cè)差異表達(dá)基因在不同環(huán)境條件的異常表達(dá)值,能夠生層次的了解生物學(xué)知識(shí),提高對(duì)生命科學(xué)研究的科學(xué)性和效率。對(duì)癌癥差異基因的分析結(jié)果分析,能夠更好的檢測(cè)有關(guān)疾病,并根據(jù)相關(guān)疾病的基因特性,就能有針對(duì)性的進(jìn)行個(gè)體化治療,開(kāi)發(fā)個(gè)體化的新藥。
進(jìn)入2013年,有許多媒體都在稱(chēng)之為“大數(shù)據(jù)元年”。大數(shù)據(jù)也就是擁有龐大的數(shù)據(jù)信息,事務(wù)數(shù)據(jù)量大規(guī)模增長(zhǎng),而且大數(shù)據(jù)是要處理大量的非規(guī)范化數(shù)據(jù),數(shù)據(jù)挖掘和分析是必不可少的。爆炸性的大數(shù)據(jù)的產(chǎn)生,可能會(huì)改變?nèi)藗兊乃伎挤绞?,也重塑了人?lèi)交流的方式[7]。
5 結(jié)語(yǔ)
數(shù)據(jù)挖掘技術(shù)能自動(dòng)分析數(shù)據(jù),廣泛應(yīng)用于各個(gè)企事業(yè)單位,分析調(diào)查大量數(shù)據(jù),分析企業(yè)經(jīng)營(yíng)對(duì)社會(huì),經(jīng)濟(jì)和環(huán)境的綜合影響,并預(yù)測(cè)企業(yè)未來(lái)的發(fā)展趨勢(shì),從數(shù)據(jù)倉(cāng)庫(kù)中揭示出數(shù)據(jù)之間的潛在價(jià)值的規(guī)律性,形成知識(shí)發(fā)現(xiàn),為決策管理提供依據(jù)。
參考文獻(xiàn)
[1] 孟曉明.淺談數(shù)據(jù)挖掘技術(shù)[J].計(jì)算機(jī)應(yīng)用與軟件,2004(8).
[2] 丁樣武,楊瑩.數(shù)據(jù)挖掘在醫(yī)學(xué)上的應(yīng)川[J].鄖陽(yáng)醫(yī)學(xué)院學(xué)報(bào),1999(3):130-132.
[3] 黃曉霞,蕭蘊(yùn)詩(shī).數(shù)據(jù)挖掘集成技術(shù)研究[J].計(jì)算機(jī)應(yīng)用研究,2003(4):37.39.
[4] 王陽(yáng),張春華.數(shù)據(jù)挖掘技術(shù)、應(yīng)用及發(fā)展趨勢(shì)[J].信息化與網(wǎng)絡(luò)建設(shè),2003(4).
[5] 任承業(yè).校園信息系統(tǒng)中數(shù)據(jù)挖掘的研究與應(yīng)用[D].廣州:暨南大學(xué),2005.
[6] 唐曉萍.數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)綜述[J].電腦開(kāi)發(fā)與應(yīng)用,2002(2).
[7] 孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究月發(fā)展,2013(1).
點(diǎn)擊下頁(yè)還有更多>>>數(shù)據(jù)挖掘技術(shù)論文