人工智能大二論文(2)
人工智能大二論文
人工智能大二論文篇二
人工智能用于異常數(shù)據(jù)挖掘研究綜述
隨著計算機、網(wǎng)絡通信技術以及無線傳感硬件設備的快速發(fā)展,數(shù)據(jù)挖掘技術引起了人們的關注。本文介紹了數(shù)據(jù)挖掘技術中異常數(shù)據(jù)挖掘的理論與方法,重點介紹了人工智能方法在異常數(shù)據(jù)挖掘技術中的應用,并對幾種異常數(shù)據(jù)挖掘技術進行了分析和比較。希望使用者能夠以這些方法為基礎提出更好的方法。
【關鍵詞】數(shù)據(jù)挖掘 異常數(shù)據(jù)挖掘 人工智能
1 引言
人工智能用于異常數(shù)據(jù)檢測的方法很多,傳統(tǒng)的如基于統(tǒng)計(statistical-based)的方法、基于距離(distance-based)的方法 [1]、基于密度(density-based)的方法[2],基于聚類的方法[3]等。但這么傳統(tǒng)的異常數(shù)據(jù)檢測方法仍然存在著一些缺陷與不足?;诮y(tǒng)計的數(shù)據(jù)檢測方法要求預先知道被檢測數(shù)據(jù)的分布情況,基于距離的方法中距離函數(shù)與參數(shù)的選擇存在較大的困難,基于密度的數(shù)據(jù)檢測方法方法時間復雜度較高,這些問題極大地限制了異常數(shù)據(jù)挖掘算法在現(xiàn)實中的應用。本文重點論述人工智能方法用于異常數(shù)據(jù)挖掘的發(fā)展史,分析和比較各自的優(yōu)缺點。
2 常用于異常數(shù)據(jù)挖掘的幾種人工智能方法的分析
2.1 神經(jīng)網(wǎng)絡方法
神經(jīng)網(wǎng)絡模型主要由三層結構組成,主要包括輸入層、隱含層和輸出層。第一層為輸入層,輸入層的節(jié)點代表多個預測變量,輸出層的節(jié)點代表多個目標變量,位于輸入層和輸出層之間的是隱含層,神經(jīng)網(wǎng)絡模型的復雜度取決于隱含層的層數(shù)和節(jié)點數(shù)。每一層的節(jié)點都允許有多個。神經(jīng)網(wǎng)絡模型主要用于解決回歸和分類兩類問題,其結構圖如下圖所示。
從上圖可得,節(jié)點X1,X2,X3作為神經(jīng)元的輸入,代表多個預測變量,它可以是來自神經(jīng)網(wǎng)絡的信息,也可以是另一個神經(jīng)元的輸出;W1,W2,……,Wn是神經(jīng)元的權值,表示各個神經(jīng)元的連接強度。通過神經(jīng)網(wǎng)絡模型的結構圖可知,該方法的實現(xiàn)過程:首先將每個訓練樣本的各屬性取值同時賦給第1層即輸入層;各屬性值再結合各自的權重賦給第2層(隱含層的第1層),第1層隱含層再結合各自的權重輸出又作為下一隱含層的輸入,最后一層的隱含層節(jié)點帶權輸出賦給輸出層單元,輸出層最終給出各個訓練樣本的預測輸出。
2.2 蟻群聚類算法
在數(shù)據(jù)挖掘中,聚類是一個活躍的研究領域,涉及的范圍較廣。許多計算機學者們通過模仿生物行為提出一系列解決問題的新穎方法。螞蟻搜索模式樣本所歸屬的聚類中心的概率計算公式如式(1)。
(1)
其中,α,β為參數(shù),初始聚類中心為隨機選取的k個模式樣本點。τ(i,j)為樣本Xj到聚類中心mj之問的信息素i=1,2, …,n,j=1,2, …,k ;η(i,j)為啟發(fā)函數(shù),其表達式如式(2)所示。
(2)
其中,dj為模式樣本Xj到聚類中心mj的歐氏距離為(i=1,2, …,n,j=1,2, …,k)。
螞蟻搜索整個模式樣本空間,形成一個聚類結果后,聚類中心mj各分量的值為該類Cj中模式樣本各屬性的均值,計算公式如(3)。
(3)
2.3 基于知識粒度的異常數(shù)據(jù)挖掘算法
粒計算是人工智能領域新發(fā)展起來的一個研究方向,該方法針對不確定性信息進行處理。它主要包括三種模型,分別是粗糙集模型、模糊集模型與商空間模型。該方法的基本思想是利用不同粒度上的信息進行問題求解。該理論在多個領域得到了廣泛的應用,如數(shù)據(jù)挖掘、決策支持與分析和機器學習等。知識粒度為異常數(shù)據(jù)挖掘處理不確定性數(shù)據(jù)提供一種新的解決方法?;谥R粒度的異常數(shù)據(jù)挖掘算法,該算法不需要預先知道數(shù)據(jù)的分布情況,并且采用知識粒度度量各個對象間的距離與異常度時,能有效挖掘出異常數(shù)據(jù)。
3 各方法的比較
通過以上各種方法的分析,各種方法具有各自的優(yōu)點以及不足之處?;诰垲惖臄?shù)據(jù)挖掘方法側(cè)重與于聚類的問題,該問題極大地限制了該算法在實際生活中的應用。神經(jīng)網(wǎng)絡方法用于數(shù)據(jù)挖掘,是人工智能中較早應用于數(shù)據(jù)挖掘領域的方法之一,能夠較好的進行異常數(shù)據(jù)的挖掘,但是該方法的層數(shù)的確定比較困難,同時該方法的時間復雜度比較高;蟻群聚類算法是在聚類算法的基礎上改進推廣而得,能夠達到異常數(shù)據(jù)檢測的目的,但該算法的收斂速度慢,而且算法存在隨機移動而延長聚類時間。
4 結束語
異常數(shù)據(jù)挖掘研究是一個有價值的研究問題,近年來引起越來越多的學者關注和研究,從而使得異常數(shù)據(jù)挖掘算法取得了新的進展,在生態(tài)系統(tǒng)分析、公共衛(wèi)生、氣象預報、金融領域、客戶分類、網(wǎng)絡入侵檢測、藥物研究等方面得到了廣泛的應用。希望本論文中的方法可以給讀者提供更多異常數(shù)據(jù)挖掘方面的思路,并且能夠很好的將人工智能中的方法運用異常數(shù)據(jù)挖掘中,克服各種方法不足,讓人們能夠更好的應用。
看了“人工智能大二論文”的人還看了: