人工智能大二論文(2)
人工智能大二論文
人工智能大二論文篇二
人工智能用于異常數(shù)據(jù)挖掘研究綜述
隨著計(jì)算機(jī)、網(wǎng)絡(luò)通信技術(shù)以及無(wú)線傳感硬件設(shè)備的快速發(fā)展,數(shù)據(jù)挖掘技術(shù)引起了人們的關(guān)注。本文介紹了數(shù)據(jù)挖掘技術(shù)中異常數(shù)據(jù)挖掘的理論與方法,重點(diǎn)介紹了人工智能方法在異常數(shù)據(jù)挖掘技術(shù)中的應(yīng)用,并對(duì)幾種異常數(shù)據(jù)挖掘技術(shù)進(jìn)行了分析和比較。希望使用者能夠以這些方法為基礎(chǔ)提出更好的方法。
【關(guān)鍵詞】數(shù)據(jù)挖掘 異常數(shù)據(jù)挖掘 人工智能
1 引言
人工智能用于異常數(shù)據(jù)檢測(cè)的方法很多,傳統(tǒng)的如基于統(tǒng)計(jì)(statistical-based)的方法、基于距離(distance-based)的方法 [1]、基于密度(density-based)的方法[2],基于聚類的方法[3]等。但這么傳統(tǒng)的異常數(shù)據(jù)檢測(cè)方法仍然存在著一些缺陷與不足。基于統(tǒng)計(jì)的數(shù)據(jù)檢測(cè)方法要求預(yù)先知道被檢測(cè)數(shù)據(jù)的分布情況,基于距離的方法中距離函數(shù)與參數(shù)的選擇存在較大的困難,基于密度的數(shù)據(jù)檢測(cè)方法方法時(shí)間復(fù)雜度較高,這些問題極大地限制了異常數(shù)據(jù)挖掘算法在現(xiàn)實(shí)中的應(yīng)用。本文重點(diǎn)論述人工智能方法用于異常數(shù)據(jù)挖掘的發(fā)展史,分析和比較各自的優(yōu)缺點(diǎn)。
2 常用于異常數(shù)據(jù)挖掘的幾種人工智能方法的分析
2.1 神經(jīng)網(wǎng)絡(luò)方法
神經(jīng)網(wǎng)絡(luò)模型主要由三層結(jié)構(gòu)組成,主要包括輸入層、隱含層和輸出層。第一層為輸入層,輸入層的節(jié)點(diǎn)代表多個(gè)預(yù)測(cè)變量,輸出層的節(jié)點(diǎn)代表多個(gè)目標(biāo)變量,位于輸入層和輸出層之間的是隱含層,神經(jīng)網(wǎng)絡(luò)模型的復(fù)雜度取決于隱含層的層數(shù)和節(jié)點(diǎn)數(shù)。每一層的節(jié)點(diǎn)都允許有多個(gè)。神經(jīng)網(wǎng)絡(luò)模型主要用于解決回歸和分類兩類問題,其結(jié)構(gòu)圖如下圖所示。
從上圖可得,節(jié)點(diǎn)X1,X2,X3作為神經(jīng)元的輸入,代表多個(gè)預(yù)測(cè)變量,它可以是來(lái)自神經(jīng)網(wǎng)絡(luò)的信息,也可以是另一個(gè)神經(jīng)元的輸出;W1,W2,……,Wn是神經(jīng)元的權(quán)值,表示各個(gè)神經(jīng)元的連接強(qiáng)度。通過(guò)神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)圖可知,該方法的實(shí)現(xiàn)過(guò)程:首先將每個(gè)訓(xùn)練樣本的各屬性取值同時(shí)賦給第1層即輸入層;各屬性值再結(jié)合各自的權(quán)重賦給第2層(隱含層的第1層),第1層隱含層再結(jié)合各自的權(quán)重輸出又作為下一隱含層的輸入,最后一層的隱含層節(jié)點(diǎn)帶權(quán)輸出賦給輸出層單元,輸出層最終給出各個(gè)訓(xùn)練樣本的預(yù)測(cè)輸出。
2.2 蟻群聚類算法
在數(shù)據(jù)挖掘中,聚類是一個(gè)活躍的研究領(lǐng)域,涉及的范圍較廣。許多計(jì)算機(jī)學(xué)者們通過(guò)模仿生物行為提出一系列解決問題的新穎方法。螞蟻搜索模式樣本所歸屬的聚類中心的概率計(jì)算公式如式(1)。
(1)
其中,α,β為參數(shù),初始聚類中心為隨機(jī)選取的k個(gè)模式樣本點(diǎn)。τ(i,j)為樣本Xj到聚類中心mj之問的信息素i=1,2, …,n,j=1,2, …,k ;η(i,j)為啟發(fā)函數(shù),其表達(dá)式如式(2)所示。
(2)
其中,dj為模式樣本Xj到聚類中心mj的歐氏距離為(i=1,2, …,n,j=1,2, …,k)。
螞蟻搜索整個(gè)模式樣本空間,形成一個(gè)聚類結(jié)果后,聚類中心mj各分量的值為該類Cj中模式樣本各屬性的均值,計(jì)算公式如(3)。
(3)
2.3 基于知識(shí)粒度的異常數(shù)據(jù)挖掘算法
粒計(jì)算是人工智能領(lǐng)域新發(fā)展起來(lái)的一個(gè)研究方向,該方法針對(duì)不確定性信息進(jìn)行處理。它主要包括三種模型,分別是粗糙集模型、模糊集模型與商空間模型。該方法的基本思想是利用不同粒度上的信息進(jìn)行問題求解。該理論在多個(gè)領(lǐng)域得到了廣泛的應(yīng)用,如數(shù)據(jù)挖掘、決策支持與分析和機(jī)器學(xué)習(xí)等。知識(shí)粒度為異常數(shù)據(jù)挖掘處理不確定性數(shù)據(jù)提供一種新的解決方法?;谥R(shí)粒度的異常數(shù)據(jù)挖掘算法,該算法不需要預(yù)先知道數(shù)據(jù)的分布情況,并且采用知識(shí)粒度度量各個(gè)對(duì)象間的距離與異常度時(shí),能有效挖掘出異常數(shù)據(jù)。
3 各方法的比較
通過(guò)以上各種方法的分析,各種方法具有各自的優(yōu)點(diǎn)以及不足之處。基于聚類的數(shù)據(jù)挖掘方法側(cè)重與于聚類的問題,該問題極大地限制了該算法在實(shí)際生活中的應(yīng)用。神經(jīng)網(wǎng)絡(luò)方法用于數(shù)據(jù)挖掘,是人工智能中較早應(yīng)用于數(shù)據(jù)挖掘領(lǐng)域的方法之一,能夠較好的進(jìn)行異常數(shù)據(jù)的挖掘,但是該方法的層數(shù)的確定比較困難,同時(shí)該方法的時(shí)間復(fù)雜度比較高;蟻群聚類算法是在聚類算法的基礎(chǔ)上改進(jìn)推廣而得,能夠達(dá)到異常數(shù)據(jù)檢測(cè)的目的,但該算法的收斂速度慢,而且算法存在隨機(jī)移動(dòng)而延長(zhǎng)聚類時(shí)間。
4 結(jié)束語(yǔ)
異常數(shù)據(jù)挖掘研究是一個(gè)有價(jià)值的研究問題,近年來(lái)引起越來(lái)越多的學(xué)者關(guān)注和研究,從而使得異常數(shù)據(jù)挖掘算法取得了新的進(jìn)展,在生態(tài)系統(tǒng)分析、公共衛(wèi)生、氣象預(yù)報(bào)、金融領(lǐng)域、客戶分類、網(wǎng)絡(luò)入侵檢測(cè)、藥物研究等方面得到了廣泛的應(yīng)用。希望本論文中的方法可以給讀者提供更多異常數(shù)據(jù)挖掘方面的思路,并且能夠很好的將人工智能中的方法運(yùn)用異常數(shù)據(jù)挖掘中,克服各種方法不足,讓人們能夠更好的應(yīng)用。
看了“人工智能大二論文”的人還看了: