什么是知識挖掘
什么是知識挖掘
知識挖掘源于全球范圍內數據庫中存儲的數據量急劇增加,人們的需求已經不只是簡單的查詢和維護,而是希望能夠對這些數據進行較高層次的處理和分析以得到關于數據總體特征和對發(fā)展趨勢的預測。以下是由學習啦小編整理關于什么是知識挖掘的內容,希望大家喜歡!
知識挖掘的簡介
數據是指有關事實的集合,記錄和事物有關的原始信息。
模式是一個用語言來表示的一個表達式,它可用來描述數據集的某個子集,所說的知識,是對數據包涵的信息更抽象的描述。對大量數據進行分析的過程,包括數據準備、模式搜索、知識評價,以及反復的修改求精;該過程要求是非平凡的,意思是要有一定程度的智能性、自動性(僅僅給出所有數據的總和不能算作是一個發(fā)現(xiàn)過程)。有效性是指發(fā)現(xiàn)的模式對于新的數據仍保持有一定的可信度。新穎性要求發(fā)現(xiàn)的模式是新的。潛在有用性是指發(fā)現(xiàn)的知識將來有實際效用,如用于決策支持系統(tǒng)里可提高經濟效益。最終可理解性要求發(fā)現(xiàn)的模式能被用戶理解,它主要是體現(xiàn)在簡潔性上。有效性、新穎性、潛在有用性和最終可理解性綜合在一起可稱之為興趣性。
由于知識挖掘是一門新興學科,況且它又是一門受到來自各種不同領域的研究者關注的邊緣學科,因此產生很多不同的術語,除了稱為“知識挖掘”外,主要還有如下若干種稱法:“數據發(fā)現(xiàn)”、“數據開采”、“知識抽取”、“信息發(fā)現(xiàn)”、“知識發(fā)現(xiàn)”、“智能數據分析”、“探索式數據分析”、“信息收獲”和“數據考古”等等。“知識挖掘”被許多研究者看作僅是數據發(fā)現(xiàn)的一個步驟。相對來講,數據開采主要流行于統(tǒng)計界、數據分析、數據庫和管理信息系統(tǒng)(MIS)界;而數據發(fā)現(xiàn)則主要流行于人工智能和機器學習界。
知識挖掘已被越來越多的領域所采用,并取得了較好效果。這些領域有科學研究、市場營銷、金融投資、欺詐甄別、產品制造、通信網絡管理等。由加州理工學院噴氣推進實驗室與天文科學家合作開發(fā)的SKICAT(SkyImageCatalogingandAnalysisTool)是第一個獲得相當成功的知識挖掘應用,已經幫助科學家發(fā)現(xiàn)了16顆極其遙遠的類星體。
雖然知識挖掘已經受到許多關注并取得了廣泛應用,但它仍處于發(fā)展的早期,還有很多研究難題和面臨的挑戰(zhàn),如數據的巨量性、動態(tài)性、噪聲性、缺值和稀疏性,發(fā)現(xiàn)模式的可理解性、興趣或價值性,應用系統(tǒng)的集成,用戶的交互操作,知識的更新管理,復雜數據庫的處理等等。
知識挖掘的過程
知識挖掘(KDD)是從數據中發(fā)現(xiàn)有用知識的整個過程;數據開采(DM)是KDD過程中的一個特定步驟,它用專門算法從數據中抽取模式(patterns)。1996年,F(xiàn)ayyad、PiatetskyShapiror和Smyth將KDD過程定義為:從數據中鑒別出有效模式的非平凡過程,該模式是新的、可能有用的和最終可理解的。
知識挖掘算法的好壞將直接影響到所發(fā)現(xiàn)知識的好壞。大多數的研究都集中在知識挖掘算法和應用上。需要說明的是,有的學者認為,數據開采和知識發(fā)現(xiàn)含義相同,表示成KDD/DM.它是一個反復的過程,通常包含多個相互聯(lián)系的步驟:預處理、提出假設、選取算法、提取規(guī)則、評價和解釋結果、將模式構成知識,最后是應用。在實際,人們往往不嚴格區(qū)分知識挖掘和數據庫中的知識發(fā)現(xiàn),把兩者混淆使用。一般在科研領域中稱為KDD,而在工程領域則稱為知識挖掘。
KDD過程是多個步驟相互連接、反復進行人機交互的過程。具體包括:
學習某個應用領域
包括應用中的預先知識和目標。
建立目標數據集
選擇一個數據集或在多數據集的子集上聚焦。
數據預處理
去除噪聲或無關數據,去除空白數據域,考慮時間順序和數據變化等。
數據轉換
找到數據的特征表示,用維變換或轉換方法減少有效變量的數目或找到數據的不變式。
選定知識挖掘功能
決定知識挖掘的目的。
選定知識挖掘算法
用KDD過程中的準則,選擇某個特定知識挖掘算法(如匯總、分類、回歸、聚類等)用于搜索數據中的模式。
知識挖掘
搜索或產生一個特定的感興趣的模式或一個特定的數據集。⑧解釋:解釋某個發(fā)現(xiàn)的模式,去掉多余的不切題意的模式,轉換某個有用的模式,以使用戶明白。
發(fā)現(xiàn)知識
把這些知識結合到運行系統(tǒng)中,獲得這些知識的作用或證明這些知識。用預先、可信的知識檢查和解決知識中可能的矛盾。
看過“什么是知識挖掘“的人還看了: