試論數(shù)據(jù)挖掘在化學研究生產(chǎn)中的應用論文
近年來,數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關(guān)注,其主要原因是存在大量數(shù)據(jù),可以廣泛使用,并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識。獲取的信息和知識可以廣泛用于各種應用,包括商務管理,生產(chǎn)控制,市場分析,工程設計和科學探索等。以下是學習啦小編為大家精心準備的:試論數(shù)據(jù)挖掘在化學研究生產(chǎn)中的應用相關(guān)論文。內(nèi)容僅供參考,歡迎閱讀!
試論數(shù)據(jù)挖掘在化學研究生產(chǎn)中的應用全文如下:
1 引言
化學是一門研究化合物組成、性質(zhì)以及變化的一門學科。在長期的化學、化工實驗中產(chǎn)生了大量的數(shù)據(jù),但是數(shù)據(jù)的海量增加卻造成了諸如信息過量、信息安全隱患、信息真假難辨等困難。同時,這些海量的數(shù)據(jù)內(nèi)部存在著很多有價值的信息和規(guī)律,如何從這些數(shù)據(jù)中發(fā)現(xiàn)更多更有價值的信息和規(guī)律也成為化學、化工專家關(guān)注的焦點,需要是發(fā)明之母,面對這一要求,數(shù)據(jù)挖掘技術(shù)在化學、化工中的應用也就應運而生,并顯示了強大的生命力。在化學領(lǐng)域內(nèi),數(shù)據(jù)挖掘理論和算法的發(fā)展,極大地促進了計算機化學、化學計量學和化學信息學等新學科的發(fā)展。本文就針對數(shù)據(jù)挖掘方法在化學、化工各方面的應用進行簡述。
2 數(shù)據(jù)挖掘的概述
數(shù)據(jù)挖掘(Data mining),是數(shù)據(jù)庫知識發(fā)現(xiàn)(KDD, Knowledge-Discovery in Databases)中的一個步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索發(fā)現(xiàn)隱藏于其中的規(guī)律和信息的過程。近十年來,數(shù)據(jù)挖掘技術(shù)不管是在理論上還是在實際應用上,都已取得了很大的進展[1],同時也出現(xiàn)了各種專用或商用的數(shù)據(jù)挖掘軟件。
數(shù)據(jù)挖掘領(lǐng)域利用的主要思想有:統(tǒng)計學的抽樣、估計和假設檢驗;人工智能、模式識別和機器學習的搜索算法、建模技術(shù)和學習理論。數(shù)據(jù)挖掘同時也迅速地接納了最優(yōu)化、進化計算、信息論、信號處理、可視化和信息檢索等領(lǐng)域方面的思想。目前,常用的數(shù)據(jù)挖掘方法主要有以下幾種:數(shù)學統(tǒng)計方法、決策樹、模式識別方法、人工神經(jīng)網(wǎng)絡方法、遺傳算法、粗糙集方法、支持向量機方法等。
3 數(shù)據(jù)挖掘在化學與化工生產(chǎn)中的應用
數(shù)據(jù)挖掘利用多學科領(lǐng)域的知識從全新的角度以及更深層次中發(fā)掘存在于海量信息內(nèi)部有效的、新穎的模式。在化學與化工生產(chǎn)中利用這種數(shù)據(jù)挖掘技術(shù)可從化學和化工生產(chǎn)數(shù)據(jù)中尋找潛在的規(guī)律,同時利用這些規(guī)律指導企業(yè)的生產(chǎn)過程,最終實現(xiàn)生產(chǎn)過程的優(yōu)化以及企業(yè)效益的最大化。
3.1 中草藥成分分析中的數(shù)據(jù)挖掘
方兆華等對化妝品專利中草藥成分利用關(guān)聯(lián)規(guī)則進行分析,得出化妝品中有當歸、白芷和蘆薈等高頻單味藥,有當歸-川芎等高頻藥對,有蘆薈-芝麻-向日葵子等高頻藥組;基于置信度和支持度分析,得到了化妝品中中草藥應用的13 條強關(guān)聯(lián)規(guī)則,如向日葵子-芝麻等。陸愛軍等利用關(guān)聯(lián)規(guī)則對中醫(yī)藥效、植物科屬、化學的成分活性、中藥提取物和現(xiàn)代藥理之間的相互關(guān)系進行研究,在分析之前對數(shù)據(jù)進行預處理,然后再對處理后的數(shù)據(jù)進行挖掘,從而得到一些有趣的關(guān)聯(lián)規(guī)則,比如中藥藥效和植物科分類的關(guān)聯(lián)規(guī)則,都是因為在該科下面的植物很多具有相應的中藥藥效。
3.2 化學研究中的數(shù)據(jù)挖掘
朱建國分析了數(shù)據(jù)的具體特征,采用ID3 的決策樹算法將數(shù)據(jù)的離散化和屬性選擇進行預處理,使決策樹樹狀結(jié)構(gòu)的分類器對數(shù)據(jù)能進行更有效的分類。通過二苯乙烯系列化合物實驗數(shù)據(jù)的建樹過程,以及對所得到的規(guī)則進行分析,將決策樹有效地運用在二苯乙烯系列化合物研究過程中,并開發(fā)方案實現(xiàn)系統(tǒng)讓研究者能夠清晰地表達分類規(guī)則,從而給研究者帶來了極大的方便。
李峰等將數(shù)據(jù)挖掘應用在稀土摻雜納米TiO2結(jié)構(gòu)與光催化活性的關(guān)系中,用多元逐步回歸分析對數(shù)據(jù)樣本間的聯(lián)系進行挖掘,從而發(fā)現(xiàn)結(jié)構(gòu)參數(shù)與光催化劑的表觀速率常數(shù)間之間存在著良好的相關(guān)性,其相關(guān)系數(shù)大于0.99,說明該模型具有良好的穩(wěn)定性和預測能力。溶膠-凝膠法制備的不同稀土摻雜納米TiO2不管是實驗結(jié)果還是計算機模擬結(jié)果都表明其納米結(jié)構(gòu)相似,光催化活性是相近的,對于系列光催化劑制備及其動力學性質(zhì)研究都能較好地建立起定量構(gòu)效關(guān)系,進而通過XRD參數(shù)測試,發(fā)現(xiàn)活性相近的催化劑,為選擇高效的光催化劑節(jié)約資源。
Ru等人提出了一種稱為BSVR(Boosting support vector regression)的方法,該方法支持向量回歸,以Boosting 結(jié)合支持向量回歸(SVR)為分類器,繼而用它來處理硝基苯類,并且將其用作5-脂肪氧化酶抑止劑的1-phenyl[2H]-tetrahydro-triazine-3-one類化合物的QSAR數(shù)據(jù)預測毒性,實驗結(jié)果表明這種方法在病毒性預測的準確性方面有明顯的提高。
Cai 與Feng 等人提出了一種稱為LogistBoost 的算法,該算法基于對數(shù)回歸策略,可以對蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)(基于氨基酸序列)的二類、多類分類問題進行預測,實驗結(jié)果表明這種算法具有很好的預測結(jié)果。Boosting 算法在蛋白質(zhì)結(jié)構(gòu)分類方面的預測應用是以構(gòu)成蛋白質(zhì)的氨基酸種類、排列順序作為主要屬性對蛋白質(zhì)的二級結(jié)構(gòu)進行判斷。隨著數(shù)據(jù)挖掘在化學中的應用,Boosting算法有望能夠?qū)Φ鞍踪|(zhì)的3D結(jié)構(gòu)進行預測。Friedman 等人提出了梯度Boosting 算法,該方法在回歸問題上直接應用Boosting 算法,從而有效解決了數(shù)據(jù)挖掘中在化學應用中回歸問題上常見的問題,而Tao 等人提出的新Boosting算法則能夠有效解決數(shù)據(jù)挖掘在化學應用中異常值的檢測問題。
3.3 化工生產(chǎn)中的數(shù)據(jù)挖掘
張泉靈等利用多支持度關(guān)聯(lián)規(guī)則的挖掘算法,開發(fā)了化工生產(chǎn)過程的數(shù)據(jù)挖掘軟件,通過數(shù)據(jù)挖掘軟件對操作參數(shù)和配方進行優(yōu)化,使產(chǎn)品的收率和有效成分得到提高,并將該系統(tǒng)應用在三唑磷的合成過程中,使三唑磷提高了1.5%的收率,同時三唑磷的含量也提高了三個百分點,從80%提高到83%,為企業(yè)帶來了較好的經(jīng)濟的效益和社會效益。
陸治榮等利用數(shù)據(jù)挖掘方法開發(fā)了適用于生產(chǎn)過程優(yōu)化、故障診斷、優(yōu)化新產(chǎn)品研制和配方設計的系列軟件DMOS,該軟件為化工、煉油等行業(yè)生產(chǎn)過程優(yōu)化的工程化運營創(chuàng)造了條件,并將該系統(tǒng)應用到某石化廠,主要解決丙烯的收率不能滿足下游生產(chǎn)的問題,更重要的是回收的丙烯收率的提高可以提高經(jīng)濟效益,結(jié)果表明經(jīng)過DMOS數(shù)據(jù)挖掘后提出了新的生產(chǎn)參數(shù),對原來正常的生產(chǎn)狀態(tài)進行優(yōu)化后提高了丙烯的收率,優(yōu)化后丙烯的收率從14.7%提高到了19.11%。
基于合成氨生產(chǎn)效益的數(shù)據(jù)挖掘,用于解決氨合成裝置DMOS合成氨優(yōu)化系統(tǒng),用于解決合成氨工業(yè)生產(chǎn)參數(shù)的優(yōu)化,實現(xiàn)氨合成裝置生產(chǎn)時實時工況診斷、實時趨勢瀏覽、優(yōu)化操作指導、報表生成等功能。通過對云維集團有限公司氨合成裝置合成塔生成數(shù)據(jù)的數(shù)據(jù)挖掘,找出了影響裝置目標變量的主要工藝參數(shù),建立目標變量與有關(guān)工藝參數(shù)間的數(shù)學模型,通過實驗表明所建模型的可靠性強,能夠優(yōu)化裝置工藝操作,提高合成氨產(chǎn)量,全面提高企業(yè)的經(jīng)濟效益。
3.4 化學分類中的數(shù)據(jù)挖掘
李琳等[15]利用決策樹對玻璃和葡萄酒進行分類,玻璃有9 個屬性作為衡量指標,葡萄酒為意大利某地的三種酒、含有13 個屬性作為分類指標。他們首先使用MDLP(最小長度描述方法)進行離散化,再用LVF(LasVegas Filter)方法進行屬性選擇,剔除冗余數(shù)據(jù)后,再由C4.5 方法構(gòu)建決策樹。通過實驗表明:由決策樹建成的分類模型具有良好的預報性能,適合于化學分類知識模式的挖掘。基于預處理的決策樹克服了一般決策樹方法難以處理連續(xù)型數(shù)據(jù)集的缺點,又具有其它方法所不具備的優(yōu)勢,可從大量數(shù)據(jù)中挖掘出潛在的分類知識,并具有簡沽直觀的表達形式,易為專業(yè)人員理解和分析。
4 結(jié)論
本文對數(shù)據(jù)挖掘方法在化學和化工生產(chǎn)過程中如何利用海量數(shù)據(jù)、發(fā)現(xiàn)和挖掘出新的規(guī)律和信息,為化學研究和化工生產(chǎn)提供有效準確的依據(jù)。雖然數(shù)據(jù)挖掘技術(shù)在化學和化工生產(chǎn)過程中獲得了大量應用,但是,目前應用的范圍不是很廣。在化學和化工生產(chǎn)過程中的應用是數(shù)據(jù)挖掘當前的一個研究熱點,受到越來越多研究人員的青睞。數(shù)據(jù)挖掘技術(shù)能夠根據(jù)大量的化學和化工生產(chǎn)領(lǐng)域中的數(shù)據(jù)挖掘出有價值且隱藏的知識。因此,在化學研究過程中、化工生產(chǎn)過程的建模、控制、優(yōu)化、故障診斷等方而有非常重要研究的價值,并且越發(fā)顯示其重要作用。
【試論數(shù)據(jù)挖掘在化學研究生產(chǎn)中的應用論文】相關(guān)文章:
1.淺談數(shù)據(jù)挖掘在電力企業(yè)中的應用論文
3.OLAP融合于數(shù)據(jù)挖掘之模型構(gòu)建論文