試論數(shù)據(jù)挖掘在化學(xué)研究生產(chǎn)中的應(yīng)用論文
近年來(lái),數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關(guān)注,其主要原因是存在大量數(shù)據(jù),可以廣泛使用,并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識(shí)。獲取的信息和知識(shí)可以廣泛用于各種應(yīng)用,包括商務(wù)管理,生產(chǎn)控制,市場(chǎng)分析,工程設(shè)計(jì)和科學(xué)探索等。以下是學(xué)習(xí)啦小編為大家精心準(zhǔn)備的:試論數(shù)據(jù)挖掘在化學(xué)研究生產(chǎn)中的應(yīng)用相關(guān)論文。內(nèi)容僅供參考,歡迎閱讀!
試論數(shù)據(jù)挖掘在化學(xué)研究生產(chǎn)中的應(yīng)用全文如下:
1 引言
化學(xué)是一門研究化合物組成、性質(zhì)以及變化的一門學(xué)科。在長(zhǎng)期的化學(xué)、化工實(shí)驗(yàn)中產(chǎn)生了大量的數(shù)據(jù),但是數(shù)據(jù)的海量增加卻造成了諸如信息過(guò)量、信息安全隱患、信息真假難辨等困難。同時(shí),這些海量的數(shù)據(jù)內(nèi)部存在著很多有價(jià)值的信息和規(guī)律,如何從這些數(shù)據(jù)中發(fā)現(xiàn)更多更有價(jià)值的信息和規(guī)律也成為化學(xué)、化工專家關(guān)注的焦點(diǎn),需要是發(fā)明之母,面對(duì)這一要求,數(shù)據(jù)挖掘技術(shù)在化學(xué)、化工中的應(yīng)用也就應(yīng)運(yùn)而生,并顯示了強(qiáng)大的生命力。在化學(xué)領(lǐng)域內(nèi),數(shù)據(jù)挖掘理論和算法的發(fā)展,極大地促進(jìn)了計(jì)算機(jī)化學(xué)、化學(xué)計(jì)量學(xué)和化學(xué)信息學(xué)等新學(xué)科的發(fā)展。本文就針對(duì)數(shù)據(jù)挖掘方法在化學(xué)、化工各方面的應(yīng)用進(jìn)行簡(jiǎn)述。
2 數(shù)據(jù)挖掘的概述
數(shù)據(jù)挖掘(Data mining),是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(KDD, Knowledge-Discovery in Databases)中的一個(gè)步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過(guò)算法搜索發(fā)現(xiàn)隱藏于其中的規(guī)律和信息的過(guò)程。近十年來(lái),數(shù)據(jù)挖掘技術(shù)不管是在理論上還是在實(shí)際應(yīng)用上,都已取得了很大的進(jìn)展[1],同時(shí)也出現(xiàn)了各種專用或商用的數(shù)據(jù)挖掘軟件。
數(shù)據(jù)挖掘領(lǐng)域利用的主要思想有:統(tǒng)計(jì)學(xué)的抽樣、估計(jì)和假設(shè)檢驗(yàn);人工智能、模式識(shí)別和機(jī)器學(xué)習(xí)的搜索算法、建模技術(shù)和學(xué)習(xí)理論。數(shù)據(jù)挖掘同時(shí)也迅速地接納了最優(yōu)化、進(jìn)化計(jì)算、信息論、信號(hào)處理、可視化和信息檢索等領(lǐng)域方面的思想。目前,常用的數(shù)據(jù)挖掘方法主要有以下幾種:數(shù)學(xué)統(tǒng)計(jì)方法、決策樹、模式識(shí)別方法、人工神經(jīng)網(wǎng)絡(luò)方法、遺傳算法、粗糙集方法、支持向量機(jī)方法等。
3 數(shù)據(jù)挖掘在化學(xué)與化工生產(chǎn)中的應(yīng)用
數(shù)據(jù)挖掘利用多學(xué)科領(lǐng)域的知識(shí)從全新的角度以及更深層次中發(fā)掘存在于海量信息內(nèi)部有效的、新穎的模式。在化學(xué)與化工生產(chǎn)中利用這種數(shù)據(jù)挖掘技術(shù)可從化學(xué)和化工生產(chǎn)數(shù)據(jù)中尋找潛在的規(guī)律,同時(shí)利用這些規(guī)律指導(dǎo)企業(yè)的生產(chǎn)過(guò)程,最終實(shí)現(xiàn)生產(chǎn)過(guò)程的優(yōu)化以及企業(yè)效益的最大化。
3.1 中草藥成分分析中的數(shù)據(jù)挖掘
方兆華等對(duì)化妝品專利中草藥成分利用關(guān)聯(lián)規(guī)則進(jìn)行分析,得出化妝品中有當(dāng)歸、白芷和蘆薈等高頻單味藥,有當(dāng)歸-川芎等高頻藥對(duì),有蘆薈-芝麻-向日葵子等高頻藥組;基于置信度和支持度分析,得到了化妝品中中草藥應(yīng)用的13 條強(qiáng)關(guān)聯(lián)規(guī)則,如向日葵子-芝麻等。陸愛軍等利用關(guān)聯(lián)規(guī)則對(duì)中醫(yī)藥效、植物科屬、化學(xué)的成分活性、中藥提取物和現(xiàn)代藥理之間的相互關(guān)系進(jìn)行研究,在分析之前對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,然后再對(duì)處理后的數(shù)據(jù)進(jìn)行挖掘,從而得到一些有趣的關(guān)聯(lián)規(guī)則,比如中藥藥效和植物科分類的關(guān)聯(lián)規(guī)則,都是因?yàn)樵谠摽葡旅娴闹参锖芏嗑哂邢鄳?yīng)的中藥藥效。
3.2 化學(xué)研究中的數(shù)據(jù)挖掘
朱建國(guó)分析了數(shù)據(jù)的具體特征,采用ID3 的決策樹算法將數(shù)據(jù)的離散化和屬性選擇進(jìn)行預(yù)處理,使決策樹樹狀結(jié)構(gòu)的分類器對(duì)數(shù)據(jù)能進(jìn)行更有效的分類。通過(guò)二苯乙烯系列化合物實(shí)驗(yàn)數(shù)據(jù)的建樹過(guò)程,以及對(duì)所得到的規(guī)則進(jìn)行分析,將決策樹有效地運(yùn)用在二苯乙烯系列化合物研究過(guò)程中,并開發(fā)方案實(shí)現(xiàn)系統(tǒng)讓研究者能夠清晰地表達(dá)分類規(guī)則,從而給研究者帶來(lái)了極大的方便。
李峰等將數(shù)據(jù)挖掘應(yīng)用在稀土摻雜納米TiO2結(jié)構(gòu)與光催化活性的關(guān)系中,用多元逐步回歸分析對(duì)數(shù)據(jù)樣本間的聯(lián)系進(jìn)行挖掘,從而發(fā)現(xiàn)結(jié)構(gòu)參數(shù)與光催化劑的表觀速率常數(shù)間之間存在著良好的相關(guān)性,其相關(guān)系數(shù)大于0.99,說(shuō)明該模型具有良好的穩(wěn)定性和預(yù)測(cè)能力。溶膠-凝膠法制備的不同稀土摻雜納米TiO2不管是實(shí)驗(yàn)結(jié)果還是計(jì)算機(jī)模擬結(jié)果都表明其納米結(jié)構(gòu)相似,光催化活性是相近的,對(duì)于系列光催化劑制備及其動(dòng)力學(xué)性質(zhì)研究都能較好地建立起定量構(gòu)效關(guān)系,進(jìn)而通過(guò)XRD參數(shù)測(cè)試,發(fā)現(xiàn)活性相近的催化劑,為選擇高效的光催化劑節(jié)約資源。
Ru等人提出了一種稱為BSVR(Boosting support vector regression)的方法,該方法支持向量回歸,以Boosting 結(jié)合支持向量回歸(SVR)為分類器,繼而用它來(lái)處理硝基苯類,并且將其用作5-脂肪氧化酶抑止劑的1-phenyl[2H]-tetrahydro-triazine-3-one類化合物的QSAR數(shù)據(jù)預(yù)測(cè)毒性,實(shí)驗(yàn)結(jié)果表明這種方法在病毒性預(yù)測(cè)的準(zhǔn)確性方面有明顯的提高。
Cai 與Feng 等人提出了一種稱為L(zhǎng)ogistBoost 的算法,該算法基于對(duì)數(shù)回歸策略,可以對(duì)蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)(基于氨基酸序列)的二類、多類分類問題進(jìn)行預(yù)測(cè),實(shí)驗(yàn)結(jié)果表明這種算法具有很好的預(yù)測(cè)結(jié)果。Boosting 算法在蛋白質(zhì)結(jié)構(gòu)分類方面的預(yù)測(cè)應(yīng)用是以構(gòu)成蛋白質(zhì)的氨基酸種類、排列順序作為主要屬性對(duì)蛋白質(zhì)的二級(jí)結(jié)構(gòu)進(jìn)行判斷。隨著數(shù)據(jù)挖掘在化學(xué)中的應(yīng)用,Boosting算法有望能夠?qū)Φ鞍踪|(zhì)的3D結(jié)構(gòu)進(jìn)行預(yù)測(cè)。Friedman 等人提出了梯度Boosting 算法,該方法在回歸問題上直接應(yīng)用Boosting 算法,從而有效解決了數(shù)據(jù)挖掘中在化學(xué)應(yīng)用中回歸問題上常見的問題,而Tao 等人提出的新Boosting算法則能夠有效解決數(shù)據(jù)挖掘在化學(xué)應(yīng)用中異常值的檢測(cè)問題。
3.3 化工生產(chǎn)中的數(shù)據(jù)挖掘
張泉靈等利用多支持度關(guān)聯(lián)規(guī)則的挖掘算法,開發(fā)了化工生產(chǎn)過(guò)程的數(shù)據(jù)挖掘軟件,通過(guò)數(shù)據(jù)挖掘軟件對(duì)操作參數(shù)和配方進(jìn)行優(yōu)化,使產(chǎn)品的收率和有效成分得到提高,并將該系統(tǒng)應(yīng)用在三唑磷的合成過(guò)程中,使三唑磷提高了1.5%的收率,同時(shí)三唑磷的含量也提高了三個(gè)百分點(diǎn),從80%提高到83%,為企業(yè)帶來(lái)了較好的經(jīng)濟(jì)的效益和社會(huì)效益。
陸治榮等利用數(shù)據(jù)挖掘方法開發(fā)了適用于生產(chǎn)過(guò)程優(yōu)化、故障診斷、優(yōu)化新產(chǎn)品研制和配方設(shè)計(jì)的系列軟件DMOS,該軟件為化工、煉油等行業(yè)生產(chǎn)過(guò)程優(yōu)化的工程化運(yùn)營(yíng)創(chuàng)造了條件,并將該系統(tǒng)應(yīng)用到某石化廠,主要解決丙烯的收率不能滿足下游生產(chǎn)的問題,更重要的是回收的丙烯收率的提高可以提高經(jīng)濟(jì)效益,結(jié)果表明經(jīng)過(guò)DMOS數(shù)據(jù)挖掘后提出了新的生產(chǎn)參數(shù),對(duì)原來(lái)正常的生產(chǎn)狀態(tài)進(jìn)行優(yōu)化后提高了丙烯的收率,優(yōu)化后丙烯的收率從14.7%提高到了19.11%。
基于合成氨生產(chǎn)效益的數(shù)據(jù)挖掘,用于解決氨合成裝置DMOS合成氨優(yōu)化系統(tǒng),用于解決合成氨工業(yè)生產(chǎn)參數(shù)的優(yōu)化,實(shí)現(xiàn)氨合成裝置生產(chǎn)時(shí)實(shí)時(shí)工況診斷、實(shí)時(shí)趨勢(shì)瀏覽、優(yōu)化操作指導(dǎo)、報(bào)表生成等功能。通過(guò)對(duì)云維集團(tuán)有限公司氨合成裝置合成塔生成數(shù)據(jù)的數(shù)據(jù)挖掘,找出了影響裝置目標(biāo)變量的主要工藝參數(shù),建立目標(biāo)變量與有關(guān)工藝參數(shù)間的數(shù)學(xué)模型,通過(guò)實(shí)驗(yàn)表明所建模型的可靠性強(qiáng),能夠優(yōu)化裝置工藝操作,提高合成氨產(chǎn)量,全面提高企業(yè)的經(jīng)濟(jì)效益。
3.4 化學(xué)分類中的數(shù)據(jù)挖掘
李琳等[15]利用決策樹對(duì)玻璃和葡萄酒進(jìn)行分類,玻璃有9 個(gè)屬性作為衡量指標(biāo),葡萄酒為意大利某地的三種酒、含有13 個(gè)屬性作為分類指標(biāo)。他們首先使用MDLP(最小長(zhǎng)度描述方法)進(jìn)行離散化,再用LVF(LasVegas Filter)方法進(jìn)行屬性選擇,剔除冗余數(shù)據(jù)后,再由C4.5 方法構(gòu)建決策樹。通過(guò)實(shí)驗(yàn)表明:由決策樹建成的分類模型具有良好的預(yù)報(bào)性能,適合于化學(xué)分類知識(shí)模式的挖掘?;陬A(yù)處理的決策樹克服了一般決策樹方法難以處理連續(xù)型數(shù)據(jù)集的缺點(diǎn),又具有其它方法所不具備的優(yōu)勢(shì),可從大量數(shù)據(jù)中挖掘出潛在的分類知識(shí),并具有簡(jiǎn)沽直觀的表達(dá)形式,易為專業(yè)人員理解和分析。
4 結(jié)論
本文對(duì)數(shù)據(jù)挖掘方法在化學(xué)和化工生產(chǎn)過(guò)程中如何利用海量數(shù)據(jù)、發(fā)現(xiàn)和挖掘出新的規(guī)律和信息,為化學(xué)研究和化工生產(chǎn)提供有效準(zhǔn)確的依據(jù)。雖然數(shù)據(jù)挖掘技術(shù)在化學(xué)和化工生產(chǎn)過(guò)程中獲得了大量應(yīng)用,但是,目前應(yīng)用的范圍不是很廣。在化學(xué)和化工生產(chǎn)過(guò)程中的應(yīng)用是數(shù)據(jù)挖掘當(dāng)前的一個(gè)研究熱點(diǎn),受到越來(lái)越多研究人員的青睞。數(shù)據(jù)挖掘技術(shù)能夠根據(jù)大量的化學(xué)和化工生產(chǎn)領(lǐng)域中的數(shù)據(jù)挖掘出有價(jià)值且隱藏的知識(shí)。因此,在化學(xué)研究過(guò)程中、化工生產(chǎn)過(guò)程的建模、控制、優(yōu)化、故障診斷等方而有非常重要研究的價(jià)值,并且越發(fā)顯示其重要作用。
【試論數(shù)據(jù)挖掘在化學(xué)研究生產(chǎn)中的應(yīng)用論文】相關(guān)文章:
1.淺談數(shù)據(jù)挖掘在電力企業(yè)中的應(yīng)用論文
2.多媒體數(shù)據(jù)挖掘之媒體特征庫(kù)措施論文
3.OLAP融合于數(shù)據(jù)挖掘之模型構(gòu)建論文
4.世界化學(xué)研究中心之形成及其轉(zhuǎn)移的透視論文
5.嵌入式移動(dòng)數(shù)據(jù)庫(kù)應(yīng)用研究 關(guān)于計(jì)算機(jī)的論文