試論文本內(nèi)容信息過濾系統(tǒng)的開發(fā)與研究
試論文本內(nèi)容信息過濾系統(tǒng)的開發(fā)與研究
摘 要:隨著時(shí)代的不斷前進(jìn)和發(fā)展,信息技術(shù)也得到了一定的進(jìn)步和創(chuàng)新,在各個(gè)行業(yè)中都得到了極為廣泛的應(yīng)用。本文主要是在PHP的基礎(chǔ)上對(duì)文本內(nèi)容信息過濾系統(tǒng)進(jìn)行設(shè)計(jì)以及開發(fā)的,其相關(guān)的功能主要包括非法信息的過濾、后臺(tái)管理、自動(dòng)安裝以及遠(yuǎn)程頁面的檢測(cè)等。文本內(nèi)容信息過濾系統(tǒng)為管理員在審核一些相關(guān)的信息內(nèi)容時(shí)提供了方面,促使其管理效率以及速度的提高。
關(guān)鍵詞:文本內(nèi)容;信息過濾系統(tǒng);開發(fā);研究
隨著網(wǎng)絡(luò)信息技術(shù)的發(fā)展以及廣泛應(yīng)用,一些不法分子也開始使用網(wǎng)絡(luò)對(duì)不法信息進(jìn)行傳送,網(wǎng)絡(luò)上出現(xiàn)一些反動(dòng)、色情以及暴力等相關(guān)的不良信息傳播的情況,對(duì)社會(huì)的發(fā)展進(jìn)步造成了嚴(yán)重的影響,因此,網(wǎng)絡(luò)信息的安全得到了越來越多的人的關(guān)注。在這個(gè)社會(huì)大背景下,對(duì)文本內(nèi)容信息過濾系統(tǒng)進(jìn)行研究和開發(fā),可以對(duì)網(wǎng)絡(luò)文本中的不良信息在傳播的時(shí)候進(jìn)行過濾,促使這樣的情況得到控制,從而使人們?cè)趯?duì)網(wǎng)絡(luò)進(jìn)行使用的時(shí)候,信息資源環(huán)境的健康整潔得到保障。
一、文本內(nèi)容信息過濾系統(tǒng)的功能需求
在對(duì)文本內(nèi)容信息過濾系統(tǒng)進(jìn)行實(shí)際使用的時(shí)候,會(huì)對(duì)公眾信息公開申請(qǐng)、網(wǎng)站留言以及網(wǎng)站信息發(fā)布等內(nèi)容的模塊了進(jìn)行自動(dòng)過濾,將其中出現(xiàn)的誹謗、侮辱以及謾罵等相關(guān)的非法內(nèi)容進(jìn)行自動(dòng)過濾,并在系統(tǒng)中對(duì)相關(guān)的用戶進(jìn)行提醒,將其及時(shí)反饋給管理員。這樣的工作在開展的時(shí)候,審核效率以及速度得到了大幅度的提升。而在使用PHP進(jìn)行開發(fā)設(shè)計(jì)的文本內(nèi)容信息過濾系統(tǒng)在使用的時(shí)候,可以對(duì)文本中的不良信息進(jìn)行剔除,還可以對(duì)一些已經(jīng)發(fā)表過的文字進(jìn)行檢測(cè)工作的開展,在結(jié)果出來后對(duì)相關(guān)的管理員進(jìn)行及時(shí)反饋。
(一)對(duì)數(shù)據(jù)庫的設(shè)計(jì)。在對(duì)MySQL數(shù)據(jù)庫進(jìn)行使用的時(shí)候,其相關(guān)的設(shè)計(jì)結(jié)果相對(duì)較為清晰,在對(duì)用戶表、日志表以及詞匯表進(jìn)行管理工作的開展提供一定的便利,并且,可以對(duì)詞庫表中所含有的敏感詞、敏感詞名以及詞類別進(jìn)行檢測(cè)。而在對(duì)用戶表進(jìn)行管理的時(shí)候,主要包括對(duì)用戶密碼、用戶名以及用戶類別信息的管理。另外,在日志表中,則注意是對(duì)URL地址、檢測(cè)結(jié)果以及原文章內(nèi)容等相關(guān)的進(jìn)行管理。
(二)系統(tǒng)中中文的簡(jiǎn)體以及繁體互換功能。在MySQL數(shù)據(jù)庫中,其相關(guān)的字符設(shè)集被設(shè)置成了GBK格式,其檢測(cè)的敏感詞幾乎是簡(jiǎn)體。而在現(xiàn)實(shí)生活中,一些用戶在對(duì)文章進(jìn)行發(fā)表的時(shí)候,在文章之中總會(huì)有繁體的敏感詞存在,因此,在對(duì)用戶所發(fā)表的一些文章進(jìn)行文本內(nèi)容的檢測(cè)時(shí),可以對(duì)信息進(jìn)行過濾,在這個(gè)過程中,需要對(duì)敏感詞進(jìn)行簡(jiǎn)繁的轉(zhuǎn)換,促使信息在過濾時(shí)的準(zhǔn)確性得到一定的提高。
(三)系統(tǒng)中拼音以及中文之間互換的功能。在對(duì)文本內(nèi)容信息過濾系統(tǒng)進(jìn)行運(yùn)用的時(shí)候,一些文章在發(fā)表的時(shí)候,用拼音來代替敏感詞,因此,相關(guān)的工作人員還要注意在系統(tǒng)中設(shè)計(jì)中文以及拼音的互換功能。這樣就可以對(duì)文章中所含有的不良敏感詞信息進(jìn)行有效的過濾,從而使文本內(nèi)容信息過濾系統(tǒng)子在使用的時(shí)候,精確性能夠達(dá)到新的高度。
二、文本內(nèi)容信息過濾系統(tǒng)的設(shè)計(jì)
在對(duì)文本內(nèi)容信息過濾系統(tǒng)進(jìn)行設(shè)計(jì)的時(shí)候,其主要包含有信息過濾模塊、自動(dòng)安裝模塊、后臺(tái)管理模塊以及頁面檢測(cè)模塊等四大模塊。其中,信息過濾模作為系統(tǒng)中的是核心內(nèi)容,可以分析文本中所含有的敏感詞,對(duì)其中存在的一些非法詞匯進(jìn)行最大程度的過濾;自動(dòng)安裝模塊可以配置系統(tǒng),比如在數(shù)據(jù)庫與相關(guān)信息進(jìn)行連接的時(shí)候,需要對(duì)系統(tǒng)相關(guān)的管理員進(jìn)行創(chuàng)設(shè),從而使配置文件得以生成;后臺(tái)管理模塊在實(shí)際使用的過程中,可以在管理員管理工作實(shí)際開展的時(shí)候,為管理員進(jìn)行提供權(quán)限管理、管理敏感詞匯庫以及用戶管理等相關(guān)的操作后臺(tái);頁面檢測(cè)模塊在使用的時(shí)候可以對(duì)URL地址進(jìn)行檢測(cè),可以對(duì)網(wǎng)頁的源碼進(jìn)行提取,對(duì)文本中所含有的一些不良信息進(jìn)行分析以及濾除。
(一)對(duì)后臺(tái)的管理設(shè)計(jì)。在對(duì)文本內(nèi)容信息過濾系統(tǒng)進(jìn)行實(shí)際使用的時(shí)候,可以為相關(guān)的管理員提供一個(gè)相對(duì)較為簡(jiǎn)潔、友好以及功能完善的管理后臺(tái),以供管理員對(duì)用戶進(jìn)行管理工作的開展,其中注意包括對(duì)詞庫中數(shù)據(jù)進(jìn)行查旬、增加、權(quán)限管理、刪除以及修改等操作。
(二)對(duì)系統(tǒng)中信息過濾模塊的設(shè)計(jì)。在對(duì)文本內(nèi)容信息過濾系統(tǒng)中的信息過濾模塊進(jìn)行設(shè)計(jì)的時(shí)候,要對(duì)中文和拼音之間的互相轉(zhuǎn)化、繁體和簡(jiǎn)體之間的互相轉(zhuǎn)化以及喜好詞的生成等相關(guān)的功能進(jìn)行重點(diǎn)關(guān)注。為用戶在使用過程中非法信息的濾除、對(duì)相關(guān)用戶的搜索的關(guān)鍵詞進(jìn)行自動(dòng)分析以及對(duì)用戶的喜好詞進(jìn)行智能生成等,為用戶在實(shí)際使用的過程中提供方便。
(三)在系統(tǒng)中對(duì)自動(dòng)安裝設(shè)計(jì)模塊進(jìn)行添加。在對(duì)文本內(nèi)容信息過濾系統(tǒng)進(jìn)行設(shè)計(jì)的時(shí)候,自動(dòng)安裝模塊可以對(duì)其開展全新的安裝工作,其中主要分為三個(gè)步驟。第一是對(duì)系統(tǒng)信息的填寫和配置,促使配置文件的生成;第二是對(duì)系統(tǒng)相關(guān)的管理員的創(chuàng)建;第三是對(duì)文本系統(tǒng)相關(guān)的數(shù)據(jù)庫進(jìn)行創(chuàng)建,其中還包括對(duì)系統(tǒng)中敏感詞庫的創(chuàng)建。
三、結(jié)束語
綜上所述我們可以得知,隨著我國經(jīng)濟(jì)水平的不斷發(fā)展和提高,我國科技水平也得到了相應(yīng)的創(chuàng)新和進(jìn)步,其中,網(wǎng)絡(luò)信息技術(shù)在各個(gè)行業(yè)中得到了相對(duì)較為廣泛的應(yīng)用。本文通過對(duì)文本內(nèi)容信息過濾系統(tǒng)的設(shè)計(jì)以及研究進(jìn)行全面的了解和掌握,其在設(shè)計(jì)的時(shí)候?qū)﹃P(guān)鍵詞匹配技術(shù)進(jìn)行了采用,促使系統(tǒng)在對(duì)敏感詞進(jìn)行深入分析,從而使文本內(nèi)容信息過濾系統(tǒng)對(duì)不良信息內(nèi)容過濾時(shí)的精準(zhǔn)度進(jìn)行提高。