試論文本內(nèi)容信息過濾系統(tǒng)的開發(fā)與研究
試論文本內(nèi)容信息過濾系統(tǒng)的開發(fā)與研究
摘 要:隨著時代的不斷前進(jìn)和發(fā)展,信息技術(shù)也得到了一定的進(jìn)步和創(chuàng)新,在各個行業(yè)中都得到了極為廣泛的應(yīng)用。本文主要是在PHP的基礎(chǔ)上對文本內(nèi)容信息過濾系統(tǒng)進(jìn)行設(shè)計以及開發(fā)的,其相關(guān)的功能主要包括非法信息的過濾、后臺管理、自動安裝以及遠(yuǎn)程頁面的檢測等。文本內(nèi)容信息過濾系統(tǒng)為管理員在審核一些相關(guān)的信息內(nèi)容時提供了方面,促使其管理效率以及速度的提高。
關(guān)鍵詞:文本內(nèi)容;信息過濾系統(tǒng);開發(fā);研究
隨著網(wǎng)絡(luò)信息技術(shù)的發(fā)展以及廣泛應(yīng)用,一些不法分子也開始使用網(wǎng)絡(luò)對不法信息進(jìn)行傳送,網(wǎng)絡(luò)上出現(xiàn)一些反動、色情以及暴力等相關(guān)的不良信息傳播的情況,對社會的發(fā)展進(jìn)步造成了嚴(yán)重的影響,因此,網(wǎng)絡(luò)信息的安全得到了越來越多的人的關(guān)注。在這個社會大背景下,對文本內(nèi)容信息過濾系統(tǒng)進(jìn)行研究和開發(fā),可以對網(wǎng)絡(luò)文本中的不良信息在傳播的時候進(jìn)行過濾,促使這樣的情況得到控制,從而使人們在對網(wǎng)絡(luò)進(jìn)行使用的時候,信息資源環(huán)境的健康整潔得到保障。
一、文本內(nèi)容信息過濾系統(tǒng)的功能需求
在對文本內(nèi)容信息過濾系統(tǒng)進(jìn)行實際使用的時候,會對公眾信息公開申請、網(wǎng)站留言以及網(wǎng)站信息發(fā)布等內(nèi)容的模塊了進(jìn)行自動過濾,將其中出現(xiàn)的誹謗、侮辱以及謾罵等相關(guān)的非法內(nèi)容進(jìn)行自動過濾,并在系統(tǒng)中對相關(guān)的用戶進(jìn)行提醒,將其及時反饋給管理員。這樣的工作在開展的時候,審核效率以及速度得到了大幅度的提升。而在使用PHP進(jìn)行開發(fā)設(shè)計的文本內(nèi)容信息過濾系統(tǒng)在使用的時候,可以對文本中的不良信息進(jìn)行剔除,還可以對一些已經(jīng)發(fā)表過的文字進(jìn)行檢測工作的開展,在結(jié)果出來后對相關(guān)的管理員進(jìn)行及時反饋。
(一)對數(shù)據(jù)庫的設(shè)計。在對MySQL數(shù)據(jù)庫進(jìn)行使用的時候,其相關(guān)的設(shè)計結(jié)果相對較為清晰,在對用戶表、日志表以及詞匯表進(jìn)行管理工作的開展提供一定的便利,并且,可以對詞庫表中所含有的敏感詞、敏感詞名以及詞類別進(jìn)行檢測。而在對用戶表進(jìn)行管理的時候,主要包括對用戶密碼、用戶名以及用戶類別信息的管理。另外,在日志表中,則注意是對URL地址、檢測結(jié)果以及原文章內(nèi)容等相關(guān)的進(jìn)行管理。
(二)系統(tǒng)中中文的簡體以及繁體互換功能。在MySQL數(shù)據(jù)庫中,其相關(guān)的字符設(shè)集被設(shè)置成了GBK格式,其檢測的敏感詞幾乎是簡體。而在現(xiàn)實生活中,一些用戶在對文章進(jìn)行發(fā)表的時候,在文章之中總會有繁體的敏感詞存在,因此,在對用戶所發(fā)表的一些文章進(jìn)行文本內(nèi)容的檢測時,可以對信息進(jìn)行過濾,在這個過程中,需要對敏感詞進(jìn)行簡繁的轉(zhuǎn)換,促使信息在過濾時的準(zhǔn)確性得到一定的提高。
(三)系統(tǒng)中拼音以及中文之間互換的功能。在對文本內(nèi)容信息過濾系統(tǒng)進(jìn)行運(yùn)用的時候,一些文章在發(fā)表的時候,用拼音來代替敏感詞,因此,相關(guān)的工作人員還要注意在系統(tǒng)中設(shè)計中文以及拼音的互換功能。這樣就可以對文章中所含有的不良敏感詞信息進(jìn)行有效的過濾,從而使文本內(nèi)容信息過濾系統(tǒng)子在使用的時候,精確性能夠達(dá)到新的高度。
二、文本內(nèi)容信息過濾系統(tǒng)的設(shè)計
在對文本內(nèi)容信息過濾系統(tǒng)進(jìn)行設(shè)計的時候,其主要包含有信息過濾模塊、自動安裝模塊、后臺管理模塊以及頁面檢測模塊等四大模塊。其中,信息過濾模作為系統(tǒng)中的是核心內(nèi)容,可以分析文本中所含有的敏感詞,對其中存在的一些非法詞匯進(jìn)行最大程度的過濾;自動安裝模塊可以配置系統(tǒng),比如在數(shù)據(jù)庫與相關(guān)信息進(jìn)行連接的時候,需要對系統(tǒng)相關(guān)的管理員進(jìn)行創(chuàng)設(shè),從而使配置文件得以生成;后臺管理模塊在實際使用的過程中,可以在管理員管理工作實際開展的時候,為管理員進(jìn)行提供權(quán)限管理、管理敏感詞匯庫以及用戶管理等相關(guān)的操作后臺;頁面檢測模塊在使用的時候可以對URL地址進(jìn)行檢測,可以對網(wǎng)頁的源碼進(jìn)行提取,對文本中所含有的一些不良信息進(jìn)行分析以及濾除。
(一)對后臺的管理設(shè)計。在對文本內(nèi)容信息過濾系統(tǒng)進(jìn)行實際使用的時候,可以為相關(guān)的管理員提供一個相對較為簡潔、友好以及功能完善的管理后臺,以供管理員對用戶進(jìn)行管理工作的開展,其中注意包括對詞庫中數(shù)據(jù)進(jìn)行查旬、增加、權(quán)限管理、刪除以及修改等操作。
(二)對系統(tǒng)中信息過濾模塊的設(shè)計。在對文本內(nèi)容信息過濾系統(tǒng)中的信息過濾模塊進(jìn)行設(shè)計的時候,要對中文和拼音之間的互相轉(zhuǎn)化、繁體和簡體之間的互相轉(zhuǎn)化以及喜好詞的生成等相關(guān)的功能進(jìn)行重點(diǎn)關(guān)注。為用戶在使用過程中非法信息的濾除、對相關(guān)用戶的搜索的關(guān)鍵詞進(jìn)行自動分析以及對用戶的喜好詞進(jìn)行智能生成等,為用戶在實際使用的過程中提供方便。
(三)在系統(tǒng)中對自動安裝設(shè)計模塊進(jìn)行添加。在對文本內(nèi)容信息過濾系統(tǒng)進(jìn)行設(shè)計的時候,自動安裝模塊可以對其開展全新的安裝工作,其中主要分為三個步驟。第一是對系統(tǒng)信息的填寫和配置,促使配置文件的生成;第二是對系統(tǒng)相關(guān)的管理員的創(chuàng)建;第三是對文本系統(tǒng)相關(guān)的數(shù)據(jù)庫進(jìn)行創(chuàng)建,其中還包括對系統(tǒng)中敏感詞庫的創(chuàng)建。
三、結(jié)束語
綜上所述我們可以得知,隨著我國經(jīng)濟(jì)水平的不斷發(fā)展和提高,我國科技水平也得到了相應(yīng)的創(chuàng)新和進(jìn)步,其中,網(wǎng)絡(luò)信息技術(shù)在各個行業(yè)中得到了相對較為廣泛的應(yīng)用。本文通過對文本內(nèi)容信息過濾系統(tǒng)的設(shè)計以及研究進(jìn)行全面的了解和掌握,其在設(shè)計的時候?qū)﹃P(guān)鍵詞匹配技術(shù)進(jìn)行了采用,促使系統(tǒng)在對敏感詞進(jìn)行深入分析,從而使文本內(nèi)容信息過濾系統(tǒng)對不良信息內(nèi)容過濾時的精準(zhǔn)度進(jìn)行提高。