淺談檔案信息計算機的檢索論文
淺談檔案信息計算機的檢索論文
隨著改革開放和經(jīng)濟建設(shè)的發(fā)展,檔案在各行各業(yè)工作中的社會地位和利用價值越來越高,對檔案進行科學化、現(xiàn)代化管理日趨緊迫,并在管理和開發(fā)利用檔案領(lǐng)域內(nèi)逐步形成了應用縮微技術(shù)和應用計算機技術(shù)的兩大主流。如何把這兩大主流的技術(shù)相結(jié)合,提高檔案現(xiàn)代化管理的綜合水平,無疑是檔案界普遍關(guān)注的問題。以下是學習啦小編為大家精心準備的:淺談檔案信息計算機的檢索相關(guān)論文。內(nèi)容僅供參考,歡迎閱讀!
淺談檔案信息計算機的檢索全文如下:
一、檔案信息計算機檢索的特點
一是信息存儲量大、檢索速度快、檢索效果好。二是檢索途徑多元化。三是檔案信息的檢索對計算機系統(tǒng)的依賴性強。運用計算機檢索檔案信息的查全率、查準率與檔案工作者、利用者熟練掌握計算機檢索文檔的知識及檢索技能的掌握有著密切的關(guān)聯(lián),特別是在檔案信息服務經(jīng)濟建設(shè)和服務民生工作中,要求檔案工作者不僅要掌握計算機檔案檢索知識,而且要向廣大的利用者普及檔案檢索知識,才能有效地提高檔案信息的利用效益,極大地擴展檔案工作的社會影響力,提高檔案工作的社會地位。
二、檔案計算機檢索系統(tǒng)的建立
建立功能完善的檔案計算機檢索系統(tǒng),應科學地進行檢索流程和檔案信息檢索級別設(shè)計。
(一)計算機檢索流程設(shè)計。檔案計算機檢索流程包括檔案文獻信息的輸入和檔案文獻信息的輸出兩部分,具體流程如圖所示。
1 檔案文獻信息的輸入。計算機文獻檢索系統(tǒng)的基礎(chǔ)是數(shù)據(jù)庫的建立,包括文獻的選擇、標引、加工和輸入等一系列的過程,數(shù)據(jù)庫的數(shù)據(jù)數(shù)量和質(zhì)量對于計算機檢索系統(tǒng)的性能具有直接影響。為適應檔案現(xiàn)代化管理需要,建立統(tǒng)一的檔案檢索和管理體系,更好地開發(fā)檔案信息,實現(xiàn)檔案信息共享,目前,我國各省(市)國家檔案館均制定了《綜合檔案館電子目錄數(shù)據(jù)庫結(jié)構(gòu)與交換格式》。該標準分別制定了適用于文書立卷改革前的檔案目錄的《案卷級目錄數(shù)據(jù)庫結(jié)構(gòu)與著錄格式》和適用于按照DA/T22-2000《歸檔文件整理規(guī)則》整理的檔案目錄的《文件級目錄數(shù)據(jù)庫結(jié)構(gòu)與著錄格式》。文檔管理系統(tǒng)機讀目錄輸入規(guī)范,采用1992月1日實施的《檔案著錄規(guī)則DA/T 18-1999》的著錄項,文檔管理軟件在案卷級著錄和文件級著錄選取的主要著錄項目字段有:題名、并列題名、文件編號、責任者、附件、稿本和文種、密級與保管期限項、文件形成時間項、載體類型、數(shù)量及單位、分類號、檔案館代號、檔號、電子文檔號、縮微號、主題詞或關(guān)鍵詞。
2 檔案文獻信息的輸出。利用者根據(jù)對檔案文獻的信息需求,編制恰當?shù)臋z索條件,形成檢索表達式,并將其輸入計算機,在數(shù)據(jù)庫查找后將結(jié)果輸出。
(二)檔案信息檢索級別設(shè)計。檢索級別是衡量檢索深度和檢索精度的重要標準。檔案信息計算機檢索,檢索級別越小、越低、內(nèi)容越具體,說明檢索的精度越高、檢索的深度越深。
1 案卷級檢索。案卷級檢索是指檢索出的檔案只能是案卷級目錄,而無法一次檢索出其卷內(nèi)的具體文件,其檢索依據(jù)是用案卷目錄來建立的案卷級目錄數(shù)據(jù)庫。檔案工作者都知道擬寫案卷題名是一件比較困難的事情,規(guī)定字數(shù)不能超過五十個漢字,且題名要盡可能涵蓋卷內(nèi)文件的內(nèi)容,即案卷題名的內(nèi)涵盡可能等于卷內(nèi)文件的外延。由于檔案工作者水平不一,擬寫的案卷題名涵蓋不了該案卷所有的文件內(nèi)容。檢索文書檔案內(nèi)容方面,檔案館(室)很少采用案卷級檢索功能,而在科技檔案和專門檔案檢索中經(jīng)常使用。
2 文件級檢索。利用計算機檢索工具不僅可以按著錄項目進行單項檢索,還可以把若干項目結(jié)合起來檢索,均可檢索出具體的文件(即文件級檢索),以滿足利用者獲取檔案信息的需求。作為文件級檢索,是檔案館(室)經(jīng)常采用的檔案文獻檢索手段,其具有一次輸入、多次輸出、多樣化輸出的功能。文件級檔案文獻的查準率和查全率,取決于操作者對檔案著錄項目的組合而設(shè)置檢索條件,凡輸入計算機的每一個檢索著錄條目為一個檢索入口,如把文件的責任者、題名、時間3項目結(jié)合起來檢索,可以獲得滿足這3個檢索條件的檔案文獻。在檢索工具中還可通過主題標引和分類標引的手段揭示出文件內(nèi)容所涉及到的概念性主題或所屬邏輯類別,這類檢索有時被稱為“內(nèi)容級檢索”。但因文件內(nèi)容不能脫離開文件而單獨存在,檢索成果依然是一份份的文件,所以“內(nèi)容級”嚴格說起來無法成立,只能歸入“文件級”。
3 全文檢索。全文檢索是計算機程序通過掃描文章中的每一個詞,對每一個詞建立一個索引,指明該詞在文章中出現(xiàn)的次數(shù)和位置。當用戶查詢時根據(jù)建立的索引查找,類似于通過字典的檢索字表查字的過程。全文檢索系統(tǒng)是按照全文檢索理論建立起來的用于提供全文檢索服務的軟件系統(tǒng)。在功能上,全文檢索系統(tǒng)需要具有建立索引、處理查詢返回結(jié)果集、增加索引、優(yōu)化索引結(jié)構(gòu)等功能。結(jié)構(gòu)上,全文檢索系統(tǒng)具有索引引擎、查詢引擎、文本分析引擎和對外接口等。全文檢索彌補了文件級檢索存在的不足之處,因為有的文件標題擬寫不準確,或綜合性的文件很難用標題完全表達,造成了計算機誤檢或漏檢現(xiàn)象時有發(fā)生。全文檢索系統(tǒng)是自然語言處理技術(shù)與海量內(nèi)容管理技術(shù)的完美結(jié)合,它對網(wǎng)頁、文本、電子文檔和圖像等非結(jié)構(gòu)化的信息提供強大的管理功能,能有效地解決以上問題。
4 多媒體檔案文獻檢索。所謂多媒體檔案,是集聲、光、電多種媒體于一體的檔案。這種檔案可以更真實地記錄人們的社會活動,實現(xiàn)高密度存儲和遠距離傳輸,得到最為理想的利用效果。多媒體檔案文獻檢索有案卷級檢索和文件級檢索,案卷級檢索可檢字段有案卷題名、立檔單位、主題詞、起始年代、起始月份、起始日期。文件級檔案目錄的檢索一二級分類與檔案相同,可檢字段有文件題名、責任者、主題詞、文件年代、文件月份、文件日期、文件代字、文件年號、文件編號。
三、檔案信息計算機檢索策略
運用計算機進行檔案信息檢索,用戶對檔案信息的需求是精細的,其感興趣的是某一檔案的具體內(nèi)容,即根據(jù)用戶的查詢表達式,如通過電子檔案著錄項(電子文檔號、題名與責任者、密級與保管期限、時間項等)在信息源中檢索出相關(guān)類型的電子檔案。檔案檢索策略是人們進行檔案檢索的方案和計劃,編制檔案檢索策略包括選擇檢索途徑和檢索詞(檔案著項),及確定檢索詞(檔案著項)之間邏輯關(guān)系。檢索策略的編制是根據(jù)用戶檢索檔案常用的邏輯思維式而制定表達方式,在計算機檔案信息檢索模塊最常用的有以下3種邏輯表達式。
一是通過計算機設(shè)置邏輯與關(guān)系(AND的表達式,限定檔案內(nèi)容之間的關(guān)系,兩個檢索詞之間一般用符號“★”表示,用戶輸入計算機的檢索詞必須滿足兩個檢索條件。例如,檢索有關(guān)員工績效考核方面的檔案信息,在檢索入口輸入“員工★績效考核”,用來表示兩個內(nèi)容之間的重合關(guān)系,對于專題與文件內(nèi)容較為明確的情況下,使用邏輯與關(guān)系有利于提高查準率。 二是采用邏輯或關(guān)系(OR)表示兩個檢索詞之間的任選關(guān)系,為檔案信息利用人員提供模糊檢索功能。檢索檔案信息一般在文件題名、文件編號和檔號檢索窗口使用“+”連接多個查詢關(guān)鍵字,滿足檔案信息利用者輸入的關(guān)鍵字其中之一,即可查詢到相關(guān)的檔案資料。例如:“檔案+專業(yè)技術(shù)職務”表示檢索有關(guān)檔案人員評聘專業(yè)技術(shù)職務方面的檔案資料。檔案館(室)日常的查詢檔案資料工作中,在文件題名檢索入口最經(jīng)常使用的是邏輯或關(guān)系檢索檔案信息內(nèi)容,這種關(guān)系在檢索入口使用越多,那么計算機選擇用戶需求的檔案資料范圍就越大,一般情況下使用邏輯或關(guān)系有助于提高查全率。
三是采用表示否定關(guān)系的邏輯非關(guān)系(NOT),用排除法控制檢索結(jié)果,有利于提高查準率。例如:“教師——副教授”表示檢索有關(guān)教師非副教授的檔案資料。
以上三種不同邏輯的計算機檢索法,軟件人員在設(shè)計檔案檢索程序時,已經(jīng)嵌入到檔案管理軟件的檢索系統(tǒng)。檔案利用人員檢索檔案信息時,在檢索入口靈活使用檢索邏輯,有助于提高檔案信息的查準率和查全率。
四、檔案信息計算機檢索技巧
我國各地國家公共檔案館和機關(guān)、企事業(yè)單位檔案(館)室使用的文書檔案管理系統(tǒng),都具有檔案信息計算機檢索功能。計算機檔案信息檢索模塊最常用的邏輯與關(guān)系(AND)、邏輯或關(guān)系(OR)和邏輯非關(guān)系(NOT)3個表達式,為計算機檔案檢索系統(tǒng)的編程規(guī)范。提供給檔案信息獲取者使用的檢索界面,基本上按照《檔案著錄規(guī)則DA/T 18-1999》的著錄項設(shè)置檢索入口。
在檔案信息檢索中,掌握一些檢索技巧能夠極大地提高檔案利用者檔案信息檢索能力。
(一)題名表述準確。檔案信息計算機檢索最基本同時也是最有效的技巧,就是選擇合適的檢索詞。檔案檢索系統(tǒng)會嚴格按照檔案利用者提交的檢索詞去檢索檔案信息。為此,檢索詞表達準確是獲得良好檢索結(jié)果的必要前提。常見錯誤是對檔案信息的表達不準確。例如,要查找《國有企業(yè)資產(chǎn)與產(chǎn)權(quán)變動檔案處置暫行辦法》,檢索詞可以是“國有企業(yè)資產(chǎn)與產(chǎn)權(quán)變動檔案處置暫行辦法”,如果把“暫行辦法”檢索詞換成“管理規(guī)定”,檢索結(jié)果不能滿足需求。另一類典型的表達是不能掌握不同歷史時期檔案文件的題名用語。例如,
“知識青年上山下鄉(xiāng)”,在題名檢索入口輸入“知識青年農(nóng)村勞動”,就沒有“知識青年上山下鄉(xiāng)”的文件出現(xiàn)。還有一種類型是檢索詞中包含錯別字。例如,要查找“檔案專業(yè)任職資格”,用“檔案專業(yè)任職資格”,就可以檢索出有關(guān)檔案專業(yè)任職資格的檔案,但如果寫錯了字,變成“檔案職業(yè)任職資格”,其檢索準確率就達不到檔案查詢的指標要求。
(二)正確選擇檔案信息檢索項目。檔案軟件檢索界面,基本上包含了《檔案著錄規(guī)則DA/T 18-1999》的所有項目,但在檔案館(室)日常查詢檔案資料工作中,并不是所有的機讀著錄條目都要輸入檢索條件。我們把機讀著錄條目按照使用頻率分為三級:一級為使用頻率較多的著錄條目,包含:題名、文件編號、責任者、檔號、文件形成時間項。二級為使用頻率一般的著錄條目,包含:分類號、檔案館代號、電子文檔號、縮微號、主題詞或關(guān)鍵詞、密級與保管期限。三級為使用頻率較少的著錄條目,包含:并列題名、附件、稿本和文種、項載體類型、數(shù)量及單位。
(三)檢索詞的主題關(guān)聯(lián)與簡練。為提高檔案信息資料的查全率,在文件題名檢索入口把查詢檔案的主題提煉成簡單的,而且與希望找到的信息內(nèi)容主題關(guān)聯(lián)的檢索詞,檔案利用者最好學會使用兩個關(guān)鍵詞檢索,兩個關(guān)鍵詞中間用“+”關(guān)聯(lián),并且合理地與使用頻率較多的一級著錄條目進行檢索條件組合。例如,查詢《城市建設(shè)檔案歸屬與流向暫行辦法》檔發(fā)字(1997)20號,國家檔案局1997年7月28日印發(fā)。檢索條件組合如下:
題名:“城市+建設(shè)檔案+歸屬”
責任者:國家檔案局
時間:199701-199812
或題名:“城市建設(shè)+檔案+流向”
文件編號:檔發(fā)字(1997)
時間:19970101-19971231
輸入檢索主題的質(zhì)量關(guān)系到文件的查準率。實踐中得出經(jīng)驗,題名檢索入口每個關(guān)聯(lián)詞組不要超多5個漢字,因為大多數(shù)的檔案利用者輸入漢字越多與計算機文件級數(shù)據(jù)庫匹配運算吻合機率越低。在檔案檢索中,檔案信息利用者要養(yǎng)成使用多個關(guān)鍵詞檢索的習慣,在檔案信息檢索時大多數(shù)情況下使用兩個關(guān)鍵詞檢索已經(jīng)足夠了,關(guān)鍵詞與關(guān)鍵詞之間以“+”隔開,關(guān)鍵詞以2至4個漢字為宜。
檔案信息檢索正向全文文本、多媒體、多載體、跨平臺等新型信息檢索的方向發(fā)展,為提高檔案信息的利用效果,檔案信息利用者掌握檔案信息檢索知識與檢索技巧能極大地提高檔案信息的查全率和查準率,檔案工作服務能力得到顯著提高。
相關(guān)文章: