相關(guān)鏈接: 中國安全網(wǎng) 中國質(zhì)量網(wǎng) 中國論文網(wǎng) 中國資訊網(wǎng)
引言
在大數(shù)據(jù)時代背景下,人們越來越認(rèn)識到自身數(shù)據(jù)對管理的重要性,檔案是直接形成的歷史記錄,是對原始數(shù)據(jù)的記錄、收集、整理、保管、利用等,隨著信息量的增加,保存社會檔案越來越復(fù)雜,檔案行業(yè)管理越來越麻煩,大數(shù)據(jù)時代背景下的檔案利用服務(wù)需要進(jìn)一步探討。
一、大數(shù)據(jù)時代
隨著信息時代的到來,數(shù)據(jù)增長越來越快,人們生活步入大數(shù)據(jù)時代,大數(shù)據(jù)是由數(shù)量巨大、結(jié)構(gòu)復(fù)雜、類型眾多數(shù)據(jù)構(gòu)成的數(shù)據(jù)集合,是海量的非結(jié)構(gòu)化數(shù)據(jù),基于云計算的數(shù)據(jù)處理與應(yīng)用模式通過數(shù)據(jù)的集成共享交叉復(fù)用形成的智力資源和知識服務(wù)能力,需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn),具有數(shù)量大、類型繁多、價值密度低、速度快時效高的特點(diǎn),從某種程度上說,大數(shù)據(jù)是數(shù)據(jù)分析的前沿技術(shù),簡言之從各種各樣類型的數(shù)據(jù)中快速獲得有價值信息的能力就是大數(shù)據(jù)技術(shù),F(xiàn)代大型企業(yè),檔案部門主管公司檔案信息資料,將公司各單位部門信息統(tǒng)一管理,以便公司需要時快速找到相關(guān)信息,近年來隨著電子文件的廣泛應(yīng)用,掃描圖像、傳真、電子表格、演示文檔、照片、視頻片段等非結(jié)構(gòu)化數(shù)據(jù)直線上升,數(shù)字檔案館數(shù)據(jù)量直線上升,數(shù)據(jù)時代真正來臨。
二、大數(shù)據(jù)時代背景給檔案服務(wù)帶來的挑戰(zhàn)
在大數(shù)據(jù)時代背景下,檔案管理已由紙質(zhì)檔案發(fā)展到數(shù)字化階段,檔案館作為保存檔案、提供檔案、為社會服務(wù)的文化機(jī)構(gòu),必然貯存大量的信息量,檔案信息資源階梯式增長,現(xiàn)有的檔案工具手段已不能滿足數(shù)字化檔案管理,計算機(jī)數(shù)據(jù)庫的應(yīng)用順勢發(fā)展起來,提高檔案資料管理的有效性,大數(shù)據(jù)時代背景下的數(shù)字檔案館藏量具有數(shù)據(jù)量大、媒體形式多的特點(diǎn),給檔案利用服務(wù)系統(tǒng)帶來了不小的挑戰(zhàn)。
(一)在海量數(shù)據(jù)中如何查詢檔案信息
隨著信息技術(shù)的廣泛應(yīng)用,數(shù)據(jù)庫信息技術(shù)不斷發(fā)展,電子文件數(shù)據(jù)信息量暴增,檔案信息保存的文件相應(yīng)增多,傳統(tǒng)的手工著錄、卡片檢索已不能滿足企業(yè)的需求,在檔案信息數(shù)據(jù)處理過程中,經(jīng)常會遇到文件找不到、查詢性能低、甚至出現(xiàn)服務(wù)器不響應(yīng)一系列難題,應(yīng)用以往的查詢服務(wù)方法已經(jīng)趕不上大數(shù)據(jù)時代發(fā)展的步伐,計算機(jī)輔助檔案資料管理變得更加便捷方便,但是在大數(shù)據(jù)時代,檔案信息化不斷推進(jìn),如何進(jìn)行檔案查詢,尤其是近來檔案數(shù)量的急劇增多,檔案數(shù)據(jù)甚至出現(xiàn)脹庫,檔案查詢檢索性能下降,反應(yīng)遲鈍,如何精準(zhǔn)的在海量數(shù)據(jù)中找到所需信息,是檔案利用服務(wù)首先需要解決的問題。
。ǘ┰诤A繑(shù)據(jù)中如何抽取有用的信息
如今,檔案管理用戶已不滿足于對數(shù)據(jù)及文件的利用,而是希望獲得數(shù)據(jù)及文件隱含的知識,也就是說,現(xiàn)在檔案管理的趨勢是知識管理,檔案利用服務(wù)也應(yīng)由提供數(shù)據(jù)信息轉(zhuǎn)變?yōu)橹R供給,但知識不是簡單的數(shù)據(jù)信息,需要經(jīng)過抽取和挖掘才能從中得到有用信息,在海量數(shù)據(jù)中,僅僅依靠人工挖掘信息已不能滿足大數(shù)據(jù)時代,如何提供給用戶挖掘有用信息,依靠信息技術(shù)進(jìn)行數(shù)據(jù)挖掘,這是當(dāng)前檔案利用服務(wù)的任務(wù)。
三、大數(shù)據(jù)時代背景下檔案利用服務(wù)的數(shù)據(jù)挖掘
。ㄒ唬n案業(yè)務(wù)流程轉(zhuǎn)變
傳統(tǒng)的檔案業(yè)務(wù)流程包括收集、整理、保存、利用,其中檔案利用采用的原始數(shù)據(jù),隨著電子文件的廣泛應(yīng)用,檔案數(shù)據(jù)信息量越來越大、媒體形式頗多,傳統(tǒng)的檔案流程已不能滿足用戶對信息數(shù)據(jù)的使用,原始數(shù)據(jù)的利用比較困難,數(shù)據(jù)查詢性能下降,甚至無法及時響應(yīng),延誤資料的使用,檔案數(shù)據(jù)庫需要更新,及時優(yōu)化IT結(jié)構(gòu),在找尋檔案數(shù)據(jù)前加入數(shù)據(jù)挖掘這一步驟,通過模糊識別對海量數(shù)據(jù)及多媒體數(shù)據(jù)進(jìn)行篩選,方便用戶在萬千信息中找尋自己所需要的信息,優(yōu)化數(shù)據(jù)查詢性能,提高檔案服務(wù)質(zhì)量,這是解決檔案利用服務(wù)的一條有效途徑。
。ǘ⿺(shù)據(jù)挖掘的應(yīng)用
怎樣從大批量原始數(shù)據(jù)中篩選出有應(yīng)用價值的信息,提供給不同用戶作為參考信息,數(shù)據(jù)挖掘技術(shù)的應(yīng)用使得該問題得到解決。概括地說,數(shù)據(jù)挖掘便是從海量的、不完整的、效果差的、未經(jīng)處理的數(shù)據(jù)中,提取具有潛在價值的信息與知識的過程。一般數(shù)據(jù)挖掘種類劃分為結(jié)構(gòu)型數(shù)據(jù)挖掘、web數(shù)據(jù)挖掘及文本數(shù)據(jù)挖掘等。數(shù)據(jù)挖掘應(yīng)用于海量檔案信息篩選過程中,簡化了檔案信心提取程序,提高了檔案利用服務(wù)效率。文本挖掘是數(shù)據(jù)挖掘的基本構(gòu)成部分,在數(shù)據(jù)提取過程中應(yīng)用最廣泛,因此被稱作文字探勘、文本數(shù)據(jù)挖掘等,可簡單地理解為文字分析,其目的就是經(jīng)過文本處理后能獲取有價值的信息和知識。有價值信息的提取一般分為兩個步驟是分類與預(yù)測,文本挖掘就是以數(shù)據(jù)分析為基礎(chǔ),然后加上某些衍生語言特征或者消除雜音,隨后插入到數(shù)據(jù)庫中,形成結(jié)構(gòu)化數(shù)據(jù),最后完成評價與信息傳遞!案咂焚|(zhì)”的文本挖掘一般是說某類組合的關(guān)聯(lián)性、獨(dú)特性與實(shí)用性。文本數(shù)據(jù)挖掘在眾多基礎(chǔ)領(lǐng)域普遍存在,例如數(shù)理統(tǒng)計、智能機(jī)器、聲像數(shù)據(jù)轉(zhuǎn)換,歸納起來無非就是利用文本信息篩選、文本劃分、文本聚類、文本數(shù)據(jù)壓縮、文本數(shù)據(jù)處理;文本挖掘應(yīng)用最常見的領(lǐng)域包括信息訪問(信息搜索、信息瀏覽、信息過濾、信息報告)、知識發(fā)現(xiàn)(數(shù)據(jù)預(yù)測、數(shù)據(jù)分析)。
。ㄈ⿺(shù)據(jù)挖掘平臺的應(yīng)用
數(shù)據(jù)挖掘技術(shù)是保證大數(shù)據(jù)背景下檔案服務(wù)的質(zhì)量的有效途徑,數(shù)據(jù)挖掘平臺是文本智能數(shù)據(jù)處理中心,建立在獨(dú)特地模糊識別及音視頻識別技術(shù)之上,抽取其中內(nèi)容進(jìn)行挖掘,提供用戶搜索應(yīng)用服務(wù),檔案服務(wù)從數(shù)據(jù)的收集、挖掘及智能搜索等步驟實(shí)現(xiàn),將數(shù)據(jù)結(jié)果顯示在數(shù)據(jù)挖掘平臺上。檔案資源數(shù)據(jù)挖掘包括三方面,首先是對音視頻內(nèi)容的檢索,自動識別關(guān)鍵幀,區(qū)分定位視頻中的不同內(nèi)容,提高視頻處理的能力;其次是對語義的檢索,這是常見的搜索方式,只需提供計算機(jī)識別的語言即可;最后是檔案智能化輔助分類,從歷史分類中提取檔案分類,實(shí)現(xiàn)文獻(xiàn)的自動分類,促進(jìn)輔助分類的準(zhǔn)確度,提高用戶整理效率,支持多維度動態(tài)分類。文本數(shù)據(jù)處理層是建立數(shù)據(jù)挖掘平臺的載體,其根本目的是以特殊的信息論及概率論的前提下的模式辨識技術(shù)和音視頻辨識技術(shù),提取具有重要價值的信息,為外圍提供搜索應(yīng)用服務(wù)。所以,數(shù)據(jù)挖掘平臺科通過采集數(shù)據(jù)、數(shù)據(jù)分析、數(shù)據(jù)挖掘、智能搜索應(yīng)用平臺,將多類型數(shù)據(jù)在采集平臺上完成層次化的數(shù)據(jù)采集。
四、結(jié)束語
綜上所述,大數(shù)據(jù)時代是科技進(jìn)步的產(chǎn)物,面對這樣的新形勢,我們必須以數(shù)據(jù)挖掘與文本挖掘?yàn)榛A(chǔ),從而挖掘檔案間的內(nèi)在關(guān)聯(lián),探索檔案信息中潛藏的有價值信息,建立智能化處理平臺滿足不同客戶個性化的需求。