91精品人妻互换日韩精品久久影视|又粗又大的网站激情文学制服91|亚州A∨无码片中文字慕鲁丝片区|jizz中国无码91麻豆精品福利|午夜成人AA婷婷五月天精品|素人AV在线国产高清不卡片|尤物精品视频影院91日韩|亚洲精品18国产精品闷骚

您當(dāng)前位置:首頁 > 新聞頻道 > 技術(shù)動態(tài) > 正文
大數(shù)據(jù)時代背景下的檔案利用服務(wù)研究

  引言

  在大數(shù)據(jù)時代背景下,人們越來越認(rèn)識到自身數(shù)據(jù)對管理的重要性,檔案是直接形成的歷史記錄,是對原始數(shù)據(jù)的記錄、收集、整理、保管、利用等,隨著信息量的增加,保存社會檔案越來越復(fù)雜,檔案行業(yè)管理越來越麻煩,大數(shù)據(jù)時代背景下的檔案利用服務(wù)需要進(jìn)一步探討。

  一、大數(shù)據(jù)時代

  隨著信息時代的到來,數(shù)據(jù)增長越來越快,人們生活步入大數(shù)據(jù)時代,大數(shù)據(jù)是由數(shù)量巨大、結(jié)構(gòu)復(fù)雜、類型眾多數(shù)據(jù)構(gòu)成的數(shù)據(jù)集合,是海量的非結(jié)構(gòu)化數(shù)據(jù),基于云計算的數(shù)據(jù)處理與應(yīng)用模式通過數(shù)據(jù)的集成共享交叉復(fù)用形成的智力資源和知識服務(wù)能力,需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn),具有數(shù)量大、類型繁多、價值密度低、速度快時效高的特點(diǎn),從某種程度上說,大數(shù)據(jù)是數(shù)據(jù)分析的前沿技術(shù),簡言之從各種各樣類型的數(shù)據(jù)中快速獲得有價值信息的能力就是大數(shù)據(jù)技術(shù),F(xiàn)代大型企業(yè),檔案部門主管公司檔案信息資料,將公司各單位部門信息統(tǒng)一管理,以便公司需要時快速找到相關(guān)信息,近年來隨著電子文件的廣泛應(yīng)用,掃描圖像、傳真、電子表格、演示文檔、照片、視頻片段等非結(jié)構(gòu)化數(shù)據(jù)直線上升,數(shù)字檔案館數(shù)據(jù)量直線上升,數(shù)據(jù)時代真正來臨。

  二、大數(shù)據(jù)時代背景給檔案服務(wù)帶來的挑戰(zhàn)

  在大數(shù)據(jù)時代背景下,檔案管理已由紙質(zhì)檔案發(fā)展到數(shù)字化階段,檔案館作為保存檔案、提供檔案、為社會服務(wù)的文化機(jī)構(gòu),必然貯存大量的信息量,檔案信息資源階梯式增長,現(xiàn)有的檔案工具手段已不能滿足數(shù)字化檔案管理,計算機(jī)數(shù)據(jù)庫的應(yīng)用順勢發(fā)展起來,提高檔案資料管理的有效性,大數(shù)據(jù)時代背景下的數(shù)字檔案館藏量具有數(shù)據(jù)量大、媒體形式多的特點(diǎn),給檔案利用服務(wù)系統(tǒng)帶來了不小的挑戰(zhàn)。

  (一)在海量數(shù)據(jù)中如何查詢檔案信息

  隨著信息技術(shù)的廣泛應(yīng)用,數(shù)據(jù)庫信息技術(shù)不斷發(fā)展,電子文件數(shù)據(jù)信息量暴增,檔案信息保存的文件相應(yīng)增多,傳統(tǒng)的手工著錄、卡片檢索已不能滿足企業(yè)的需求,在檔案信息數(shù)據(jù)處理過程中,經(jīng)常會遇到文件找不到、查詢性能低、甚至出現(xiàn)服務(wù)器不響應(yīng)一系列難題,應(yīng)用以往的查詢服務(wù)方法已經(jīng)趕不上大數(shù)據(jù)時代發(fā)展的步伐,計算機(jī)輔助檔案資料管理變得更加便捷方便,但是在大數(shù)據(jù)時代,檔案信息化不斷推進(jìn),如何進(jìn)行檔案查詢,尤其是近來檔案數(shù)量的急劇增多,檔案數(shù)據(jù)甚至出現(xiàn)脹庫,檔案查詢檢索性能下降,反應(yīng)遲鈍,如何精準(zhǔn)的在海量數(shù)據(jù)中找到所需信息,是檔案利用服務(wù)首先需要解決的問題。

 。ǘ┰诤A繑(shù)據(jù)中如何抽取有用的信息

  如今,檔案管理用戶已不滿足于對數(shù)據(jù)及文件的利用,而是希望獲得數(shù)據(jù)及文件隱含的知識,也就是說,現(xiàn)在檔案管理的趨勢是知識管理,檔案利用服務(wù)也應(yīng)由提供數(shù)據(jù)信息轉(zhuǎn)變?yōu)橹R供給,但知識不是簡單的數(shù)據(jù)信息,需要經(jīng)過抽取和挖掘才能從中得到有用信息,在海量數(shù)據(jù)中,僅僅依靠人工挖掘信息已不能滿足大數(shù)據(jù)時代,如何提供給用戶挖掘有用信息,依靠信息技術(shù)進(jìn)行數(shù)據(jù)挖掘,這是當(dāng)前檔案利用服務(wù)的任務(wù)。

  三、大數(shù)據(jù)時代背景下檔案利用服務(wù)的數(shù)據(jù)挖掘

 。ㄒ唬n案業(yè)務(wù)流程轉(zhuǎn)變

  傳統(tǒng)的檔案業(yè)務(wù)流程包括收集、整理、保存、利用,其中檔案利用采用的原始數(shù)據(jù),隨著電子文件的廣泛應(yīng)用,檔案數(shù)據(jù)信息量越來越大、媒體形式頗多,傳統(tǒng)的檔案流程已不能滿足用戶對信息數(shù)據(jù)的使用,原始數(shù)據(jù)的利用比較困難,數(shù)據(jù)查詢性能下降,甚至無法及時響應(yīng),延誤資料的使用,檔案數(shù)據(jù)庫需要更新,及時優(yōu)化IT結(jié)構(gòu),在找尋檔案數(shù)據(jù)前加入數(shù)據(jù)挖掘這一步驟,通過模糊識別對海量數(shù)據(jù)及多媒體數(shù)據(jù)進(jìn)行篩選,方便用戶在萬千信息中找尋自己所需要的信息,優(yōu)化數(shù)據(jù)查詢性能,提高檔案服務(wù)質(zhì)量,這是解決檔案利用服務(wù)的一條有效途徑。

 。ǘ⿺(shù)據(jù)挖掘的應(yīng)用

  怎樣從大批量原始數(shù)據(jù)中篩選出有應(yīng)用價值的信息,提供給不同用戶作為參考信息,數(shù)據(jù)挖掘技術(shù)的應(yīng)用使得該問題得到解決。概括地說,數(shù)據(jù)挖掘便是從海量的、不完整的、效果差的、未經(jīng)處理的數(shù)據(jù)中,提取具有潛在價值的信息與知識的過程。一般數(shù)據(jù)挖掘種類劃分為結(jié)構(gòu)型數(shù)據(jù)挖掘、web數(shù)據(jù)挖掘及文本數(shù)據(jù)挖掘等。數(shù)據(jù)挖掘應(yīng)用于海量檔案信息篩選過程中,簡化了檔案信心提取程序,提高了檔案利用服務(wù)效率。文本挖掘是數(shù)據(jù)挖掘的基本構(gòu)成部分,在數(shù)據(jù)提取過程中應(yīng)用最廣泛,因此被稱作文字探勘、文本數(shù)據(jù)挖掘等,可簡單地理解為文字分析,其目的就是經(jīng)過文本處理后能獲取有價值的信息和知識。有價值信息的提取一般分為兩個步驟是分類與預(yù)測,文本挖掘就是以數(shù)據(jù)分析為基礎(chǔ),然后加上某些衍生語言特征或者消除雜音,隨后插入到數(shù)據(jù)庫中,形成結(jié)構(gòu)化數(shù)據(jù),最后完成評價與信息傳遞!案咂焚|(zhì)”的文本挖掘一般是說某類組合的關(guān)聯(lián)性、獨(dú)特性與實(shí)用性。文本數(shù)據(jù)挖掘在眾多基礎(chǔ)領(lǐng)域普遍存在,例如數(shù)理統(tǒng)計、智能機(jī)器、聲像數(shù)據(jù)轉(zhuǎn)換,歸納起來無非就是利用文本信息篩選、文本劃分、文本聚類、文本數(shù)據(jù)壓縮、文本數(shù)據(jù)處理;文本挖掘應(yīng)用最常見的領(lǐng)域包括信息訪問(信息搜索、信息瀏覽、信息過濾、信息報告)、知識發(fā)現(xiàn)(數(shù)據(jù)預(yù)測、數(shù)據(jù)分析)。

 。ㄈ⿺(shù)據(jù)挖掘平臺的應(yīng)用

  數(shù)據(jù)挖掘技術(shù)是保證大數(shù)據(jù)背景下檔案服務(wù)的質(zhì)量的有效途徑,數(shù)據(jù)挖掘平臺是文本智能數(shù)據(jù)處理中心,建立在獨(dú)特地模糊識別及音視頻識別技術(shù)之上,抽取其中內(nèi)容進(jìn)行挖掘,提供用戶搜索應(yīng)用服務(wù),檔案服務(wù)從數(shù)據(jù)的收集、挖掘及智能搜索等步驟實(shí)現(xiàn),將數(shù)據(jù)結(jié)果顯示在數(shù)據(jù)挖掘平臺上。檔案資源數(shù)據(jù)挖掘包括三方面,首先是對音視頻內(nèi)容的檢索,自動識別關(guān)鍵幀,區(qū)分定位視頻中的不同內(nèi)容,提高視頻處理的能力;其次是對語義的檢索,這是常見的搜索方式,只需提供計算機(jī)識別的語言即可;最后是檔案智能化輔助分類,從歷史分類中提取檔案分類,實(shí)現(xiàn)文獻(xiàn)的自動分類,促進(jìn)輔助分類的準(zhǔn)確度,提高用戶整理效率,支持多維度動態(tài)分類。文本數(shù)據(jù)處理層是建立數(shù)據(jù)挖掘平臺的載體,其根本目的是以特殊的信息論及概率論的前提下的模式辨識技術(shù)和音視頻辨識技術(shù),提取具有重要價值的信息,為外圍提供搜索應(yīng)用服務(wù)。所以,數(shù)據(jù)挖掘平臺科通過采集數(shù)據(jù)、數(shù)據(jù)分析、數(shù)據(jù)挖掘、智能搜索應(yīng)用平臺,將多類型數(shù)據(jù)在采集平臺上完成層次化的數(shù)據(jù)采集。

  四、結(jié)束語

  綜上所述,大數(shù)據(jù)時代是科技進(jìn)步的產(chǎn)物,面對這樣的新形勢,我們必須以數(shù)據(jù)挖掘與文本挖掘?yàn)榛A(chǔ),從而挖掘檔案間的內(nèi)在關(guān)聯(lián),探索檔案信息中潛藏的有價值信息,建立智能化處理平臺滿足不同客戶個性化的需求。


關(guān)鍵字:管理
About Us - 關(guān)于我們 - 服務(wù)列表 - 付費(fèi)指導(dǎo) - 媒體合作 - 廣告服務(wù) - 版權(quán)聲明 - 聯(lián)系我們 - 網(wǎng)站地圖 - 常見問題 - 友情鏈接
Copyright©2014安裝信息網(wǎng) m.78375555.com. All rights reserved.
服務(wù)熱線:4000-293-296 聯(lián)系電話:0371-61311617 傳真:0371-55611201 QQ: 郵箱:zgazxxw@126.com 豫ICP備18030500號-4
未經(jīng)過本站允許,請勿將本站內(nèi)容傳播或復(fù)制
安全聯(lián)盟認(rèn)證