公共文化大數(shù)據(jù)系統(tǒng)的實踐

時間:2022-08-11 11:00:21

導語:公共文化大數(shù)據(jù)系統(tǒng)的實踐一文來源于網友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

公共文化大數(shù)據(jù)系統(tǒng)的實踐

摘要:本文針對公共數(shù)字文化服務高效、高質量發(fā)展問題,介紹了以數(shù)據(jù)分析為抓手的公共文化大數(shù)據(jù)系統(tǒng)建設思路??偨Y實踐經驗,提出大數(shù)據(jù)系統(tǒng)建設過程中需要重點關注的問題,為各地公共文化服務機構大數(shù)據(jù)建設提供參考。

關鍵詞:公共文化服務;大數(shù)據(jù);系統(tǒng)建設;實踐

近年來,我國公共文化服務體系建設得到了長足發(fā)展,公共文化服務正在從“有沒有”“缺不缺”向“好不好”“精不精”轉型升級,大數(shù)據(jù)系統(tǒng)的建設在改善公共文化服務質量、提升服務效能方面得到了社會的廣泛認同。文化和旅游部全國公共文化發(fā)展中心基于帶動、引領全國公共數(shù)字文化服務工作的考量,開展了公共文化大數(shù)據(jù)系統(tǒng)的探索性建設研究,為今后公共文化機構的決策方式調整,更科學、更準確地保障大眾的文化權益,奠定了理論和實踐基礎。

公共文化大數(shù)據(jù)系統(tǒng)建設基礎

“十三五”時期,我國通過規(guī)劃實施公共文化云平臺、中國文化網絡電視、邊疆萬里數(shù)字文化長廊、數(shù)字文化館、數(shù)字圖書館等一系列項目,有力地推動了全國公共文化服務的數(shù)字化提檔升級。數(shù)字化工作的逐步開展,為公共文化大數(shù)據(jù)分析與利用奠定了基礎,也使今后利用大數(shù)據(jù)為公共文化服務賦能成為了可能。

公共文化大數(shù)據(jù)系統(tǒng)建設實踐

明確當前需求與云計算、區(qū)塊鏈等應用技術不同,大數(shù)據(jù)建設是一個工程體系。公共文化大數(shù)據(jù)系統(tǒng),是現(xiàn)代公共文化服務體系數(shù)字化服務的一種高度濃縮。公共文化大數(shù)據(jù)系統(tǒng)在建設上需要圍繞未來的核心服務集群設計,逐步建立知識庫、模型庫、知識圖譜和算法庫,既要利用數(shù)字化技術面向公共文化機構采集數(shù)據(jù),作為決策依據(jù),也要面向個人用戶采集數(shù)據(jù),開展“千人千面”的智能推薦。這些工作,需要龐大的人力、物力和財力的支持,比較可行的方式是采取分步走的方式開展建設。在現(xiàn)階段,考慮到后續(xù)經費的可持續(xù)投入等因素,筆者所在單位文化和旅游部全國公共文化發(fā)展中心將分析與展示問題的優(yōu)先級提到了前面,考慮優(yōu)先對公共數(shù)字文化工程已有的數(shù)據(jù)進行采集,優(yōu)先建立相應的分析模型對數(shù)據(jù)進行統(tǒng)計、分析,生成部分成果數(shù)據(jù)集,并提供數(shù)據(jù)的可視化展示。通過基本系統(tǒng)的搭建和探索,為今后公共文化大數(shù)據(jù)系統(tǒng)的體系化建設奠定起步基礎。系統(tǒng)設計與搭建在建設公共文化大數(shù)據(jù)系統(tǒng)過程中,我們首先按照網絡安全等級保護三級標準建設一個基于hadoop(分布式系統(tǒng)基礎架構)的、可擴展的大數(shù)據(jù)架構體系。在系統(tǒng)功能方面,要求系統(tǒng)具備大數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)加工、數(shù)據(jù)展示等多種功能。在技術設計方面,采用模塊化建設,使系統(tǒng)具有良好的可擴展性和伸縮性,以適應業(yè)務系統(tǒng)自身的不斷調整、修改和優(yōu)化。在成果展示方面,采用可視化技術,支持不同場景、不同終端可形象地展示各類數(shù)據(jù)。同時提出應允許第三方平臺(如:文化和旅游部應急指揮平臺)調用或集成相應的展示頁面,通過標準接口進行數(shù)據(jù)共享服務等要求。在分析了當前公共數(shù)字文化服務主要需要后,將后臺管理、數(shù)據(jù)展示、數(shù)據(jù)應用、MPP數(shù)據(jù)倉庫、數(shù)據(jù)分析、數(shù)據(jù)管控、數(shù)據(jù)安全、數(shù)據(jù)采集、數(shù)據(jù)抽取、數(shù)據(jù)轉換、數(shù)據(jù)加載(ETL)、數(shù)據(jù)存儲等定為核心業(yè)務模塊??紤]前期采集數(shù)據(jù)量及計算任務量有限的因素,系統(tǒng)建設支出可按最小配置部署,在10臺服務器上完成初步搭建,部署數(shù)據(jù)展示Web端、存儲集群、核心軟件、管理節(jié)點、計算分析和負載均衡等服務即可。數(shù)據(jù)的采集與處理大數(shù)據(jù)系統(tǒng)的數(shù)據(jù)采集,決定著系統(tǒng)的成敗。在數(shù)據(jù)采集上,我們現(xiàn)階段主要考慮采集的對象為國家公共文化云系統(tǒng)集群及以往全國公共數(shù)字文化工程建設項目中所取得的存量數(shù)據(jù)。之所以這樣考慮,是依據(jù)先易后難的原則,優(yōu)先將能采集的、好采集的一網打盡。之后再考慮比較難以采集的外部數(shù)據(jù)以及技術上的半結構化和非結構化數(shù)據(jù)。在第一階段,我們通過接口方式采集日志數(shù)據(jù)、報表數(shù)據(jù),線下采集統(tǒng)計數(shù)據(jù)、文字介紹、報告等約4億條。完成數(shù)據(jù)采集后,需要對數(shù)據(jù)進行處理。經過篩選,我們共提取出了2379個有效指標項,約1500個數(shù)據(jù)字段,形成84張原始數(shù)據(jù)存儲表和2283萬條可用數(shù)據(jù)。這些數(shù)據(jù),將成為后續(xù)的分析和可視化的基礎。數(shù)據(jù)的分析與可視化在數(shù)據(jù)分析方面,結合公共數(shù)字文化服務的實踐,我們探索嘗試建立了12個業(yè)務模型、3個數(shù)學算法模型提供決策使用。其中業(yè)務統(tǒng)計與分析模型包括:經費投入模型、人才隊伍模型、兩館一站模型、軟硬件設施模型、線上服務模型、活動情況模型、用戶情況模型、公共文化云模型、地方文化館站模型、基礎數(shù)據(jù)模型、群體傾向模型和服務效能模型。數(shù)學算法模型包括:基礎數(shù)據(jù)相關性模型、一元線性回歸模型和歐幾里得距離模型。對于業(yè)務模型的分析,主要采用統(tǒng)計、聚類、對比的方法,包含的內容為:中央轉移支付各省經費情況、各級公共文化機構基本情況、各省兩館一站從業(yè)人員情況、各省軟硬件設施情況、兩館一站線上線下活動情況、網站實時訪問情況、新媒體和社會化合作服務效果、用戶數(shù)量/訪問來源/年齡段分布情況、服務人群到館/活動參與/男女比例/網站訪問時段傾向、服務能力/服務效率/服務效益情況等。數(shù)學算法模型中,如:相關性算法模型,主要利用皮爾森相關系數(shù)(Pearson),通過對圖書館從業(yè)人員數(shù)、各活動參加人次、總流通人次、網站訪問量、文化館文藝活動觀眾人次、本單位受訓人次、志愿者服務隊人數(shù)等數(shù)據(jù)的分析,得到文化館(站)的相似性,從而進一步分析不同地域、不同文化館之間的共性聯(lián)系,用于指導相關機構進一步改善服務。數(shù)據(jù)分析的目的是為決策提供支撐,因此在完成數(shù)據(jù)的分析后,需要以可視化的形式提供一目了然的呈現(xiàn)。可視化的核心是突出重點,而非將所有信息平鋪直敘式羅列。在最初階段,可優(yōu)先考慮突出呈現(xiàn)訪問量、活動人次、注冊用戶、數(shù)字資源總量、館舍面積、從業(yè)人員數(shù)量等。實時訪問情況、各地投入和服務情況則可以單獨界面進行呈現(xiàn)。此外,為了滿足使用數(shù)據(jù)的實時性和便捷性要求,也針對移動端進行了可視化的建設。

系統(tǒng)建設的經驗與啟示

做好整體規(guī)劃。這里既包括對數(shù)據(jù)采集分析流程的規(guī)劃、對數(shù)據(jù)類型的規(guī)劃、基礎運行環(huán)境的規(guī)劃,也包括數(shù)據(jù)分析結果與應用系統(tǒng)服務形成完整反饋閉環(huán)的規(guī)劃。在頂層設計的基礎上開展具體工作,可使工作事半功倍。以需求為驅動、可擴展性為靈魂。公共文化大數(shù)據(jù)的落地,需抓住幾個典型需求驅動型的應用,讓大數(shù)據(jù)分析效果立竿見影。同時,大數(shù)據(jù)系統(tǒng)的建設必須考慮可擴展性。需求不斷變化,大數(shù)據(jù)系統(tǒng)也會隨著需求的變化不斷更新升級。大數(shù)據(jù)系統(tǒng)的可擴展性是應對未來變化的基本要求。重視數(shù)據(jù)標簽的管理。數(shù)據(jù)標簽是大數(shù)據(jù)應用質量的基石。好的數(shù)據(jù)標簽可以產生質量高的大數(shù)據(jù)應用系統(tǒng)。建立一個可編輯、可修改、可擴充、可升級的大數(shù)據(jù)標簽管理系統(tǒng)是公共數(shù)字文化服務未來高質量發(fā)展的必然需求。強化數(shù)據(jù)安全。數(shù)據(jù)安全問題,包括系統(tǒng)本身設計的安全、數(shù)據(jù)庫安全、數(shù)據(jù)傳輸與交換的安全、數(shù)據(jù)內容的安全以及數(shù)據(jù)管理的安全等。在建設大數(shù)據(jù)系統(tǒng)之初,就應嚴格按照《中華人民共和國數(shù)據(jù)安全法》《中華人民共和國網絡安全法》的要求設計和執(zhí)行。提供人才保障。大數(shù)據(jù)系統(tǒng)從建設到使用產生效果,離不開高素質人才的參與。專業(yè)技術機構可以協(xié)助建設的只能是與業(yè)務內容相關度較低的部分,而諸如數(shù)據(jù)的采集要求、內容鑒別、分析利用等則需要既懂公共文化業(yè)務又懂大數(shù)據(jù)技術的人才參與其中。加強人才隊伍建設,加大人才隊伍持續(xù)培養(yǎng),是未來公共文化大數(shù)據(jù)建設必須作為長期戰(zhàn)略進行考慮和開展的內容。

結語

公共文化大數(shù)據(jù)建設是一項系統(tǒng)工程,從目前的實踐看來,盡管我們在探索過程中取得了一些成效,但是建設過程中涉及的一些重要理論問題、關鍵技術、標準規(guī)范、適用指標還有待進一步研究和突破。近日,文化和旅游部正式印發(fā)《“十四五”公共文化服務體系建設規(guī)劃》,對公共文化大數(shù)據(jù)系統(tǒng)建設也指明了發(fā)展方向?!笆奈濉睍r期,相信在各地公共文化機構的共同努力下,公共文化大數(shù)據(jù)建設必然會取得長足的發(fā)展,推動公共文化服務向著更高水平邁進。相信在各地公共文化機構的共同努力下,公共文化大數(shù)據(jù)建設在“十四五”時期必然會取得長足的發(fā)展,推動公共文化服務向著更高水平邁進。

參考文獻:

[1]完顏鄧鄧,王子健.大數(shù)據(jù)環(huán)境下公共數(shù)字文化服務模式創(chuàng)新研究[J].圖書與情報,2020(05):59-66.

[2]冷小嚴.新時代文化館數(shù)字化建設的幾點思考[J].中國民族博覽,2018(08):54-55.

[3]周奚如.文化館數(shù)字化建設困境和思路[J].劇影月報,2019(04):97-98.

[4]蘆麗麗.5G新媒體平臺大數(shù)據(jù)系統(tǒng)運維體系的建設[J].現(xiàn)代電視技術,2021(04):104-108.

[5]易成岐,竇悅,陳東,郭明軍,王建冬.全國一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系:總體框架與戰(zhàn)略價值[J].電子政務,2021(06):2-10.

[6]馬霖,余倩男.智慧黃山時空大數(shù)據(jù)建設與應用實踐[J].測繪與空間地理信息,2021,44(05):101-104,109.

作者:劉平 焦延杰