統計數據專題庫的研究與設計分析

學識都 人氣:4.17K

摘 要:着眼統計領域信息的發展趨勢,從建設統計專題數據的必要性、基本思路出發,對統計領域專題數據庫建設的步驟、方法、應用等進行闡述,並對統計數據專題庫的應用等方面作了一些思考。

統計數據專題庫的研究與設計分析

【關鍵詞】專題庫 統計 數據處理 數據應用

Abstract: Focus on the development trend of information in the field of statistics, the need to build statistical thematic data from the basic idea of view, the thematic areas of statistics database construction steps, methods, applications and so forth, and the application of statistical data, etc. for thematic library some thinking.

Key words Thematic library statistical data processing data application

1 統計專題庫建設的必要性

統計部門應用系統繁多,數據來源廣。在對數據進行使用時,一方面可能會出現不同系統中的相同指標數據矛盾的情況;另一方面,若涉及不同專業,則需要協調的範圍、週期的難度都會明顯增大,數據的時效性和及時性都難以得到保障。而專題庫的建設將可有效的將歷史數據整合利用起來,以專業爲邊界切割海量數據,實現按專業的跨年度數據存儲,從而可進行更深價值的挖掘。

2 專題庫建設的步驟和方法

2.1 確定專題範圍

專題庫建設時,首先需要明確該專題的數據範圍,專題數據可來源於統計年鑑、專題彙報等文件以及聯網直報系統等應用,緊密圍繞專題的業務本質進行設定,如能源專題庫則應該包括能源建設、能源生產、能源消費等內容。

2.2 建立數據模型

根據對統計領域已有系統和基礎數據的分析,建立專題庫的數據模型。其元數據主要包括13類,其中9類爲業務元數據(圖1)、4類爲管理元數據(圖2)。

專題庫中最直接的爲數據,通過對9類業務元數據的分析可得知指標與數據關聯最爲緊密,其他元數據均可通過指標與數據進行關聯,通過分析和設計,可變爲如圖3所示的數據模型。

通過分析每個元數據本身的屬性,根據模型可得出每一數據應包括60多個屬性,考慮數據存儲及專題庫的價值,逐一評估後給出需冗餘的屬性,如下:ID、值、報送單位_ID、期別_ID、指標_ID、目錄條目_ID、入庫時間戳、報送單位全稱、期別_起、期別_訖、指標全稱、目錄_ID、目錄條目名稱、分組1條目_ID 、分組2條目_ID 、分組3條目_ID 、分組4條目_ID 、分組5條目_ID 、分組6條目_ID 、分組7條目_ID、地域1級_ID 、地域2級_ID 、地域3級_ID、計量單位_ID、數據釋意全文

其中,5個必須字段爲值、報送單位_ID、期別_ID、指標_ID、目錄條目_ID;2個管理字段爲ID、入庫時間戳,以及18個冗餘存儲字段。

2.3 確定數據來源

數據是專題庫的基礎,所有的數據處理和分析都是建立在及時、準確、全面的數據之上,專題數據的來源主要包括以下幾個方面:

(1)通過聯網直報系統由企業、地方統計部門等按照制度報送週期的要求進行數據的報送;

(2)通過各專業司建立的信息上報系統,由相關的企業(如房地產企業等)進行定期的數據報送;

(3)通過電子郵件、紙質文件等由各部委辦局或地方統計局等將相關的數據進行彙總報送;

專題庫的建設將支撐不同的數據來源、不同類型數據的匯聚,並以統一的數據集合加以利用。

2.4 數據處理及存儲

當數據處理和存儲時需考慮數據的處理,包括輸入格式轉換、數據篩選、數據單位的轉化、數據的校驗、數據存儲等。

(1) 輸入格式轉換。不同的數據來源可能有不同的數據格式,系統將自動解析來源數據的格式,並轉換爲系統的統一數據格式。

(2) 數據篩選。由於專題庫的數據有着多種數據來源,可能存在不同來源間的數據衝突,系統將建立數據衝突的處理機制,對數據進行篩選,確定數據採集途徑的標準,確保數據的唯一性。

(3) 數據單位的轉化。在統計數據中,經常會碰到以不同數量級的單位作統計的數據,如萬噸和噸。針對這種情況,系統將自動把不同數量級的單位轉換成標準單位存儲入庫。