前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇數據倉庫范文,相信會為您的寫作帶來幫助,發現更多的寫作思路和靈感。
【關鍵詞】數據倉庫;可變性;決策;技術;發展
中圖分類號: C37 文獻標識碼: A 文章編號:
一、前言
隨著計算機科學與技術的飛速發展,數據庫、計算機網絡和自動控制系統等被廣泛用于企業管理、政府辦公、科學研究和工程開發等領域,產生的數據量急劇增加,海量數據層出不窮。為了處理數目巨大的數據,數據倉庫應運而生。數據倉庫的應用也十分廣泛,并在不斷的發展。
二、目前國內外發展現狀
在數據庫技術的當前及未來發展里程中,數據倉庫以及基于此技術的商業智能無疑將是大勢所趨。IBM的實驗室在這方面進行了10多年的研究,并將研究成果發展成為商用產品。除了用于OLAP(聯機分析處理)的后臺服務器DB20LAPServer外。IBM還提供了一系列相關的產品:包括前端工具,形成一整套解決方案。其它數據庫廠商在數據倉庫領域也毫不示弱方法各有不同。Informix也是類似,在其動態服務器IDS(Informix Dynamic Server)中提供一系列相關選件,如高級決策支持選件Advanced Decision Support Option,OLAP選件擴展并行選件Extended Parallel Option等,并認為這種體系結構嚴謹,管理方便,索引機制完善,并行處理的效率更高。其中數據倉庫和數據庫查詢的SQL語句的一致使用戶開發更加簡便:而微軟則是在其SQIServer7.0中集成了代號為Plato柏拉圖的OLAP服務器,與上述公司不同的是,Sybase提供了專門的服務器0LAP Sybase lQ,并將與數據倉庫相關工具打包成Warehouse Studio。
從中國的數據庫市場來看,大部分數據庫系統的建立是用來進行傳統的OLTP業務。也有一些企業建立了數據倉庫系統,但真正發揮效用的卻不多見。和TCP/IP,SMTP)Java等相比。尚不存在可靠的、完善的、被廣泛接受的數據倉庫標準,影響了數據倉項目的實施。
三、數據倉庫的相關技術
1、異種數據源集成
企業在進行經營分析與決策支持系統建設時必須將遺留系統(Legacy System)進行高效全面地集成,由于遺留系統是在企業發展的不同時期建設的往往缺乏全局的規劃,所以常表現為不同的操作系統平臺、不同的數據庫平臺、不同的網絡通信機制等等,形成了所謂的“信息孤島”。
數據源分為在線數據源和離線數據源,在線數據源是指允許在線抽取的業務數據源,如營業數據,離線數據源是指不允許直接在線抽取的數據源,如計費詳單數據,采用以脫機平面文件數據的格式以FTP方式集成進本系統。
2、ODS層的設計
操作數據存儲ODS(Operation Data Storage)是一個集成了來自不同數據庫數據的環境。其目的是為終端用戶提供一致的企業數據集成視圖。它可以幫助用戶輕松應對跨多個商業功能的操作挑戰。它是面向主題的、集成的、實時的數據存儲。
3、TL過程的設計
數據抽取、轉換和加載,是數據倉庫實現過程中,進行數據由數據源系統向數據倉庫加載的主要方法,整個數據處理過程如下:數據抽取:從數據源系統抽取數據倉庫系統需要的數據。數據抽取采用統一的接1:3,可以從數據庫抽取數據,也可以從文件抽取,對于不同數據平臺、不同的源數據形式、不同性能要求的業務系統以及不同數據量的源數據,可能采用的接口方式不同;數據轉換:數據轉換是指對抽取的源數據根據數據倉庫系統模型的要求,進行數據的轉換、清洗、拆分、匯總等處理,保證來自不同系統、不同格式的數據和信息模型的一致性和完整性,并按要求裝入數據倉庫;數據加載:數據加載就是將轉換后的數據加載到數據倉庫系統中。數據加載采用數據加載工具,也可以采用API編程進行數據加載。
四、數據倉庫可變性
數據倉庫不是—個靜止不變的產品,而是一個動態的,不停變化的過程。這個過程為全企業的管理系統奠定信息基礎。該系統可用來測算利潤、管理和分析風險、進行市場分析、幫助規劃和加強客戶服務計劃及市場推進計劃。與現買現裝的產品不同,成功的數據倉庫實際上是一個過程。它要求公司仔細分析本公司的基本原則,決定需要哪些運作數據和外部數據源,然后利用一種嚴密的方法把所有的數據集中起來,再變換成有用的信息。
數據倉庫過程一旦開始實施,就沒有終結的時候。它的可用性和中肯性在極大程度上來自于其信息的新鮮性。因此,公司必須不斷對它進行更新,饋入新的統計信息和新的事務檔案。
五、數據倉庫的在企業決策中的重要性
數據倉庫直接影響事關公司命運的決策。數據倉庫是一種數據集成戰略,目的是促進最終用戶利用企業數據,同時保護公司的數據財富(關鍵任務的可操作數據)安全性和完整性。只要安排妥當,數據倉庫就能發揮它的重要作用,即人們可以很快地作出決策。因此,數據倉庫是實施公司戰略的一種技術手段。
一般來說,構筑數據倉庫是一個頻繁的查閱過程,它可分為若干階段,其中包括需求分析、數據倉庫的設計、操作數據的提取、不相容數據的集成,數據倉庫的裝填、最終交付用戶使用。在后續期內,還應該對數據倉庫作定期更新。
六、數據庫發展前景與展望
1、智能化
計算機科學主要目標是使計算機與人的界面盡量靠近人這邊。因此。要盡量提高計算機的智能水平。智能化是計算機科學各個分支的研究前沿。在數據庫方面,智能化的工作是將人工智能技術與數據庫技術相結合,即演繹數據庫知識庫研究。目前的主要困難在于遞歸查詢處理無法取得滿意的性能,硬件技術的革命(大內存、并行機、高速存取的外存儲器)將是提高知識庫查詢效率的重要因素。
2、多媒體
多媒體數據處理的困難很多,即使是一般的復雜對象目前也還不能很好地處理。多媒體數據的建模、存儲和多媒體數據庫的查詢及查詢處理等都是需要我們研究解決的內容。
3、網絡化
信息分布方面主要是分布式數據庫系統的研究。分布式數據庫從20世紀70年代開始研究,但是一直沒有出現商品化的分布式數據庫系統,這說明了它的難度。當前比較好的具有數據分布特征的數據庫管理系統是Client/Server體系結構的系統如:SYBASE,ORACLE7等)。但新的計算機應用又對它提出了新的要求,智能化、新型事務模型、多媒體數據的處理、高速信息通訊、數據源的高度透明性等將是新型的分布式數據庫系統的重要研究內容。
4、與軟件工程的結合
到目前為止,數據庫設計與應用程序設計是分離的。并且在具體的應用系統開發中。往往由2個小組各行其事。其后果是一方面的優良設計不得不放棄,導致系統性能低下或用戶要求無法滿足。面向對象技術是二者結合的有效手段。但是,良好地結合還需要很長時間的努力。處理的數據越來越龐大、計算機網絡越來越復雜、系統的智能水平越來越高是計算機系統發展的總趨勢。因此,未來的信息管理系統的特征將是處理復雜對象、分布、智能。在復雜對象處理方面,面向對象數據庫、多媒體數據庫將會由于廣泛的應用背景和強大系統實驗而迅速發展。在數據分布方面,客戶服務器數據庫系統將快速發展,并在應用上取得良好效果。在智能化方面。數據庫和人工智能將在各自的領域不斷發展、不斷取得新的成果。
七、結束語
目前數據倉庫技術仍處于不斷發展,并在實際應用中發揮了巨大的作用。為了更好的使用數據倉庫技術,讓其造福實際工作,應該全面認識數據倉庫,并在實踐中不斷的發展完善數據倉庫。
參考文獻
[1]徐潔磐.數據倉庫[M].機械工業出版社,2007.
關鍵詞:數據倉庫;數據挖掘;決策樹
中圖分類號:TP391 文獻標識碼:A 文章編號:16727800(2013)002009904
0 引言
數據倉庫與數據挖掘是近年來剛剛興起并逐步發展起來的一門新興交叉學科,它把對數據的應用從低層次的簡單查詢,提升到從數據中挖掘知識,并提供決策支持。此門學科涉及到許多領域的知識,包括數據庫技術、人工智能技術、數理統計、可視化技術、并行計算、機器學習等,匯集了多門學科的知識并在綜合運用這些學科知識的基礎上產生出新的知識和方法。此門學科的應用主要在于構建企業的決策支持系統,此系統正是目前幫助企業提高自身競爭力的重要手段。
在數據倉庫與數據挖掘學科中涉及了許多概念、設計方法及諸多挖掘算法,本文將就其中的一些內容結合SQL Server Analysis Service應用實例加以闡述與說明,以加深對理論的理解,并逐步掌握此門學科所提供的更多技術。
總體來講,構建一個企業的決策支持系統主要有兩個階段,第一個階段是創建企業的數據倉庫,第二個階段是在數據倉庫的基礎上進行數據挖掘。這兩個階段的工作相輔相成,數據倉庫是基礎,數據挖掘是在數據倉庫之上的高層應用,兩者需要整體規劃、分步實施。下面分別就這兩部分內容結合實例加以闡述。
1 數據倉庫的規劃與設計
數據倉庫是一個面向主題的、集成的,時變的、非易失的數據集合,支持部門管理的決策過程,數據中的每一個數據單元在實踐上都是和某個時刻相關的。數據倉庫也被看作是某個組織的數據存儲庫,用于支持戰略決策。數據倉庫的功能是以集成的方式存儲整個組織的歷史數據,這些數據會影響到這個組織和企業的多個方面。數據倉庫的特點是:數據常常來自于多個數據源;其存放模式一致;駐留在單個站點;數據已經清理、變換、集成與裝載并定期刷新;數據量巨大。
數據倉庫構建方法同一般數據庫構建方法最大的不同在于數據倉庫的需求分析是從用戶的決策問題入手,其目的是直接針對問題的主題,而一般數據庫系統是以事務處理為出發點。下面結合具體實例說明數據倉庫的設計步驟。
1.1 確定用戶需求,為數據倉庫中存儲的數據建立模型
通過數據模型得到企業完整而清晰的描述信息。數據模型是面向主題建立的,同時又為多個面向應用的數據源的集成提供了統一的標準。
例如:FoodMart是一家大型的連鎖店,在美國、墨西哥和加拿大有銷售業務。市場部想要按產品和顧客分析1998年進行的所有銷售業務數據。該公司現在急需進行銷售方面的數據分析,以找到一些潛在規律來促進銷售業務的進一步拓展從而擴大銷售渠道、加大銷售量、提高銷售利潤、增強公司競爭力。該連鎖店銷售的產品總體上被分為若干個大類,細節上分為若干個小類;客戶廣泛分布于不同地區、不同國家。該連鎖店在銷售信息管理系統中長期保存并不斷更新著產品、產品分類、商店、銷售、促銷、客戶等記錄表,依次為:產品表(PRODUCT)、產品分類表(PRODUCT_CLASS)、商店表(STOR)、1998年銷售記錄表(Sales_fact_1998)、促銷表(PROMOTION)、客戶表(CUSTOMER)等。
FoodMart連鎖店保存并不斷更新的數據庫是事務處理型數據庫,其結構是面向應用而設計的。要進行數據挖掘就必須建立面向主題的數據倉庫,為了進行1998年銷售方面的數據挖掘,要設計的數據倉庫必須以1998年銷售數據為主題,輔之以日期、產品、產品分類、商店、促銷、客戶等其它數據信息。具體來講,即創建以1998年銷售為主題的數據倉庫,采用星型/雪花模式構建事實表。
1.2 分析數據源,完成數據倉庫的設計工作
基于用戶的需求,著重于1998年銷售主題,開發數據倉庫中數據的物理存儲結構,即設計多維數據結構的事實表和維表。1998年銷售事實表包含5個維表和3個度量。這5個維表分別是日期、客戶、產品、促銷和商店維表,3個度量分別為銷售金額、倉儲成本、銷售單位。考慮到將來要根據顧客的年收入情況進行顧客會員卡種類方面的數據分析,另外增加了年收入維度(yearly income,取自于customer表)。為便于分析挖掘出有關時間因素的信息,特增加了時間表time。
1.3 生成物理的數據倉庫,并從各種源系統中獲取數據裝入數據倉庫中 在SQL Server Analysis Service manager中建立物理的數據倉庫可以通過ODBC數據源方式指定原有數據庫,再通過Microsoft OLE DB Provider for ODBC進行連接的方式完成原有數據庫到數據倉庫的映射。運用SQL Server Analysis Service manager提供的功能建立數據倉庫的多維數據集,指定此數據倉庫的度量值與維度,至此數據倉庫建立完畢。其中緯度與度量值如圖2所示。
2 數據挖掘
數據挖掘(Data Mining)又稱為數據庫中的知識發現(Knowledge Discovery in Database, KDD),就是從大量數據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。簡言之,數據挖掘就是從海量數據中提取隱含在其中的有用信息和知識的過程。數據挖掘可以幫助企業對數據進行微觀、中觀乃至宏觀的統計、分析、綜合和推理,從而利用已有數據預測未來,幫助企業贏得競爭優勢。數據挖掘的方法是建立在聯機分析處理 (On Line Analytical Processing,OLAP)的環境基礎之上的。OLAP技術使數據倉庫能夠快速響應重復而復雜的分析查詢,從而使數據倉庫能有效地用于聯機分析。OLAP 的多維數據模型和數據聚合技術可以組織并匯總大量的數據,以便能夠利用聯機分析和圖形工具迅速對數據進行評估。當分析人員搜尋答案或試探可能性時,在得到對歷史數據查詢的回答后,經常需要進行進一步查詢。OLAP系統可以快速靈活地為分析人員提供實時支持。
數據挖掘工作是在完備地建立了數據庫、數據倉庫等數據集的基礎上進行的,典型的數據挖掘系統結構如圖3所示。
整個數據挖掘過程主要可分幾個階段,依次為:問題定義、數據預處理、數據挖掘以及結果的解釋和評估。
2.1 問題定義
問題定義就是要清晰地定義出業務問題,確定數據挖掘的目的。對于FoodMart連鎖店來說,它的問題定義就是:FoodMart連鎖店的市場部想增加客戶滿意度和客戶保有率,于是實行了創造性的方法以達到這些目標。
其方法之一是對會員卡方案重新進行定義,以便更好地為客戶提供服務并且使所提供的服務能夠更加密切地滿足客戶的期望。
為了重新定義會員卡方案,市場部想分析當前銷售事務并找出客戶人口統計信息(婚姻狀況、年收入、在家子女數等等)和所申請卡之間的模式,然后根據這些信息和申請會員卡的客戶的特征重新定義會員卡。
2.2 數據預處理
最初為數據挖掘所準備的所有原始數據集通常都很大,它們當中存在許多臟數據。造成臟數據的原因主要源自于收集與傳送過程的錯誤、濫用縮寫詞以及不同的慣用語、重復記錄、數據輸入錯誤、拼寫變化、不同的計量單位、過時的編碼、集成時的空值與丟失值以及不同的數據源等。臟數據主要有以下一些表現形式:
(1)數據不完整。表現為:感興趣的屬性缺值;缺乏感興趣的屬性;僅包含聚集數據等。例如:CUSTOMER表中的LNAME=“”
(2)數據噪聲。即包含錯誤的屬性值或存在偏離期望的孤立點值。一個屬性的值與事實完全不吻合的情況,例如:CUSTOMER表中的在家子女數num_children_at_home=200
(3)數據不一致。數據不一致表現為多種情況,比如:同樣的屬性在不同的結構里使用不同的名字,例如:name、xm;不同數據使用的計量單位不同,例如:100(美元)、100(美分);數據不允許為空的地方數據為空等。
如果在臟數據上進行數據挖掘將很可能導致錯誤的判斷甚至完全相反的分析結果,也就是說,沒有高質量的數據就沒有高質量的挖掘結果。由于決策質量依賴于數據質量,因此需要在數據挖掘之前進行數據預處理,以保證數據倉庫內包含的是高質量的、一致的數據。所謂數據預處理其實就是對數據倉庫中的數據進行提取、清理、轉換,從而保證數據的高質量,具體來講包括以下幾種操作:
(1)數據清理(data cleaning)。就是去掉數據中的噪聲,糾正不一致;填寫空缺值,平滑噪聲數據,識別、刪除孤立點。例如:將CUSTOMER表中的在家子女數num_children_at_home=200的記錄值刪除掉或填入平均值1。
(2)數據集成(data integration)。將多個數據源中的數據合并存放在一個統一的數據存儲(如數據倉庫、數據庫等)中,數據源可以是多個數據庫、數據立方體或一般的數據文件。
(3)數據變換(data transformation)。即數據的標準化與聚集,將數據變換成適于挖掘的形式。例如:屬性數據可以規范化,使得它們可以落入某個小區間。
(4)數據歸約(data reduction)。數據歸約技術可以用來得到數據集的歸約表示,它接近于保持原數據的完整性,但數據量比原數據小得多。與非歸約數據相比,在歸約的數據上進行挖掘,所需的時間和內存資源更少,挖掘將更有效,并產生相同或幾乎相同的分析結果。數據歸約主要通過數據聚集(如建立數據立方體)、維歸約(如刪除不相關特性)、數據壓縮(如最短編碼)、數字歸約(用較短的表示替換數據)、概化(去掉不用的屬性)等方法完成。例如,對于FoodMart連鎖店的數據挖掘來講,CUSTOMER表中的address1、address2、address3、 address4這4個屬性與挖掘目標無關,所以可以將它們刪除掉以節省空間和時間。
2.3 選擇挖掘模型,進行數據挖掘
根據數據挖掘的目標和數據的特征,選擇合適的挖掘模型,在凈化和轉換過的數據集上進行數據挖掘。
FoodMart連鎖店的工作設想是:對會員卡方案重新進行定義,以便更好地為客戶提供服務并且使所提供的服務能夠更加密切地滿足客戶的期望。市場部想分析當前銷售事務并找出客戶人口統計信息(婚姻狀況、年收入、在家子女數等)和所申請卡之間的模式,然后根據這些信息和申請會員卡的客戶的特征重新定義會員卡。
對于這個工作預期,決定采用決策樹的數據挖掘方法進行客戶群的分析。所謂決策樹,就是在對數據進行決策分類時利用樹的結構將數據記錄進行分類,其中樹的一個葉結點就代表符合某個條件的屬性集,根據屬性的不同取值建立決策樹的各個分支,隨后遞歸地構造每個子節點的子樹。由于決策樹結構簡單便于人們認識與理解,以及決策樹不需要額外的數據訓練,因此,決策樹是數據挖掘中常用的一種分類方法。
本實例采用“Microsoft 決策樹”算法在客戶群中找出會員卡選擇模式。按照以下步驟完成“決策樹”挖掘模型:
(1)將要挖掘的維度(事例維度)設置為客戶;
(2)將 Member_Card 成員的屬性設置為數據挖掘算法識別模式時要使用的信息;
(3)選擇人口統計特征列表(婚姻狀況、年收入、在家子女數和教育程度),算法將據此確定模式;
(4)處理訓練模型,瀏覽決策樹視圖并從中讀取模式。
經過處理后,挖掘模型瀏覽器展現出一棵深度為3、寬度為8的決策樹,此瀏覽器將根據用戶對樹中不同分支節點的選擇顯示出相應的統計信息。
例如,選擇根節點“全部”顧客的方框后顯示信息如圖4所示。
在圖中可以看到數據挖掘的結果:將客戶按照年收入的不同分為8個區段(類),涉及的客戶總數為7 632人,通過直方圖可以直觀地看到辦理金、銀、銅、普通卡的比例。
選擇年收入在$30K-$50K的范圍框后,挖掘模型瀏覽器的顯示信息如圖5所示。
年收入在此范圍內的客戶共計1 362人,其中辦理金、銀、銅、普通卡的數量和比例通過合計及直方圖可以一目了然。
其它選項依此類推。
對年收入在$150K以上的范圍節點進行進一步分級(顯示其子節點),選擇已婚節點后顯示信息如圖6所示。
其它選項依此類推。
2.4 解釋模型結果分析
針對FoodMart商店的舉措,對挖掘模型瀏覽器的顯示結果進行研讀后得出這樣的結論:年收入越高的顧客辦理金卡、銀卡的比例越高,收入越低的顧客辦理普通卡和銅卡的比例越高。在高收入的顧客中,已婚者辦理金卡的比例最高,單身者辦理銀卡的比例最高。在較低收入的顧客中,在家子女的人數少于兩人的辦理銅卡的比例較高,多于兩人的辦理金卡的比例較高。具體數據值及比例值可以從挖掘模型瀏覽器中得到。市場部將根據這些模式設計新的會員卡,使其適應申請各類會員卡的客戶類型。
3 結語
企業要建立自己的決策支持系統就必然要應用數據倉庫、數據挖掘技術,企業應根據自身要求合理建立特定主題的數據倉庫,在此基礎上還要結合實際問題選擇相應的挖掘模型,從而得到最有價值的挖掘分析結果,以利于企業的經營發展。
參考文獻:
【關鍵詞】數據倉庫 數據挖掘 技術 應用
信息時代背景下,傳統數據庫主要是面向事務并存儲在線交易的數據信息,但是無法為人們找到信息中隱藏的重要內容。因此社會發展新形勢下,數據倉庫與挖掘技術應運而生,并成為企業現代化發展的重要應用技術,不僅能夠提高數據信息管理能力,還能夠促進企業發展。因此加強對該課題的研究具有積極意義。
1 數據倉庫及數據挖掘技術概念
所謂數據倉庫技術設計靈感來自于傳統數據庫技術,其主要是在計算機中實現數據存儲的一種技術。但是相比較傳統數據庫,二者存在本質上的差別。數據倉庫的出現并未取代傳統數據庫,二者共存在信息時代,且發揮自身獨特的優勢。數據庫主要存儲在線交易數據,且盡量避免冗余,通常采取符合范式規則設計;而數據倉庫在設計過程中有意引入冗余,采取反范式方式實現設計目標。
而數據挖掘技術是在數據集合基礎之上,從中抽取隱藏在數據當中的有用信息的非平凡過程。這些信息表現形式呈現多樣化,如概念、規則等。它在具體應用過程中,不僅能夠幫助決策者分析歷史與當前數據信息,還具有預見作用。就本質上來看,數據挖掘過程也是知識發現的過程。數據挖掘技術是多個學科綜合的結果,對此其融合了多項技術功能,如聚類、分類及預測等,且這些功能并非獨立存在,而是存在相互依存關系。
2 數據倉庫與挖掘技術的應用
2.1 數據倉庫技術的應用
作為信息提供平臺,其從業務處理系統中獲得數據,并以星型與雪花模型實現對數據的有效組織。一般情況下,它具體應用主要表現在四個方面:
2.1.1 抽取數據信息
數據倉庫具有獨立性,在應用中需要從事務處理系統、外部數據源等介質當中獲取數據,并設置定時抽取,但需要合理控制操作時間、順序等,以提高數據信息有效性。
2.1.2 存儲和管理數據
作為數據倉庫的關鍵,數據存儲及管理模式直接決定其自身特性。因此該方面工作需要從技術特點入手,并積極解決對各項業務并行處理、查詢優化等問題。
2.1.3 表現數據
數據表現作為數據倉庫的開端,集中在多位分析、數理統計等多個方面。其中多維分析是數據倉庫的核心,也是具體表現形式,而通過數據統計能夠幫助企業抓住機遇,實現經濟效益最大化目標。
2.1.4 技術咨詢
數據倉庫的出現及應用并不簡單,其是一個系統性的解決方案和工程。實施數據倉庫時,技術咨詢服務十分重要,是一個必不可少的部分,對此在應用中,應加強對技術咨詢的關注力度。
2.2 數據挖掘技術在各領域中的應用
不同于傳統時代,社會各領域在參與激烈的市場競爭過程中,充分認識到數據對自身長遠發展戰略實現的重要性。因此數據挖掘技術在當前各行業發展中隨處可見。
2.2.1 應用于醫學方面,提高診斷準確率
眾所周知,人體奧秘無窮無盡,遺傳密碼、人類疾病等方面都蘊含了海量數據信息。而傳統研究模式,單純依靠人工無法真正探索真正的秘密。而利用數據挖掘技術能夠有效解決這些問題,給醫療工作者帶來了極大的便利。同時,醫療體制改革背景下,醫院內部醫療器具的管理、病人檔案資料整理等方面同樣涉及數據,引進數據挖掘技術,能夠深入分析疾病之間的聯系及規律,幫助醫生診斷和治療,以達到診斷事半功倍的目標,且為保障人類健康等提供強大的技術支持。
2.2.2 應用于金融方面,提高工作有效性
銀行及金融機構中涉及儲蓄、信貸等大量數據信息。利用數據挖掘技術管理和應用這些數據信息,能夠幫助金融機構更好地適應互聯網金融時代的發展趨勢。提高金融數據完整、可靠性,為金融決策提供科學依據。金融市場變幻莫測,要想在競爭中提升自身核心競爭力,需要對數據進行多維分析和研究。在應用中,特別是針對偵破洗黑錢等犯罪活動,可以采取孤立點分析等工具進行分析,為相關工作有序開展奠定堅實的基礎。
2.2.3 應用于高校日常管理方面,實現高校信息化建設
當前,針對高校中存在的貧困大學生而言,受到自身家庭等因素的影響,他們學業與生活存在很多困難。而高校給予了貧困生很多幫助。對此將數據挖掘技術引入到貧困生管理工作中,能夠將校內貧困生群體作為主要研究對象,采集和存儲在校生生活、學習等多方面信息,然后構建貧困生認定模型,并將此作為基礎進行查詢和統計,為貧困生針對管理工作提供技術支持,從而提高高校學生管理實務效率,促進高校和諧、有序發展。
2.2.4 應用于電信方面,實現經濟效益最大化目標
現代社會發展趨勢下,電信產業已經不僅限于傳統意義上的電話服務提供商、而將語言、電話等有機整合成為一項數據通信綜合業務。電信網、因特網等網絡融合已經成為必然趨勢,并將成為未來發展的主要方向。在大融合影響下,數據挖掘技術應用能夠幫助運營商業務運作,如利用多維分析電信數據;或者采取聚類等方法查找異常狀態及盜用模式等,不斷提高數據資源利用率,更為深入地了解用戶行為,促進電信業務的推廣及應用,從而實現經濟效益最大化目標。
3 結論
根據上文所述,數據倉庫與挖掘技術作為一項新型技術,在促進相關產業發展等方面占據十分重要的位置。因此在具體應用中,除了要積極明確數據倉庫與傳統數據庫之間的差別之外,還應切實結合實際情況,積極引入數據挖掘技術,充分挖掘和探索數據信息中的重要內容,為制定科學決策提供支持,同時還應加大對技術的深度研究,不斷提高技術應用水平,從而為用戶帶來更大的利益。
參考文獻
[1]陳宏.淺談數據倉庫與數據挖掘技術及應用[J].科技廣場,2011,09:90-93.
[2]崔愿星.淺析數據倉庫與數據挖掘的應用[J].內江科技,2014,01:141-142.
[3]王慧.數據倉庫和數據挖掘在醫院信息系統中的應用[J].電腦開發與應用,2014,01:76-78.
[4]靳鑫.淺析數據倉庫和數據挖掘[J].中國新通信,2012,11:29-31.
【關鍵詞】 會計軟件;數據接口標準;數據倉庫;數據模型
隨著會計信息化的發展,我國的會計軟件種類也越來越多,但是往往都自成體系,采用的數據庫平臺和數據結構也就大不相同。由此使得不同的會計軟件之間,以及會計軟件與會計數據相關的業務軟件之間的數據交換,形成了一定的障礙。2004年9月20日,GB/T19581―2004《信息技術會計核算軟件數據接口》國家標準的頒布,在很大程度上解決了會計軟件之間數據交換的障礙。只要符合會計數據接口標準要求,實現會計信息化的單位就很容易將歷年的會計數據導出,通過建立數據倉庫,并利用會計核算軟件對數據倉庫的數據進行相關的財務分析和決策。同時利用數據倉庫對繁多的會計數據進行管理,不僅將提高會計數據利用率,通過利用數據倉庫進行財務分析,還可以提高管理決策的質量。
一、會計核算軟件標準數據接口基本內容
由于目前財務軟件的平臺復雜多樣,而這些軟件之間的數據沒有一個統一的數據規范,造成不同財務軟件之間數據交流相當困難。GB/T19581―2004《信息技術會計核算軟件數據接口》的頒布主要是對國內所有正在使用的會計核算軟件(包括含會計核算功能的會計信息系統、管理信息系統等)規定統一的數據輸出的內容和格式。會計核算軟件數據接口分兩個部分,一部分是規定其內容,包括電子賬簿、會計科目、科目余額、記賬憑證、報表等;另一部分規定其輸出的格式要求,包括文本文件的輸出方式和XML 文件的輸出方式,并要求以一定期間為單位導出會計核算數據。
二、數據倉庫與接口標準之間的關系
William H. Inmon 在1993年寫的《Building the Data Warehouse》論著中,將數據倉庫定義為:“一個面向主題的、集成的、隨時間變化的、非易失性數據的集合,用于支持管理層的決策過程”。由定義可知,數據倉庫的主要特征為:面向主題性、數據的集成性、穩定性、時變性。通過數據倉庫,不同層次的管理人員可以進行各種管理決策的分析。數據倉庫中存放的是數據的歷史值,并且是靜態的歷史數據,可以定期添加,具有低訪問率,高訪問量的特點。而這些數據都來源于其他不同的數據庫。
目前的多數財務軟件在數據庫的選用、數據庫的格式上大不相同,導致各財務軟件之間不能互相交換數據,也給審計軟件導入財務軟件的數據帶來了一定的困難。而以往數據倉庫在財務上的應用,基本上都是面向單個企業的單獨開發。GB/T19581―2004《信息技術會計核算軟件數據接口》的頒布,在很大程度上解決了這種障礙。按照會計核算軟件數據接口標準的數據結構和內容,建立一個標準數據庫即數據倉庫,從而企業可以根據會計數據接口標準要求,將原數據庫中的數據轉換為標準規定的格式,并可以通過數據倉庫將符合要求的會計數據從會計核算軟件導入或導出,從而實現對數據倉庫進行相關的財務分析及決策。
三、數據倉庫的模型設計
數據倉庫創建之前首先要根據需求明確所構建內容的主題域。在根據需求分析確定主題域后,就可以通過建立數據模型對數據倉庫進行描述。模型是對現實世界進行的抽象描述,在信息管理中要實現對信息的管理與分析,就要依靠數據模型將現實世界的事物轉換為信息世界的數據。創建數據倉庫所采用的模型主要有概念模型、邏輯模型、物理模型。
(一)主題域的確定
數據倉庫設計的關鍵是主題域的確定,整個數據倉庫的數據都是圍繞主題和軟件標準數據接口而組織的,主要用于對企業的財務進行分析。根據數據接口標準規定的數據文件,主題可以分為以下幾類:
資產負債表主題:主要分析企業某一特定日期內的財務狀況,還可以進一步細化分為資產主題,負債主題,所有者權益主題;
現金流量表主題:分析企業在一定會計期間現金及現金等價物的流入和流出情況;
利潤表主題:用于分析企業在一定會計期間的經營成果;
所有者權益變動表主題:分析企業一定時期所有者權益變動的情況;
財務分析指標主題:通過以上主題來分析企業一定時期的營運能力、償債能力、獲利能力及發展能力等。
(二)概念模型設計
星型模型和雪花型模型是概念模型設計常使用的兩種模型。雪花型模型是對星型模型的擴展,適用于具有復雜結構數據倉庫的應用,星型模型是最常使用的模型。模型設計主要用于設置事實表與維表之間的連接,使每個維表通過主鍵與外鍵連接,進而實現與事實表的連接。概念模型的設計就是要根據需求,確定業務中的指標實體和維實體,以及在實體間建立聯系,概念模型設計后可以在一些開發工具中,利用一些技術功能直接轉換為物理模型,再生成數據庫,從而節約了時間并提高了效率。
(三)邏輯模型設計
通常在概念模型設計好后,還要依靠邏輯模型來實現概念模型到物理模型的轉換。由于目前數據庫都建立在關系數據庫基礎上,所以所采用的邏輯模型主要是關系模型。會計核算軟件數據接口標準對所涉及的數據元素規定了統一的格式,在建立的邏輯模型中,要根據數據接口的規定對數據的字段進行格式描述。邏輯模型設計主要包括事實表,維表設計以及粒度的劃分。
(1)事實表。直接反映了數據倉庫中應用的主題,是星型結構中最主要的表,包含了數據倉庫中最主要的信息,如資產負債表、現金流量表、利潤表、所有者權益變動表、財務分析表。而數據倉庫的數據都是來自于不同數據接口的數據庫,在進行數據倉庫的邏輯模型設計時,還要確定各表中的數據元素即字段與數據源的邏輯關系,以便核算軟件按照接口標準要求輸出文件。其中的對應關系可以歸納為:第一種是數據元素和數據源的一一對應,即可以在核算軟件中找到與數據元素直接對應的表與字段;第二種是數據元素需數據源通過計算得到,即必須對數據源進行計算處理才能滿足標準規定的數據元素的需要;最后一種對應關系是依據邏輯判斷非源于特定數據源的數據。數據源的確定和對應關系是會計軟件輸出符合標準數據的邏輯基礎。因為過于龐大的事實表在表的處理、備份和恢復、用戶的查詢等方面需要較長的時間,在設計時要注意使事實表盡可能地小。
(2)維表。主要用來描述事實表,與事實表有著非常重要的關系,在事實表中大多數屬性都要依賴于維表,維表的主鍵組成了事實表的外鍵,每個維表都通過主鍵與事實表的外鍵連接,實現數據庫快速查詢。維表的屬性也要根據接口標準規定進行規范定義。維表也會影響企業決策的因素,如不同企業、日期、指標類別都是影響企業決策的因素,通過這些因素決策者可以按照不同企業不同日期不同指標類別進行決策分析。根據事實表設計的維表有會計期間維表、報表編碼維表、日期維表、企業維表等。
(3)粒度的劃分。粒度是指數據倉庫的數據單位中保存數據的細化或綜合程度的級別。通過粒度的劃分,決定了數據倉庫是采用單一粒度還是多重粒度,以及粒度的劃分層次。粒度級越低,細化程度越高;相反,粒度級越高,細化程度越低。粒度的劃分直接影響到數據倉庫中的數據量和信息查詢,以及進一步進行OLAP(聯機分析處理)和數據挖掘的效果。如果主題的數據量、信息量較多,對主題數據分析細化程度要求較高,就要根據用戶對數據倉庫應用的需求,采用多重粒度進行數據劃分。用低粒度即細化到月的數據,保存近期的會計報表及財務分析指標數據,對時間較遠的會計報表及財務分析指標數據的保存用粒度較大即細化到年的數據。這樣既可以對財務近況進行細節分析,又可以利用粒度較大的數據對財務趨勢進行分析;否則采用單一粒度進行劃分。
(四)物理模型設計
邏輯模型在物理系統中的體現模式,需要通過數據倉庫的物理模型設計來實現。包括邏輯模型中的各種實體表的具體化,包括表的數據結構類型、索引策略、數據存放位置及數據存儲分配等。會計軟件數據接口標準中所要求的數據接口輸出數據,包含接口標準要求的16個數據文件和1個格式說明文件,每個文件的文件名都進行了嚴格的規定。同時在標準中對16個數據文件的81個數據元素也進行了嚴格定義,首先,在物理模型設計中表的數據結構應根據接口標準要求,對數據的格式及內容進行統一的定義規范,如表的字段標識符要采用三位數字進行標記,字段的類型長度最多為5位可變長字符。只要會計軟件的數據倉庫的數據接口符合接口標準,就可以實現輸出符合標準的數據。其次,由于數據倉庫的數據量很大,通過索引的創建可以提高數據存取的效率,通常按事實表的主鍵和外鍵來建立索引。在數據倉庫中首先需要為事實表設置索引,在為事實表的主鍵聲明約束時,應該按照這些列的聲明次序創建一個惟一的索引。而對于使用頻率較高的外鍵,應置于主鍵索引的前面,以提高查詢效率。
數據倉庫中的數據可以通過數據庫訪問接口,將源數據庫中的數據轉換為標準格式的數據導入。其中數據的存儲通常按數據的重要性、使用頻率以及對響應時間的要求進行分類,并將不同類型的數據分別存儲在不同的存儲設備中,其中重要性高、經常存取并對響應時間要求高的數據存放在高速存儲設備上,而存取頻率低或對存取響應時間要求低的數據則可以存放在低速存儲設備上。
四、數據倉庫的創建
通過對數據倉庫中的事實表、維表的邏輯模型設計,同時根據在物理模型中對各種表的存儲區間、方式的處理,在數據倉庫的實施過程,采用適當的數據倉庫創建工具,就可以創建數據倉庫。目前用于創建數據庫的工具主要有SQL Server、Oracle10i、Sybase等。數據倉庫的創建可以根據具體情況選擇適合的開發工具。
五、數據的采集及轉換
數據倉庫的物理模型設計完成后,就要根據會計核算軟件數據接口標準,來完成數據倉庫結構的建立,實現數據倉庫和元數據庫的創建,然后就可以對數據倉庫進行數據的加載。元數據庫是數據倉庫的靈魂,沒有元數據庫,用戶就無法對數據倉庫的數據進行良好的定義、組織和管理。數據的采集及轉換是建立數據倉庫中最重要的處理過程之一,這一過程實際上是要把來自不同的操作性數據源、不同的數據進行集成,將非標準的數據轉化為在一定程度上的標準化的數據。采集之前首先需要對數據進行預處理,即進行準備工作包括清空工作區、準備區。由于數據倉庫中的數據來源十分復雜,這些數據在進入數據倉庫之前常常需要在準備區對數據進行標準化處理,即將不同數據結構的數據進行統一處理,如源數據庫中的數據類型與長度和標準規定的有所差別,就需要進行數據的類型轉換、長度的截取等工作。數據的采集可以通過數據庫接口訪問源數據庫,將數據轉換為標準格式數據存入數據倉庫,同時為了確保數據倉庫中數據質量,還要對數據進行必要的清理即篩選工作。數據的清理工作必須嚴格依據元數據的定義進行,數據清理結束就可以將經過凈化和轉換的數據加載到數據倉庫事實表中。實現的工具主要有SQL Sever、Oracle等。對數據提取以后,同樣也可以利用SQL語言實現對數據的加載。
六、數據倉庫的使用
在會計數據標準接口中,已經將會計科目、會計憑證、會計賬簿、會計報表等中的數據納入,并進行了統一規范。因此可以通過標準數據接口將每年的會計數據保存到數據倉庫。按照會計數據接口標準要求,將會計數據倉庫中的歷年數據輸入到會計核算軟件中,并利用會計核算軟件對其進行相關的財務分析、經濟前景預測,以幫助管理者為企業的將來做出正確的決策。隨著數據接口標準的推廣實施,基于會計核算軟件數據接口的數據分析技術和方法會越來越多,并且應用范圍也會越來越廣泛。
【參考文獻】
[1] 會計核算軟件數據標準接口國家標準實施指南編委會.GB/T 19581―2004《信息技術會計核算軟件數據標準接口》實施指南[S].北京:中國標準出版社,2005.
1煙草營銷管理系統數據倉庫體系結構
數據獲取層:負責數據的收集。數據源可以是業務處理系統中獲取的數據,如訂單信息、客戶基本信息、計劃信息、價格信息、產品信息等,也可以是其他外部數據源。
數據存儲和管理層:負責數據的抽取、清理、轉換和加載,存儲加工處理后的面向主題的綜合性數據。業務數據往往被存放在缺乏統一設計和管理的異構環境中,所以當數據來自多個數據源時,可能會出現不一致的數據定義、不同的數據編碼、同一個數據中不一致的條目值等問題。即使數據來自單一的數據源,也可能存在數據的完整性問題。為了獲得有效數據,必須對抽取的數據進行不同程度的整合和清理,數據的清理必須嚴格按元數據的定義進行。數據清理完成后還需要做一些數據轉換工作,例如,客戶收入需要按照數值范圍分高、中、低檔。所選擇的數據表達方式會影響數據挖掘的結果。最后將經過清理和轉換的數據加載到合適的數據倉庫事實表中,同時更新元數據倉庫中的元數據,以反映剛完成的數據加載活動。
數據展現層:將查詢、報表生成和分析集成在的客戶模塊中,實現數據查詢、OLAP分析和數據挖掘結果的展現。
2煙草營銷管理系統功能
利用數據倉庫技術建立煙草行業數據中心,可以將分散在不同的部門或不同的應用系統中的大量數據進行集成和統一管理,使系統具有數據存儲功能,為數據的分析奠定基礎。綜合運用報表、查詢、OLAP分析、統計學、數據挖掘等技術,使系統具有強大的數據查詢功能,同時建立了方便快捷、靈活的決策分析系統,它包括以下分析子系統:
①銷售業務分析子系統。通過數據統計工具,查詢和分析商品購進、訂單采集、訂單配送、商品庫存等信息,分析訂單采集和執行的效率。對各個營銷區域零售戶的銷售數量、銷售額、產品結構、贏利狀況等指標進行定期縱向和橫向比較,以便及時發現市場變化的特征,并進行分析及評估,以對下階段的營銷工作進行調整。
②市場分析子系統。通過對市場容量、市場需求、卷煙供應情況、未來的價格走勢以及消費者的偏好和購買模式的分析,為制定采購計劃和銷售計劃提供參考依據。
③客戶分析子系統。通過對零售客戶的增減、經營變化、類別變動、經營者的個人情況等分析,進行零售客戶分類評價,整合客戶資源,以便調整服務內容,提高服務水平。
④品牌分析子系統。對卷煙品牌的銷售現狀、市場的接受程度、發展的趨勢、推廣的策略等進行分析。
⑤采購分析子系統。分析營銷部提供的零售客戶需求信息、銷售實績和銷售趨勢、零售客戶變化趨勢等,以市場為導向、以消費者需求為中心選擇卷煙產品,為采購計劃的制定提供依據。
⑥庫存分析子系統。對庫存卷煙從時間、地域、廠家、品牌、類別、批次等多個角度進行分析,提供卷煙的庫存上下限、最佳庫存量、庫存周期、庫存成本、合理的庫房位置和卷煙存放、到期卷煙預警等信息。
⑦財務分析子系統。對行業的經濟運行狀況進行統計分析,為領導決策提供參考。
這些子系統提供豐富、深入、詳盡、有價值的決策信息,為企業決策提供強有力的支持,從而提高企業決策的質量和效率。
3聯機分析處理(OLAP)在煙草營銷中的應用
OLAP是介于客戶與數據倉庫之間的數據分析處理系統,它對以多維形式組織起來的數據采取切片、切塊、旋轉、鉆取等操作,使用戶能從多個角度、多個側面地觀察數據倉庫中的數據,如按產品維度、時間維度和地區維度等。同時可使用聯機分析和可視化工具對這些數據迅速地進行評價,從而深入地了解包含在數據中的信息和內涵。OLAP一般采取由數據倉庫、OLAP服務器與客戶端組成的三層客戶/服務器體系結構,其中OLAP服務器從數據倉庫或數據集市中獲取數據,根據客戶的需要對多維數據集進行分析,且將分析的結果以可視化的方式傳遞給客戶端。
在煙草營銷系統中,根據各省、市、縣卷煙銷售公司和煙廠的歷史銷售數據,可對煙草系統的財務、客戶、專賣、銷售、庫存、網點建設等幾個主題進行不同角度的分析,并將結果以報表或圖形等形式展現給用戶。例如,卷煙銷售多維數據集按品牌切片操作,便可得到關于某種品牌在不同地區、不同時間中的銷售情況。
4數據挖掘在煙草營銷中的應用
數據挖掘是一個從大量數據中挖掘出未知的、有價值的知識或信息的過程,這些知識表示為概念、規則、規律和模式等形式,對預測趨勢和決策行為起著重要的作用。
數據挖掘為煙草營銷提供的主要決策功能有:對決策主題進行分析、挖掘,從大量數據或選定樣本中尋找預測性信息、發現變量之間的關聯、共性和差異性,實現銷售預測、庫存決策分析、購進決策分析、銷售或庫存異動分析、品牌分析、財務狀況分析、供應商分析、客戶分析、專賣狀況分析以及各種指標的結構分析、趨勢分析、相關性分析、波動分析等,并建立預警機制。