前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇電子商務(wù)技術(shù)論文范文,相信會為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。
密碼技術(shù)是對信息進行重新編碼,把“明文”的可讀信息轉(zhuǎn)換成不可讀的信息即“密文”,從而達到將信息內(nèi)容隱藏的目的,從而讓非法用戶無法獲取信息真實內(nèi)容的一種手段,要想顯示出原來的內(nèi)容就必須輸入相應(yīng)的密鑰,其核心技術(shù)主要包括加密技術(shù)、認證技術(shù)和密鑰管理技術(shù)三大技術(shù),一個完整的加密系統(tǒng),包括明文數(shù)據(jù)、加密后的密文、加密、解密設(shè)備或算法和加密、解密的密鑰 4 個部分。結(jié)合現(xiàn)代加密技術(shù)和密碼體制的特點,一般將現(xiàn)在的密碼體制分為單鑰(對稱密碼)、雙鑰 ( 非對稱密碼 )。
2 電子商務(wù)系統(tǒng)安全需求
電子商務(wù)與傳統(tǒng)商貿(mào)活動最大的不同是:一方面,電子商務(wù)中購銷雙方不可見,相互間對身份真實性存有疑慮;另一方面,電子商務(wù)所含的信息流、資金流都是網(wǎng)上進行的,需通過不安全的因特網(wǎng)環(huán)境,電子商務(wù)面臨的安全威脅主要有中斷、竊聽、篡改信息、偽造信息、交易抵賴等,沒有商務(wù)交易安全保障,即使計算機網(wǎng)絡(luò)本身再安全,電子商務(wù)都是不安全的。因此,在電子商務(wù)中,安全性是必須考慮和解決的核心問題。目前增強電子商務(wù)的安全方法很多,密碼技術(shù)就是其中最常用的技術(shù)。密碼技術(shù)是保證電子商務(wù)的數(shù)據(jù)傳輸保密性、數(shù)據(jù)完整性、有效的身份驗證、交易的不可抵賴、可控性、審查能力特點的重要手段。
3 常用的密碼技術(shù)
3.1 信息加密技術(shù)
信息加密技術(shù)是電子商務(wù)安全技術(shù)中一個重要的組成部分,信息加密后在傳輸過程中,如果被人以非法的手段竊取,無法破譯的話,對竊取的人來說是這些信息就失去意義了。常用的有鏈路——鏈路加密、節(jié)點加密、端——端加密、ATM 網(wǎng)絡(luò)加密和衛(wèi)星通信加密五種方式。比較典型的算法有 DES(數(shù)據(jù)加密標準)算法及其變形 TripleDES(三重 DES)、IDEA、RC5 等。
3.2 身份認證技術(shù)
認證技術(shù)是保證電子商務(wù)安全不可缺少的重要技術(shù)手段,身份認證是指為了防止他人對傳輸?shù)奈募M行破壞以及如何確定發(fā)信人的身份,用戶必須提供它自身的證明,以取得安全信息系統(tǒng)的信任。它是電子商務(wù)中的第一道關(guān)卡,其主要作用是信息的認證,通過電子手段確認發(fā)送者和接收者身份,并驗證其文件完整性的技術(shù),被認證者只有在被認證系統(tǒng)識別身份后,才能夠根據(jù)用戶的身份和授權(quán)級別來訪問資源,主要包含數(shù)字簽名、數(shù)字證書、數(shù)字時間戳、數(shù)字摘要等技術(shù)。在電子商務(wù)安全中,一旦身份認證系統(tǒng)被攻破,那么系統(tǒng)的所有安全措施將行同虛設(shè)。入侵者攻擊的目標往往就是身份認證系統(tǒng)。
3.3 PKI 技術(shù)
PKI 是一個用公鑰概念和技術(shù)實施和提供安全服務(wù)的具有普適性的安全基礎(chǔ)設(shè)施,密碼技術(shù)發(fā)展到今天,PKI 作為一項關(guān)鍵的密碼技術(shù),已經(jīng)讓網(wǎng)絡(luò)安全離不開它。目前認為,基于 PKI 體系的身份認證完全可以滿足電子商務(wù)的要求,并初步形成了一整套的解決方案。它除了具有加解密和密鑰管理之外,還包括各種安全策略、安全協(xié)議以及安全服務(wù)。PKI 體系具體包括認證機構(gòu) CA 、證書與 CRL 數(shù)據(jù)存儲區(qū)、用戶三部分。它還支持 SET 、SSL 電子證書和數(shù)字簽名。目前,該項技術(shù)在已經(jīng)逐漸推廣應(yīng)用,但在我國,收技術(shù)影響,PKI 技術(shù)已經(jīng)成為了我國電子商務(wù)發(fā)展的瓶頸。
3.4 SSL(Secure Sockets Layer) 安全協(xié)議
隨著時代的進步和發(fā)展,電子商務(wù)也在逐步成熟起來,現(xiàn)在的電子交易安全是在密碼技術(shù)基礎(chǔ)上通過交易安全協(xié)議實現(xiàn)的,SSL就是其中一項很重要的協(xié)議。NETSCAPE 公司是因特網(wǎng)商業(yè)中領(lǐng)先技術(shù)的提供者,他們開發(fā)出了一種基于 RSA 和秘密密鑰的應(yīng)用于因特網(wǎng)的技術(shù),也就是 SSL 協(xié)議,SSL 協(xié)議就是 Netscape 公司在網(wǎng)絡(luò)傳輸層與應(yīng)用層之間提供的一種基于 RSA 和保密密鑰的用于瀏覽器與 Web 服務(wù)器之間的安全連接技術(shù),主要用于提高應(yīng)用程序之間的數(shù)據(jù)的安全系數(shù)。SSL 由兩個子協(xié)議構(gòu)成,即 SSL 記錄(Record) 協(xié)議和SSL 握手(Handshake) 協(xié)議,主要功能是讓收發(fā)雙方在通過網(wǎng)絡(luò)傳輸信息時,能夠保障數(shù)據(jù)的完整性及機密性。但是該協(xié)議的整個認證過程只有商家對客戶的認證,缺少了客戶對商家的認證。3.5 SET(Secure Electronic Transaction) 安全協(xié)議SET協(xié)議是一個開放的協(xié)議,主要是為了解決用戶、商家和銀行之間通過信用卡支付的交易而設(shè)計的,具有成為追求電子交易安全的主要推動力的潛質(zhì)。該協(xié)議核心技術(shù)主要有公開密匙加密、電子數(shù)字簽名、電子信封、電子安全證書等,采用 DES 和 RSA 兩種加密算法進行加密、解密處理,可以實現(xiàn)、確認能力、數(shù)據(jù)的完整性和多方的操作性,從而確保了交易數(shù)據(jù)的安全性、完整性和交易的不可否認性。目前,SET 這一標準被公認為全球國際網(wǎng)絡(luò)的標準。SET 的缺點是它還僅限于使用信用卡方式的支付手段,用戶需要安裝特殊的軟件。
4 結(jié)語
谷歌已許可用戶在Google的云計算上運行大型并行式的應(yīng)用程序,并公開其教授云計算程序。在國內(nèi),中國移動科學院已完成云計算中心的試驗,阿里巴巴下屬阿軟件建立了國內(nèi)首個“電子商務(wù)云計算中心”,世紀互聯(lián)推出CloudEx產(chǎn)品線,提供個人及企業(yè)進行云備份的數(shù)據(jù)保障服務(wù)。由此可見,中國云計算的產(chǎn)業(yè)生態(tài)鏈的構(gòu)建立正在進行中,云計算將得到飛速的發(fā)展,其在電子商務(wù)上的發(fā)展價值巨大。本文對分析云計算在B2C的發(fā)展及困難,通過解決方案來探討云計算在電子商務(wù)中的發(fā)展方向。
二、基于云計算與物聯(lián)網(wǎng)技術(shù)的B2C電子商務(wù)模式
由于云計算平臺的物聯(lián)網(wǎng)的電子商務(wù)運營體系,能夠?qū)A康臓I銷數(shù)據(jù)進行高性能的分析處理與優(yōu)化,考慮當前的物聯(lián)網(wǎng)技術(shù)處于初步發(fā)展階段,在建立云計算平臺的物聯(lián)網(wǎng)的電子商務(wù)運營體系時,采用如下幾個方面的經(jīng)營模式。
1.在物聯(lián)網(wǎng)的角度作為切入口,協(xié)同傳感器生產(chǎn)廠商、通訊營運商,將企業(yè)自身的無線傳輸網(wǎng)絡(luò),通過傳感節(jié)點的方式接入互聯(lián)網(wǎng)。因此,想升級為電子商務(wù)模式的企業(yè),可以將物聯(lián)網(wǎng)系統(tǒng)架設(shè)在云計算的基礎(chǔ)設(shè)施之上。從而實現(xiàn)運資源的虛擬化與動態(tài)分配。
2.可以將大型的B2C的企業(yè)作為發(fā)展的云平臺發(fā)展的基礎(chǔ),將云平臺的網(wǎng)絡(luò)幾點配置以及資源分配進行優(yōu)化升級,從而達到B2C電子商務(wù)企業(yè)的高效應(yīng)用。將大型的B2C企業(yè)進行聯(lián)合,制定云平臺的統(tǒng)一標準。
3.當云計算平臺的物聯(lián)網(wǎng)的電子商務(wù)運營體系建立完善時,隨著B2C電子商務(wù)的業(yè)務(wù)量不斷的增長,要努力提升云平臺資源的共享服務(wù)以及高性能計算的能力。服務(wù)能力的提升是伴隨云計算平臺的物聯(lián)網(wǎng)的電子商務(wù)良性發(fā)展的要素。隨著B2C電子商務(wù)的規(guī)模越來越大,云計算平臺的物聯(lián)網(wǎng)的電子商務(wù)運營體系的優(yōu)勢就越明顯,盈利效應(yīng)就越好。
三、總結(jié)
當前我國電子商務(wù)技術(shù)標準現(xiàn)狀,即電子商務(wù)技術(shù)標準包含了四個方面的內(nèi)容:EDI標準、識別卡標準、通訊網(wǎng)絡(luò)標準和其他相關(guān)的標準。目前涉及我國標準約有1250多項。我國把采用國際標準和國外先進標準作業(yè)作為一項重要的技術(shù)經(jīng)濟政策積極推行。
1.EDI標準:國際上60年代起就開始研究EDI標準。1987年,聯(lián)合國歐洲經(jīng)濟委員會綜合了經(jīng)過10多年實踐的美國ANSIX.12系列標準和歐洲流行的“貿(mào)易數(shù)據(jù)交換(TDI)”標準,制定了用于行政、商業(yè)和運輸?shù)碾娮訑?shù)據(jù)交換標準(EDIFACT)。該標準的特點,一是包含了貿(mào)易中所需的各類信息代碼,適用范圍較廣;二是包括了報文、數(shù)據(jù)元、復(fù)合數(shù)據(jù)元、數(shù)據(jù)段、語法等,內(nèi)容較完整;三是可以根據(jù)自己需要進行擴充,應(yīng)用比較靈活;四是適用于各類計算機和通訊網(wǎng)絡(luò)。因此,該標準應(yīng)用廣泛。目前我國已等同轉(zhuǎn)化為5項國家標準。此外,還按照ISO6422《聯(lián)合國貿(mào)易單證樣式(UNLK)》、ISO7372《貿(mào)易數(shù)據(jù)元目錄》等同制定了進出口許可證、商業(yè)發(fā)票、裝箱單、裝運聲明、原產(chǎn)地證明書、單證樣式和代碼位置等8項國家標準。現(xiàn)在EDIFACT標準有170多項,至今在北美地區(qū)廣泛應(yīng)用的美國ANSIX.12系列標準有110項。由于我國EDI標準研究起步晚,需要制定更多的國家標準。根據(jù)我國經(jīng)濟發(fā)展需要,積極研究、采用EDIFACT標準和ANSIX.12系列標準。
2.識別卡標準:國際標準化組織(ISO)從80年代開始制定識別卡及其相關(guān)設(shè)備的標準,至今已頒布了37項。我國于90年代從磁條卡開始進行識別卡的國家標準制定工作。現(xiàn)有6項磁條卡國家標準,基本齊全,等同采用ISO7810《識別卡物理特性》和ISO7811《識別卡記錄技術(shù)》系列標準;三項觸點式集成電路卡(IC)國家標準,等同采用ISO7816《識別卡帶接觸件的集成卡》系列標準。另外,有5項國家標準涉及到金融卡及其報文、交易內(nèi)容,采用了相應(yīng)的ISO標準。目前,我國尚未將無接觸件集成電路卡、光存儲卡以及使用IC卡金融系統(tǒng)的安全框架等國際標準轉(zhuǎn)化制定為我國標準。
3.通訊網(wǎng)絡(luò)標準:通訊網(wǎng)絡(luò)是電子商務(wù)活動的基礎(chǔ),目前國際上廣泛應(yīng)用的有MHS電子郵政系統(tǒng)和美國Internet電子郵政系統(tǒng)。前者遵循ISO、IEC、CCITT聯(lián)合制定(個別是單獨制定)的開放系統(tǒng)互聯(lián)(OSI)系列標準,后者執(zhí)行美國的ARPAInternet系列標準。這兩套標準雖然可兼容,但還有差異。因此,我國制定通訊網(wǎng)絡(luò)國家標準時,主要采用OSI標準,但不要考慮ARPAInternet標準。現(xiàn)在我國有146項網(wǎng)絡(luò)環(huán)境國家標準,其中有99項標準分別采用ISO、IEC標準,占67.8%。我國現(xiàn)有的網(wǎng)絡(luò)環(huán)境國家標準還不配套。如網(wǎng)絡(luò)管理,我國僅有2項國家標準,而ISO/IEC有40多項標準。其中系統(tǒng)管理、管理信息機構(gòu)、系統(tǒng)間信息交換是我國標準空白。
這里需指出,數(shù)據(jù)加密、密鑰管理、數(shù)據(jù)簽名等安全要素,已有國際標準草案,需要我們追蹤,及時等同地轉(zhuǎn)化為我國標準。通訊、網(wǎng)絡(luò)設(shè)備標準約有380項,其中123項采用IEC、CCITT等標準占32%。微波通訊、衛(wèi)星通訊、移動通訊等方面的國家標準中采用國際標準比例較低,如衛(wèi)星通訊18項國家標準中采用國際標準的僅一項。信息傳輸介質(zhì)國家標準較多。以光纖通訊電纜為例,有53項國家標準,其中45項采用IEC、CCITT標準,8項涉及到進網(wǎng)要求,視我國情況而定,故沒有采用。
1盜取信息
保存著互聯(lián)網(wǎng)上的信息在傳輸過程中,通常情況下都需要進行加密處理,一旦發(fā)生加密措施不到位或者缺少保護措施,那么就給了入侵者可乘之機,他們可以掌握信息的傳輸格式和規(guī)律等,將截取的信息進行分析對比,這樣就能夠得到消費者的個人身份信息甚至個人銀行卡密碼等重要私密信息。或者經(jīng)過非法手段盜取企業(yè)的商業(yè)機密,將信息外泄,給個人和企業(yè)的安全帶來了極大的威脅和困擾。
2篡改信息
我們在進行電子商務(wù)交易之前首先需要在網(wǎng)上進行個人基本信息注冊,某些甚至需要實名制,填寫身份證號和銀行卡號等重要信息,方可完成注冊。這樣一來,一旦相關(guān)網(wǎng)絡(luò)企業(yè)的系統(tǒng)被不法分子攻擊,就很有可能導(dǎo)致個人信息泄露。而入侵者借機利用技術(shù)手段對信息進行肆意篡改,或者增添內(nèi)容或者刪除內(nèi)容,或修改內(nèi)容,最后再將所有信息打包整理發(fā)送到指定接收地點。這種做法既嚴重阻礙了電子商務(wù)交易的正常操作,又破壞了信息的完整性和真實性。
3假冒信息
由于不法分子入侵網(wǎng)絡(luò)得逞之后,掌握了全部消費者信息,這時可以在按自己意愿篡改信息后假冒合法的客戶對信息進行接收和發(fā)送。而計算機網(wǎng)絡(luò)本身具有的虛擬特性使得交易雙方很難識別信息的真?zhèn)危趾α讼M者的合法權(quán)益。慣用的手法是偽造客戶的收貨單據(jù)或訂貨憑證,隨意更改交易流程的允許訪問權(quán)限設(shè)置等。
二計算機安全技術(shù)在電子商務(wù)中的應(yīng)用
1防火墻技術(shù)
防火墻技術(shù)好比保護電子商務(wù)交易安全進行的一道隔離墻,有效防止外部違法入侵,同時對計算機病毒進行全程時時隔離,將本機與復(fù)雜、危險的外部網(wǎng)絡(luò)進行隔離控制。主要包括包過濾技術(shù)防火墻、服務(wù)防火墻和地址遷移防火墻。
2數(shù)據(jù)加密技術(shù)
防火墻技術(shù)本身也有一些不可避免的缺陷:對于一些靠數(shù)據(jù)驅(qū)動的入侵無法進行攔截;對一些不易被察覺的攜帶病毒的文件沒有抵抗力,一旦進行下載就會使病毒迅速擴撒,導(dǎo)致計算機中毒;對一些繞過防火墻攔截的軟件,對電腦主機實行攻擊,找計算機漏洞進行病毒攻擊。而這時就需要數(shù)據(jù)加密技術(shù)來彌補防火墻技術(shù)的缺憾,運用對稱加密和分對稱加密,在信息交換環(huán)節(jié)通過公開密鑰體系進行完整的加密,保證電子商務(wù)交易與信息傳送的安全、暢通。
3身份識別技術(shù)
用戶需要在首次注冊時填寫個人身份證信息,網(wǎng)絡(luò)管理員對個人信息進行綜合審核后,合格者允許通行,放開其對網(wǎng)絡(luò)資源的使用權(quán)限。在電子商務(wù)中身份鑒別是必不可少的環(huán)節(jié),通過此技術(shù)可以準確的識別對方身份的真實性,可以保證交易的安全。隨著技術(shù)的發(fā)展,身份識別技術(shù)的種類也在不斷擴大,包括智能卡鑒別技術(shù)、口令身份識別技術(shù)。盡管如此,但是這種技術(shù)仍然處在發(fā)展階段,需要不斷改進,但是研究成本較高,花費時間較長,受到各方面因素的限制,需要我們共同努力進行技術(shù)研發(fā)。
三結(jié)束語
論文摘要:電子商務(wù)(EC)在現(xiàn)代商務(wù)企業(yè)的發(fā)展中占有越來越重要的地位。如何利用信息技術(shù)掌握更多的商務(wù)信息已備受商家們的關(guān)注,站點分析技術(shù)正是為商家和網(wǎng)站提供了這樣一種有效的分析工具。
本文討論了一些站點分析的相關(guān)技術(shù)信息和幾種網(wǎng)站分析瀏覽者行為的理論與算法,及數(shù)據(jù)倉庫的相關(guān)理論知識。并對站點日志數(shù)據(jù)進行了實例分析,并指出了站點分析技術(shù)發(fā)展的方向。
一、緒論
互聯(lián)網(wǎng)技術(shù)不斷革新與發(fā)展,給全球經(jīng)濟帶來新的革命,從而也影響著人們的生活。互聯(lián)網(wǎng)為企業(yè)提供了一種真正屬于自己并面對廣大網(wǎng)民的信息載體,企業(yè)通過這一載體,可以自由地將企業(yè)的產(chǎn)品、服務(wù)等其他相關(guān)信息在線。
電子商務(wù)就是網(wǎng)上實行各種商務(wù)活動的總包裝,種種所謂電子商務(wù)解決方案,實際上就是實現(xiàn)各種網(wǎng)上商務(wù)活動的硬件與軟件系統(tǒng)。它將影響到每一個人、每一個企業(yè)。電子商務(wù)的主體是我們每一個人、每一個企業(yè),電子商務(wù)發(fā)展的過程就是對人們的生活、企業(yè)的運行的一種模式的一個巨大改變的過程。對于進入虛擬世界的商家而言,僅僅吸引注意力還不行,對它們而言,站點的訪問率絕對不僅僅是一個數(shù)字,它還是一種信息,如果網(wǎng)站能夠從網(wǎng)絡(luò)中獲得網(wǎng)民的信息并從中分析其行為誘因,那么就容易掌握網(wǎng)民的需求,從而利用互聯(lián)網(wǎng)去創(chuàng)造更多商機。
電子商務(wù)站點用戶行為的分析這一問題也因此成為現(xiàn)如今的熱門話題,被人們普遍關(guān)心起來,尤其是被眾商家所重視。Web站點的日志數(shù)據(jù)正以每天數(shù)十兆的速度增長。如何分析這些數(shù)據(jù),如何從這些大量數(shù)據(jù)中發(fā)現(xiàn)有用的、重要的知識(包括模式、規(guī)則、可視化結(jié)構(gòu)等)也成為現(xiàn)在人們最關(guān)注的信息。
在此情況下,站點用戶行為分析就可為網(wǎng)站或商家提供出大量有價值的信息,包括站點的受歡迎度的對比、商業(yè)廣告點擊情況總括、產(chǎn)品的反饋信息、站點各種信息的點擊情況等等。另外,還可根據(jù)不同的頁面內(nèi)容來分類瀏覽者,以便做出更合理的頁面分類,促使網(wǎng)站逐步向個性化、最優(yōu)化狀態(tài)發(fā)展。這一技術(shù)對互聯(lián)網(wǎng)的發(fā)展壯大有著不可忽視的巨大作用,它的發(fā)展對信息技術(shù)亦將產(chǎn)生深遠的影響。
在電子商務(wù)早期階段時,Web站點數(shù)據(jù)流分析通常是在主頁上安裝計數(shù)器以及在一個外部日志文件上運行簡單的統(tǒng)計程序記錄點擊率。但是,簡單的點擊計數(shù)既不準確也遠未達到營銷目的所需的詳細程度。因此,各公司開始尋找更先進的分析工具,這類工具可以提供誰在訪問公司W(wǎng)eb站點以及訪問者一旦進入站點后將做些什么的全面信息。站點開始分析的地方是Web服務(wù)器的訪問日志。每當用戶在站點上請求一個網(wǎng)頁時,這個請求就被記錄在訪問日志中。如:目前有多少用戶正在訪問站點、他們正在看哪些網(wǎng)頁以及他們在站點中呆了多長時間。顯然,日志分析和行為概況的正確組合可以對Web站點的成功產(chǎn)生直接影響。此外,從日志分析中得到的信息是很難從真實世界中捕獲到的,但這些信息卻可以較容易地在線收集到。Web數(shù)據(jù)流分析工具的這些最新進展可以使網(wǎng)站獲得有關(guān)上網(wǎng)客戶和他們習慣的詳細報告。
二、站點信息統(tǒng)計方法
Web頁面數(shù)據(jù)主要是半結(jié)構(gòu)化數(shù)據(jù),計算機網(wǎng)絡(luò)技術(shù)和信息技術(shù)的飛速發(fā)展,使得半結(jié)構(gòu)化數(shù)據(jù)呈現(xiàn)日益繁榮的趨勢。半結(jié)構(gòu)化數(shù)據(jù),是一種介于模式固定的結(jié)構(gòu)化數(shù)據(jù),和完全沒有模式的無序數(shù)據(jù)之間,在查詢前無法預(yù)先確定其具體的類型和格式;同時它們相應(yīng)的數(shù)據(jù)結(jié)構(gòu)是不固定、不完全或不規(guī)則的,即這些數(shù)據(jù)有的本身就沒有結(jié)構(gòu),有的只有十分松散的結(jié)構(gòu),有的數(shù)據(jù)的結(jié)構(gòu)是隱含的,需要從數(shù)據(jù)中進行抽取。而有時,盡管數(shù)據(jù)本身是有精確結(jié)構(gòu)的,但為了一定的目的,而故意忽視它的結(jié)構(gòu)。半結(jié)構(gòu)化數(shù)據(jù)具有以下五方面的
主要特點:
1.結(jié)構(gòu)是不規(guī)則的。包含異構(gòu)數(shù)據(jù)、相同的數(shù)據(jù)信息用不同類型或不同的結(jié)構(gòu)表示。
2.結(jié)構(gòu)是隱含的。如電子文檔SGML格式。
3.結(jié)構(gòu)是部分的,有時部分數(shù)據(jù)根本無結(jié)構(gòu),而部分數(shù)據(jù)只有粗略的結(jié)構(gòu)。
4.指示性結(jié)構(gòu)與約束性結(jié)構(gòu)。傳統(tǒng)的數(shù)據(jù)庫使用嚴格的分類策略來保護數(shù)據(jù)。而指示性數(shù)據(jù)結(jié)構(gòu)是對結(jié)構(gòu)的一種非精確的描述。它可接受所有新數(shù)據(jù),代價是要頻繁修改結(jié)構(gòu)。
5.半結(jié)構(gòu)化數(shù)據(jù)通常在數(shù)據(jù)存在之后才能通過當前數(shù)據(jù)歸納出其結(jié)構(gòu),稱之為事后模式引導(dǎo)。模式有時可被忽略,同時數(shù)據(jù)與數(shù)據(jù)模式間的區(qū)別逐漸消除。
三、數(shù)據(jù)分析的方法
Web頁面的數(shù)據(jù)通常是利用統(tǒng)計模型和數(shù)學模型來分析的。使用的模型有線性分析和非線性分析;連續(xù)回歸分析和邏輯回歸分析;單變量和多變量分析以及時間序列分析等。這些統(tǒng)計分析工具能提供可視化功能和分析功能來尋找數(shù)據(jù)間關(guān)系、構(gòu)造模型來分析、解釋數(shù)據(jù)。并通過交互式過程和迭代過程用來求精模型,最終開發(fā)出最具適應(yīng)性的模型來將數(shù)據(jù)轉(zhuǎn)化為有價值的信息。
知識發(fā)現(xiàn)是從數(shù)據(jù)倉庫的大量數(shù)據(jù)中篩取信息,尋找經(jīng)常出現(xiàn)的模式,檢查趨勢并發(fā)掘?qū)嵤K欠治鯳eb頁面數(shù)據(jù)的重要方法。知識發(fā)現(xiàn)與模式識別的算法有以下幾種:
1.依賴性分析
依賴性分析算法搜索數(shù)據(jù)倉庫的條目和對象,從中尋找重復(fù)出現(xiàn)概率很高的模式。它展示了數(shù)據(jù)間未知的依賴關(guān)系。利用依賴性分析算法可以從某一數(shù)據(jù)對象的信息來推斷另一數(shù)據(jù)對象的信息。例如:在雜貨店中,一堆椒鹽餅干放在陳列飲料的走道上,這是因為經(jīng)過依賴性分析,商店認為:很大一部分買飲料的顧客如果在取飲料的路上看到椒鹽餅干的話就會購買,因而此種分析影響了商店布局。
2.聚類和分類
在某些情況下,無法界定要分析的數(shù)據(jù)類,用聚類算法發(fā)現(xiàn)一些不知道的數(shù)據(jù)類或懷疑的數(shù)據(jù)類。聚類的過程是以某一特定時間為依據(jù),找出一個共享一些公共類別的群體,它稱為無監(jiān)督學習。分類過程,這是發(fā)現(xiàn)一些規(guī)定某些商品或時間是否屬于某一特定數(shù)據(jù)子集的規(guī)則。這些數(shù)據(jù)類很少在關(guān)系數(shù)據(jù)庫中進行定義,因而規(guī)范的數(shù)據(jù)模型中沒有它們的位置。最典型的例子是信用卡核準過程,可確定能否按商品價格和其它標準把某一購買者歸入可接受的那一類中。分類又稱為有監(jiān)督學習。
3.神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)通過學習待分析數(shù)據(jù)中的模式來構(gòu)造模型。它對隱式類型進行分類。圖像分析是神經(jīng)網(wǎng)絡(luò)最成功的應(yīng)用之一。神經(jīng)網(wǎng)絡(luò)用于模型化非線性的、復(fù)雜的或噪聲高的數(shù)據(jù)。一般神經(jīng)模型由三個層次組成:數(shù)據(jù)倉庫數(shù)據(jù)輸入、中間層(各種神經(jīng)元)和輸出。它通常用恰當?shù)臄?shù)據(jù)庫示例來訓(xùn)練和學習、校正預(yù)測的模型,提高預(yù)測結(jié)果的準確性。
4.數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘的一個重要內(nèi)容,通常關(guān)聯(lián)規(guī)則反映的是數(shù)據(jù)間的定性關(guān)聯(lián)關(guān)系。如一個商品交易數(shù)據(jù)庫,一條記錄表示用戶一次購買的商品種類,每個屬性(A、B……)代表一種商品,每個屬性都是布爾類型的。一條關(guān)聯(lián)規(guī)則的例子是:{A、B}{D}[2%][60%],規(guī)則的含義是“如果用戶購買商品A和B,那么也可能購買商品D,因為同時購買商品A、B和D的交易記錄占總交易數(shù)的2%而購買A和B的交易中,有60%的交易也包含D”。規(guī)則中60%是規(guī)則的信任度,2%是規(guī)則的支持度。數(shù)據(jù)挖掘就是要發(fā)現(xiàn)所有滿足用戶定義的最小信任度和支持度閥值限制的關(guān)聯(lián)規(guī)則。數(shù)據(jù)只是定性地描述一個交易是否包含某商品,而對交易量沒有定量描述,這種布爾類型數(shù)據(jù)間的關(guān)聯(lián)規(guī)則被稱為定性關(guān)聯(lián)規(guī)則。但數(shù)據(jù)記錄的屬性往往是數(shù)值型或字符型的,這些數(shù)據(jù)間也存在對決策有幫助的關(guān)聯(lián)規(guī)則,相對于定性關(guān)聯(lián)規(guī)則,這些規(guī)則被稱為定量關(guān)聯(lián)規(guī)則。
另外,數(shù)據(jù)挖掘目前仍面臨著數(shù)據(jù)質(zhì)量的問題。由于數(shù)據(jù)倉庫中的數(shù)據(jù)來自多個數(shù)據(jù)源,而在合并中存在很多障礙,如:沒有建立合并視圖所需的公共關(guān)鍵字;數(shù)據(jù)值相互抵觸;元數(shù)據(jù)的說明不完備或丟失;數(shù)據(jù)值的不潔凈等等。數(shù)據(jù)挖掘是在標準化的數(shù)據(jù)基礎(chǔ)上進行的,因而這些都會嚴重破壞數(shù)據(jù)的準確性,導(dǎo)致最終決策的失誤。所有這些問題都在等待著人們?nèi)グl(fā)掘更好的解決方法。
參考資料
1.周斌,吳泉源,高洪奎:“用戶訪問模式數(shù)據(jù)挖掘的模型與算法研究”,《計算機研究與發(fā)展》,1999vol.36No.7P.870-875;
2.SrikantR,VuW,AgrawalR.Miningassociationruleswithitemconstrains.IBMAlmadenResearchCenter,TechRep:97.056,1997;
3.ParkJS,ChenM,YuPS.Aneffectivehashbasedalgorithmforminingassociationru1es.In:ACMInternationalConferenceonManagementofData,Caliform,1995;
4.Inmon,WilliamH,BuildingtheDataWarehouse(2nded.).Wiley.NewYork(1996);