1000部丰满熟女富婆视频,托着奶头喂男人吃奶,厨房挺进朋友人妻,成 人 免费 黄 色 网站无毒下载

首頁 > 文章中心 > 好的日志文章

好的日志文章

前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇好的日志文章范文,相信會為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。

好的日志文章

好的日志文章范文第1篇

關(guān)鍵詞:天氣雷達;拼圖資料;日志;監(jiān)控;統(tǒng)計

中圖分類號:TP393文獻標(biāo)識碼:A文章編號:1009-3044(2008)14-20814-02

新一代天氣雷達在臨近預(yù)報中發(fā)揮著重要的作用[1]。但由于單部新一代天氣雷達的有效探測半徑僅為230km,在利用其進行災(zāi)害性天氣系統(tǒng)的監(jiān)測和預(yù)警時,需要上下游氣象站進行聯(lián)防,而短時強天氣具有發(fā)展速度快、強度強的特點,因此要想利用新一代天氣雷達回波對中尺度天氣系統(tǒng)的發(fā)展和移動進行監(jiān)測和預(yù)報,就必須進行拼圖,擴大其覆蓋范圍[2]。中國氣象局要求各雷達站1小時將5個雷達產(chǎn)品通過省級通信節(jié)點機上傳至國家氣象信息中心,統(tǒng)一收集后進行全國和區(qū)域的雷達產(chǎn)品拼圖,并將傳輸質(zhì)量納入到各省的年終目標(biāo)考核中。如何提高傳輸時效、質(zhì)量,將直接影響到新一代天氣雷達效益的發(fā)揮和全省乃至全國的防災(zāi)減災(zāi)。為確保轄區(qū)各站雷達拼圖資料 及時準(zhǔn)確上傳,研制開發(fā)了省級雷達拼圖資料監(jiān)控與統(tǒng)計系統(tǒng),可以對報文傳輸及線路狀況進行有效監(jiān)控,實現(xiàn)網(wǎng)絡(luò)通信業(yè)務(wù)的自動化,提高業(yè)務(wù)工作的效率[3]。

1 系統(tǒng)設(shè)計思路

本系統(tǒng)實現(xiàn)對遼寧省沈陽、營口新一代天氣雷達站拼圖資料上行傳輸情況實時監(jiān)控和傳輸統(tǒng)計。系統(tǒng)定時讀取9210系統(tǒng)中相應(yīng)日志文件,和該時次所要上傳文件名比較,若日志文件中有記錄,表明已通過9210系統(tǒng)進行上傳,則屏幕上顯示綠燈;如果日志文件中沒有記錄,說明該時次雷達拼圖資料報還沒有上傳,則在屏幕上顯示紅燈并顯示未上傳的資料名稱,提醒值班人員采取相應(yīng)的措施。系統(tǒng)每天08時(北京時)對前一天的雷達拼圖資料上傳情況入庫,并建立統(tǒng)計界面,可進行單站、多站或任意時間段傳輸百分率的圖表統(tǒng)計結(jié)果。

2 系統(tǒng)基本構(gòu)成

2.1 系統(tǒng)的流程圖

雷達站將拼圖資料上傳至通信節(jié)點機,通過規(guī)定進程將資料轉(zhuǎn)發(fā)至國家氣象信息中心寬帶服務(wù)器,同時生成日志文件。實時監(jiān)控對日志文件進行操作,傳輸質(zhì)量監(jiān)控首先將日志信息添加至數(shù)據(jù)庫,然后使用SQL查詢統(tǒng)計結(jié)果,進行圖表顯示。(圖1)

2.2 系統(tǒng)環(huán)境

雷達拼圖資料監(jiān)控與統(tǒng)計系統(tǒng)由通信節(jié)點機(UNIX操作系統(tǒng))、監(jiān)控計算機組成,二者之間運行FTP協(xié)議。通信節(jié)點機具有每日(世界時)的日志文件,可保留30天內(nèi)的日志文件。監(jiān)控計算機采用Windows XP操作系統(tǒng),安裝監(jiān)控和統(tǒng)計程序。軟件開發(fā)在Windows下進行選擇VB和Delphi語言進行混合編程,后臺數(shù)據(jù)庫采用microsoft的SQL server2000數(shù)據(jù)庫。

3 系統(tǒng)功能

系統(tǒng)分兩部分:一是根據(jù)各種報文的時效要求,進行定時的查詢監(jiān)控,保證該報上傳的及時性;同時為了操作方便,設(shè)置了刷新功能,對沈陽、營口2站雷達拼圖資料的實時監(jiān)控,進行圖形化界面提示和文本信息的顯示;二是對任意時段內(nèi)的沈陽、營口2站傳輸質(zhì)量進行統(tǒng)計,生成圖表直觀顯示,并可以生成文本文件進行上報。

4 系統(tǒng)的技術(shù)實現(xiàn)

4.1 日志文件的下載

按照中國氣象局的傳輸要求:雷達GIF產(chǎn)品在正點后15分種內(nèi)上傳為及時報,在1小時內(nèi)為逾限報,超過1小時視為缺報[4]。因此編制程序,在正點后10分鐘自動從通信節(jié)點機的“/bcsy/mioswork/log”目錄利用FTP協(xié)議下載當(dāng)天的日志文件。日志文件命名規(guī)則為“comYYYYMMDDsnd.log”(其中YYYYMMDD代表年月日)。

4.2 實時監(jiān)控

每小時的5個產(chǎn)品文件名均是固定的,命名規(guī)則為RAD__CCYYGGgg.XXX(其中RAD是固定的,CC為臺站代號,如沈陽為SY,YY為編報日期,GG為編報時次,gg為編報分鐘,正點觀測編00),在下載完日志文件后,將此日志文件作為文本文件打開,利用VB的InStr函數(shù)檢查當(dāng)前時次的產(chǎn)品是否存在于日志文件中。若存在,則代表已成功上傳,狀態(tài)燈顯示為綠色;若不存在,則代表未進行上傳,狀態(tài)燈顯示為紅色,并將未上傳產(chǎn)品的站號、時次、產(chǎn)品類型添加至列表框中,同時以聲音形式提醒值班員(圖2)。實時監(jiān)控界面代有刷新按鈕,可對當(dāng)前上傳情況進行了解。

4.3 日志信息入庫

系統(tǒng)設(shè)置在每日8:30(世界時0:30)下載前一天的日志文件。SQL數(shù)據(jù)庫的表按照文件名、文件大小、文件接收時間、文件發(fā)送日期、發(fā)送優(yōu)先級、發(fā)送線路建立字段。在Delphi中使用ADOConnection組件進行數(shù)據(jù)庫的連接,adoquery組件進行日志信息的入庫。首先以文本方式打開日志文件,將其中的一行分解為對應(yīng)字段,使用SQL語句的append方法將上傳信息添加到數(shù)據(jù)庫中,進行更新。

4.4 傳輸質(zhì)量統(tǒng)計

在雷達拼圖傳輸質(zhì)量統(tǒng)計界面中,可選擇任意時段內(nèi)的任意站次雷達拼圖傳輸質(zhì)量進行統(tǒng)計。程序利用ADOConnection組件進行數(shù)據(jù)庫的連接,使用SQL查詢語句對數(shù)據(jù)庫進行多項查詢,并將查詢統(tǒng)計結(jié)果輸出到memo組件中,可顯示統(tǒng)計站次、統(tǒng)計時段、應(yīng)上傳文件數(shù)、及時報(含百分率)、逾限報(含百分率及逾限報站次)、缺報(含百分率及缺報站次);同時利用chart組件進行餅圖的顯示,如2008年3月1日至2008年3月7日沈陽、營口兩站的雷達拼圖傳輸質(zhì)量統(tǒng)計圖。(圖3)

5 結(jié)束語

本系統(tǒng)由于采用SQL網(wǎng)絡(luò)數(shù)據(jù)庫,可以安裝在局域網(wǎng)內(nèi)任何一臺計算機上。運行以來,對雷達拼圖資料傳輸質(zhì)量的提高起到很好的推動作用,傳輸及時率也穩(wěn)定在99%以上。系統(tǒng)操作簡單,雷達報上行傳輸情況一目了然。運行情況很好,使值班人員及時掌握雷達報的上傳情況;另外本軟件模塊化的設(shè)計,移植性高,程序加以修改擴充后,可應(yīng)用于其它雷達站資料的上行監(jiān)控。

參考文獻:

[1] 程向陽,王興榮,胡雯,等. 雷暴天氣在多普勒雷達資料上的前兆特征分析[J]. 氣象科學(xué),2003,23(4):485-490.

[2] 陳傳雷,陳艷秋,孫欣. 多普勒雷達回波在遼寧一次暴雨過程中的應(yīng)用分析[J]. 氣象與環(huán)境學(xué)報,2006,22(5):28-31.

[3] 呂紅梅,楊文霞,張玉潔,等. 雷達觀測資料傳輸監(jiān)控軟件的開發(fā)與研究[J]. 山東氣象,2005,25(1):35-35.

好的日志文章范文第2篇

關(guān)鍵詞:網(wǎng)絡(luò)安全;用戶上網(wǎng)行為;數(shù)據(jù)分析

中圖分類號:TP393 文獻標(biāo)識碼:A 文章編號:1009-3044(2016)15-0117-03

隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,各種網(wǎng)絡(luò)設(shè)備功能越來越來完善,設(shè)備性能管理方面也比較智能化,在網(wǎng)絡(luò)管理上發(fā)生了變化,不再像過去花費大量的人力忙于維護網(wǎng)絡(luò)設(shè)備,而是要分析用戶的上網(wǎng)行為,為用戶提供一個安全穩(wěn)定的網(wǎng)絡(luò)環(huán)境。目前所得到的用戶上網(wǎng)行為都是從網(wǎng)絡(luò)設(shè)備上獲取的,這些數(shù)據(jù)中存在臟數(shù)據(jù)[1],臟數(shù)據(jù)不符合要求,對于分析用戶上網(wǎng)行為存在干擾。并且這些數(shù)據(jù)量非常大,而且還分散在不同的文件中,不便于以后的存儲和運算。如何對這些數(shù)據(jù)進行分類、清洗并進行有效的存儲是網(wǎng)絡(luò)行為分析的一個重要問題。

文章首先介紹python程序設(shè)計語言的相關(guān)組件和功能架構(gòu),在此基礎(chǔ)上,設(shè)計并實現(xiàn)了基于python語言的分析用戶上網(wǎng)行為的分類與清洗系統(tǒng),驗證了系統(tǒng)的有效性和穩(wěn)定性,并對數(shù)據(jù)的處理時間和數(shù)據(jù)的壓縮比例進行分析。

1 Python程序的介紹

Python是一種解釋型交互式、面向?qū)ο蟆討B(tài)語義、語法優(yōu)美的腳本語言。自從1989年Guido van Rossum發(fā)明,經(jīng)過幾十年的發(fā)展,已經(jīng)同Tcl、perl一起,成為目前應(yīng)用最廣的三種跨平臺腳本語言。Python是純粹的自由軟件, 源代碼和解釋器CPython遵循 GPL(GNU General Public License)協(xié)議[2] 。Python的主要特點有:

1)免費開源、簡單易學(xué)

Python是FLOSS(自由/開放源碼軟件)之一[3]。使用者可以自由地這個軟件的拷貝、閱讀它的源代碼、對它做改動、把它的一部分用于新的自由軟件中。FLOSS是基于一個團體分享知識的概念。Python是一種代表簡單主義思想的語言,閱讀一個良好的Python程序就感覺像是在讀英語一樣。它使你能夠?qū)W⒂诮鉀Q問題而不是去搞明白語言本身。Python極其容易上手,因為Python有極其簡單的說明文檔 。

2)速度快

Python 的底層是用 C 語言寫的,很多標(biāo)準(zhǔn)庫和第三方庫也都是用 C 寫的,運行速度非常快 。

3)高層語言

Python語言編寫程序的時候無需考慮諸如如何管理你的程序使用的內(nèi)存一類的底層細(xì)節(jié)。

4)可移植性

由于它的開源本質(zhì),Python已經(jīng)被移植在許多平臺上(經(jīng)過改動使它能夠工作在不同平臺上)[4]。這些平臺包括Linux、Windows、FreeBSD、Macintosh、Solaris、OS/2、Amiga、AROS、AS/400、BeOS、OS/390、z/OS、Palm OS、QNX、VMS、Psion、Acom RISC OS、VxWorks、PlayStation、Sharp Zaurus、Windows CE、PocketPC、Symbian以及Google基于linux開發(fā)的android平臺。

5)面向?qū)ο?/p>

Python是一種公共域的面向?qū)ο蟮膭討B(tài)語言[5],Python既支持面向過程的編程也支持面向?qū)ο蟮木幊獭T凇懊嫦蜻^程”的語言中,程序是由過程或僅僅是可重用代碼的函數(shù)構(gòu)建起來的。在“面向?qū)ο蟆钡恼Z言中,程序是由數(shù)據(jù)和功能組合而成的對象構(gòu)建起來的。

6)可擴展性

如果需要一段關(guān)鍵代碼運行得更快或者希望某些算法不公開,可以部分程序用C或C++編寫,然后在Python程序中使用它們。

7)可嵌入性

可以把Python嵌入C/C++程序,從而向程序用戶提供腳本功能。

8)豐富的庫

Python標(biāo)準(zhǔn)庫確實很龐大。它可以幫助處理各種工作,包括正則表達式、文檔生成、單元測試、線程、數(shù)據(jù)庫、網(wǎng)頁瀏覽器、CGI、FTP、電子郵件、XML、XML-RPC、HTML、WAV文件、密碼系統(tǒng)、GUI(圖形用戶界面)、Tk和其他與系統(tǒng)有關(guān)的操作。這被稱作Python的“功能齊全”理念。除了標(biāo)準(zhǔn)庫以外,還有許多其他高質(zhì)量的庫,如wxPython、Twisted和Python圖像庫等等。

9)規(guī)范的代碼

Python采用強制縮進的方式使得代碼具有較好可讀性。而Python語言寫的程序不需要編譯成二進制代碼。

2 系統(tǒng)架構(gòu)的設(shè)計

由于網(wǎng)絡(luò)用戶上網(wǎng)行為數(shù)據(jù)可以從網(wǎng)絡(luò)安全設(shè)備(如防火墻、網(wǎng)絡(luò)認(rèn)證網(wǎng)關(guān))上直接采集,所采集到的數(shù)據(jù)中有很多信息是不需保存的,并且生成的日志一般都是一個2萬多條記錄的壓縮文件。在實際的用戶行為管理分析中需要對這些壓縮文件進行解壓、分類、清洗,然后提取有用信息,并對所提取的信息進行壓縮處理,以便以后用于數(shù)據(jù)挖掘。系統(tǒng)結(jié)構(gòu)設(shè)計如圖1:

在日志處理系統(tǒng)結(jié)構(gòu)設(shè)計中,日志解壓模塊實現(xiàn)對原始數(shù)據(jù)自動解壓,并保存在以日期命名的文件夾中日志文件;日志文件夾處理模塊用于處理長時間保存日志文件和日志文件夾,使處理結(jié)果生成一個帶有路徑的文件名列表的文本文件。這個文本文件可以使下一步數(shù)據(jù)分類、清洗模塊快速定位到所要處理文件的位置和名稱。根據(jù)大理大學(xué)網(wǎng)絡(luò)用戶特點設(shè)計數(shù)據(jù)的分類和清洗模塊,實現(xiàn)把中國學(xué)生、留學(xué)生、教職工、校外人員的網(wǎng)絡(luò)行為日志文件進行分離,并把這些日志文件中沒有實際意義的記錄清除,最終把分類文件分別合并到以日期命名的文件中,為以后大數(shù)據(jù)的科學(xué)計算和智能分析提供純凈的數(shù)據(jù)源。日志文件壓縮模塊實現(xiàn)對分類、清洗過后的日志文件進行壓縮,提高存儲效率。

3 系統(tǒng)的實現(xiàn)

3.1 目錄處理模塊的實現(xiàn)

采用python程序設(shè)計語言中的os模塊,實現(xiàn)對目錄路徑和文件名的處理,第一步,將原始數(shù)據(jù)目錄下的所有文件夾的路徑寫入到一個文本文件中,例如:D:\campus big data\Datadirectory.txt,以便數(shù)據(jù)處理時循環(huán)遍歷所有文件夾,其代碼實現(xiàn)如下:

def CreateRawdatadirectory():

data_file_path="D:\\campus big data\\Raw_data\\"

day_log_path=os.listdir(data_file_path) #日日志文件夾路徑

log_files_list=[] #每天的.log文件所在目錄,如D:\campus big data\data\2016-03-01

fw=open("D:\\campus big data\\Raw_Datadirectory.txt","w")

for item in day_log_path:

fw.write(data_file_path+item+"\\") #Raw_Datadirectory.txt寫入

fw.write("\n")

fw.close()

第二步,生成日志文件夾文件,將每日文件夾下的所有日志文件路徑寫入對應(yīng)文件夾下的文本文件。例如:D:\campus\bigdata \data \201 6-03-01\file_path.tx文件,在數(shù)據(jù)處理時可以快速遍歷所有日志文件,其代碼實現(xiàn)如下:

def CreateLogDirectory():

fr=open("D:\\campus big data\\Raw_Datadirectory.txt","r")

fr_s=fr.read()

log_files_list=fr_s.split("\n")

for directory in log_files_list:

fw=open(directory+"file_path.txt","w")

try:

log_filename=[fname for fname in os.listdir(directory) if fname.endswith('.log')]

for fname in log_filename:

fw.write(directory+fname) #file_path.txt文件寫入

fw.write("\n")

except:

pass

fw.close()

fr.close

第三步,創(chuàng)建多級目錄,創(chuàng)建處理后數(shù)據(jù)存儲的多級目錄。例如:Ch_students目錄、Oversea_students目錄、Teachers目錄,用以保存不同用戶的上網(wǎng)行為日志文件。

3.2 解壓和壓縮模塊

根據(jù)目錄處理模塊所得到的路徑文件,調(diào)用python提供的zipfile模塊,把原始數(shù)據(jù)進行解壓,并把清洗過的用戶行為數(shù)據(jù)進行壓縮,代碼的設(shè)計如下:

解壓過程:

def FromZip(file_path_prefix): #

file_directory="D:\\campus big data\\Raw_data\\2016-03-01\\"

zip_filename=[fname for fname in os.listdir(file_directory) if fname.endswith('.zip')]

for item in zip_filename:

zip_path=file_directory+item

zfile = zipfile.ZipFile(zip_path,'r')

filename=zfile.namelist()[0]

data=zfile.read(filename)

flog=open(file_directory+filename,'w+b')

flog.write(data)

flog.close

壓縮過程

def ToZip():

file_directory="D:\\campus big data\\Raw_data\\2016-03-01\\"

log_filename=[fname for fname in os.listdir(file_directory) if fname.endswith('..log')]

for item in log_filename:

log_path=file_directory+item

f = zipfile.ZipFile('archive.zip','w',zipfile.ZIP_DEFLATED)

startdir = "c:\\mydirectory"

for dirpath, dirnames, filenames in os.walk(startdir):

for filename in filenames:

f.write(os.path.join(dirpath,filename))

f.close()

由于程序在運行時是直接調(diào)用目錄處理模塊所得的路徑文件,這樣就可以縮短程序運行的時間,提高程序的運行效率。

3.3 數(shù)據(jù)分類、清洗模塊

在網(wǎng)絡(luò)用戶上網(wǎng)行為日志數(shù)據(jù)中,有許多信息是沒有意義的,我們需要對這些數(shù)據(jù)進行分類和清洗。原始數(shù)據(jù)結(jié)構(gòu)如下:

3.3.1 數(shù)據(jù)的分類

根據(jù)學(xué)校校園網(wǎng)絡(luò)用戶的特點,我們可以把用戶分為教工、國內(nèi)學(xué)生、國外學(xué)生。根據(jù)上網(wǎng)的區(qū)域可以分為辦公區(qū)、教職工住宅區(qū)、學(xué)生宿舍區(qū)。利用python語言對文件快速處理的特點對用戶進行分類,并分別存儲在不同的文件中,代碼如下:

fwrite_log=open("data_log.txt",'w') #數(shù)據(jù)處理后存文放文件

fread_log=open("2016-03-01 00-00-00..txt",'r') #打開日志文件

log_txt=fread_log.read().split('\n') #讀取每一條記錄

for i in range(len(log_txt)): #對每一條記錄進行處理

if log_txt[i].strip('\n')!='':

if(log_txt[i].split('\t')[3])[0]=='X':

record=log_txt[i].split('\t') s_row=record[2]+'\t'+record[4]+'\t'+record[5]+'\t'+record[6]+'\t'+record[7]+'\t'+record[8]+'\t'+'\n'

fwrite_log.write(s_row)

fwrite_log.close()

fread_log.close()

3.3.2 數(shù)據(jù)清洗

根據(jù)網(wǎng)絡(luò)用戶上網(wǎng)行為的特點,會出現(xiàn)空行、重復(fù)記尋。數(shù)據(jù)清洗的重要工作就是要把這些干擾信息去除,保留有用信息,為以后的數(shù)據(jù)挖掘提供純凈的數(shù)據(jù)。在數(shù)據(jù)清洗過程中,應(yīng)用python中的set()和strip()功能把重復(fù)記錄和空行清除。經(jīng)過清洗的數(shù)據(jù)記錄數(shù)和文件大小都比原來小,表2中可以清晰的反映數(shù)據(jù)清洗前后的對比。

4 結(jié)束語

從程序的運行結(jié)果可以得出,用python編寫的用戶上網(wǎng)行為日志處理程序設(shè)計簡單,運行效率高,所提取的用用戶行為數(shù)據(jù)可以進一步分析,為校園網(wǎng)絡(luò)安全提供準(zhǔn)確的用戶定位,為校園網(wǎng)絡(luò)的帶寬管理和維護提供準(zhǔn)確的數(shù)據(jù)作為參考,并提高網(wǎng)絡(luò)的服務(wù)質(zhì)量。

參考文獻:

[1] 張良均, 樊哲, 趙云龍. Hadoop大數(shù)據(jù)分析與挖掘?qū)崙?zhàn)[M]. 北京: 機械工業(yè)出版社, 2016.

[2] 肖建, 林海波. Python基礎(chǔ)教程[M]. 北京: 清華大學(xué)出版社, 2003: 1-2.

[3] 北京中科紅旗軟件技術(shù)有限公司. 紅旗Linux系統(tǒng)應(yīng)用編程[M]. 北京: 石油工業(yè)出版社, 2012: 192.

好的日志文章范文第3篇

關(guān)鍵詞:數(shù)據(jù)挖掘;web;網(wǎng)絡(luò)訪問

中圖分類號:TP393.092文獻標(biāo)識碼:A文章編號:1007-9599 (2010) 03-0047-02

Research on Data Mining to Improve Web User Network Access Speed

Sun Wenqian

(Hechi College Campus Network Center Fengshan,FengShan546300,China)

Abtract:The implication of Data Mining in improving the network access speed, is that the law of site's being accessed have been achieved by Data Mining in web log,which aimed to change the web site's organizational structure and services by extracting interesting patterns for log user to access to the site.

Keywords:Data Mining;Web;Acess to Network

一、緒言

隨著Internet技術(shù)的發(fā)展和普及,網(wǎng)絡(luò)在創(chuàng)造信息高速交換的同時,數(shù)據(jù)存儲量也在不斷膨脹,加上每個動態(tài)頁面和應(yīng)用系統(tǒng)都在頻繁訪問數(shù)據(jù)庫,使得互聯(lián)網(wǎng)絡(luò)中web用戶對數(shù)據(jù)的訪問速度不斷下降。解決這個問題的途徑之一就是Web日志挖掘,即根據(jù)Web服務(wù)器記錄的日志對用戶訪問網(wǎng)站的情況進行分析,使用數(shù)據(jù)挖掘技術(shù)抽取日志中感興趣的模式,得到站點的被訪問規(guī)律,從而改進網(wǎng)站的組織結(jié)構(gòu)和服務(wù),掘出有用的關(guān)聯(lián)規(guī)則、序列模式、聚類分析等知識類型。Web訪問挖掘通常可以分為數(shù)據(jù)預(yù)處理、挖掘算法的應(yīng)用、模式分析及知識發(fā)現(xiàn)這3個階段,本文主要討論數(shù)據(jù)預(yù)處理、挖掘算法的應(yīng)用兩個階段。

二、數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理的數(shù)據(jù)源是服務(wù)器的日志文件,因此首先要將日志文件轉(zhuǎn)換成數(shù)據(jù)庫文件,以獲得可靠的精確數(shù)據(jù)。技術(shù)上,一般將預(yù)處理階段劃分為數(shù)據(jù)清洗、頁面過濾、用戶識別、會話構(gòu)造、路徑識別這5個步驟。其模型如圖1所示。

隨著Web技術(shù)的進一步發(fā)展,原有的模型已不能達到很好的預(yù)處理效果,改進的Web訪問挖掘數(shù)據(jù)預(yù)處理模型通常在常規(guī)數(shù)據(jù)清洗后增加了初次引擎過濾,并在會話別之后進行了二次引擎過濾,其作用是為了過濾當(dāng)今廣泛使用的搜索引擎對Web的訪問記錄。經(jīng)過會話識別的服務(wù)器日志文件已經(jīng)被組織成一個會話集合,通過對該會話集合的再次分析,可以將其中的非正式用戶會話過濾,其中主要是針對搜索引擎的過濾,該過程稱為“二次引擎過濾”。過濾方法可以采用當(dāng)前比較成熟的分類、聚類等數(shù)據(jù)挖掘算法。

三、挖掘算法的應(yīng)用

通過分析日志文件,我們可以尋找到那些經(jīng)常被用戶訪問的頁面及他們之間的關(guān)聯(lián)規(guī)則(即頻繁訪問頁組)。網(wǎng)站資源可以是網(wǎng)頁、數(shù)據(jù)、圖片、聲音和文檔。設(shè)x1、x2、……xm;Y1、Y2、……Ym均為網(wǎng)站資源,X=>Y(sup,conf)表示資源集的關(guān)聯(lián)規(guī)則,其中X={X1、X2……Xm},Y={Y1、Y2、……Ym},X∩Y=空,這條規(guī)則的含義是如果資源集X被訪問,那么資源集Y也會被訪問。規(guī)則的支持度為sup,置信度為conf,關(guān)聯(lián)規(guī)則挖掘算法的目的就是要推導(dǎo)出所有達到一定支持度和置信度的規(guī)則。

在這里,假定超文本系統(tǒng)僅僅包含有一些基本的頁面。除此外我們還假設(shè):

1.指向一個頁面的連接是將這個頁面作為一個整體來對待的,而不是指向頁面內(nèi)容的一部分;

2.在超文本系統(tǒng)中不存在環(huán)路;

3.在任何源節(jié)點和目標(biāo)節(jié)點間最多只有一條鏈路。基于以上的假設(shè),我們可以為超文本系統(tǒng)建立一個有向網(wǎng)絡(luò)拓?fù)鋱D,如圖2所示:

在這里,有向圖G=(N,E),其中N是節(jié)點的集合,E是邊的集合。一個節(jié)點A(A∈N)和一個頁面相對應(yīng),一條邊是一個元組(A,B)∈E,和頁面間的一個連接相對應(yīng);對于給定的連接(A,B)稱A是源節(jié)點,B是目的節(jié)點。在這里并不假定圖是連接的。如果兩個頁面在網(wǎng)絡(luò)拓?fù)渲邢嗑噍^遠(yuǎn),則表明它們之間的關(guān)聯(lián)性較低,如果我們從日志信息中挖掘出它們之間有較高的訪問可信度的規(guī)則,則這樣的規(guī)則是用戶感興趣的。如圖2的頁面C和E在拓?fù)浣Y(jié)構(gòu)中,顯示關(guān)聯(lián)度較低。如果,在Web日志中發(fā)現(xiàn)了C=>E這樣的關(guān)聯(lián)規(guī)則,則興趣度是較高的。通過這樣興趣度高的關(guān)聯(lián)規(guī)則,有利于網(wǎng)站結(jié)構(gòu)的調(diào)整。

四、結(jié)束語

隨著Internet的發(fā)展,網(wǎng)絡(luò)資源更加豐富, 數(shù)據(jù)挖掘在提高web用戶網(wǎng)絡(luò)訪問速度上的研究已經(jīng)成為一項重要的研究課題。Web日志數(shù)據(jù)預(yù)處理是Web日志挖掘的一個重要前提和基礎(chǔ),高效正確的預(yù)處理方法直接影響著挖掘的成敗;而成功應(yīng)用挖掘算法則大大提高規(guī)則的利用率,可以很好的用于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的改善。

參考文獻:

[1]易芝,汪林林,王練.基于關(guān)聯(lián)規(guī)則相關(guān)性分析的Web個性化推薦研究[J].重慶郵電大學(xué)學(xué)報:自然科學(xué)版,2007,19(2)

[2]紀(jì)良浩,王國胤,楊勇.基于協(xié)作過濾的Web日志數(shù)據(jù)預(yù)處理研究[J].重慶郵電學(xué)院學(xué)報:自然科學(xué)版,2006,18(5)

[3]朱秋云.一種關(guān)聯(lián)規(guī)則挖掘篩選算法設(shè)計[J].重慶工學(xué)院學(xué)報:自然科學(xué)版,2008,22(6)

作者簡介

孫文乾(1966.11-),男,廣西鳳山人,研究方向:計算機網(wǎng)絡(luò)技術(shù)

3 期 更 正

1、本刊2010年1月第96頁文章《關(guān)于藥用植物的藥用成份分析》的作者:孫世琦應(yīng)為:孫士琦

好的日志文章范文第4篇

[關(guān)鍵詞]電子商務(wù)數(shù)據(jù)挖掘Web日志挖掘

一、引言

隨著計算機技術(shù)、通信技術(shù)和網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,電子商務(wù)的發(fā)展也有了越來越好的技術(shù)平臺,許多公司都建立了自己的網(wǎng)站,這是公司的門戶和電子商務(wù)進行的所在。Web數(shù)據(jù)挖掘是當(dāng)前最前沿的研究領(lǐng)域,是把Internet和數(shù)據(jù)挖掘結(jié)合起來的一種新興技術(shù)。Web數(shù)據(jù)挖掘是知識發(fā)現(xiàn)的特定步驟,也是最核心的部分。Web日志挖掘是Web挖掘的重要內(nèi)容,其技術(shù)和方法在電子商務(wù)中有著巨大的應(yīng)用空間和應(yīng)用價值。如發(fā)現(xiàn)有價值的信息、尋找潛在客戶和提供個性化服務(wù)等。

二、Web挖掘及Web日志挖掘

Web挖掘是將數(shù)據(jù)挖掘的思想和方法應(yīng)用到Web頁面內(nèi)容、頁面之間的結(jié)構(gòu)、用戶訪問信息等各種Web數(shù)據(jù)中,從中抽取隱含的、以前未知的、具有潛在應(yīng)用價值的信息。根據(jù)挖掘的對象不同,Web挖掘可分為Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘和Web日志挖掘。

1.Web內(nèi)容挖掘

Web內(nèi)容挖掘主要從Web文檔的內(nèi)容中抽取出有用的知識。由于Web文檔的絕大部分內(nèi)容是以文本的形式存在,所以Web內(nèi)容挖掘主要針對的是Web文檔的文本部分,文本挖掘主要包括對Web文檔文本的總結(jié)、分類、聚類、關(guān)聯(lián)分析等。除了文本挖掘以外,Web內(nèi)容挖掘還包括Web上的聲音、圖形、圖像信息的挖掘、數(shù)據(jù)庫中的數(shù)據(jù)挖掘和信息獲取等。

2.Web結(jié)構(gòu)挖掘

Web結(jié)構(gòu)挖掘主要通過Web頁的組織結(jié)構(gòu)和超鏈接關(guān)系以及Web文檔自身的結(jié)構(gòu)信息(如Title,Heading,Anchor標(biāo)記等)推導(dǎo)出Web內(nèi)容以外的知識,可分為超鏈挖掘、內(nèi)部結(jié)構(gòu)挖掘和URL挖掘。

3.Web日志挖掘

Web日志挖掘即Web使用記錄挖掘,是從用戶的訪問記錄中抽取具有意義的模式。其數(shù)據(jù)源有服務(wù)器的日志、用戶注冊數(shù)據(jù)、跟蹤文件的數(shù)據(jù)記錄、用戶訪問期間的事務(wù)、用戶查詢、書簽數(shù)據(jù)和鼠標(biāo)移動點擊的信息。Web日志記錄挖掘應(yīng)用的技術(shù)主要有路徑分析、關(guān)聯(lián)規(guī)則分析、序列模式分析、聚類分析、統(tǒng)計分析等。Web使用記錄挖掘可以發(fā)現(xiàn)潛在的用戶、改進電子商務(wù)網(wǎng)站的建設(shè)、增加個性化服務(wù)等。

三、Web日志挖掘的步驟

Web日志挖掘步驟主要分為源數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、模式發(fā)現(xiàn)、模式分析4個階段。

1.源數(shù)據(jù)收集

源數(shù)據(jù)收集主要是Web日志文件的收集。對于一個電子商務(wù)網(wǎng)站來說,經(jīng)過一段時間后,用戶會在網(wǎng)站上積累大量有用的信息(如訪問日志、注冊信息、需求信息、定單信息、交流信息等),采用Web日志挖掘技術(shù)就可以充分利用這些有用信息,幫助電子商務(wù)網(wǎng)站的建設(shè)和發(fā)展。

Web日志文件主要包括以下3種類型:服務(wù)器日志文件、錯誤日志文件和Cookies。

2.數(shù)據(jù)預(yù)處理

Web日志挖掘首先要對日志中的原始數(shù)據(jù)進行預(yù)處理,因為從用戶的訪問日志中得到的原始日志記錄并不適于挖掘,必須進行適當(dāng)?shù)奶幚怼R虼耍枰ㄟ^日志清理,去除無用的記錄。預(yù)處理過程是保證Web日志挖掘質(zhì)量的關(guān)鍵步驟,下面我們來闡述數(shù)據(jù)預(yù)處理的過程。

(1)數(shù)據(jù)凈化。指刪除Web服務(wù)器日志中與挖掘算法無關(guān)的數(shù)據(jù)。大多數(shù)情況,只有日志中HTML文件與用戶會話相關(guān),所以通過檢查URL的后綴刪除認(rèn)為不相關(guān)的數(shù)據(jù)。

(2)識別用戶。由于本地緩存、服務(wù)器和防火墻的存在,使得識別用戶的任務(wù)變得很復(fù)雜,可以使用一些啟發(fā)式規(guī)則幫助識別用戶。

(3)識別用戶會話。用戶會話是指用戶對服務(wù)器的一次有效訪問,通過其連續(xù)請求的頁面,我們可以獲得他在網(wǎng)站中的訪問行為和瀏覽興趣。

(4)識別片段。在識別用戶會話過程中的另一個問題是確定訪問日志中是否有重要的請求沒有被記錄。如果當(dāng)前請求頁與用戶上一次請求頁之間沒有超文本鏈接,那么用戶很可能使用了瀏覽器上的“BACK”按鈕調(diào)用緩存在本機中的頁面。檢查引用日志確定當(dāng)前請求來自哪一頁,如果在用戶的歷史訪問記錄上有多個頁面都包含與當(dāng)前請求頁的鏈接,則將請求時間最接近當(dāng)前請求頁的頁面作為當(dāng)前請求的來源。

3.模式發(fā)現(xiàn)

模式發(fā)現(xiàn)是運用各種算法和技術(shù)對預(yù)處理后的數(shù)據(jù)進行挖掘,生成模式。這些技術(shù)包括人工智能、數(shù)據(jù)挖掘、統(tǒng)計理論、信息論等多領(lǐng)域的成熟技術(shù)。可以運用數(shù)據(jù)挖掘中的常用技術(shù)如路徑分析,關(guān)聯(lián)規(guī)則、序列模式以及分類聚類等。

(1)路徑分析。它可以被用于判定在一個站點中最頻繁訪問的路徑,還有一些其它的有關(guān)路徑的信息通過路徑分析可以得出。利用這些信息就可以改進站點的設(shè)計結(jié)構(gòu)。

(2)關(guān)聯(lián)規(guī)則。使用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)方法,可以從Web的訪問事務(wù)中找到相關(guān)性。利用這些相關(guān)性,可以更好的組織站點的Web空間。

(3)序列模式。在時間戳有序的事務(wù)集中,序列模式的發(fā)現(xiàn)就是指那些如“一些項跟隨另一個項”這樣的內(nèi)部事務(wù)模式。發(fā)現(xiàn)序列模式,能夠便于預(yù)測讀者的訪問模式,開展有針對性的服務(wù)。

(4)分類和聚類。發(fā)現(xiàn)分類規(guī)則可以給出識別一個特殊群體的公共屬性的描述,這種描述可以用于分類的讀者。聚類分析可以從Web訪問信息數(shù)據(jù)中聚類出具有相似特性的讀者,在Web事務(wù)日志中,聚類讀者信息或數(shù)據(jù)項能夠便于開發(fā)和設(shè)計未來的服務(wù)模式和服務(wù)群體。

4.模式分析

該階段實現(xiàn)對用戶訪問模式的分析,基本作用是排除模式發(fā)現(xiàn)中沒有價值的規(guī)則模式,從而將有價值的模式提取出來。

四、Web日志挖掘在電子商務(wù)網(wǎng)站中的應(yīng)用

1.電子商務(wù)網(wǎng)站中Web日志挖掘內(nèi)容

(1)網(wǎng)站的概要統(tǒng)計。網(wǎng)站的概要統(tǒng)計包括分析覆蓋的時間、總的頁面數(shù)、訪問數(shù)、會話數(shù)、惟一訪問者、以及平均訪問、最高訪問、上周訪問、昨日訪問等結(jié)果集。

(2)內(nèi)容訪問分析。內(nèi)容訪問分析包括最多及最少被訪問的頁面、最多訪問路徑、最多訪問的新聞、最高訪問的時間等。

(3)客戶信息分析。客戶信息分析包括訪問者的來源省份統(tǒng)計、訪問者使用的瀏覽器及操作系統(tǒng)分析、訪問來自的頁面或者網(wǎng)站、來自的IP地址以及訪問者使用的搜索引擎。

(4)訪問者活動周期行為分析。訪問者活動周期行為分析包括一周7天的訪問行為、一天24小時的訪問行為、每周的最多的訪問日、每天的最多訪問時段等。

(5)主要訪問錯誤分析。主要訪問錯誤分析包括服務(wù)端錯誤、頁面找不到錯誤等。

(6)網(wǎng)站欄目分析。網(wǎng)站欄目分析包括定制的頻道和欄目設(shè)定,統(tǒng)計出各個欄目的訪問情況,并進行分析。

(7)商務(wù)網(wǎng)站擴展分析。商務(wù)網(wǎng)站擴展分析是專門針對專題或多媒體文件或下載等內(nèi)容的訪問分析。

2.Web日志挖掘工具

已經(jīng)有部分公司開發(fā)出了商用的網(wǎng)站用戶訪問分析系統(tǒng),如WebTrends公司的CommerceTrends3.0,它能夠讓電子商務(wù)網(wǎng)站更好地理解其網(wǎng)站訪問者的行為,幫助網(wǎng)站采取一些行動來將這些訪問者變?yōu)轭櫩汀ommerceTrends主要由3部分組成:ReportGenerationServer、CampainAnalyzer和WebhouseBuilder。

還有Accrue公司的AccrueInsight,它是一個綜合性的Web分析工具,它能夠?qū)W(wǎng)站的運行狀況有個深入、細(xì)致和準(zhǔn)確的分析,通過分析顧客的行為模式,幫助網(wǎng)站采取措施來提高顧客對于網(wǎng)站的忠誠度,從而建立長期的顧客關(guān)系。

好的日志文章范文第5篇

關(guān)鍵詞:Web日志挖掘;信息無障礙;網(wǎng)站設(shè)計

中圖分類號:TP393文獻標(biāo)識碼:A文章編號:1009-3044(2011)14-3261-02

The Research of the Accessibility Website Design Based on Web Log Mining

TANG Heng-yao, ZHAN Xiao-yan

(Mathematics and Computer Science College of Huanggang Normal University, Huanggang 438000, China)

Abstract: On the problems existing in the realization of current accessibility Website, we design a Web designing architecture, using the Web log mining technique to extract user interests and access priority sequence and adopting the dynamic Web page information to fill the Web page commonly used structure, realize the intelligent, personalized accessibility.

Key words: Web log mining; information accessibility; Website design

隨著信息技術(shù)和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,互聯(lián)網(wǎng)給現(xiàn)代人們獲取信息帶來極大的便利,成為人們工作生活中非常重要的組成部分。信息無障礙即萬維網(wǎng)對任何人士(包括殘障人士)都是可訪問、可用的,殘障人士能感覺、理解和操縱Web,與Web 互動。如何借助先進的技術(shù),消除數(shù)字鴻溝,為殘疾人提供有效的輔助手段,使他們能和健全人一樣無障礙地獲取網(wǎng)上信息,得到世界各國政府和組織越來越多的重視。

1 信息無障礙網(wǎng)站存在的問題

很多部分實現(xiàn)了信息無障礙的網(wǎng)站,用戶每次訪問時,網(wǎng)站語音都得從頭到尾的播報網(wǎng)站內(nèi)容,對于該用戶曾經(jīng)訪問過本網(wǎng)站中部分頁面內(nèi)容,系統(tǒng)不能自動過濾掉這些已經(jīng)閱讀的內(nèi)容,或者跳過這些已閱讀信息,而是依然按照布局順序重復(fù)播報。這對于閱讀障礙的用戶來說非常浪費時間和精力。避免重復(fù)瀏覽或者播報網(wǎng)站信息,將用戶曾經(jīng)閱讀過的內(nèi)容過濾掉,將沒有閱讀過的最新的感興趣的網(wǎng)頁內(nèi)容優(yōu)先播報給閱讀障礙用戶,提供智能化、個性化信息服務(wù),是信息無障礙網(wǎng)站設(shè)計應(yīng)該重視的問題。

2 Web日志挖掘

Web日志文件是在Web服務(wù)器上每隔一定的時間產(chǎn)生的記錄文件,其內(nèi)容包括訪問用戶的IP地址,訪問時間、訪問的頁面、頁面的大小、瀏覽器類型、響應(yīng)狀態(tài)等等。Web日志挖掘是對用戶訪問Web時服務(wù)器方留下的訪問記錄進行挖掘,得到用戶的訪問模式和訪問興趣。通過對Web站點的日志記錄進行預(yù)處理,將日志數(shù)據(jù)組織成傳統(tǒng)的數(shù)據(jù)挖掘方法能夠處理的事務(wù)數(shù)據(jù)形式,然后利用傳統(tǒng)的數(shù)據(jù)挖掘方法進行處理。

Web日志預(yù)處理過程:

1) 數(shù)據(jù)收集:從服務(wù)器端數(shù)據(jù)、客戶端數(shù)據(jù)、服務(wù)器端進行。

2) 數(shù)據(jù)凈化:刪除Web日志文件中不是由用戶請求,而是由瀏覽器自動“請求”產(chǎn)生的訪問記錄。具體包括圖片和音頻文件、樣式文件和腳本文件、不是GET的HTTP方法、彈出式廣告的記錄等。

3) 用戶識別:可以通過IP地址和、嵌入SessionID、cookie、軟件等方法實現(xiàn)用戶的識別,但由于本地緩存、公司防火墻和服務(wù)器的存在,要識別出每一個用戶變得很復(fù)雜。可以采用一些啟發(fā)式規(guī)則去識別不同用戶,將IP地址,類型以及引用頁面結(jié)合起來識別一個用戶,也可以通過注冊用戶,依賴用戶的合作是最好的解決辦法。

4) 會話識別:用戶在規(guī)定時間內(nèi)對服務(wù)器的一次有效訪問,通過其連續(xù)請求的頁面,可以獲得其在網(wǎng)站中的訪問行為和瀏覽興趣,有4種識別會話的模型:頁面類型模型(page type model),參引長度模型(reference length model),最大前向參引模型(maximal forword reference model)和時間窗口模型(time window model)。最常采用的是時間窗口模型,以用戶訪問時間作為劃分會話的分界,一般間隔時間取30min。

5) 路徑補充:用戶有時瀏覽的頁面,是從本地緩存和服務(wù)器中調(diào)用的,不會向Web服務(wù)器發(fā)送請求,也就不會記錄日志,而這些請求可能對后續(xù)挖掘的實施有重要作用,缺少這些頁面記錄可能會使挖掘結(jié)果不是很準(zhǔn)確。為了能更精確的挖掘用戶的行為模式,有必要把這些缺失的路徑補充上去即路徑補充。如果當(dāng)前請求的頁與用戶上一次請求的頁之間沒有超文本鏈接,那么用戶很可能使用了瀏覽器上的“BACK"按鈕調(diào)用緩存在本機中的頁面。如果用戶的歷史訪問記錄有多個頁面都包含與當(dāng)前請求頁的鏈接,則將請求時間最接近的Web頁的頁面作為當(dāng)前請求的來源。

3 基于Web日志挖掘的網(wǎng)站設(shè)計

3.1 網(wǎng)站設(shè)計架構(gòu)

網(wǎng)站為每位存在訪問障礙的用戶建立網(wǎng)站訪問記錄數(shù)據(jù)庫,用戶訪問網(wǎng)站頁面,產(chǎn)生Web日志文件,通過對Web站點日志文件進行數(shù)據(jù)凈化、用戶識別、會話識別,將有用數(shù)據(jù)存入事務(wù)數(shù)據(jù)庫,對該用戶訪問過的頁面進行相應(yīng)標(biāo)記,再對事務(wù)數(shù)據(jù)庫進行傳統(tǒng)的數(shù)據(jù)挖掘,分析出該用戶比較感興趣的信息類型,為該用戶對網(wǎng)站所有類型信息構(gòu)造優(yōu)先顯示頁面類型序列表和對每類信息未訪問頁面、已訪問頁面分別構(gòu)造優(yōu)先序列表,當(dāng)該用戶再次訪問網(wǎng)站時利用離線分析所得的優(yōu)先序列表和網(wǎng)站文件映射數(shù)據(jù)庫將網(wǎng)頁鏈接按照用戶興趣高低動態(tài)填充到網(wǎng)站導(dǎo)航框架,這樣用戶最感興趣類型的網(wǎng)頁鏈接總是弄夠最先看到、聽到,從而達到優(yōu)先訪問的目的。

網(wǎng)站設(shè)計框架如圖1。

3.2 網(wǎng)站導(dǎo)航

網(wǎng)站導(dǎo)航是根據(jù)信息無障礙網(wǎng)站結(jié)構(gòu)布局設(shè)計標(biāo)準(zhǔn)所設(shè)計的網(wǎng)站通用布局框架,除了包括信息無障礙要求的導(dǎo)航磚,通用切換等功能,還將頁面設(shè)計成由幾個通用的布局框架模塊組成,每個框架模塊將顯示網(wǎng)站上某一種類型的網(wǎng)頁信息鏈接,具體網(wǎng)頁鏈接內(nèi)容則根據(jù)序列表先后順序動態(tài)填充。網(wǎng)站所包含的信息類型可以有很多,但在網(wǎng)站導(dǎo)航中只列出用戶最感興趣的幾種類型的網(wǎng)頁鏈接,隨著用戶興趣的改變,其他類型的網(wǎng)頁鏈接將動態(tài)的填充到相應(yīng)級別的框架模塊中。

3.3 興趣提取

根據(jù)用戶瀏覽的歷史訪問記錄(內(nèi)容信息和行為信息)、訪問時間和訪問頻率等來分析計算用戶興趣度,用戶的興趣一般集中于某一個主題或者多個主題,系統(tǒng)在通過聚類進行分析將用戶瀏覽的歷史頁面集自動地分成n個聚簇(n是聚類中聚類中心的數(shù)目),每一聚簇的頁面集體現(xiàn)了用戶的某類興趣,構(gòu)造形成用戶的興趣類。再利用用戶的隱式信息學(xué)習(xí)提取用戶興趣集,建立樹狀的用戶興趣模型。

3.4 序列模式

序列模式挖掘是對關(guān)聯(lián)規(guī)則挖掘的進一步推廣,它挖掘出序列數(shù)據(jù)庫中項集之間的時序關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則強調(diào)的是兩個項之間的關(guān)聯(lián),序列模式則加強調(diào)兩者之間的先后次序。這里我們將挖掘出兩種序列表:類型序列表和頁面序列表。類型序列表是通過對歷史訪問記錄進行挖掘統(tǒng)計出來的網(wǎng)站每種類型信息訪問優(yōu)先等級,是一組有序項集對應(yīng)表;頁面序列表則是以類型挖掘權(quán)值和更新時間2個指標(biāo)得出的頁面訪問有序集對應(yīng)表。可以采用基于Apfiori算法的改進算法進行挖掘得到上述兩種序列表。

3.5 序列-頁面映射

根據(jù)挖掘得到的序列模式對網(wǎng)站的靜態(tài)頁面文件進行一一映射,按照興趣高低和文件序列先后動態(tài)的填充如網(wǎng)站導(dǎo)航模塊框架中。

4 結(jié)束語

該文所提出對Web日志文件挖掘提取用戶的興趣類和訪問類型和頁面優(yōu)先序列,重構(gòu)站點頁面之間的鏈接關(guān)系,動態(tài)顯示網(wǎng)頁信息的設(shè)計框架,以適應(yīng)有障礙用戶的訪問興趣習(xí)慣為主要目標(biāo),在一定程度上可以避免反復(fù)無用的頁面瀏覽和語音播報所造成的對存在訪問障礙用戶產(chǎn)生的困擾和時間精力的浪費,提高了訪問效率,為消除信息鴻溝,真正做到信息人人共享發(fā)揮積極的作用。

參考文獻:

[1] 王甜.自助建站系統(tǒng)助陣信息無障礙網(wǎng)站[J].互聯(lián)網(wǎng)天地,2008(4).

[2] 劉曉政.視障網(wǎng)絡(luò)用戶的無障礙網(wǎng)頁瀏覽現(xiàn)狀及前景[J].電腦知識與技術(shù),2008,(35).

主站蜘蛛池模板: 黄浦区| 会宁县| 桃江县| 靖边县| 商洛市| 湘阴县| 西丰县| 纳雍县| 崇明县| 织金县| 夏邑县| 琼中| 嘉祥县| 垫江县| 潮安县| 明光市| 云龙县| 灵璧县| 阿拉善左旗| 宁强县| 扎赉特旗| 青川县| 兴隆县| 胶南市| 香格里拉县| 确山县| 麟游县| 桐城市| 潜江市| 通江县| 同仁县| 深水埗区| 青冈县| 六盘水市| 隆林| 沁源县| 鄂伦春自治旗| 义乌市| 云和县| 五河县| 中牟县|