1000部丰满熟女富婆视频,托着奶头喂男人吃奶,厨房挺进朋友人妻,成 人 免费 黄 色 网站无毒下载

首頁 > 文章中心 > 正文

分布式數(shù)據(jù)流系統(tǒng)解析

前言:本站為你精心整理了分布式數(shù)據(jù)流系統(tǒng)解析范文,希望能為你的創(chuàng)作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。

分布式數(shù)據(jù)流系統(tǒng)解析

摘要:分析了基于結(jié)構(gòu)化覆蓋網(wǎng)的分布式查詢處理模型,支持大量數(shù)據(jù)流的分布式存儲,連續(xù)查詢間、查詢內(nèi)的并行處理操作,能夠在很大程度上消除資源約束問題(主要是內(nèi)存),提高了查詢性能、服務(wù)質(zhì)量,并且該查詢模型具有很好的擴展性。

關(guān)鍵詞:分布式數(shù)據(jù)流,分布式數(shù)據(jù)流系統(tǒng)

近年來,數(shù)據(jù)流查詢處理是數(shù)據(jù)庫研究領(lǐng)域的一個熱點方向。數(shù)據(jù)流的特征可概括為無限性、瞬時性、流速不定性、語義不定性(數(shù)據(jù)模式隨時可能改變)等。針對數(shù)據(jù)流的以上特征,不考慮將數(shù)據(jù)流存儲在傳統(tǒng)的關(guān)系數(shù)據(jù)庫中,數(shù)據(jù)流上的查詢是近似查詢、連續(xù)查詢(continuousquery)。目前,數(shù)據(jù)流管理系統(tǒng)中所采用的近似查詢的方法主要有以下幾種:隨機抽樣(randomsampling)、數(shù)據(jù)寫生(sketching)、直方圖(histograms)、小波變換(wavelets)、窗口(windows)等。如何保證查詢的服務(wù)質(zhì)量成為上述各種近似查詢方法必須考慮的問題。數(shù)據(jù)流上的查詢處理給人們提出了一個很大的難題——對處理器、內(nèi)存等系統(tǒng)資源非常苛刻的需求。到目前已經(jīng)出現(xiàn)了許多數(shù)據(jù)流的原型系統(tǒng):單節(jié)點(單CPU)上的數(shù)據(jù)流管理系統(tǒng),如Stanford大學的Stream[1]系統(tǒng)、布朗大學的Aurora[2,3]系統(tǒng)等;有分布式數(shù)據(jù)流處理系統(tǒng),如MIT的Medusa[4,5]項目,Brandeis、Brown、MIT的合作項目Borealis[6,7]等。這些項目在數(shù)據(jù)流處理的查詢語言、近似查詢算法、保證服務(wù)質(zhì)量的策略,以及系統(tǒng)的負載均衡等方面做了大量的工作,但同時也揭示出在分布式數(shù)據(jù)流處理系統(tǒng)中更多值得研究的問題。本文將對基于structuredoverlaynetwork的分布式數(shù)據(jù)流系統(tǒng)的近似、自適應(yīng)查詢處理進行研究,給出查詢處理模型。

1集中式數(shù)據(jù)流查詢處理及分布式散列表、Chord路由協(xié)議的相關(guān)說明

1.1數(shù)據(jù)流查詢處理相關(guān)的概念定義以及假設(shè)說明

集中式數(shù)據(jù)流查詢處理的體系結(jié)構(gòu)由兩部分構(gòu)成,即查詢計劃生成子系統(tǒng)(FRONT-end)以及查詢執(zhí)行子系統(tǒng)(BACK)。其中兩部分與關(guān)系數(shù)據(jù)庫系統(tǒng)相比均有較大的區(qū)別。查詢執(zhí)行子系統(tǒng)如圖1所示。

通過這種散列,將系統(tǒng)當前的所有查詢映射到節(jié)點空間,然后由該節(jié)點上的查詢處理器完成到達的查詢。

b)查詢內(nèi)并行處理方式。在系統(tǒng)的范圍內(nèi),由操作符、輸入均輸出記錄隊列、維持操作符狀態(tài)的大綱信息構(gòu)成網(wǎng)狀結(jié)構(gòu)。

c)命名發(fā)現(xiàn)機制。參與查詢處理的節(jié)點有全局惟一命名participant(如IP地址等)。當在一個節(jié)點上面定義一個新的流模式、數(shù)據(jù)流、操作符,這些實體均隸屬于其命名空間。該實體可以采用下面的命名方式:(participant,entity-name)。為了了解系統(tǒng)中數(shù)據(jù)流模式的定義、系統(tǒng)中的數(shù)據(jù)流、數(shù)據(jù)流的到達(存放)位置、系統(tǒng)中哪一部分查詢執(zhí)行,就要考慮在catalog中存放必要的數(shù)據(jù)。其中catalog信息是通過在DHT下分布式存儲的,前面已經(jīng)分析了catalog信息的存儲問題。

系統(tǒng)中對每一個數(shù)據(jù)流、每一個查詢、查詢中的算子、算子大綱、節(jié)點間輸出隊列均有惟一的命名。查詢處理器位于DHT之上。同查詢相關(guān)的數(shù)據(jù)粒度限定為數(shù)據(jù)流、輸入數(shù)據(jù)源(記錄集)、節(jié)點間傳輸數(shù)據(jù)隊列、算子大綱,而不是針對單個記錄而言。對于這些粒度的數(shù)據(jù)可以通過在DHT中通過put(namespace,object)、get(namespace)、multicast(namespace)消息得到。

對于操作符(算子)在節(jié)點間遷移的情況,可以提供遠程算子定義接口。當節(jié)點A上查詢執(zhí)行的下一步j(luò)oin操作要求節(jié)點B的查詢執(zhí)行器完成時,節(jié)點B接收到遠程調(diào)用請求,初始化join算子,將節(jié)點A上發(fā)出調(diào)用請求算子的狀態(tài)信息(大綱,synopsis)作為參數(shù)傳遞給B,然后就可以在節(jié)點B上進行join算子運算。查詢內(nèi)并行就是有若干這樣的節(jié)點間的算子遷移,使一個查詢計劃得以在多節(jié)點的算子之間并行執(zhí)行。

對于基于滑動窗口的數(shù)據(jù)流處理的join操作,如果有兩個數(shù)據(jù)流,查詢處理基于時間的窗口,進行join操作的兩個數(shù)據(jù)流時間范圍較長,那么要求在一個節(jié)點上維護操作符的狀態(tài)信息將會變得非常困難,join算子狀態(tài)信息存儲要求的內(nèi)存空間可能非常大,則會進行操作符分割操作。在該節(jié)點的近鄰節(jié)點上同時進行join操作,最終將各個節(jié)點上的狀態(tài)信息進行合并操作即可。算子遷移、算子合并、算子分割等操作在基于DHT的系統(tǒng)上實現(xiàn)具有良好的擴展性。DHT層為數(shù)據(jù)流處理系統(tǒng)在荷載大的情況下進行負載脫落、查詢計劃間并行、查詢計劃內(nèi)并行提供了可以隨意擴展的基礎(chǔ)平臺。

3結(jié)束語

本文給出了基于structuredoverlaynetwork的分布式數(shù)據(jù)流查詢處理模型,考慮了對于到達系統(tǒng)的大量數(shù)據(jù)流的分片存放策略;同時在查詢處理中對查詢內(nèi)的并行、查詢間的并行、算子在分布式節(jié)點的遷移等提供了很好的支持。對系統(tǒng)catalog目錄信息的分布式存放維護,從而消除了單節(jié)點查詢處理引擎在資源(CPU、內(nèi)存)上的約束。本文沒有考慮分布式查詢模型在網(wǎng)絡(luò)帶寬資源方面的問題,這將是以后要完善的地方。基于結(jié)構(gòu)化覆蓋網(wǎng)的分布式數(shù)據(jù)流查詢模型提高了系統(tǒng)性能、查詢服務(wù)質(zhì)量,并且基于Chord實現(xiàn),具有很好的擴展性。

參考文獻:

[1]BRIANB,SHIVNATHB,JENNIFERW.Modelsandissuesindatastreamsystems[C]//Procofthe21stACMSymposiumonPrinciplesofDatabaseSystems,2002.

[2]BALAKRISHNANH,BALAZINSKAM,CARNEYD,etal.RetrospectiveonAurora[J].VLDBJournal,2004,13(4):370-383.

[3]ABADID,CARNEYD,STONEBRAKERM,etal.Aurora:anewmodelandarchitecturefordatastreammanagement[J].VLDBJournal,2003,12(2):120-139.

[4]ZDONIKS,STONEBRAKERM,CHERNIACKM,etal.TheAuroraandMedusaProjects[J].IEEEDataEngineeringBulletin,2003,26(1):3-10.

[5]CHERNIACKM,BALAKRISHNANH,BALAZINSKAM,etal.Scalabledistributedstreamprocessing[C]//Procofthe1stBiennialConferenceonInnovativeDataSystemsResearch.Asilomar,California:[s.n.],2003.

[6]ABADIDJ,AHMADY,BALAZINSKAM,etal.ThedesignoftheBorealisstreamprocessingengine[C]//Procofthe2ndBiennialConferenceonInnovativeDataSystemsResearch(CIDR’05).Asilomar:[s.n.],2005.

[7]TATBULN,ZDONIKS.Dealingwithoverloadindistributedstreamprocessingsystems[C]//ProcofIEEEInternationalWorkshoponNetworkingMeetsDatabases(NetDB’06).Atlanta:[s.n.],2006.

[8]Distributedhashtableslinks[EB/OL].

[9]DABEKF,STOICAI,BALAKRISHNANH,etal.Buildingpeer-to-peersystemswithChord,adistributedlookupservice[C]//Procofthe8thWorkshoponHotTopicsinOperatingSystems(HotOS-VIII).2001.

[10]STOICALI,MORRISR,BALAKRISHNANH,etal.Chord:asca-lablepeer-to-peerlookup

主站蜘蛛池模板: 芦溪县| 如东县| 米林县| 大田县| 唐河县| 略阳县| 登封市| 青海省| 保定市| 布拖县| 绵阳市| 岱山县| 和林格尔县| 合川市| 巴林右旗| 庄浪县| 建瓯市| 广元市| 华阴市| 锡林浩特市| 玉门市| 临泽县| 曲沃县| 德惠市| 南城县| 彭山县| 贞丰县| 察隅县| 宜宾市| 吉首市| 临桂县| 拉萨市| 山阳县| 工布江达县| 甘谷县| 高要市| 乡城县| 怀化市| 鄄城县| 永康市| 抚顺市|