黄色一级大片视频-黄色一级毛片看一级毛片-黄色一级毛片网站-黄色一级毛片在线观看-免费国产h视频在线观看-免费黄色大片视频

電話咨詢 在線咨詢 產(chǎn)品定制
電話咨詢 在線咨詢 產(chǎn)品定制
010-68321050

從技術(shù)方面分析大數(shù)據(jù)問題

五度易鏈 2018-10-18 1933 78

專屬客服號

微信訂閱號

大數(shù)據(jù)治理

全面提升數(shù)據(jù)價值

賦能業(yè)務提質(zhì)增效

底層是基礎(chǔ)設施,涵蓋計算資源、內(nèi)存與存儲和網(wǎng)絡互聯(lián),具體表現(xiàn)為計算節(jié)點、集群、機柜和數(shù)據(jù)中心。在此之上是數(shù)據(jù)存儲和管理,包括文件系統(tǒng)、數(shù)據(jù)庫和類似YARN的資源管理系統(tǒng)。然后是計算處理層,如hadoop、MapReduce和Spark,以及在此之上的各種不同計算范式,如批處理、流處理和圖計算等,包括衍生出編程模型的計算模型,如BSP、GAS 等。數(shù)據(jù)分析和可視化基于計算處理層。分析包括簡單的查詢分析、流分析以及更復雜的分析(如機器學習、圖計算等)。查詢分析多基于表結(jié)構(gòu)和關(guān)系函數(shù),流分析基于數(shù)據(jù)、事件流以及簡單的統(tǒng)計分析,而復雜分析則基于更復雜的數(shù)據(jù)結(jié)構(gòu)與方法,如圖、矩陣、迭代計算和線性代數(shù)。一般意義的可視化是對分析結(jié)果的展示。但是通過交互式可視化,還可以探索性地提問,使分析獲得新的線索,形成迭代的分析和可視化。基于大規(guī)模數(shù)據(jù)的實時交互可視化分析以及在這個過程中引入自動化的因素是目前研究的熱點。

  

  大數(shù)據(jù)時代已經(jīng)來臨,大數(shù)據(jù)技術(shù)在學業(yè),工業(yè)中的不斷出現(xiàn)也證明了它的重要性,它的技術(shù)包含很多層面,我們需要在各個環(huán)節(jié)認真的研究這項技術(shù)。

       大數(shù)據(jù)關(guān)鍵技術(shù)

  1,大數(shù)據(jù)生命周期

  底層是基礎(chǔ)設施,涵蓋計算資源、內(nèi)存與存儲和網(wǎng)絡互聯(lián),具體表現(xiàn)為計算節(jié)點、集群、機柜和數(shù)據(jù)中心。在此之上是數(shù)據(jù)存儲和管理,包括文件系統(tǒng)、數(shù)據(jù)庫和類似YARN的資源管理系統(tǒng)。然后是計算處理層,如hadoop、MapReduce和Spark,以及在此之上的各種不同計算范式,如批處理、流處理和圖計算等,包括衍生出編程模型的計算模型,如BSP、GAS 等。數(shù)據(jù)分析和可視化基于計算處理層。分析包括簡單的查詢分析、流分析以及更復雜的分析(如機器學習、圖計算等)。查詢分析多基于表結(jié)構(gòu)和關(guān)系函數(shù),流分析基于數(shù)據(jù)、事件流以及簡單的統(tǒng)計分析,而復雜分析則基于更復雜的數(shù)據(jù)結(jié)構(gòu)與方法,如圖、矩陣、迭代計算和線性代數(shù)。一般意義的可視化是對分析結(jié)果的展示。但是通過交互式可視化,還可以探索性地提問,使分析獲得新的線索,形成迭代的分析和可視化。基于大規(guī)模數(shù)據(jù)的實時交互可視化分析以及在這個過程中引入自動化的因素是目前研究的熱點。

  2.大數(shù)據(jù)技術(shù)生態(tài)

  大數(shù)據(jù)的基本處理流程與傳統(tǒng)數(shù)據(jù)處理流程并無太大差異,主要區(qū)別在于:由于大數(shù)據(jù)要處理大量、非結(jié)構(gòu)化的數(shù)據(jù),所以在各處理環(huán)節(jié)中都可以采用并行處理。目前,Hadoop、MapReduce和Spark等分布式處理方式已經(jīng)成為大數(shù)據(jù)處理各環(huán)節(jié)的通用處理方法。

  低成本、高可靠、高擴展、高有效、高容錯等特性讓Hadoop成為最流行的大數(shù)據(jù)分析系統(tǒng),然而其賴以生存的HDFS 和MapReduce 組件卻讓其一度陷入困境——批處理的工作方式讓其只適用于離線數(shù)據(jù)處理,在要求實時性的場景下毫無用武之地。因此,各種基于Hadoop的工具應運而生。為了減少管理成本,提升資源的利用率,有當下眾多的資源統(tǒng)一管理調(diào)度系統(tǒng),例如Twitter 的Apache Mesos、Apache 的YARN、Google 的Borg、騰訊搜搜的Torca、Facebook Corona(開源)等。

  3.大數(shù)據(jù)采集與預處理

  在大數(shù)據(jù)的生命周期中,數(shù)據(jù)采集處于第一個環(huán)節(jié)。根據(jù)MapReduce產(chǎn)生數(shù)據(jù)的應用系統(tǒng)分類,大數(shù)據(jù)的采集主要有4種來源:管理信息系統(tǒng)、Web信息系統(tǒng)、物理信息系統(tǒng)、科學實驗系統(tǒng)。對于不同的數(shù)據(jù)集,可能存在不同的結(jié)構(gòu)和模式,如文件、XML 樹、關(guān)系表等,表現(xiàn)為數(shù)據(jù)的異構(gòu)性。對多個異構(gòu)的數(shù)據(jù)集,需要做進一步集成處理或整合處理,將來自不同數(shù)據(jù)集的數(shù)據(jù)收集、整理、清洗、轉(zhuǎn)換后,生成到一個新的數(shù)據(jù)集,為后續(xù)查詢和分析處理提供統(tǒng)一的數(shù)據(jù)視圖。針對管理信息系統(tǒng)中異構(gòu)數(shù)據(jù)庫集成技術(shù)、Web 信息系統(tǒng)中的實體識別技術(shù)和DeepWeb集成技術(shù)、傳感器網(wǎng)絡數(shù)據(jù)融合技術(shù)已經(jīng)有很多研究工作,取得了較大的進展,已經(jīng)推出了多種數(shù)據(jù)清洗和質(zhì)量控制工具,例如,美國SAS公司的Data Flux、美國IBM 公司的Data Stage、美國Informatica 公司的Informatica Power Center。

  4.大數(shù)據(jù)存儲與管理

  傳統(tǒng)的數(shù)據(jù)存儲和管理以結(jié)構(gòu)化數(shù)據(jù)為主,因此關(guān)系數(shù)據(jù)庫系統(tǒng)(RDBMS)可以一統(tǒng)天下滿足各類應用需求。大數(shù)據(jù)往往是半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)為主,結(jié)構(gòu)化數(shù)據(jù)為輔,而且各種大數(shù)據(jù)應用通常是對不同類型的數(shù)據(jù)內(nèi)容檢索、交叉比對、深度挖掘與綜合分析。面對這類應用需求,傳統(tǒng)數(shù)據(jù)庫無論在技術(shù)上還是功能上都難以為繼。因此,近幾年出現(xiàn)了oldSQL、NoSQL 與NewSQL 并存的局面。總體上,按數(shù)據(jù)類型的不同,大數(shù)據(jù)的存儲和管理采用不同的技術(shù)路線,大致可以分為3類。第1類主要面對的是大規(guī)模的結(jié)構(gòu)化數(shù)據(jù)。針對這類大數(shù)據(jù),通常采用新型數(shù)據(jù)庫集群。它們通過列存儲或行列混合存儲以及粗粒度索引等技術(shù),結(jié)合MPP(Massive Parallel Processing)架構(gòu)高效的分布式計算模式,實現(xiàn)對PB 量級數(shù)據(jù)的存儲和管理。這類集群具有高性能和高擴展性特點,在企業(yè)分析類應用領(lǐng)域已獲得廣泛應用;第2類主要面對的是半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。應對這類應用場景,基于Hadoop開源體系的系統(tǒng)平臺更為擅長。它們通過對Hadoop生態(tài)體系的技術(shù)擴展和封裝,實現(xiàn)對半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的存儲和管理;第3類面對的是結(jié)構(gòu)化和非結(jié)構(gòu)化混合的大數(shù)據(jù),因此采用MPP 并行數(shù)據(jù)庫集群與Hadoop 集群的混合來實現(xiàn)對百PB 量級、EB量級數(shù)據(jù)的存儲和管理。一方面,用MPP 來管理計算高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù),提供強大的SQL和OLTP型服務;另一方面,用Hadoop實現(xiàn)對半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的處理,以支持諸如內(nèi)容檢索、深度挖掘與綜合分析等新型應用。這類混合模式將是大數(shù)據(jù)存儲和管理未來發(fā)展的趨勢。

  5.大數(shù)據(jù)計算模式與系統(tǒng)

  所謂大數(shù)據(jù)計算模式,即根據(jù)大數(shù)據(jù)的不同數(shù)據(jù)特征和計算特征,從多樣性的大數(shù)據(jù)計算問題和需求中提煉并建立的各種高層抽象(abstraction)或模型(model)。例如,MapReduce 是一個并行計算抽象,加州大學伯克利分校著名的Spark系統(tǒng)中的“分布內(nèi)存抽象RDD”,CMU 著名的圖計算系統(tǒng)GraphLab 中的“圖并行抽象”(Graph Parallel Abstraction)等。傳統(tǒng)的并行計算方法,主要從體系結(jié)構(gòu)和編程語言的層面定義了一些較為底層的并行計算抽象和模型,但由于大數(shù)據(jù)處理問題具有很多高層的數(shù)據(jù)特征和計算特征,因此大數(shù)據(jù)處理需要更多地結(jié)合這些高層特征考慮更為高層的計算模式。

  6.大數(shù)據(jù)分析與可視化

  基于機器學習的大數(shù)據(jù)分析具有自己獨特的特點。

  (1)迭代性:由于用于優(yōu)化問題通常沒有閉式解,因而對模型參數(shù)確定并非一次能夠完成,需要循環(huán)迭代多次逐步逼近最優(yōu)值點。

  (2)容錯性:機器學習的算法設計和模型評價容忍非最優(yōu)值點的存在,同時多次迭代的特性也允許在循環(huán)的過程中產(chǎn)生一些錯誤,模型的最終收斂不受影響。

  (3)參數(shù)收斂的非均勻性:模型中一些參數(shù)經(jīng)過少數(shù)幾輪迭代后便不再改變,而有些參數(shù)則需要很長時間才能達到收斂。

  大數(shù)據(jù)技術(shù)面臨的問題

  1,如何利用信息技術(shù)等手段處理非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)

  大數(shù)據(jù)中,結(jié)構(gòu)化數(shù)據(jù)只占 15%左右,其余的 85%都是非結(jié)構(gòu)化的數(shù)據(jù),它們大量存在于社交網(wǎng)絡、互聯(lián)網(wǎng)和電子商務等領(lǐng)域。另一方面,也許有 90%的數(shù)據(jù)來自開源數(shù)據(jù),其余的被存儲在數(shù)據(jù)庫中。大數(shù)據(jù)的不確定性表現(xiàn)在高維、多變和強隨機性等方面。股票交易數(shù)據(jù)流是不確定性大數(shù)據(jù)的一個典型例子。大數(shù)據(jù)刺激了大量研究問題。非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的個體表現(xiàn)、一般性特征和基本原理尚不清晰,這些都需要通過包括數(shù)學、經(jīng)濟學、社會學、計算機科學和管理科學在內(nèi)的多學科交叉來研究和討論。給定一種半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù),比如圖像,如何把它轉(zhuǎn)化成多維數(shù)據(jù)表、面向?qū)ο蟮臄?shù)據(jù)模型或者直接基于圖像的數(shù)據(jù)模型?值得注意的是,大數(shù)據(jù)每一種表示形式都僅呈現(xiàn)數(shù)據(jù)本身的側(cè)面表現(xiàn),并非全貌。

  如果把通過數(shù)據(jù)挖掘提取 “粗糙知識” 的過程稱為 “一次挖掘” 過程,那么將粗糙知識與被量化后主觀知識,包括具體的經(jīng)驗、常識、本能、情境知識和用戶偏好,相結(jié)合而產(chǎn)生“智能知識”過程就叫做“二次挖掘”。從“一次挖掘”到“二次挖掘”類似事物“量”到“質(zhì)” 的飛躍。

  2,如何探索大數(shù)據(jù)復雜性、不確定性特征描述的刻畫方法及大數(shù)據(jù)的系統(tǒng)建模

  這一問題的突破是實現(xiàn)大數(shù)據(jù)知識發(fā)現(xiàn)的前提和關(guān)鍵。從長遠角度來看,依照大數(shù)據(jù)的個體復雜性和隨機性所帶來的挑戰(zhàn)將促使大數(shù)據(jù)數(shù)學結(jié)構(gòu)的形成,從而導致大數(shù)據(jù)統(tǒng)一理論的完備。從短期而言,學術(shù)界鼓勵發(fā)展一種一般性的結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)之間的轉(zhuǎn)化原則,以支持大數(shù)據(jù)的交叉工業(yè)應用。管理科學,尤其是基于最優(yōu)化的理論將在發(fā)展大數(shù)據(jù)知識發(fā)現(xiàn)的一般性方法和規(guī)律性中發(fā)揮重要的作用。

  大數(shù)據(jù)的復雜形式導致許多對 “粗糙知識” 的度量和評估相關(guān)的研究問題。已知的最優(yōu)化、數(shù)據(jù)包絡分析、期望理論、管理科學中的效用理論可以被應用到研究如何將主觀知識融合到數(shù)據(jù)挖掘產(chǎn)生的粗糙知識的 “二次挖掘” 過程中。這里人機交互將起到至關(guān)重要的作用。

  3,數(shù)據(jù)異構(gòu)性與決策異構(gòu)性的關(guān)系對大數(shù)據(jù)知識發(fā)現(xiàn)與管理決策的影響

  在大數(shù)據(jù)環(huán)境下,管理決策面臨著兩個 “異構(gòu)性” 問題:“數(shù)據(jù)異構(gòu)性” 和 “決策異構(gòu)性”。傳統(tǒng)的管理決定模式取決于對業(yè)務知識的學習和日益積累的實踐經(jīng)驗,而管理決策又是以數(shù)據(jù)分析為基礎(chǔ)的。

  大數(shù)據(jù)已經(jīng)改變了傳統(tǒng)的管理決策結(jié)構(gòu)的模式。研究大數(shù)據(jù)對管理決策結(jié)構(gòu)的影響會成為一個公開的科研問題。除此之外,決策結(jié)構(gòu)的變化要求人們?nèi)ヌ接懭绾螢橹С指邔哟蔚臎Q策而去做 “二次挖掘”。無論大數(shù)據(jù)帶來了哪種數(shù)據(jù)異構(gòu)性,大數(shù)據(jù)中的 “粗糙知識” 仍可被看作 “一次挖掘” 的范疇。通過尋找 “二次挖掘” 產(chǎn)生的 “智能知識” 來作為數(shù)據(jù)異構(gòu)性和決策異構(gòu)性之間的橋梁是十分必要的。探索大數(shù)據(jù)環(huán)境下決策結(jié)構(gòu)是如何被改變的,相當于研究如何將決策者的主觀知識參與到?jīng)Q策的過程中。

  大數(shù)據(jù)的數(shù)據(jù)分析其實也是對我們的生活環(huán)境和習慣的分析,憑借大數(shù)據(jù)分析這種手段,為人們提供更合適的產(chǎn)品服務或發(fā)展方向,也是大數(shù)據(jù)的實用意義。


本文由五度數(shù)科整理,轉(zhuǎn)載請標明出處,違者必究!

產(chǎn)業(yè)專題

申請產(chǎn)品定制

請完善以下信息,我們的顧問會在1個工作日內(nèi)與您聯(lián)系,為您安排產(chǎn)品定制服務

  • *姓名

  • *手機號

  • *驗證碼

    獲取驗證碼
    獲取驗證碼
  • *您的郵箱

  • *政府/園區(qū)/機構(gòu)/企業(yè)名稱

  • 您的職務

  • 備注