時間:2022-12-17 12:44:36
引言:易發表網憑借豐富的文秘實踐,為您精心挑選了九篇大數據技術范例。如需獲取更多原創內容,可隨時聯系我們的客服老師。
關鍵詞: 大數據; 4V特征; Hadoop; 云計算
中圖分類號:TP391 文獻標志碼:A 文章編號:1006-8228(2015)01-13-02
Overview on big data technology
Yang Jing
(Department of Computer Science, Yunyang Teachers' College, Shiyan, Hubei 442000, China)
Abstract: Big data is a new technical wave after the network of things and cloud computing. To understand big data technology, the definition and 4V characteristics, the key technologies and main application fields are systematically analyzed in the paper. Through the introduction of the basic conception, characteristics, the main application fields with typical cases are summarized. The core technologies, key strategies of cloud computing, hadoop and data backup are analyzed. The potential information safety risks are pointed out. The countermeasures are given to provide some suggestions and references for wider application and study in the future.
Key words: big data; 4V characteristics; Hadoop; cloud computing
0 引言
物聯網、云計算等新興技術的迅速發展開啟了大數據時代的帷幕。大數據技術是指從各種各樣的海量數據中,快速獲取有價值信息的技術,大數據的核心問題就是大數據技術。目前所說的“大數據”不僅指數據本身的規模大,還包括采集數據的工具、平臺和數據分析系統復雜程度大。大數據的研發目的是發展大數據技術并將其應用到相關領域,解決實際生產、生活中的各種問題,從而推動信息技術健康地可持續發展。
1 大數據的定義及主要特征
與其他新興學科一樣,目前大數據沒有一個統一的標準和定義。一般認為:大數據是由大量異構數據組成的數據集合,可以應用合理的數學算法或工具從中找出有價值的信息,并為人們帶來經濟及社會效益的一門新興學科。大數據又被稱為海量數據、大資料、巨量數據等,指的是所涉及的數據量規模巨大,以至于無法在合理時間內通過人工攫取、管理、處理并整理成為人類所能解讀的信息。這些數據來自方方面面,比如社交網絡、傳感器采集、安防監控視頻、購物交易記錄等。盡管尚無統一定義,但這些無比龐大的數據被稱為大數據。大數據具有如下4V特性[1]:
⑴ 體量Volume,是指數據存儲量大,計算量大;
⑵ 多樣Variety,是指大數據的異構和多樣性,比如數據來源豐富,數據格式包括多種不同形式,如網絡日志、音頻、視頻、圖片、地理位置信息等等;
⑶ 價值Value,是指大數據價值密度相對較低,信息海量,但是要挖掘出真正有價值的數據難度較大,浪里淘沙卻又彌足珍貴;
⑷ 速度Velocity,是指數據增長速度快,處理速度要求快。
2 大數據技術的應用領域
通過對海量數據進行采集、分析與處理,挖掘出潛藏在數據海洋里的稀疏但卻彌足珍貴的信息,大數據技術正在對經濟建設、醫療教育、科學研究等領域產生著革命性的影響,其所帶來的巨大使用價值正逐漸被各行各業的人們所感知。
2.1 金融領域
大數據的火熱應用突出體現在金融業,各大互聯網企業(谷歌、阿里巴巴等)紛紛掘金大數據,開創了新的互聯網金融模式。目前阿里巴巴的互聯網金融做得如火如荼:基金、小額信貸、余額寶和理財保險產品等等,阿里巴巴之所以能夠做火金融服務,其主要原因就在于阿里的大數據,阿里巴巴的電商平臺存儲了大量微小企業客戶及數以億計的個人用戶行為信息、交易記錄、身份數據等,擁有最好、最全的數據以及最完整的產業鏈,做P2P及個人小額信貸,具有最大優勢[2]。相反,傳統商業銀行早期就已推出的小額信貸業務,開展得并不十分順利。
2.2 市場營銷
今天的數字化營銷與傳統市場營銷最大的區別就在于精準定位及個性化。如今企業與客戶的交流渠道發生了革命性的變化,從過去的電話及郵件,發展到今天的博客、論壇、社交媒體賬戶等,從這些五花八門的渠道里跟蹤客戶,將他們的每一次點擊、加好友、收藏、轉發、分享等行為納入到企業的銷售漏斗中并轉化成一項巨大的潛在價值,就是所謂的360度客戶視角。例如谷歌的銷售策略主要著眼于在線的免費軟件,用戶使用這些軟件時,無形中就把個人的喜好、消費習慣等重要信息提交給了谷歌,因此谷歌的產品線越豐富,他們對用戶的理解就越深入,其廣告定位就越精準,廣告所攫取的價值就越高,這是正向的循環。
2.3 公眾服務
大數據的另一大應用領域是公眾服務。如今數據挖掘已經能夠預測海嘯、地震、疾病暴發,理解交通模型并改善醫療和教育等。例如,可采用神經網絡和基于地震時間序列的支持向量機方法來預測地震的大概方位、時間、震級大小等重要信息,為通用地震模擬程序提供關鍵的數據,從而對地震進行早期預警,以使防震抗災部門可以提前做好應對措施,避免大量的人員傷亡及財產損失;再如,將各個省市的城鎮醫療系統、新農村合作醫療系統等全部整合起來,建立通用的電子病歷等基礎數據庫,實現醫院之間對病患信息的共享,提高患者就醫效率[3];電力管理系統通過記錄人們的用電行為信息(做飯、照明、取暖等),大數據智能電網就能實現優化電的生產、分配及電網安全檢測與控制,包括大災難預警與處理、供電與電力調度決策支持和更準確的用電量預測等,并通過數據挖掘技術找出可行的節能降耗措施,以實現更科學的電力需求分配管理。
2.4 安防領域
安防領域中最重要的就是視頻監控系統,從早期看得見到現在看得遠、看得清,視頻監控是典型的數據依賴型業務,依賴數據說話。尤其是高清、超高清監控時代的到來,會產生巨量的視頻數據。這些巨量視頻監控數據中,多數是冗余無用的,只有少數是關鍵數據,如何剔除這些無用數據,一直是人們研究問題的焦點。在大數據技術的支撐下,通過對巨量視頻數據的分析與處理,可實現模糊查詢、精準定位、快速檢索等,能夠對高清監控視頻畫質進行細節分析,智能挖掘出類似行為及特征的數據,從而為業務分析和事件決策判斷提供精準依據。
3 大數據處理關鍵技術
3.1 數據備份技術
在大數據時代,如何做好數據的安全備份至關重要。數據備份是數據容災的前提,具體是指當出現某種突發狀況導致存儲系統中的文件、數據、片段丟失或者嚴重損壞時,系統可準確而快速地將數據進行恢復的技術。數據容災備份是為防止偶發事件而采取的一種數據保護手段,其核心工作是數據恢復,根本目的是數據資源再利用。
3.2 Hadoop
大數據時代對于數據分析、管理等都提出了更高層次的要求,傳統的關系型數據庫和數據分析處理技術已經不能滿足大數據橫向擴展的需求。為了給大數據處理、分析提供一個性能更好、可靠性更高的平臺,Apache基金會開發了一個開源平臺Hadoop[4],該平臺用Java語言編寫,可移植性強,現在Hadoop已經發展為一個包括HDFS(分布式文件系統 )、HBase(分布式數據庫)等功能模塊在內的完整生態系統,成為目前主流的大數據應用平臺。
3.3 云計算
如果把各種各樣的大數據應用比作在公路上行駛的各種汽車,那么支撐這些汽車快速運行的高速公路就是云計算,云計算是大數據分析處理技術的核心。正是由于云計算在海量信息存儲、分析及管理方面的技術支持,大數據才有了如此廣闊的用武之地。谷歌的各種大數據處理技術和應用平臺都是基于云計算,最典型的就是以UFS(UIT云存儲系統)、MapReduce(批處理技術)、BigTable(分布式數據庫)為代表的大數據處理技術以及在此基礎上產生的開源數據處理平臺Hadoop[5]。
4 大數據應用帶來的信息安全隱患及應對策略
大數據時代,海量數據通常存儲在大規模分布式的網絡節點中,管理相對分散,而且系統也無法控制用戶進行數據交易的場所,因此很難辨別用戶的身份(合法及非法用戶),容易導致不合法用戶篡改或竊取信息;此外,大數據存儲系統中包含了海量的個人用戶隱私數據及各種行為的記錄信息,如何在大數據的挖掘利用中確定一個信息保護和開放的尺度, 是大數據面臨的又一難題。為了合理利用大數據并有效規避風險,我們提出以下四點建議:
⑴ 國家出臺相關政策,加強頂層設計,保障數據存儲安全;
⑵ 增強網絡安全防護能力,抵御網絡犯罪,確保網絡信息安全;
⑶ 提高警惕積極探索,加大個人隱私數據保護力度;
⑷ 深化云計算安全領域研究,保障云端數據安全。
5 結束語
在當今信息知識爆炸的時代,大數據技術已經被廣泛應用于商業金融、電力醫療、教育科研等領域。隨著數據挖掘技術的不斷進步,相關信息行業競相從規模龐大、結構復雜的大數據海洋中攫取更多有價值的數據信息用于分析、解決現實生活中的各種實際問題,從而實現信息技術的快速健康發展。本文梳理了大數據的基本概念及4V特征,總結歸納了大數據技術的四大熱門應用領域及三大核心處理技術,分析了大數據技術帶來的諸如信息竊取及篡改、個人隱私數據泄露等信息安全隱患,并提出了相應的解決措施及建議。當然,目前大數據技術的研究尚處在起步階段,還有許多深層次的問題亟待解決,如大數據的存儲管理是通過硬件的簡單升級還是通過系統的重新設計來解決,大數據4V特征中起關鍵作用的是什么,大數據技術的應用前景是什么,等等。就目前來看,未來大數據技術的研究之路還很長,需要我們用更加敏銳的洞察力來分析和研究。
參考文獻:
[1] BARWICK H. The "four Vs" of big data. Implementing Information
Infrastructure Symposium[EB/OL]. [2012-10-02]. http://.au/article/396198/iiis_four_vs_big_data/.
[2] 韋雪瓊,楊嘩,史超.大數據發展下的金融市場新生態[Jl.時代金融,
2012.7:173-174
[3] 張敬誼,佘盼,肖筱華.基于云計算的區域醫療信息化服務平臺的研
究[J].計算機科學,2013.40(10):360-365
關鍵詞:大數據;數據庫集群技術;分布集群
一、分布集群數據庫在大數據中的應用
目前,許多數據增長率很高的大型數據庫系統正被用于改善全球人類活動,如通信、社交網絡、交易、銀行等,分布集群數據庫已成為提高數據訪問速度的解決方案之一。為多種類型的用戶在多個存儲中組織數據訪問,分布集群數據庫的問題不僅在于如何管理大量的數據,而且在于如何組織分布式存儲中的數據模式。智能數據組織是提高檢索速度、減少磁盤I/O數量、縮短查詢響應時間的最佳方法之一?;谝巹t的聚類是提供數據庫自動聚類和數據存儲模式解釋的解決方案之一,基于規則的集群通過分析屬性和記錄上的數據庫結構,將數據模式表示為規則。使用不同規則池分區的每個集群,每個規則與內部集群中的規則相似,與外部集群中的規則不同。分布集群數據庫是一種有向圖結構的進化優化技術,用于數據分類,在緊湊的程序中具有顯著的表示能力,這源于節點的可重用性,而節點本身就是圖形結構的功能。為了實現基于規則的集群,分布集群數據庫可以通過分析記錄來處理數據集的規則提取。分布集群數據庫的圖形結構由三種節點組成:起始節點、判斷節點和處理節點。開始節點表示節點轉換的開始位置;判斷節點表示要在數據庫中檢查的屬性。分布集群數據庫規則提取的節點準備包括兩個階段:節點定義和節點排列。節點定義的目的是準備創建規則,節點排列是選擇重要的節點,以便高效地提取大量規則。節點排列由以下兩個順序過程執行,第一個過程是查找模板規則,第二個過程是結合第一個過程中創建的模板生成規則。提取模板以獲得數據集中經常發生的屬性組合。在模板提取過程中,分布集群數據庫規則提取中只使用了少數幾個屬性,它旨在增加獲得高支持模板的可能性。與沒有模板規則的方法相比,該節點排列方法具有更好的聚類結果,這兩個過程中的規則生成都是通過圖結構的演化來實現。
二、在線規則更新系統的應用
在線規則更新系統用于通過分析所有記錄從數據集中提取規則,在大數據應用中,每個節點都有自己的節點號,描述每個節點號的節點信息。程序大小取決于節點的數量,這會影響程序創建的規則的數量。起始節點表示根據連接順序執行的判斷節點序列的起始點,開始節點的多個位置將允許一個人提取各種規則。判斷節點表示數據集的屬性,顯示屬性索引。在大數據應用環節,從每個起始節點開始的節點序列用虛線a、b和c表示,節點序列流動,直到支持判斷節點的下一個組合不滿足閾值。在節點序列中,如果具有已出現在上一個節點序列,將跳過這些節點。在更新每個集群中的規則時,重要的是要找到與最新數據不匹配的屬性。因此,規則更新中要考慮的屬性由以下過程確定。當計算集群中每個屬性和數據之間的輪廓值時,閾值設置為0.85,只有輪廓值低于0.85的屬性。將為規則更新過程中的判斷節點的屬性選擇。一些數據的庫存值和權重值低于0.85,因此這些值不包括在國民生產總值的規則更新中。在線規則更新系統中包含用于更新規則的屬性,每個集群都具有屬性的主要值,這些屬性是集群質量的錨定點,進而影響輪廓值。在線規則更新系統應用中,完成主要的規則提取過程,這是一個標準的規則提取,在線規則更新系統考慮到數據集中的所有屬性。執行該過程,對初始數據集進行初始集群;改善規則更新過程,僅對輪廓值低于閾值的數據執行。
三、大規模并行處理技術的應用
大規模并行處理技術主要用于編寫和調試現代處理器的程序,而不是本地匯編程序,所有的書面代碼都是從C/C++語言翻譯成一個低級的核心匯編程序。在大數據應用中,會產生很多數據,在數據的分析和計算中,應該結合編程技術,標準語言是面向傳統體系結構的,這就是為什么編譯器不能使用所有可能的DSP體系結構以最佳效率生成代碼的原因。為了獲得一個良好的優化代碼,有必要直接在低級匯編語言上編寫代碼。為了簡化編寫程序的任務,可以在某個處理器上使用面向代碼生成器。使用一個專門的匯編代碼生成器,使用并行結構化的編程語言可以獲得比在C/C++中翻譯的應用程序更高效的代碼,生成高效的匯編代碼,該代碼積極利用DSP內核的并行性和其他特性。低級匯編代碼是由所有編譯器生成的,但是它們與傳統的基于文本的語言(如C/C++)一起工作。大數據應用環節,在數據分類和計算中,當兩個計算操作在不同的操作單元上執行時,才能在一個dsp核心的vliw命令中并行執行兩個計算操作。根據運算執行單元的不同,計算運算可分為op1和op2兩種類型。屬于不同組使得在一個命令中執行兩個操作成為可能。第一種類型包括由算術和邏輯單元執行的操作,第二種類型包括由乘法器、移位器ms執行的操作。在模板中,標記“1”表示第一種類型的標識,標記“2”分別表示第二種類型。如果兩個操作具有不同的類型并且沒有數據依賴關系,則可以進行并行化,DSP核心的并行性是通過在一個核心中存在多個操作單元來保證的。在大數據計算和分析中,如果有足夠多的通用寄存器來執行這兩個操作,并且它們可以并行執行,代碼就會并行化,提升數據計算的效率。
本文首先對大數據時代的特點進行了介紹,其次對常用的數據挖掘方法進行了闡述,最后提出了展望。
【關鍵詞】大數據 數據挖掘 分類 聚類
大數據(Big Data),也稱為海量數據,是隨著計算機技術及互聯網技術的高速發展而產生的獨特數據現象?,F代社會正以不可想象的速度產生大量數據,如網絡訪問,微博微信,視頻圖片,手機通信,網上購物……等等都在不斷產生大量的數據。如何更好的利用和分析產生的數據,從而為人類使用,這是非常重要的科學研究。在大數據時代,更好的利用云計算以及數據挖掘,顯得尤為重要。
1 大數據的概念
大數據,是指無法在一定時間內用常規機器和軟硬件對其進行感知、獲取、管理、處理和服務的數據集合。IBM將大數據的特點總結為三個V,即大量化(Volume)、多樣化(Variety)和快速化(Velocity)。
即產生的數據容量大。數據主要來源如:E-mail、搜索引擎的搜索、圖片、音頻、視頻、社交網站、微博微信、各種應用軟件和app、電子商務以及電子通信等等。在實際生活中,電子商務的購物平臺數量和種類越來越多,社交網站的典型facebook的數據量大的驚人,以PB計量都不夠。數據存儲的單位不僅僅是MB、GB等,而是使用了表示更大容量的TB、PB、EB、ZB和YB等,每個單位的關系為后者是前者的1024倍,如1PB=1024TB。同時大數據的增長速度是越來越快,如手機相機的像素數隨著新款手機的出現而成倍的增長。
1.2 多樣化
從數據組織形式的角度將數據分為結構化數據和非結構化數據。結構化數據,具有一定的規律,可以使用二維表結構來表示,并存儲在數據庫中,如高校的教務管理系統的數據、銀行交易產生的數據。而非結構化數據是無法通過預先定義的數據模型表達并存儲在數據庫中的數據,如聲音、視頻和圖片等等。當前非結構化數據的增長速度遠遠超過結構化數據。
1.3 快速化
在當前商業競爭激烈的時代,對實時的數據進行分析和處理,挖掘有用的數據信息,并用于商業運作,對于企業和組織來說非常重要。如現在網絡購物會依據多數人的購物組合,分析出大部分人在購買一件物品的同時會同時購買其他的物品,從而在購物選擇時給予方便,提高網購的效率,提高效益。
隨著互聯網技術和計算機技術的快速發展,在產生大數據的同時,人們要能夠對這些數據加以利用,得到有用的信息,才是最重要的。為了讓海量規模的數據能夠真正發揮巨大的作用,需要將這些數據轉換為有用的信息和知識,即從傳統的數據統計向數據挖掘和分析進行轉換。比如沃爾瑪超市能夠從男人購物時買啤酒的同時會購買小孩的紙尿褲這種關聯,并在實際物品擺放時將這兩種物品放置在一起,方便用戶購物。
2 數據挖掘
隨著信息技術應用的廣泛,大量的數據產生并存儲各個領域的信息系統中,數據呈現了爆炸式的增長。數據挖掘在這種“數據爆炸,知識匱乏”的情況下出現的。數據挖掘(Data mining)是一個多學科交叉的研究領域,它融合了數據庫技術、機器學習、人工智能、知識工程和統計學等學科領域。數據挖掘在很多領域尤其是電信、銀行、交通、保險和零售等商業領域得到廣泛的應用。
數據挖掘也稱為從數據中發現知識,具體來講就是從大規模海量數據中抽取人們所感興趣的非平凡的、隱含的、事先未知的和具有潛在用途的模式或者知識。
3 數據挖掘的主要研究內容
數據挖掘的任務是發現隱藏在數據中的模式,其模式分為兩大類:描述型模式和預測型模式。描述型模式是對當前數據中存在的事實做規范描述,刻畫當前數據的一般特性。預測型模式則是以時間為主要關鍵參數,對于時間序列型數據,根據其歷史和當前的值去預測其未來的值。常使用的算法有:
3.1 聚類分析
聚類是將數據劃分成群組的過程,根據數量本身的自然分布性質,數據變量之間存在的程度不同的相似性(親疏關系),按照一定的準則將最相似的數據聚集成簇。主要包括劃分聚類算法,層次聚類算法和密度聚類算法等。經典算法有K-Means、K-Medoids。
3.2 特性選擇
特性選擇是指為特定的應用在不失去數據原有價值的基礎上選擇最小的屬性子集,去除不相關和冗余的屬性。特性選擇用于在建立分類模型前,或者預測模型之前,對原始數據庫進行預處理。常用的算法有最小描述長度法。
3.3 特征抽取
特征抽取式數據挖掘技術的常用方法,是一個屬性降維的過程,實際為變換屬性,經變換了的屬性或者特性,是原來屬性集的線性合并,出現更小更精的一組屬性。常用算法如主成分分析法、因子分析法和非負矩陣因子法等。
3.4 關聯規則
關聯規則挖掘是數據挖掘領域中研究最為廣泛和和活躍的方法之一。最初的研究動機是針對購物籃分析問題提出的,目的是為了解決發現交易數據庫中不同商品之間的聯系規則。關聯規則是指大量數據中項集之間的有趣關聯或相關關系。常用的算法有Apriori算法。
3.5 分類和預測
分類是應用已知的一些屬性數據去推測一個未知的離散型的屬性數據,而這個被推測的屬性數據的可取值是預先定義的。要很好的實現推測,需要事先定義一個分類模型。可用于分類的算法有決策樹、樸素貝葉斯分類、神經網絡、logistic回歸和支持向量機等。
4 結論
隨著時代的進步,數據也發生變化,具有各種各樣的復雜形式。很多研究機構和個人在對結構化數據進行數據挖掘的同時,也展開了對空間數據、多媒體數據、時序數據和序列數據、文本和Web等數據進行數據挖掘和分析。同時大數據的發展促進了云計算的產生,基于云計算的數據挖掘也在迅速崛起。
參考文獻
[1]劉軍.大數據處理[M].北京:人民郵電出版社,2013(09).
[2]王元卓等.網絡大數據:現狀與展望[J].計算機學報,2013(06).
[3]申彥.大規模數據集高效數據挖掘算法研究[D].江蘇大學,2013(06).
[4](加)洪松林.數據挖掘技術與工程實踐[M].北京:機械工業出版社,2014.
[5]賀瑤等.基于云計算的海量數據挖掘研究[J].計算機技術與發展,2013(02).
作者簡介
許凡(1996-),男,江蘇省南京市人。現就讀三江學院計算機科學與工程學院計算機軟件工程專業本科。
孫勤紅(1979-),女,山東省臨沂市人。碩士研究生學歷?,F為三江學院計算機科學與工程學院講師、指導教師。主要研究領域為數據挖掘。
1、大數據技術是指大數據的應用技術,涵蓋各類大數據平臺、大數據指數體系等大數據應用技術。
2、大數據是指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合。是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
3、隨著云時代的來臨,大數據也吸引了越來越多的關注。分析師團隊認為,大數據通常用來形容一個公司創造的大量非結構化數據和半結構化數據,這些數據在下載到關系型數據庫用于分析時會花費過多時間和金錢。
4、大數據分析常和云計算聯系到一起,因為實時的大型數據集分析需要像MapReduce一樣的框架來向數十、數百或甚至數千的電腦分配工作。
(來源:文章屋網 )
“大數據時代的預言家”維克托近日在北京面對一萬多名技術信徒再次預言。
顯然,這三大經典的技術信條在大數據時代面臨動搖,
技術信徒的思維模式也即將發生顛覆。
那么,大數據對技術信徒意味著什么?
他們又將如何面對這一顛覆性的變革?
“技術匯成一條大河,一波推動另外一波?!盜BM中國開發中心首席技術官兼新技術研發中心總經理毛新生帶著對技術的滿腔癡迷這樣形容道。
一波未平一波又起,移動、社交商務、云計算、大數據等先后涌現的新趨勢正在融合成一股巨大的潮流,將所有的行業IT化,進而推動商業和社會的演進。這也就意味著“科技是第一生產力”在當下有了更深層次的涵義——“IBM認為,在由新一代技術組成的智慧運算時代,中國的企業家們需要更為戰略地思考信息科技的定位,將其運用到自身的變革轉型之中。” IBM全球副總裁兼大中華區軟件集團總經理胡世忠為企業新發展出謀獻策。
由2012年的“軟件技術峰會”改名為2013年的“技術峰會”,在這么一個盛會上,IBM試圖展示的內容涵蓋范圍更為廣泛——移動應用、大數據、云計算、DevOps軟件持續交付、應用整合、社交商務、專家集成系統等熱議話題,上百場技術主題演講、28場分論壇、22場動手實驗室和80個未來產品的現場演示,再加上被譽為“大數據時代的預言家”的《大數據時代》作者維克托·邁爾-舍恩伯格以及數十位來自IBM的院士、杰出工程師、相關領域的全球首席技術官和首席架構師的現場分享,IBM 2013技術峰會再次成為技術精英們關注的焦點。 大數據的新信條
《大數據時代》作者、牛津大學網絡學院互聯網治理與監管專業教授維克托·邁爾-舍恩伯格的出現著實讓場內數以萬計的技術信徒激動了一把。作為深刻洞察大數據給人類生活、工作和思維帶來的大變革的第一人,維克托以價格預測網站的例子作為開場白,論證了大數據已經悄然在大眾的身邊出現并給他們的生活帶來改變。
“全體性、混雜性和相關性是大數據的三個主要特點,而且這三個特點是互相加強的。”維克托歸納出了大數據對應的思維變革。收集和分析更多的數據才能獲取足夠的數據隱含的細節,這些細節恰恰是隨機抽樣所錯失的?!案蓛簟钡摹⒏哔|量的數據不再是標的,大數據需要我們摒棄對宏觀上精確性的追求,轉而獲得微觀上的準確性,即接受混雜的數據。最重要的是,人們不再沉迷于追尋數據之間的因果關系,即不再糾結于為什么,而是直接獲得“是什么”的答案,并通過應用相關關系,更好地捕捉現在和預測未來——抽樣因錯失細節得不償失,盲目追求精確性已經過時,執著于因果關系喪失機遇。
如何在大數據時代生存?維克托指出了兩個關鍵點:一是意識到技術或者規模并不是成功的充分條件。遺忘規模經濟,因為它的效益會逐漸淡化。20年前,一個公司只有擁有上十萬臺的服務器才能提供搜索服務,但在大數據時代,由于云計算的便利性,不擁有實體服務器的公司,如前文提到的,它只有30個員工,但它有能力為其上10億的用戶提供數據分析。二是為了在大數據時代獲得勝利,大數據的思維模式不可或缺,工具的力量不容小視,分析能力是必要的。藍色被谷歌選為搜索窗口的色彩,但藍色實際上有51種,而且這51種藍色人依靠裸眼無法明確區分,卻能在心理層面給人帶來不同的感受。經過大數據分析,谷歌發現原本由人工選出來的藍色會導致谷歌損失200億~300億美元的收入,因為這一種藍色并不最具備誘惑力,無法激起人們點擊的欲望。
大數據的力量需要具備大數據的思維模式,并有效利用大數據的工具去發掘。IBM杰出工程師、InfoSphere Stream高級開發經理James R Giles闡述了IBM對大數據的看法:“我們正一步步走到了一個新紀元——大數據時代。如同對待自然資源一樣,我們需要開掘、轉變、銷售、保護大數據資源;不同的是,大數據資源是無窮無盡的,我們不能任由大數據淹沒自己,而應該在獲得洞察需求的驅使下獲得價值?!?/p>
大數據的類型廣義而言有移動數據和靜態數據,還有結構性數據和非結構性數據,這對應著不同的處理方式?!凹夹g人員的責任是,能夠去管理這些數據,能夠理解這些從不同的數據源而來、不同類型的數據,能夠分析這些數據,得出結論,讓其提供決策支持,為企業擁抱新的大數據時代提供技術支撐,以保證管理、安全、商業的持續性。” James R Giles號召技術人員積極行動,以大數據的思維模式展現技術的價值和魅力。
找到內在聯系
技術的趨勢總是融合,也只有有機融合才能形成合力,發揮更大的威力,而實現這一合力的前提是明確各個趨勢之間的內在聯系。
“實際上,社交商務、移動、大數據、云計算是一體化的?!泵律ㄗh技術人員用一個全面的、融合的范式來沉著看待和應對紛繁的熱點技術,理解這些熱點會如何影響整個IT的走向,進而明晰IT如何可以很好地支持各行各業的業務轉型和創新,“讓每個行業都可以從新的技術轉型當中獲得足夠的原動力”。
從貼近最終用戶的角度來看,移動技術、社交技術改變了商業機構與其雇員、客戶進行互動的方式?!熬臀覀€人的經歷而言,航空公司的移動應用可以提供更好的客戶交互。我是西北航空公司的粉絲,因為它家的移動應用服務很貼心,比如查詢航班信息、根據我的喜好預留位置、定制化地進行社交推薦等。”毛新生以一個普通消費者的感受證明了企業通過移動應用收集并利用用戶行為數據所帶來的服務質量的提升。
移動催生了“一種嶄新的服務交付端點”,即為用戶提供了更多樣化的服務體驗點,讓用戶隨時隨地可以利用碎片化的時間去獲得業務服務,也為企業帶來了全新的服務交付渠道。移動這個渠道提供了更為豐富的全樣性數據,在此基礎上,大數據分析就更可信?!耙苿铀邆涞乃槠攸c會帶來更大量的用戶行為信息。當把所有的人的行為結合在一起,就可以做群體的社會性分析。社會性分析會得到比較準確的群體特征。而群體特征足以獲得很好的交叉銷售與線上銷售機會?!泵律J為移動與大數據結合給企業提供了新的商業機會。
移動的設備無處不在。人、汽車,甚至建筑物、道路、橋梁,它們無時無刻不在提供數據,這就是新的數據源,是它們引領我們來到維克托所描述的更為廣闊的大數據世界。
移動和社交商務的便捷性使得企業的整個業務流程變得非常自動化,用戶可以享受自助服務,對應到企業端就意味著業務流程對前端的需求要反應得更為迅速,也意味著各個業務系統之間無縫連接,否則沒有辦法支撐以最終用戶為中心的服務體驗,但跨部門和跨應用的整合實屬不易。進一步延伸開來,對用戶體驗的追求是無止境的,合作伙伴的API和服務可以作為補充,這即是“跨企業邊界”的行為。這種行為必然導致大規模的用戶訪問。這些整合和外部拓展都需要云計算提供靈活有效的基礎。沒有云計算,移動前端的體驗、大數據分析的效果都會大打折扣?!霸频幕A設施使大規?;?、大規模數據處理、大規模應用可以更好地服務我們。”毛新生指出。
環境變化加速,競爭更加激烈,要求企業的反應速度越來越快,應用以及端到端解決方案快速改變。毛新生饒有興致地介紹道:“這個改變有多快呢?我們有的客戶嘗試以天為周期去改變,這意味著應用和業務流程的設計、開發、部署、測試、維護的整個過程要大大加快,也就是所謂的DevOps。只有把敏捷的開發和運維結合起來,生命周期變得以天為周期,才能響應新的商業環境?!?/p>
“移動、云計算、大數據、社交商務之間的緊密聯系讓我們應該以整體的眼光來審視它們?!焙乐覉孕牛鼈兊慕M合可以創造可持續的競爭優勢,可以迸發變革的力量。
至于一個企業應該從哪里下手來實現這一幅宏偉藍圖?毛新生給出的答案是:“每一個企業,因為它所處的行業或者特定的情況而擁有不同的切入點,有一些企業需要從移動開始,有一些企業需要從云計算開始,有一些企業需要從大數據開始,但是它們是不可分割的整體,只有綜合地運用它們,找到適合自己的切入點,一步一步腳踏實地,才能掌握先機,打造競爭力。在這個過程中,要擁有正確的思維,改變既有思維,理解趨勢,制定策略。”
例如,銀行、保險、零售業這一類和最終消費者打交道的服務業在很大概率上需要先從移動、社交商務入手,從而使其有機會改善和用戶交互的過程。而以數據為生的行業會琢磨如何將自己的內容和資源數據增值,而傳統的運營基礎設施的重資產企業,會追求將資產數字化,得到數據并進行分析,以優化資產的生命周期管理來預防性地降低維護成本,這些企業是以大數據作為切入點的。還有一些企業希望跨行業整合進行業務創新,背后牽扯到它們自身現有的業務模式和新業務模式的整合,這種情況下需要以云的方式構建新的應用、服務、商業流程。
毛新生認為切入點不同只是表象,每一種場景到最后都是綜合性的運用,要把這幾個技術綜合運用起來。從前端開始,首先是利用移動,并借助社交渠道交流,很快這些渠道會得到新的數據,這些新的數據和原有的交易數據和積累的數據結合起來做進一步的數據分析,這就是大數據分析。大數據分析以后可以做社交推薦、關聯推薦了。隨后,能不能跨界再實現更廣泛的銷售?跟別的價值鏈上的合作伙伴合作,那么引入云是解決之道。數據量增大,用戶數增多,云的基礎設施可以讓成本更合理。“所以說,到最后都是綜合性的應用,盡管起點不一樣”,毛新生說。
對技術人員而言,IT就是交付業務流程的基礎,是信息化的工具。它的目標無非是優化業務流程或者創新業務流程。創新到達一定程度后,業務流程的量變會導致質變?!斑@就解釋了為何全球越來越多的CEO將技術視為驅動企業發展的首要因素?!?IBM軟件集團大中華區中間件集團總經理李紅焰強調,技術人員有能力,也有責任將“看不見的技術轉變為看得見的享受”。
移動開發的轉變
在大數據的帶領下我們進入移動時代,企業有了新機遇,技術人員卻有了新挑戰。為什么移動開發和之前不一樣呢?有什么不一樣呢?這成為了縈繞在技術人員腦子里最主要的兩個問題。
IBM杰出工程師及IBM移動平臺首席架構師Greg Truty解答了這兩個疑問。他認為,很多企業現在所做的事情與在移動的狀態下做的事情是不一樣的,移動狀態下的任務和規劃更具有戰略性。移動應用是在不穩定的網絡上運行的,所占用的資源更少。用戶在移動設備上和非移動設備上的體驗是完全不一樣的,他們會希望在不穩定的網絡上仍然能夠獲得良好的體驗。企業現在需要思考的是,怎么樣把大量數據、大量體驗變成一些有意義的體驗。同時,移動管理的需求也不一樣了,開發的特性也不一樣了。比如對一個企業來說,移動開發周期更短,有更多設備需要支持,有更多開發方法可供選擇,也有更多的工具和庫可供選擇,這時候企業就需要仔細斟酌,哪些開發方法和工具是自己需要的。
自然而然,對于設備的管理也有了變化,因為應用變化了?!耙恢币詠恚蛻舳朔掌鞯膽眉軜嬍瞧髽I在使用的。你需要協調在服務器端的服務以及在客戶端的服務,挑戰非常大。你不可能強迫客戶運行你的應用,而必須能協調和兼容原有的系統。這是非常關鍵的一點。” Greg Truty強調了設備管理的重要性。
此外,產品種類也非常多,新應用層出不窮。Greg Truty 認為多而新的局面下更需要冷靜處理:“我們會把應用和數據結合起來,移動和社交網絡結合起來,這樣做會創造一些新的得到數據的機會,需要進行管理。新的機會、新的技術,給整個IT組織帶來了更多的挑戰?!?/p>
關鍵詞:云計算;云存儲
1 什么是云存儲
云存儲是在云計算概念上延伸和發展的一個新的概念,是指通過集群應用、網絡技術或分布式文件系統等功能,將網絡中大量各種不同類型的存儲設備通過應用軟件集合起來協同工作,共同對外提供數據存儲和業務訪問功能的一個系統。當云計算系統運算和處理的核心是大量數據的存儲管理時,云計算系統中就需要配置大量的存儲設備,那么,云計算系統就轉變成為一個云存儲系統,所以云存儲是一個以數據存儲和管理為核心的云計算系統。
2 云存儲分類
按照服務對象可以把云存儲分類如下:
(1) 公共云存儲。公共云存儲可以以低成本提供大量的文件存儲。供應商可以保持每個客戶的存儲、應用都是獨立的、私有的,公共云存儲可以劃出一部分來用作私有云存儲。
(2) 私有云存儲。通過私有云存儲,一個公司可以擁有或控制基礎架構,以及應用的部署。私有云存儲可以部署在企業數據中心或相同地點的設施上。私有云可以由公司自己的IT部門管理,也可以由服務供應商管理。
相比傳統存儲模式,云存儲的租購模式顯得更加靈活方便,其實,企業自己構建一個數據中心需要購買硬件等必備設施及復雜多變的維護管理。
(3) 混合云存儲。這種云存儲把公共云和私有云結合在一起。主要用于按客戶要求的訪問,特別是需要臨時配置容量的時候。
從公共云上劃出一部分容量配置一種私有云,可以幫助公司面對迅速增長的負載波動或高峰時很有幫助。
盡管如此,混合云存儲帶來了跨公共云和私有云分配應用的復雜性。
3 云存儲具有的優勢
作為大數據時代的云存儲技術,與傳統存儲技術相比,具有如下明顯優勢:
(1) 靈活方便。對于中小企業或個人用戶,完全可以將數據的創建與維護委托給云服務提供商,而只是租用云服務提供商的服務即可,用戶不必考慮存儲容量、存儲設備類型、數據存儲位置,以及更多的關于數據的可用性、可靠性和安全性等繁雜的技術層面。避免了購買硬件設備及技術維護而投入的精力,節省下來的大量時間可以用于更多的工作業務發展。
(2) 成本低廉。就目前來說,企業在數據存儲上所付出的成本相當大,因為企業要建立一套存儲系統不僅需要購買硬件等基礎設施,同時,系統維護還需要專門的人員,企業的存儲空間及管理費用都面臨巨大挑戰,企業必須更新或增加各種數據存儲和管理設備,而且還要負擔逐漸高漲的管理成本。
為了減少這種成本壓力,好多企業將大部分數據遷移至云存儲上,所有的升級、維護等管理任務均由云存儲服務提供商來完成。因此,可以將數據存儲與管理的成本降到最低,同時,還能獲得最優良的數據存儲服務。
(3) 量身定制。隨著大數據的到來,傳統的存儲模式已不再適用企業的數據存儲,企業急需一種新的存儲方式來滿足企業數據存儲的個性化需求。
私有云即可滿足企業這一個性化需求。云服務提供商可以專門為企業客戶提供一種量身定制的云存儲服務解決方案,也可以由企業自己的IT機構部署一套私有云服務架構。企業不僅可以得到最優質的個性化服務,還能在一定程度上降低安全風險。
4 云存儲發展需要考慮的主要問題
由于云存儲具有傳統數據存儲模式不具備的諸多優勢,越來越多的中小企業正在將自己的數據中心逐漸轉移至云端。而大型企業除了租用公共云存儲服務以外,也開始著手建立自己的私有云存儲數據中心。但是,云存儲仍處于快速發展階段,云存儲要想得到廣泛應用,還有待進一步完善和改進。
(1) 安全問題。數據存儲在云計算中心,安全問題始終是用戶最為關注的問題。
用戶的敏感信息和個人隱私數據如何才能保證其具有安全性和私密性,云存儲服務提供商應根據分布式文件中可能存在的安全威脅和安全需求,來制定相應的安全策略,以便在計算機中實施相應的保護機制,確保用戶數據避免丟失或被竊。
(2) 可靠性問題??煽啃允菙祿鎯ο到y最基本也是最關鍵的一項指標。
數據的備份復制是云存儲管理中心必須考慮的問題,而且數據的備份復制可以大大提高云存儲系統的可靠性和性能,同時能夠增強系統的容錯能力。如果云存儲數據遭到破壞,云存儲服務提供商應該能夠快速全面地恢復數據,確保用戶數據的完整性。
5 結束語
云存儲不僅僅是存儲,更多的是應用,是云計算時代的一場存儲革命,隨著云存儲的安全性、可靠性、實用性等存儲技術的不斷成熟,人們對存儲技術的認識不斷提高,云存儲成本的不斷降低,一定會形成一個安全可靠、實用快速的云數據存儲與訪問系統。云存儲必將廣泛應用于各行各業,云存儲必然是未來數據存儲的發展趨勢。
參考文獻
[1]互動百科./wiki/云存儲.
[2]百度百科. / view /
關鍵詞:大數據;計算機;數據備份;安全保障
中圖分類號:TP311
文獻標識碼:A
文章編號:1009-3044(2017)10-0025-01
數據信息作為時代的信息管理標志其安全性必須收到更大的重視,數據信息的安全存儲系統尤為重要,防止信息數據的丟失的管理備份系統更為重要。因此能夠將數據信息妥善管理,保證其正常工作的技術相當重要,但當數據真正丟失或不可避免地出現問題以后能夠盡快地將其找回或者是在有效的時間內將其完整地恢復,以確保整個計算機系統能夠正常工作的技術更是必不可少的。
1.數據備份概念及其特點
數據備份指的是將計算機系統的所有數據或者是部分重要數據借助某一種或多種手段從計算機一個系統復制到另一個系統,或者是從本地計算機存儲系統中復制到其他的存儲系統中。其目的就是保障系統可用或者是數據安全。防止由于人為的失誤或者是系統故障問題亦或是自然災害等方面的原因造成系統數據的安全性無法保障的問題。數據備份更重要的原因是數據信息的多重保存以備不時之需。
數據備份按照備份的實現方式可以分為單機和網絡兩種備份方式,傳統的備份就是單機備份針對計算機本身將數據進行異地存儲,現代比較流行的就是網絡備份。這是針對整個網絡而言的,這種方式的備份較為復雜,是通過網絡備份軟件對存儲介質和基礎硬件存儲設備的數據進行保存和管理。由于網絡備份是在網絡中進行數據備份的,因此也就不同于普通的傳統單機備份,是包含需要備份的文件數據和網絡系統中使用到的應用程序以及系統參數和數據庫等內容的。
數據備份的作用在于:一方面,在數據受到損害時對數據進行還原和恢復;另一方面,數據信息的歷史性、長久保存,方便數據的歸檔。
2.數據備份存儲技術
備份換言之就是數據的再存儲,因此備份技術是存儲技術的重要內容之一,但是數據備份存儲作為計算機系統技術與簡單的備份區別很大。計算機數據備份存儲技術時更為全面、完整、穩定安全的數據信息的備份,是網絡系統高效數據存儲的,也是安全性較高的網絡備份。
文件存儲作為最基礎的數據類型是隨機存儲在硬盤上的數據片段和文檔資料,這些存儲的數據文檔、報表甚至是作為數據庫文件的應用程序等等在存儲一定的量就會出現超出容量的情況因此對其的整合是必要的。這樣的整合是將存儲的各類數據或者是數據庫以一個順序和程序的形式出現,幫助人們解決備份存儲的空間問題,技術問題以及成本問題。更能將工作人員的連續數據維護和監控從繁重的工作中解放出來。
3.保障計算機數據網絡備份的安全性策略
通過網絡傳輸的備份數據在傳輸過程和傳輸路徑方面必須確保數據的安全性。若不能保證數據的安全那么一些企業的關鍵數據和重要應用程序就會受損,甚至是失去了備份的意義。因此相比單機備份而言網絡備份更要確保安全傳輸和安全存儲。
首先確保備份數據的機密性。數據信息的網絡備份不能被非法用戶隨意獲得,因此在數據備份過程和傳輸過程中必須防止數據的機密性被破壞。一般數據備份常用的方法是加密。必須保證是數據擁有者才能使用這些數據信息,關鍵的數據信息的加密工作相比更加嚴格。數據內容不容有失,甚至是數據的相關名稱和代碼等也不能隨便被非法進入系統的人獲得才是最能保障數據安全的方式。
此外,在數據網絡傳輸存儲之前一定要確認接受信息一方的真實性,核實雙方信息是否匹配,一定要在雙方身份確認之后才能對網絡的數據信息進行發送和接受,這樣既避免了欺詐行為又確保了網絡中間不可信的因素存在使數據信息遭到破壞。
其次。確保備份數據的完整性。數據備份存儲不是一個簡單的過程,數據信息是通過設備和網絡之間傳輸來完成備份數據存儲的。這一個成必須要保障所傳輸的信息完整地被上傳而且這些數據信息不能被其他方攔截和篡改,以破壞備份數據信息的內容和屬性等。此外在存儲時也要保障數據信息的正確無誤完整保存。
再次,備份存儲的數據可用性。數據存儲必須是可用的,而且是計算機資源用戶合理合法的使用。對于網絡備份系統的信息和信息用戶系統的信息是完全一致的,是可用的。備份數據資料必須在合法用戶需要時可以隨時安全使用。這是網絡數據備份存儲必須保證的。
關鍵詞:煙草;數據中心;大數據;Hadoop;Impala
1.大數據技術現狀
當前許多企業都已基本實現了信息化建設,企業積累了海量數據。同時企業間的競爭日益加劇,企業為了生存及發展需要保證自身能夠更加準確、快速和個性化地為客戶提品及服務。而大數據技術能夠從海量的數據中獲取傳統數據分析手段無法獲知的價值和模式,幫助企業更加迅速、科學、準確地進行決策和預測。
1.1大數據技術現狀
廣大企業的迫切需求反之也促進了大數據技術的飛速發展,涌現出了諸如Hadoop、Spark等實用的架構平臺。其中,目前最主流的就是Hadoop。Hadoop的分布式處理架構支持大規模的集群,允許使用簡單的編程模型進行跨計算機集群的分布式大數據處理。通過使用專門為分布式計算設計的文件系統HDFS,計算的時候只需要將計算代碼推送到存儲節點上,即可在存儲節點上完成數據本地化計算。因此,Hadoop實現了高可靠性、高可拓展性、高容錯性和高效性,可以輕松應對PB級別的數據處理。
1.2大數據技術對煙草數據中心建設的影響
當前,煙草企業基于多年的信息化建設已經積累了海量數據,同時每天還不斷有新的各種數據產生。在高并發、大體量的情況下,需要在數據采集、存儲和運算方面采用與以往完全不同的計算存儲模式,這就不可避免地需要采用大數據技術。同時,除了購進單、卷煙交易數據、貨源投放數據等結構化數據外,還產生越來越多的非結構化數據,利用大數據技術,對非結構化數據進行預處理,可為人工判斷和機器學縮減范圍。對海量數據以及非結構化的信息進行分析統計,僅僅依靠傳統的技術手段很難實現,只有引入大數據技術才能充分的將所有的數據資源利用起來,成為企業決策的助力。
2.江蘇煙草數據中心應用現狀
2.1江蘇煙草數據中心體系架構
目前江蘇煙草數據中心以一體化數據中心、一體化數據管理和一體化數據分析三個部分為核心,構建了一套完整的數據中心架構。一體化數據中心是整個數據中心最核心的部分。通過數據倉庫模型、數據存儲、ETL工具等組成部分,構建了業務數據的收集、加工、存儲、分發的總體架構。建立了按ODS(SODS、UODS)、DW、DM三層結構設計建設的數據倉庫。一體化數據管理通過主數據管理、信息代碼管理、ESB平臺構建了企業主數據收集、標準化、同步分發過程。結合指標管理,全面管控企業的公用基礎信息。通過數據質量管理,全面有效管控數據質量。通過數據服務管理,有效提升數據中心的對外服務能力與水平。通過元數據管理來管理數據中心元數據。一體化數據分析通過構建移動信息、業務分析、數據挖掘三大模塊,針對性解決當前不同人員的決策、管理以及操作需求,發揮數據中心的數據、技術、平臺優勢。通過移動信息模塊為各級領導提供決策支持;通過業務分析模塊為業務人員的日常工作提供支撐;通過數據挖掘模塊,發掘數據所蘊含的隱性價值?;谏鲜鲆徽准軜嫷闹?,目前數據中心構建了全省范圍的數據集成、交換體系,一方面提升了全省基礎數據、業務數據的規范化程度和數據質量,另一方面為在建業務系統的實施、已有系統的改造提供了標準化的高質量數據保障。
2.2大數據技術的應用場景分析
隨著江蘇數據中心的不斷運行,一些基于傳統技術架構的功能逐漸暴露出種種問題。其中較為突出的問題有:一是使用者對于大數據量數據的查詢需求?;趥鹘y技術架構的查詢功能響應較慢;二是分析支持靈活性的不足。傳統統計分析應用的數據結構大多是預先定義好的,面對靈活的非傳統的統計查詢需求難以支撐,需要進行額外的加工處理。江蘇煙草數據中心結合互聯網大數據技術特性,引入Hadoop平臺以及Impala等工具,搭建基于大數據的自定義數據查詢平臺,以補充基于傳統技術架構的功能不足,并為未來進一步發展建設基于大數據技術和云環境的數據中心做好準備。
3.基于大數據的自定義數據查詢平臺實現
3.1設計思路及架構
基于大數據的自定義數據查詢平臺是在現有數據中心的建設成果之上,以數據中心的數據存儲為基礎,以Hadoop、Hive、Impala等大數據技術工具為手段,以簡單靈活、快速高效的查詢展現為目標,建立的數據查詢分析支持平臺。
3.2技術方案
自定義數據查詢平臺的建設主要涉及數據存儲架構、后臺數據加工準備、前端展現三塊內容。自定義數據查詢平臺的數據存儲分為兩部分。一部分為KETTLE、Impala等工具以及自定義查詢相關的元數據存儲,另一部分則是查詢所需的各種統計數據的存儲。元數據的存儲根據元數據庫的不同主要分為兩部分。第一部分為基于Mysql數據庫的元數據存儲。這部分元數據主要包括有ETL工具KETTLE的元數據,以及前端自定義查詢需要定義的權限、數據源、表、列和表列關系等信息。第二部分為基于Hive的元數據存儲。這部分存儲的是前端查詢需要使用的Impala工具的元數據。統計數據的存儲則是使用Hadoop的HDFS實現的。根據Hadoop平臺架構,自定義數據查詢平臺的HDFS建立在6臺虛擬主機構建的集群上的。其中:2臺虛擬主機作為NameNode,一臺為主節點,另一臺為備份節點;其余4臺虛擬主機都作為DataNode用于存儲數據。所有數據將會統一分塊自動分配存儲到4個DataNode上。自定義數據查詢平臺的數據加工,是通過開源ETL工具KETTLE實現的。通過KETTLE從數據中心現有數據倉庫及數據集市中讀取需要的數據,根據自定義數據查詢平臺的數據模型定義對數據進行處理,最終加載到Hadoop的HDFS文件系統中。自定義數據查詢平臺的前端展現功能,主要是基于JSP技術實現頁面開發,通過JDBC或者ODBC對后臺Mysql數據庫進行訪問。使用者在查詢頁面中組織定義查詢的內容,查詢服務自動根據獲取的元數據信息將定義的查詢內容拼接轉換成為查詢SQL,之后通過Impala執行查詢SQL對HDFS文件系統中的統計數據進行查詢。
3.3系統實現效果
利用大數據技術,自定義數據查詢平臺較好地解決了目前數據中心所面對的問題,滿足了使用人員對于大數據量以及分析靈活性的需求。面對使用人員層出不窮的查詢需求,自定義數據查詢平臺通過預先梳理、分類定義各種維度以及統計指標。使用者可以自由的根據實際需求選擇分析所需的維度及統計指標,同時還可以基于這些基礎的內容更進一步自定義過濾條件以及計算公式,并指定其展現形式。在大數據量查詢效率方面,自定義查詢平臺相比傳統架構的查詢功能有了較大提升。
4.結束語
大數據技術的發展方興未艾,應用前景無比廣闊,對各行各業的巨大作用正在逐步展現。江蘇煙草數據中心的建設既要看到大數據技術未來的前景,更需要明確地認識到大數據平臺的建設并非一朝一夕,需要有明確而長遠的規劃,不斷完善數據環境建設、云計算環境的構建以及數據服務的擴展。
參考文獻
[1]陳鵬.大數據時代下的信息安全問題研究[J].電子制,2015,18:48
[2]劉憶魯,劉長銀,侯艷權.大數據時代下的信息安全問題論述[J].信息通信.2016,181-182
關鍵詞:大數據;數據庫技術;數據標簽
1引言
數據庫技術主要是通過相關的技術措施對信息數據進行有效的存儲管理、優化數據結構、設計數據管理模式等。另外,數據庫技術還可以對庫里的數據進行科學合理的整合分析,挖掘數據的真實性和實用性,找出不同數據之間的聯系,這也是當前社會發展的實際需求,對于現代信息技術的發展起著十分重要的作用和意義。
2數據庫技術簡介
隨著大數據技術的不斷改革完善,作為近年來興起的新型技術,它在一定程度上是隨著云計算的出現而發展的。立足于云計算的相關技術,對人們生活和工作中產生的大量數據進行綜合處理,結合計算機技術、網絡通信技術、數據庫技術等,有效推動社會經濟的穩步發展。數據庫技術在推廣和普及過程中,主要是以計算機信息技術為載體,充分結合傳統數據信息處理技術和互聯網技術,對社會中的生產要素和業務要素進行及時有效的分析和更新,調整社會中現有的業務結構和發展模式,從而有效實現經濟轉型。
3大數據時代背景下數據庫技術的應用現狀
3.1構建與面向對象實際需求相結合的數據庫
在進行數據庫的開發和利用過程中,應當充分立足于用戶的實際需求,有效結合面向對象方法,根據數據庫的分析情況,充分了解用戶的需求,為用戶提供更為全面和細致的服務。從一定意義上來講,不僅可以體現出個性化服務,還能保障數據傳輸過程中的安全性和實效性[1]。根據相關調查研究可以看出,當前我國數據庫技術仍處于不斷發展和創新時期,面向對象搭建出高效的數據庫,并且根據用戶需求不斷進行調整優化。
3.2構建與多媒體技術相結合的數據庫
一方面,對大多數群體來說,多媒體數據庫中所存儲的資料數據更多,界面的設置也更加多元化,能夠在第一時間吸引人們的注意力,從而更好地滿足人們的個性化需求,實現技術的多元化發展。另一方面,數據庫的安全問題一直是人們最為關注的問題,安全隱患一直是制約數據庫技術發展的重要因素,通過有效融合數據庫技術與多媒體,可以在一定程度上提高數據庫的安全性能和穩定性能。在實際工作過程中,為了充分推動數據庫的發展和多媒體技術的有效融合,相關工作人員應當解決以下幾個問題。第一,多媒體數據庫在實際使用過程中必將涉及到用戶的個性化需求,在進行設計時應當有針對性的融入相關數字數據,實現多媒體數據的有效管理和存儲,已成為了技術節點搭建的重要模塊。第二,數據庫技術與多媒體技術要實現有效結合必將涉及到系統的兼容性,這不僅是數據之間的融合,還是數據交叉使用的重要內容,如何充分進行二者的融合和兼容,是全面深入實現多媒體數據庫面臨的主要問題[2]。
4大數據時代背景下的數據庫技術特點
4.1統一性
受傳統數據庫系統搭建模式內容的影響,不同類型的數據庫在使用中仍存在不兼容的情況。因此,無法充分利用數據庫中的信息資源,造成了資源的閑置或浪費,無法充分滿足用戶的實際需求。大數據時代背景下的數據庫技術可以有效解決這一問題,針對不同類型的數據庫進行有效統一的數據庫建設,不斷完善數據信息資源的檢索功能,從而提高用戶的滿意程度和工作效率,簡化操作流程[3]。
4.2共享性
數據庫技術的有效實現和價值體現,在一定程度上取決于數據信息資源的共享性。人們可以通過方便快捷的方式方法獲取資源,不斷提高信息的使用效率。在實踐應用過程中,相關工作人員可以根據虛擬數據的實際情況對各個數據庫中的子節點進行科學合理的搭建,逐漸實現功能的多元化發展和信息資源的共享。隨著我國信息技術的不斷發展,數據庫技術的逐漸拓展和信息資源的共享,在一定程度上實現了信息資源的方便快捷,不斷滿足用戶的多元化需求,從而充分體現出數據庫的價值和作用。
5大數據時代背景下數據庫技術的應用對策和手段
5.1數據標簽
數據標簽是大數據時代背景下使用數據庫技術的基礎,能夠充分實現數據的查詢和有效定位。在進行數據庫的有效搭建和完善過程中,相關技術人員應當有針對性地凸顯出數據庫中相關資源的特殊性,充分立足于社會發展的實際需求,科學合理的設置相應字符長度,不斷提高數據標簽的科學性和合理性。
5.2節點建設
在使用數據庫時,節點建設應當是建設的核心和關鍵,各個要素之間的有效搭建能夠充分滿足用戶的實際需求,體現出個性化發展目標。根據實際情況可以看出,當前我國在節點建設中仍存在一定的問題,比如過于注重其標準性,采用固定的某種模式進行搭建,沒有充分考慮到實際需求,使得節點建設脫離實際,無法充分發揮數據庫技術的作用和功能。基于此,相關技術人員應當在原有數據庫技術基礎上進行優化完善,結合原有的地址內容和關鍵詞檢索信息,對整個數據信息資源進行重新整合,從而提高數據庫的有效性。
5.3虛擬大數據系統
在數據庫中靈活有效搭建出虛擬大數據技術可以更好地實現數據的海量管理,對數據庫綜合性能的提升和創新改革服務內容等都有著極其重要的作用和意義。虛擬大數據系統為數據群的前臺,其功能的實現直接影響了數據庫和節點信息資源的收集交匯,合理分配任務。虛擬大數據系統應當是整個虛擬數據中的關鍵所在,只有確保其正常高效運行,才能為用戶提供更為更全面的服務[4]。
5.4信息獲取
我國現有的數據庫技術更為注重數據信息資源獲取渠道和機制的創新完善,通過交互式管理模式,不斷進行信息的重組和創新。一方面,對于信息的獲取應當充分考慮到用戶的實際需求,搭建出由上而下的健全數據信息獲取途徑,使得用戶獲得更為全面系統的數據信息,確保信息的真實性和可靠性。另一方面,在獲取元數據時,技術人員應當充分運用虛擬大數據技術,對數據進行有效獲取。