時間:2022-07-03 03:03:53
引言:易發表網憑借豐富的文秘實踐,為您精心挑選了九篇大數據技術論文范例。如需獲取更多原創內容,可隨時聯系我們的客服老師。
大數據背景下的機器算法
專業
計算機科學與技術
學生姓名
楊宇瀟
學號
181719251864
一、 選題的背景、研究現狀與意義
為什么大數據分析很重要?大數據分析可幫助組織利用其數據并使用它來識別新的機會。反過來,這將導致更明智的業務移動,更有效的運營,更高的利潤和更快樂的客戶。
在許多早期的互聯網和技術公司的支持下,大數據在2000年代初的數據熱潮期間出現。有史以來第一次,軟件和硬件功能是消費者產生的大量非結構化信息。搜索引擎,移動設備和工業機械等新技術可提供公司可以處理并持續增長的數據。隨著可以收集的天文數據數量的增長,很明顯,傳統數據技術(例如數據倉庫和關系數據庫)不適合與大量非結構化數據一起使用。 Apache軟件基金會啟動了第一個大數據創新項目。最重要的貢獻來自Google,Yahoo,Facebook,IBM,Academia等。最常用的引擎是:ApacheHive / Hadoop是復雜數據準備和ETL的旗艦,可以為許多數據存儲或分析環境提供信息以進行深入分析。 Apache Spark(由加州大學伯克利分校開發)通常用于大容量計算任務。這些任務通常是批處理ETL和ML工作負載,但與Apache Kafka等技術結合使用。
隨著數據呈指數級增長,企業必須不斷擴展其基礎架構以最大化其數據的經濟價值。在大數據的早期(大約2008年),Hadoop被大公司首次認可時,維護有用的生產系統非常昂貴且效率低下。要使用大數據,您還需要適當的人員和軟件技能,以及用于處理數據和查詢速度的硬件。協調所有內容同時運行是一項艱巨的任務,許多大數據項目都將失敗。如今,云計算已成為市場瞬息萬變的趨勢。因為各種規模的公司都可以通過單擊幾下立即訪問復雜的基礎架構和技術。在這里,云提供了強大的基礎架構,使企業能夠勝過現有系統。
二、 擬研究的主要內容(提綱)和預期目標
隨著行業中數據量的爆炸性增長,大數據的概念越來越受到關注。 由于大數據的大,復雜和快速變化的性質,許多用于小數據的傳統機器學習算法不再適用于大數據環境中的應用程序問題。 因此,在大數據環境下研究機器學習算法已成為學術界和業界的普遍關注。 本文主要討論和總結用于處理大數據的機器學習算法的研究現狀。 另外,由于并行處理是處理大數據的主要方法,因此我們介紹了一些并行算法,介紹了大數據環境中機器學習研究所面臨的問題,最后介紹了機器學習的研究趨勢,我們的目標就是研究數據量大的情況下算法和模型的關系,同時也會探討大部分細分行業數據量不大不小的情況下算法的關系。
三、 擬采用的研究方法(思路、技術路線、可行性分析論證等)
1.視覺分析。大數據分析用戶包括大數據分析專業人士和一般用戶,但是大數據分析的最基本要求是視覺分析。視覺分析直觀地介紹了大數據的特征,并像閱讀照片的讀者一樣容易接受。 2.數據挖掘算法。大數據分析的理論中心是數據挖掘算法。不同的數據挖掘算法依賴于不同的數據類型和格式來更科學地表征數據本身。由于它們被全世界的統計學家所公認,因此各種統計方法(稱為真值)可以深入到數據中并挖掘公認的值。另一方面是這些數據挖掘算法可以更快地處理大數據。如果該算法需要花費幾年時間才能得出結論,那么大數據的價值是未知的。 3.預測分析。大數據分析的最后一個應用領域是預測分析,發現大數據功能,科學地建立模型以及通過模型吸收新數據以預測未來數據。 4.語義引擎。非結構化數據的多樣化為數據分析提出了新的挑戰。您需要一套工具來分析和調整數據。語義引擎必須設計有足夠的人工智能,以主動從數據中提取信息。 5.數據質量和數據管理。大數據分析是數據質量和數據管理的組成部分。高質量的數據和有效的數據管理確保了分析結果在學術研究和商業應用中的可靠性和價值。大數據分析的基礎是前五個方面。當然,如果您更深入地研究大數據分析,則還有更多特征,更深入,更專業的大數據分析方法。
四、 論文(設計)的工作進度安排
2020.03.18-2020.03.20 明確論文內容,進行相關論文資料的查找與翻譯。2020.04.04-2020.04.27:撰寫開題報告 。
2020.04.28-2020.04.30 :設計實驗。
2020.05.01-2020.05.07 :開展實驗。
2020.05.08-2020.05.15 :準備中期檢查。
2020.05.16-2020.05.23:根據中期檢查的問題,進一步完善實驗2020.05.24-2020.05.28 :完成論文初稿。
2020.05.29-2020.06.26 :論文修改完善。
五、 參考文獻(不少于5篇)
1 . 王偉,王珊,杜小勇,覃雄派,王會舉.大數據分析——rdbms與mapreduce的競爭與共生 .計算機光盤軟件與應用,2012.被引量:273.
2 . 喻國明. 大數據分析下的中國社會輿情:總體態勢與結構性特征——基于百度熱搜詞(2009—2 012)的輿情模型構建.中國人民大學學報,2013.被引量:9. 3 . 李廣建,化柏林.大數據分析與情報分析關系辨析.中國圖書館學報,2014.被引量:16.
4 . 王智,于戈,郭朝鵬,張一川,宋杰.大數據分析的分布式molap技術 .軟件學報,2014.被引量:6.
5 . 王德文,孫志偉.電力用戶側大數據分析與并行負荷預測 .中國電機工程學報,2015.被引量:19.
6 . 江秀臣,杜修明,嚴英杰,盛戈皞,陳玉峰 ,郭志紅.基于大數據分析的輸變電設備狀態數據異常檢測方法 .中國電機工程學報,2015.被引量:8.
7 . 喻國明. 呼喚“社會最大公約數”:2012年社會輿情運行態勢研究——基于百度熱搜詞的大 數據分析.編輯之友,2013.被引量:4.
六、指導教師意見
簽字: 年 月 日
七、學院院長意見及簽字
一般認為,大數據是由數量巨大、結構復雜、類型眾多的數據構成的數據集合,是基于云計算、通過數據整合共享、交叉復用形成的智力資源和知識服務能力。通常認為它具有下述“四V”特征:
1.1數量大(Volume)。大數據的數據量級已發展至PB(1000T)、EB(100萬個T)乃至ZB(10億個T),可稱為海量、巨量乃至超量。
1.2速度快(Velocity)。大數據往往表現為高速實時數據流,時效性非常高。因此對處理工具的要求很苛刻,軟件工程、人工智能、機器學習等都應引入。這是區別于傳統數據最顯著的特征。
1.3多樣化(Variety)。數據種類繁多,形式多樣。包括各種信息及其網頁、圖片、音頻、視頻、圖像與位置等存在方式。
1.4價值高(Value)。大數據數量越龐大,價值越高,真實性、可靠性越強。但同時無效信息也越多,需要通過強大的機器算法對數據迅速地“去粗取精”,否則也只能望洋興嘆。
2大數據對科技咨詢業發展的影響
2.1拓展業務空間大數據信息對應的是高速實時數據流。這些數據流往往能產生難以想象的作用,其能量也將被層層放大,還有可能在另一個看起來毫不相關的領域得到應用。大數據環境下的科技咨詢就將具有全球性、戰略性意義,業務范圍和服務空間都將得到迅速拓展。科技咨詢各相關要素,如科技資源、科技人才、創新需求、創新環境、創新成果等的疆界,將受到大數據浪潮的沖擊。同時,落后地區和難以涉獵領域的業務也將在其帶動下快速提升。
2.2規范咨詢決策大數據將改變科技咨詢決策方式,使其進入“數據驅動型”決策模式。因為面對大數據的潛在價值,決策者不僅要使用新的技術,還要改變目前的決策過程,政府也將更有效率、更加開放、更加負責。因為引導政府決策的是基于實證的事實,而不是意識形態,也不是利益集團在政府決策過程中施加的影響。
3大數據環境下科技咨詢業發展道路
從上面的分析不難看出,大數據將給科技咨詢業帶來無限的生機和活力。科技咨詢業應搶抓機遇,跨越發展,走規模化、信息化、科學化、現代化的可持續發展道路。
3.1挖掘大數據,促進規模化發展我國科技咨詢業規模較小,究其原因,一是咨詢市場還沒有完全放開,市場主導地位沒有顯現,資本缺乏信心。二是科技咨詢價值沒有得到廣泛認同,潛在需求得不到釋放。三是現有機構沒有形成專業分工和自主品牌,無法帶來規模效應。然而,在大數據時代,最重要的生產資料———數據將自由地流動起來,推動知識經濟和網絡經濟的發展,傳統經濟體制機制對科技咨詢業的束縛將大大減輕,“得數據者得天下”將成為共識,市場將發揮主導作用,吸引大量資本進入,促使機構快速升級。同時,隨著競爭的加劇,咨詢質量、咨詢價值必將得到提高和認同,潛在的需求必將迸發。
3.2利用大數據,加快信息化進程目前我國科技咨詢信息化建設大致經歷了計算機初步應用、管理信息系統應用和互聯網技術應用三個階段。隨著時代的發展,大數據將掀起新一輪信息化革命。科技咨詢業必須充分利用大數據技術,在政府引導下,進一步完善信息化工程,建立基于大數據的科技咨詢信息平臺,實現在虛擬空間中不同信息資源的快速整合與對接,提高咨詢要素使用效率和運行主體工作效率。
3.3憑借大數據,提高科學化水平大數據的客觀實在性和真實可靠性并存。對大數據進行深度挖掘,可以提高科技咨詢科學化水平。首先,基于大數據,科技咨詢信息的真實性有了更大的保障。其次,依據大數據特征,可幫助制定更為科學的咨詢戰略、方案和計劃,同時降低過時咨詢、無效咨詢的風險。再次,基于大數據,科技咨詢具有更強的針對性。咨詢師可以深度分析、挖掘最高管理者的知識結構、創業經歷、行為習慣等信息,準確把握其管理理念。最后,通過對大數據的分析、挖掘與利用,可最大程度地減少因數據不全而帶來的負面作用。
3.4依托大數據,實現現代化轉型隨著時代的發展,傳統的咨詢工具、內容、形式、速度、效率等越來越不能滿足現代社會發展的需求。依托大數據,可以實現科技咨詢向現代化轉型。首先,大數據環境促使科技咨詢必須運用現代化咨詢工具。如,大數據的超大量級迫切要求科技咨詢設備現代化、信息數字化。其次,大數據促使科技咨詢內容、形式現代化。現代社會工作、生活節奏很快,簡潔實用、形式新穎是對科技咨詢工作的新要求。形式多樣的大數據正好為科技咨詢提供了便利。再次,快速、高效是現代化的重要特征,而高速實時的大數據則要求科技咨詢處理工具快速演進、高效運行。最后,大數據的基本特征決定了科技咨詢必須進行全方位的改革創新,緊跟現代化發展步伐。大、多、真、快、稍縱即逝的大數據要求科技咨詢必須借助移動互聯、云計算、軟件工程、人工智能、機器學習等手段,優化資源配置,建立高智能科技咨詢協作平臺,向科技咨詢現代化邁進。
4總結
PDA也可以稱為個人數字化助理,簡稱為掌上行機,它的優點是形狀很小,攜帶很方便,可以把它放在手上或者口袋。很便于輸入數據,操作結構很簡單,使用起來很方便,可使用手接觸或者筆輸入信息,耗費功能很低,電池能使用的時間很長,通信里很強,可以使用藍牙、紅外接受發送信息,價格實惠。現在很多PDA使用windowsCE來進行操作,用來開發windowsCE系統功能,就像是在計算機的桌面進行開發軟件程序一樣,構建一個比較有相對性的移動設備。
2分析PDA和全站儀中的數據
2.1串口技術
使用Wicrosoftwindows開發串口系統,進行有以下方式:a.使用windows來進行通信函數.b.windowsAPI對端口進行讀寫或者開發其它程序,對串口實行操作步驟。C.串口中的組件通信,比如Activek控制MSCcomm。根據以上介紹的幾種方法,比如b需要熟悉電路結構,驅動層次比較深,需要有比較強的專業技能,如C方式簡便,不能使EmbeddedVisualC++所接受,該程序就是應用windowsAP來進行通信函數。
2.2串口施行步驟
windows的讀寫文件方式不一樣,它主要使用windows結構中的多線程,然后再后臺進行串口讀寫,正常使用程序就要在前臺進行。進行改善1/0的速度,使用windows結構中的多線程,可以使用它來進行開發非單一系統,windows不能操作1/0的異常操作,可以使用它來進行操作串口,使用異步的方法,可以提高系統的操作能力。工作效能比較高的串口是事件驅動。應用這種方法有比較高的時實性,主要是針對一些比較廣泛的串口,跟查詢的方式不一樣,不是只對那個串口進行查詢。是以中斷的形式來進行,一般運行中斷時,確定的事件發生變化時,windows系統就會發出信息,才能有針對性的進行處理,確保數據存在。
3開發通信程序
3.1串口通信應用API函數
⑴串口進行打開關閉。在應用程序中用Create-File函數把串口打開,注意事項主要有:A.串口名后面需要加個冒號(:)。B.PDA的串口就是全部已經打開的串口,只含COM1。C.應用的參數定為零,安全沒有危險性的參數定為NULL。應用Close-Handle可以把串口關閉。⑵對串口進行配置。串口配置與PDA通信中的參數進行配置一起,這樣才能達到通信的效能,因此配置也是比較重要的一個步驟。LPDCB主要是針對DCB結構,DCB結構是對串口的進一步描述,串口的波特率主要是由DCB中的BaudRate來確定,原因是CE對非二進制不能進行輸送,所以fBinary要設定為TRUE,ByteSize是指字節在進行發送時接受到的數據。Parity是奇偶校驗,StopBits是停止位數,⑶對串口進行讀寫。串口進行讀寫時可以使用ReadFile和WriteFile函數實現,主要是串口進行讀寫時速度不是很快,⑷對串口進行異步讀寫,CE不能進行操作輸入輸出的功能,因此只能應用讀寫進行重復操作。第一,設定串口EV_RXCHAR要用SetCommMask函數來實現,應用WaitCom-mEvent阻攔線程,指直到把事件EV_RX-CHAR設定好,字符要應用回調函數來進行處理,續等發生事件。
3.2隔開水平角、豎直角、距離及進行組合測量
在測量過后,需要測出水平角,偏心的水平角與距離不能合在一起測量,測量時要分開進行,因此應用程序能進行水平角和豎直角及距離分開測量以及組合測量,進行測角時不能僅僅依靠棱鏡。所以,可以應用水平角和、豎直角、距離重復選框來進行模擬。針對不一樣規模的全站儀,使用的方式也不一樣,索佳操作的模式只含有一種規模的全站儀,只需要點擊按鈕即可,假如選擇斜距就進行輸送測角距,沒有選中斜距進行輸送測角距,收到的數據后。在根據模塊來分析與選取有針對性的數據,拓撲康是第二種模式,在選中斜距時,還要在斜距中的復選框中進行點擊,在進行輸送時改變測量距離的模式,進行發送時。進行驅動測量,跟讀取指令是一樣的。
3.3處理已經接收到的字符串
⑴ASCII編碼是已經收到的字符串,可以使用MultiByteToWideChar函數轉變成Unicode編碼然,在進行處理。⑵測量指令在進行發送出去后,全站儀中的數據不是一次性發完,應該是分層次來進行發送,因此,字符串要直接連接到字符串,才能完成接受任務。⑶字符串的主要任務就是接收完后,要依據復合框進行有效的選擇,分析全站儀的字符串,也會顯示的很清楚。⑷拓撲康是第二種模式,符串后的任務就是接受,在輸送時顯示清楚。相反,就會把全站儀輸送數據全部給PDA,造成不良后果。
4應用在實際生活中
VC++2005smartdevice的MFCsmartdeviceApplication,PDA與全站儀中的通信主要依靠多線程來完成,使他們能夠穩定運行。根據太原市在進行測繪進行探索指出,外業進行采集時,效果是良好的。全站儀中的數據直接讀取,防止在讀、記方面存在有誤差。不過,對存在有誤差的數據要自動檢查,防止2C差、差互差、2C互差的影響產生誤差,而不能及時的進行檢查,而導致返工現象的發生,工作效率的提高,PDA儲存的文件就是測量的結果,外業任務完成之后把所得出的結果直接輸入到PC,經過對程序的進一步分析,能直接評估精準度及計算坐標,不使用人工來進行操作,從一定程度上減少了工作人員的工作量,也能減少造成不要的麻煩,有效的提高工作效率。
5結束語
大數據時代的到來,計算機信息處理技術也存在著很大風險,其中最突出的問題是計算機病毒以及惡意盜版軟件等,給用戶使用計算機產生了極大的消極影響。這些還是一些比較基礎的問題,隨著計算機技術的發展,還出現篡改數據、冒名頂替等問題,影響計算機技術服務質量,計算機信息處理技術受到了前所未有的考驗。另外,大數據時代的到來,還出現了許多新型網絡技術,針對一些繁瑣的問題能夠有效解決,提高了人們的工作效率,然而,這也在一定程度上降低了網絡的真實性,特別是在網絡交流和溝通日益緊密的前提下,導致網絡信息真假難分,不僅增加了信息搜索難度,而且致使人們無法快速獲得真實信息。因此,提高計算機信息處理技術至關重要。
2大數據時代計算機信息處理技術
2.1信息采集、加工方面
計算機信息處理技術要進行工作,首先,要采集數據信息,計算機技術都是建立在數據采集基礎之上的,數據采集主要是針對目標信息源進行實時的信息監督和控制,并將才覺得數據儲存在計算機數據庫中,為各個軟件提供信息支持,確保下一項工作順利進行;其次,對數據信息進行加工,按照用戶的要求,對數據信息進行加工;最后,將加工好的數據信系進行分類,最終傳送到用戶手中,實現數據采集、加工以及傳送目標。
2.2存儲方面
計算機存儲技術是將采集的信息儲存到計算機數據庫之中,在用戶需要某一項信息過程中,可以通過數據庫直接將數據調取出來,計算機以其儲存量大、速度快等優勢,受到人們越來越多的關注,另外,計算機技術還能夠實現長時間儲存。
2.3信息安全方面
大數據時代的到來,讓人們感受技術帶來的便捷的同時,也讓人們意識到數據信息安全對人們的重要性。因此,為了能夠提高數據信息的安全、可靠性,可以通過以下幾個方面進行:首先,建立計算機信息安全體系,加大專業技術人才的培養力度,投入資金,為構建計算機安全體系奠定堅實的基礎;其次,加大研究力度,開發信息安全技術產品。傳統信息安全技已經無法滿足大數據時代數據安全需求,為了能夠盡快改善數據安全問題,應加大研究力度,尋求更好的解決方案,有效避免數據信息受到威脅;最后,重視對重要數據的檢測,大數據時代的突出特點是數據量大,無法實現對每一個數據的檢測。因此,為了提高數據安全系數,應加強對重點數據信息的檢測,從而確保數據信息安全。
2.4信息處理技術的發展
計算機硬件具有一定局限性,在一定程度上阻礙了計算機網絡的發展,而云計算網絡能夠突破這一弊端。因此,推廣和應用云計算機網絡成為未來大數據時代計算機信息處理的主要發展趨勢。傳統計算機網絡是將硬件與網絡有機結合,抑制了計算機信息處理技術的發展,將二者分離開,促使云計算主筋形成云計算網絡,從而構建大數據信息網絡系統,推動我國社會不斷發展。
3結論
關鍵詞:FAS466處理器合成孔徑雷達高速數據記錄SCSI接口標準
合成孔徑雷達(SAR)經歷了從光學記錄成像到數字記錄成像,從低分辨率到高分辨率,從單通道、單極化到多通道、多極化,從單頻到多頻的發展過程。SAR系統的迅速發展,使SAR的數據量也急劇增多,普通的存儲器已經無法滿足SAR系統對大容量、高速數據存儲的要求。
常規的數據記錄器的設計思路是通過高速PCI接口,采用SCSI總線處理器將高速數字信號存入SCSI硬盤。其缺點是數據傳輸的速率受PCI帶寬的限制,而且PCI接口對微機系統的依賴性,使系統的模塊化設計變得非常困難。另外,SAR對數據記錄器的可靠性和工作環境的要求也非常高,使SAR數據記錄器不能按照常規的方法設計。筆者通過對SAR系統的研究,基于模塊化設計的思想,開發了一種基于FAS466的高速實時數據記錄器。其特點是采用高速DMA接口、可脫離微機平臺工作、體積小、可靠性高,實際持續存儲速度達到72MB/s。
圖1
1SCSI總線和硬盤
SCSI是美國ANSI9.2委員會定義的計算機和外設之間的接口標準。本系統采用SCSI硬盤,因為5CSI接口比常見的IDE接口具有更多優點:(1)SCSI提供了一個高速傳輸通道,傳輸速度更快;(2)SCSI接口采用總線主控數據傳輸(BusMasterDataTransfer),占用CPU資源少;(3)可同時串接多臺不同類型的設備;(4)SCSI硬盤在標識硬盤扇區時使用了線性的概念,即硬盤只有順序的第1扇區、第2扇區…第n扇區,不像IDE硬盤的"柱面/磁頭/扇區"三維格式。這種線性編排方式訪問延時最小,可加快硬盤存取速率,尤其在持續大容量控據存儲時,所顯現的優勢更為明顯。
2系統的硬件結構設計
整個系統的設計總體框圖如圖1所示,包括高速數據源、高速差分接收器、DMA控制器、數據緩存器、DSP微處理器、SCSI協議控制器和高速SCSI硬盤等子系統;下面分別給出各子系統的設計(PADBUS表示控制信號線,DATABUS表示數據信號線)。
2.1高速數據源和高速差分線性接收器
系統的高速數據源接口為16位的并行接口,數據傳輸接口的所有信號均采用低電壓差分模式LVDS傳輸,信號進入記錄器之后要將LVDS電平轉換成TTL電平。
2.2數據緩存器
數據緩存的目的是為SCSI的高速DMA傳輸做好準備,使兩邊數據傳輸速度匹配。數據的流向一般是一個口進,一個口出,不對信號進行任何處理。雙口隨機存儲器RAM雖然也可完成這個任務,但是由于它需要復雜的地址譯碼電路,所以不采用,而采用FIFO。由于SAR系統每幀數據小于8KB,本系統選用的FIFO深度為8KB。
2.3SCSI協議控制器--FAS466
FAS466(FastArchitectureSCSIProcessor)處理器是Qlogic公司1999年上市的一種高性能SCSI引擎,它源于Qlogic公司的TEC450/452三重嵌入式控制鋁系列,可提供Ultra2SCSI的同步傳輸速率,支持先進的SCSl自動配置模式的1層和2層協議,內部嵌有微控制器,能夠通過編程方式靈活地協調SCSI作業隊列,可以工作在啟動或目標模式并支持單端或低電壓差分模式的SCSI連接。
FAS466區別于其它SCSI協議控制器的最大特點是它采用微處理器和DMA接口結構,而常見的SCSI協議控制器采用PCI接口總線結構。這是本設計采用FAS466的一個主要原因。采用微處理器和DMA接口結構,可以通過DSP對傳輸進行控制,脫離微機平臺,減少傳輸帶寬限制,使數據記錄器具有非常好的靈活性和可移植性。FAS466由SCSI控制器、微控制器、DMA接口和微處理器接口四個模塊組成。外部微處理器通過微處理器接口對FAS466進行控制,SCSI控制器提供靈活、有效的底層SCSI協議控制,微控制器負責控制數據從DMA接口到SCSI硬盤的傳輸以及各個模塊之間的協調。圖2為FAS466的內部結構。
2.4OMA控制器
本設計采用DMA接口代替高速數據存儲中常見的PCI接口。這不但使傳輸數據的速率有了比較明顯的提高,而且使數據記錄器可以脫離微機系統,使模塊化設計成為現實。
本設計采用CPLD器件實現DMA控制器,而不采用專用的DMA控制器,主要考慮以下一些因素:本設計的數據傳輸速率達到72Mg/s,一般的專用DMA控制器難以勝任;專用的DMA控制器與FAS466之間的連接需要大量的邏輯轉換電路和連線,使設計難度加大;DMA控制器還需要在DSP的控制下與FAS466進行協調才能一起工作,這增加了軟件編程的難度;使用CPLD器件,除了完成DMA控制器的功能之外,還可以把電路中的譯碼、邏輯轉換、系統復位等模塊設計進去,減小了設備的體積,方便了以后對系統的升級和改進。
圖3
2.5DSP微處理器
該高速數據記錄器選用TI公司的TMS320F206作為微處理器。主要考慮TMS320F206片內包含32K×l6字的FLASHEEPROM,使DSP周圍電路簡單、設備的體積減小,而且系統升級也比較方便;指令集非常豐富,與TMS320C5X系列指令兼容;TMS320F206的指令周期為50ns,符合系統對DSP速度的要求。
DSP負責對各個模塊進行協調和控制,實現高速數據記錄的功能。需要注意的是:FAS466的微處理器接口數據/地址總線是復用的,而TMS320F206的數據/地址總線是分開的,需要外部邏輯將數據和信號總線整合。高速數據通過信號源接口進入本系統,首先進行電平轉換,然后進入數據緩存器;在DMA控制器的控制下進入SCSI協議控制器;最后通過SCSI協議控制器存入高速SCSI硬盤。整個數據流程中,DSP微處理器負責各個子系統之間的協調和控制。由于采用分離的微處理器總線和DMA總線結構,因此達到了較高的記錄速度。
3系統的軟件設計
軟件模塊的設計是本系統設計的重點和難點,它負責對相關硬件控制和協調,最終實現SCSI協議、硬盤的控制和DMA傳輸等。本系統中,軟件設計分為DSP控制軟件和DMA控制器的CPLD實現兩部分。程序的優劣關系到整個系統數據存儲的速度,下面分別討論。
3.1DSP控制軟件
一般來說.要完成一次數據交換必須完成SCSI總線的仲裁、選擇、消息、命令、數據和狀態等階段。這些階段,微處理器TMS320F206通過對FAS466寄存器的讀寫控制完成實現。FAS466的寄存器主要有:
(1)命令寄存器(CommandRegister):F206通過向命令寄存器寫入相應指令,控制FAS466完成初始化、復位、總線分配與復位以及SCSI總線各個階段的轉變等功能;(2)FIFO寄存器(FIFORegister):這是一個16字深的FIFO寄存器,SCSI硬盤和FAS466之間的數據交換都通過這個FIFO完成;(3)傳輸計數寄存器(TransferCountRegister):是一個減法計數器,用于保存一次DMA數據傳輸的字節數;(4)中斷寄存器(InterruptRegistet):F206通過FAS466中斷寄存器了解SCSI命令的執行情況,從而決定程序的執行流向。
SCSI控制軟件流程如圖3所示。首先初始化SCSI控制器,然后SCSI控制器與SCSI硬盤建立同步傳輸協議,在硬盤準備好的情況下才可以發送各種SCSI命令,如讀、寫等,同時處理好各種意外情況的發生。
3.2DMA控制器的CPLD實現設計
(一)大數據增值價值巨大,商業價值、經濟價值和社會價值不可估量,終極價值在于助力社會進步與升級。美國奧巴馬政府將數據定義為“未來的新石油”,是對其價值最生動的再現。大數據雖然價值密度低,但通過對數據的處理、整合和分析并使用,可創造出巨大的商業價值、經濟價值和社會價值。面向大數據市場的新技術、新產品、新服務、新業態已不斷涌現,大數據成為經濟高速增長的新引擎,正在“吞噬”和重構傳統組織架構,必將引發政府、公共事業、制造業、流通等領域全方位變革。特別是人機“生命共同體”快速進化,大數據將為人類的生活創造前所未有的可量化的維度,成為當代文明建設的助力器,讓社會得以革新與升級,最終改變未來。
(二)大數據橫空出世,源于個人全球化、記憶數字化、社會網絡資本化的全力驅動,是IT業發展演進的歷史使然。大數據不是突然產生的,是IT技術發展的必然產物。大數據浪潮主要源于三大驅動力推動。一是互聯網、移動互聯網及物聯網等新一代信息技術,實現了信息、知識和社會關系網絡乃至“個人”全球化,為大數據提供了廣泛的數據來源。二是數據開放運動和數據民主化,實現了數據的分布式共享和全球性覆蓋,云計算等廉價、高效的存儲提取方式,讓數據成為“共享的社會記憶”,客觀上開啟了大數據時代大門。三是挖掘復雜社會網絡資本價值,加速了大數據技術的深度應用,構成了大數據的經濟驅動力。全球化、數字化和社會網絡資本化齊力推動了大數據大發展。
二、大數據:國家審計改革發展新動力
正在發生和演變的趨勢表明,大數據時代無論對于社會、組織還是個人,都是一次革命,一個巨大的挑戰,一個重大的轉型機遇和飛躍的契機。國家審計無疑也是如此。1.飛速發展的經濟社會新實踐,必將推進國家審計理論與時創新。當前,人工智能、社交網站、RFID、語義網、云計算等技術或理念風馳電掣一般闖入我們的工作生活,數據開放、軟件開源、普適計算、智慧地球等新思想令人眼花繚亂,新的技術和觀念層出不窮。在信息技術環境下,豐富多彩的經濟社會實踐,通過信息交換、權能傳遞和功效聯動等方式,將先進的信息技術、網絡技術、網絡時空觀、數據挖掘、系統集成以及多媒體等多種學科理論和技術思想深層次地植根于審計理論,刺激審計理論的變革和創新。同時,國外一些先進管理理念,如企業再造工程、虛擬組織、穆爾法則(Mooreslaw)、基爾德法則(Gilderslaw)和麥特卡夫法則(Metcalfeslaw)等,與傳統審計理論進行分化、碰撞、對接與融合,必將從廣度和深度上推進審計理論不斷繁衍與創新,審計理論將呈現多樣性、交融性和虛擬性。2.審計客體內涵和外延的擴張,必將呼喚國家審計權力邊界順勢突圍。近年來,經濟社會實踐活動中,計算機、數據庫、網絡等現代信息技術得到了廣泛運用,實物流、資金流表現向無紙化、數字化和信息流的轉變,業務處理和財務管理逐步實現自動化和網絡化,國家審計的審計內容、審計對象、審計資料、審計證據線索等都呈現出普遍電子化、數字化的特點。從而擺脫了傳統帳套、傳統財務信息、紙質的業務軌跡,從被審計單位的財務收支及有關的經營管理活動,會計資料和其他相關資料,擴展到電子數據、系統內部控制和信息系統自身;從財務數據延伸到業務數據;從內部數據關聯到外部數據,審計客體外延和內涵的擴張,突破了以財政財務收支、紙質載體為主的審計權限范圍。必然要求法律賦予審計部門數據采集、技術偵查、行政強制、訴訟等更多權力,以應對大數據時代的高科技舞弊,確保審計職能的充分發揮。3.新型大數據技術的廣泛應用,必將推動國家審計作業流程優化再造。聯機分析、數據挖掘、WEB2.0互聯網審計、云技術等大數據技術普遍運用,將所有的審計內容、審計技術、審計方法納入大數據審計之中。傳統的現場審計作業流程必將改造優化為:了解調查,獲取信息;采集數據,整理數據;進行數據轉換、清理和驗證;創建審計中間表;進行數據分析,找出審計重點;構建審計分析模型,分析數據;延伸落實,審計取證。數據分析成為審計作業的核心。信息技術還可以優化審計項目管理,如利用信息技術為審計項目管理內置一個標準的、符合質量要求的審計作業流程,用以規范審計人員的審計作業行為,使不同背景、不同水平的審計人員能夠執行相同的審計動作。通過虛擬組織形態和數據集成智能化管理,實行遠程控制審計項目,包括審計方案的控制、分工控制和授權控制,為質量控制和風險預防搭建一個良好的、高效的管控平臺。4.國家審計供需矛盾更為激烈,必將要求國家審計主體能力自我革命。審計作為綜合性經濟監督部門,覆蓋領域之廣,涉及的經濟社會活動之多,所產生和集聚的數據規模不可謂不大。大數據價值的發現和挖掘,必定給審計創造了更多需求,打開了更廣闊的市場,對審計供給能力提出了新挑戰。而決定審計供給能力的關隘就是國家審計主體能力。大數據時代,IT審計師將主導國家審計舞臺。而目前,大部分審計人員主要精通財會知識,計算機知識和技能比較欠缺,知識結構還不能滿足大數據技術的要求,數據分析與管理高端人才緊缺。審計人員除了要有專業的審計、會計知識外,必須精通信息技術,掌握網絡、數據庫、電子商務、信息系統的開發與管理和計算機輔助審計技術。優化審計人員能力結構,增強審計干部信息化審計基礎能力、數據采集處理和分析能力、監測指標和模型的構建和分析能力、信息系統內部控制測評能力,尤為緊迫。
三、大數據背景下國家審計發展路徑
無論是組織結構,還是國家文明,只有充分發揮大數據時代的價值、迎接好大數據面臨的挑戰并積極應對,才會處于不敗之地。因此,國家審計應放眼未來,以大數據審計為目標,加快改革創新步伐,搶占審計發展的突破點和制高點,迎接新時代挑戰。
(一)加快理論創新,為大數據審計落地提供實踐指南。要堅持實踐上的“摸著石頭過河”與理論上的“頂層設計”相結合,加強審計理論和實務的研究,在理論上對大數據審計的性質以及由此決定的審計職能與任務等基本問題進行深入研究,構筑起適應大數據時展的、可用于解釋和預測多種審計現象的審計理論。加強與國家信息化咨詢委員會、公安部、發改委、工信部、財政部和國家信息中心等相關部門的合作研討,多角度、更準確地把握客觀現實及政策約束;組建由學術界專家、審計研究人員和實務骨干組成的團隊,承擔把握前沿熱點、規劃審計思路等工作,為加快大數據審計實踐提供操作指南。要制定大數據審計發展的長遠規劃,堅持把大數據審計作為國家審計發展的核心戰略,從數據、制度、人才和技術等方面逐步積累基礎資源,有計劃、有步驟、長期不懈地堅持推進。要加大宣傳,營造數據審計文化氛圍,革新思想觀念,樹立正確數據觀,建立基于全數據模式、從整體到局部的審計思維模式,用大數據時代精神武裝頭腦。
(二)加快制度創新,健全完善大數據審計相關法規建設。目前,我國電子商務、網絡經濟和計算機應用相關法律法規制定相對滯后于經濟社會實踐活動,有些甚至還是盲區,導致大數據審計的法律地位和權限虛置。要加強電子商務、網絡經濟等相關立法,把電子合同、電子憑證、電子證據、電子簽名的法律效力和保管要求,數據認證機構的管理,電子信息與網絡安全等相關問題,以法律法規的形式明確固化下來,為大數據審計提供法律依據。要強化審計權威,擴大審計權限,賦予審計審查審計對象計算機信息系統的功能與安全措施,利用網絡和審計軟件進行審計,接入、采集、存儲、提煉審計對象所有數據等的權力。要堅持本土自創與模仿移植相結合,建立健全與大數據時代相適應的審計標準和準則,如制定大數據審計評價準則、技術標準,數據挖掘分析指南,信息系統輸入—處理—輸出的符合性和實質性測試的準則,云計算以及網絡審計準則等,確保大數據審計有法可依、有章可循。
(三)加快機制創新,積極構造政府主導、審計主推、IT企業參與的大數據審計聯動機制。大數據技術在國家審計領域中的推廣應用是技術進步的必然要求,但根據國家審計行業自身的特點,其無法自發地獨自實現,必須積極構造政府主導、審計主推、IT企業參與的多點支撐聯動機制,形成聚合效應。對政府而言,要積極把握大數據戰略機遇,制定積極的政策法規,提供高質量的網絡基礎設施,營造適度寬松的大數據發展環境,鼓勵企業、審計部門進行大數據相關的技術研發與應用創新,從標準、法律和意識形態層面大力引導大數據審計發展。對審計部門而言,要制定戰略數據儲備計劃,加快與被審計單位數據實時互聯互通,消除“信息孤島”,為大數據審計提供數據載體;要逐步建立完善中央和地方的審計數據中心,構建審計管理、審計業務、審計方法和評價信息資源庫,加快推進國家電子審計信息資源目錄體系和交換體系建設,實現數據大集中。對IT企業而言,要深刻洞察大數據審計的需求,提供從硬件到軟件、從產品到服務的一體化解決方案;要專注細分領域創新,提供具有審計行業特色的大數據審計專家級方案。
(四)加快應用創新,不斷研究、探索、實踐大數據審計技術方法。可以預見,大數據時代,審計人員時時刻刻都需要利用信息技術手段處理各種審計業務和工作。要結合審計工作實際,認真研究并積極實踐A/B測試、關聯規則挖掘、分類、數據聚類、眾包、數據融合和集成、數據挖掘、集成學習等大數據分析技術,BigTable、商業智能、云計算、Cassandra、數據倉庫、數據集市、分布式系統等大數據處理技術,以及標簽云、Clustergram、歷史流、空間信息流等可視化技術。要深度分析挖掘審計部門的大數據價值,從“業務驅動”轉向“數據驅動”,實現審計決策和管理智能化。通過云計算的IaaS、PaaS和SaaS三大服務模式,建立國家層面的跨行業、跨領域的審計私有云和審計大數據分析平臺。要建立審計專家和信息技術專家合作的審計信息技術研發模式,加強審計大數據分析模型和軟件的研究開發。建立審計信息技術評選機制,對優秀的審計技術創新進行表彰獎勵。建立審計信息技術庫,把現有審計信息技術分類整理錄入,實現網上查詢、培訓和新技術添加功能,加快大數據審計技術的推廣和應用。
基本的大數據的處理流程可以分成數據采集、數據處理與集成、數據分析和數據解釋4個階段。首先獲取數據源的數據,因為在數據源端的數據包含各種各樣的結構,需要使用某種方法將其進行預處理,使數據成為某種可以用一種算法分析的統一數據格式,接著需要找到這種數據分析的算法,將預處理過的數據進行算法特定的分析,并將分析的結果用可視化等手段呈現至用戶端。
1.1數據采集
大數據的采集是整個流程的基礎,隨著互聯網技術和應用的發展以及各種終端設備的普及,使得數據的生產者范圍越來越大,數據的產量也越來越多,數據之間的關聯也越來越復雜,這也是大數據中“大”的體現,所以需要提高數據采集速度和精度要求。
1.2數據處理與集成
數據的處理與集成主要是對前一步采集到的大量數據進行適當的預處理,包括格式化、去噪以及進一步集成存儲。因為數據采集步驟采集到的數據各種各樣,其數據結構也并不統一,不利于之后的數據分析,而且,一些數據屬于無效數據,需要去除,否則會影響數據分析的精度和可靠性,所以,需要將數據統一格式并且去除無效數據。通常會設計一些過濾器來完成這一任務。
1.3數據分析
在完成了數據的采集和處理后,需要對數據進行分析,因為在進行數據分析后才能體現所有大數據的重要價值。數據分析的對象是上一步數據的處理與集成后的統一格式數據,需要根據所需數據的應用需求和價值體現方向對這些原始樣本數據進一步地處理和分析。現有的數據分析通常指采用數據倉庫和數據挖掘工具對集中存儲的數據進行分析,數據分析服務與傳統數據分析的差別在于其面向的對象不是數據,而是數據服務。
1.4數據解釋
數據解釋是對大數據分析結果的解釋與展現,在數據處理流程中,數據結果的解釋步驟是大數據分析的用戶直接面對成果的步驟,傳統的數據顯示方式是用文本形式體現的,但是,隨著數據量的加大,其分析結果也更復雜,傳統的數據顯示方法已經不足以滿足數據分析結果輸出的需求,因此,數據分析企業會引入“數據可視化技術”作為數據解釋方式。通過可視化結果分析,可以形象地向用戶展示數據分析結果。
2云計算與大數據分析的關系
云計算是基于互聯網的相關服務的增加、使用和交付模式,通常涉及通過互聯網來提供動態易擴展且經常是虛擬化的資源,是一種按使用量付費的模式。這種模式提供可用的、便捷的、按需的網絡訪問,進入可配置的計算資源共享池(資源包括網絡、服務器、存儲、應用軟件、服務),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務供應商進行很少的交互。目前,國內外已經有不少成熟的云計算的應用服務。數據分析是整個大數據處理流程里最核心的部分。數據分析是以數據的價值分析為目的的活動,而基于大數據的數據分析通常表現為對已獲取的海量數據的分析,其數據來源可能是企業數據也可能是企業數據與互聯網數據的融合。從目前的趨勢來看,云計算是大數據的IT基礎,是大數據分析的支撐平臺,不斷增長的數據量需要性能更高的數據分析平臺承載。所以,云計算技術的不斷發展可以為大數據分析提供更為靈活、迅速的部署方案,使得大數據分析的結果更加精確。另一方面,云計算的出現為大數據分析提供了擴展性更強,使用成本更低的存儲資源和計算資源,使得中小企業也可以通過云計算來實現屬于自己的大數據分析產品。大數據技術本身也是云計算技術的一種延伸。大數據技術涵蓋了從數據的海量存儲、處理到應用多方面的技術,包括海量分布式文件系統、并行計算框架、數據庫、實時流數據處理以及智能分析技術,如模式識別、自然語言理解、應用知識庫等等。但是,大數據分析要走向云計算還要賴于數據通信帶寬的提高和云資源的建設,需要確保原始數據能遷移到云環境以及資源池可以隨需彈性擴展。
3基于云計算環境的Hadoop
為了給大數據處理分析提供一個性能更高、可靠性更好的平臺,研究者基于MapReduce開發了一個基于云計算環境的開源平臺Hadoop。Hadoop是一個以MapReduce算法為分布式計算框架,包括分布式文件系統(HDFS)、分布式數據庫(Hbase、Cassandra)等功能模塊在內的完整生態系統,已經成為當前最流行的大數據處理平臺,并被廣泛認可和開發應用。基于Hadoop,用戶可編寫處理海量數據的分布式并行程序,并將其運行于由成百上千個節點組成的大規模計算機集群上。
4實例分析
本節以電信運營商為例,說明在云計算環境中基于Hadoop的大數據分析給大數據用戶帶來的價值。當前傳統語音和短信業務量下滑,智能終端快速增長,移動互聯網業務發展迅速,大數據分析可以為運營商帶來新的機會,幫助運營商更好地轉型。本文數據分析樣本來自于某運營商的個人語音和數據業務清單,通過Hadoop2.6.0在Ubuntu12.04系統中模擬了一個大數據分析平臺來處理獲得的樣本。希望通過對樣本數據的分析與挖掘,掌握樣本本身的一些信息。以上分析只是一些很基本的簡單分析,實際上樣本數據中所蘊含的價值要遠遠大于本文體現的。以上舉例意在說明基于云計算的大數據分析可以在數據分析上體現出良好的性能,為企業帶來更豐富更有效率的信息提取、分類,并從中獲益。
5結束語
在大數據時代下高效的數據處理速度使得信息具有更高的效用,發揮了更大的速度優勢.在數據真實可靠的基礎上,其快速的數據處理并沒有使得信息量減少,而是更加全面地包含了更多的細節信息,甚至于其他不相關信息都會被準確的排除.這樣就最大程度地降低了信息化的成本,提高了信息化的效率.
2大數據與企業會計信息化
會計信息化是我國“十二五”期間會計改革與發展的重要內容之一,也是很多企業提高會計系統效率的有效途徑.會計信息化是信息社會的產物,是將計算機、網絡通訊等先進的信息技術引入會計學科,促進企業會計系統網絡化發展的過程.大數據的興起、云計算的增速和以云計算為基礎的云會計的應用為會計信息化的發展提供了技術支持和平臺.企業會計信息化的深度發展對于大數據的需要與日俱增.
2.1企業會計信息化的現狀
1、會計信息披露具有偏向性,導致信息不對稱.傳統的會計信息系統會誘使企業選擇特定的會計方法而造成企業管理人員利用自身是信息提供者這一優勢,不斷地美化會計報表,這對于外部使用者而言是非常不公平的.2、內部自我約束能力弱,導致數據不真實.在傳統會計信息系統下,一些企業為了眼前經濟指標的提升或者任務的完成,常常通過人為調整會計報表來應付各機構的檢查,自我約束能力弱,數據失真.還有很多企業對現有的政策法規鉆空子、打球的現象屢禁不止.聘請的第三方審計機構也本著“企業利益最大化”的審計目標,對企業不真實的數據進行舞弊,以點蓋面.3、核算量大,導致信息披露不完全.傳統的會計信息系統下,會計的信息系統發展越來越不能適應高速發展的經濟業務,很容易造成信息披露不完全.信息經濟時代下,應該更多的提供企業未來價值的知識資源,而不是沉浸在企業過去的財務數據中.4、企業信息數據單一,導致信息缺少指導性.傳統的會計信息系統主要是對企業財務信息的反映,往往忽視了非財務信息.企業自身變化的社會經濟形勢要求我們不能只依靠過去的財務數據對未來發展做出預測.對企業未來的發展預測用某些非財務信息可能會更加合理.如企業的環境成本、社會責任等信息都需要非財務信息的提供.5、信息傳遞滯后,導致會計信息缺乏時效性.傳統的會計信息系統采用先發生交易事項后進行記錄的程序,無法滿足當代企業對信息時效性的要求.企業以及社會各機構、投資者越來越需要了解隨時發生的財務信息,對其進行更好的決策,這就要求企業不定期的提供會計信息,對于會計期間的定義也不再以年為單位了.因此,現有的會計信息滯后的時效性嚴重影響使用者的需求和投資者的決策.綜上可知,傳統的會計信息系統逐漸出現了不適應當今經濟發展的事態,高效、全面的信息化系統變得越來越重要.在大數據時代下會計信息的不斷創新,快速發展勢在必行.
2.2大數據對企業會計信息化的促進作用
大數據時代下,對會計信息化的促進作用主要表現在:信息結構更加客觀,既強調了會計信息的精準性,又不失相關性;財務會計信息管理的程序化;會計人員工作轉向宏觀信息管理;多元化的計量單位.在大數據時代下非結構化數據成為主導,在會計信息中可以更好的融合結構化和非結構化數據,更好的提高數據的相關性,并且不會人為的進行舞弊.程序化的會計信息管理也將出現,財務部門逐漸將不再作為一個部門,而是作為一個類似于“企業”的獨立個體,數據的獲取可以不通過部門的上報來實現,而是通過財務部門設定的獨立軟件獲取,這也提升了財務本身的獨立性,同時也可以為其他部門提供共享服務;財務部門不需要對數據進行處理,而是轉變成為數據的使用和管理者.在大數據時代下,多元化的計量單位將會出現,會計計量單位會出現相關的時間、數量單位等.
2.3大數據時代下會計信息化面臨的挑戰
大數據時代下,企業會計信息化系統是通過互聯網來實現與客戶、供應商、銀行、稅務等機構互通的,其提高企業財務管理效率的作用是顯而易見的.但目前因為大數據的發展尚未成熟,這就為會計信息化的快速發展帶來了較大的挑戰.1、數據的來源以及處理方式.大數據時代下最令人關注的問題就是數據從何而來,以及數據的處理方式.①美國數據科學家維克托•邁爾•舍恩伯格在《大數據時代》一書中提出,“以前一旦完成了收集數據的目的之后,數據就會被認為已經沒有用處了.比如,在飛機降落之后,票價數據就沒有用了;一個網絡檢索命令完成之后,這項指令也已進入過去時.但如今,數據已經成為一種商業資本,可以創造新的經濟利益.”大數據時代下,數據的來源無孔不入,互聯網平臺上的任何一種資源都可以成為其來源方式.網絡平臺對用戶使用的信息一覽無余,一個簡單的第三方軟件就可以知道我們需要什么,需要何種服務,經濟狀況如何,經常偏愛哪種東西等等.企業在云端儲存的數據對于云端后臺的信息維護人員來說,獲取變的輕而易舉.防止惡意程序以及提高用戶的安全系統,保護數據的隱私是很難解決的問題.在通過各種方式獲取了用戶的數據信息之后,要用這些數據干什么以及如何使用就成了關鍵性問題.大數據時代下的信息處理是通過特定的程序來完成的,這樣的結論更加客觀,同時結論的得出也具有局限性.大數據理論過于依賴數據的匯集,那么一旦數據本身有問題,就很可能出現滿盤皆輸的局面,因為數據的問題,做出的錯誤預測和決策,導致一個數據有問題,由此相關的數據而產生的信息本身都是問題所在.這對于數據來源的要求是非常高的,一旦有提供者造假,大數據帶來的危害是不可忽視的.2、傳統用戶對云計算、云會計的排斥.對于不知道云計算如何使用、互聯網軟件能帶來什么效益的用戶來說,這項工作還是很難完成的,大數據的推廣受到了很大的阻礙.對于云會計更廣泛的應用,改變傳統的用戶觀念以及現有的會計信息系統,使網絡平臺更容易被用戶所接受是一個非常艱難的過程.3、超滿負荷的網絡傳輸問題.大數據時代下,會計信息化系統必須依賴于網絡,這就要求企業應具備一個良好的網絡傳輸環境.就目前而言,網絡的堵塞和數據的延時都是大量的數據存儲和數據交換造成的,超滿負荷的數據傳輸成為會計信息化中的一個瓶頸,網絡技術的發展目前還不能完全滿足包括網絡自我恢復、故障檢測、問題警告等功能的實現.
一.大數據風控發展迅速,但有效性不佳
在應用層面,金融行業利用大數據進行風控已經取得了一定的成效。使用大數據進行風控已成為美國等發達國家互聯網金融企業的標準配置。
美國Zest Finance公司開發的10個基于學習機器的分析模型,對每位信貸申請人的超過1萬條原始信息數據進行分析,并得出超過7萬個可對其行為做出測量的指標,而這一過程在5秒鐘內就能全部完成。
為網上商家提供金融信貸服務的公司Kabbage主要目標客戶是ebay、Amazon、PayPal等電商,其通過獲取這些企業網店店主的銷售、信用記錄、顧客流量、評論、商品價格和存貨等信息,以及他們在Facebook和Twitter上與客戶的互動信息,借助數據挖掘技術,把這些店主分成不同的風險等級,以此來確定提供貸款金額數量與貸款利率水平。
中國互聯網金融企業對于大數據風控的運用也如火如荼。
阿里推出了面向社會的信用服務體系芝麻信用,芝麻信用通過分析大量的網絡交易及行為數據,對用戶進行信用評估,這些信用評估可以幫助互聯網金融企業對用戶的還款意愿及還款能力做出結論,繼而為用戶提供相關的金融和經濟服務。
騰訊的微眾銀行推出的“微粒貸”產品,其風控核心就是,通過社交大數據與央行征信等傳統銀行信用數據結合,運用社交圈、行為特征、交易、基本社會特征、人行征信5個維度對客戶綜合評級,運用大量的指標構建多重模型,以快速識別客戶的信用風險。
對于大數據風控的理論研究尚處于萌芽階段,本文以“大數據風控”為主題在CNKI數據庫進行搜索,與此相關的文獻數量可以從側面反映大數據風控的理論研究現狀。
CNKI數據庫中以“大數據風控”為主題的文獻共46篇。在這些文獻中,以報道性的文章較多,重要報紙全文庫和特色期刊總共為33篇,占比72%;而理論研究的文章較少,中國學術期刊總庫為12篇,占比26%;尚沒有CSSCI2014—2015年的來源期刊(如圖1)。
圖1 CNKI數據庫與大數據相關的文獻數量和分類
雖然大數據風控在實踐上已經有所進展,但是其有效性也受到一些挑戰。
例如,以大數據風控為基石的P2P平臺就頻頻暴露出各種各樣的問題來。對于P2P平臺來說,由于其純線上操作的特點,大數據風控的有效性是決定其經營狀況的重要因素,如果大數據風控有效性較差,則面臨的壞賬壓力較大,容易出現提現困難甚至跑路的問題。
網貸之家的數據顯示,2015年上半年新增問題平臺419家,是2014年同期的7.5倍,已超過2014年全年問題平臺數量。截至2015年10月底,全國問題平臺數累積已達1115家。
二.當前大數據風控有效性不足的原因分析
一些學者對于大數據風控的有效性問題進行了研究。
王強(2015)指出當前個人大數據征信的問題,一是數據的真實性,二是數據收集的法律障礙,三是壞賬的不可預測性問題。
甚至有作者認為大數據風控是無效的,陳宇(2015)援引各種證據認為大數據風控是無效的。
總體而言,當前大數據風控有效性欠佳的原因主要有以下幾個方面:
(一)數據的質量問題
當前大數據風控的有效性欠佳,其首要原因就是數據的真實性不高,包括社交數據和交易數據兩個方面。
1.社交數據的真實性問題
美國lending club和facebook合作獲取社交數據,在中國宜信也曾大費周折的收集借款人的社交數據,最后兩者得出的結論都是社交數據根本就不能用。美國很多大數據征信公司的信息錯誤率高達50%,垃圾進、垃圾出。
2.交易數據的真實性問題。
當前許多電商平臺的刷單現象非常嚴重,這將導致交易數據的嚴重失真。隨著網購的火爆,有關電商平臺“刷單”的報道屢見報端。
電商“刷單”有兩種方式,一種是商家找所謂的消費者進行“刷單”。賣家買快遞單號,其收件人和寄件人與實際的買家、賣家不一致。
另一種是快遞公司發空包,但快遞公司并未完成配送,而幫助商家完成平臺上的物流信息。
(二)大數據風控的理論有效性問題
從IT技術層面論證大數據風控的實踐性案例已經很多,但是在經濟金融的理論層面,大數據風控還面臨一些問題需要解決。
1.金融信用與社會信用的相關性不確定
目前大數據主要來源于互聯網,而人們在網絡中的表現并不能完全反映其真實的一面。相同的人群在不同場合呈現的特征是不一樣的,尤其是目前人們在線上、線下割裂的狀態,其行為方式往往會出現強烈的反差。
例如有些人不善交際,卻將自己做的美食展示在微博上,吸引大量關注,粉絲暴增。因此網絡并不能確切地證明某人的社交圈子,也就是說互聯網的數據很難還原用戶現實中的信息。
2.大數據對于“黑天鵝”事件的滯后性
在現實世界,總會出現不可預測的“黑天鵝”事件,一旦出現則有可能沖擊大數據風控模型的基本假設,進而影響大數據風控的有效性。大到美國的次貸危機,小到個人意外事件的發生,在某種程度上大數據風控是無法預測的,但這些事件的發生,對宏觀經濟和微觀主體都會產生重大的影響。
例如,2008年美國次貸危機后產生了一種“策略性違約”行為——貸款主體本身有能力還款,但是其在房價遠低于貸款總額的時候,重新購買一套房子,并對之前的房貸斷供,貸款者可以此方法進行“套利”。
雖然此類違約者會因此有不良信用記錄,但是這對信用報告的影響有限,因為其他的債務按期償還。而大數據對這種突變事件的預測能力則非常有限。
(三)大數據收集和使用的制度問題
在數據收集和使用的過程中也面臨著合法使用的問題。如何高效、適度地開發和使用大數據,不僅僅是一個技術問題,也是一個社會問題,這些泄露的數據大量流入數據黑市,造成了用戶安全、企業安全甚至國家安全方面的連鎖反應。數據的收集和使用在很多時候都沒有征得數據生產主體的同意,這導致了數據的濫用和隱私的泄露。
近年來,個人數據泄露事件頻頻發生,因個人數據泄露而造成損失的新聞屢見報端。獵豹移動安全實驗室的《2015年上半年移動安全報告》顯示,截至2015年上半年,獵豹共監測到496起數據泄露事件,影響超過544萬人。2015年10月19日,烏云網消息稱,網易的用戶數據庫疑似泄露。
圖2 2005-2014年國內外數據泄密情況
資料來源:上海漢均信息技術有限公司《2005—2014年全球泄密事件分析報告》
數據安全問題也將越來越多的企業推向風口浪尖。
上海漢均信息技術有限公司的《2005—2014年全球泄密事件分析報告》顯示,10年間,全球泄密事件中,我國泄密事件數量占比為58.5%,其中高頻發地域主要是東部沿海經濟較發達、產業格局以高技術含量為主的一二線城市(如圖2)。
Verizon《2015年數據泄露調查報告》,報告覆蓋95個國家,其中有61個報告了問題,涉及79790個安全事件(Security Incident),超過2000個(2122個)確認數據泄露(Data Breach)。
三.提高大數據風控有效性的路徑
盡管大數據風控的有效運用尚處在諸多障礙,但這并不能成為大數據風控無效的理由。因為對于數據這個資源的挖掘尚處于初級階段,在消除障礙、解決問題中前行,是大數據風控發展的必然趨勢。有效掃除當前大數據風控的障礙需要各方面的共同努力,其中金融企業、金融研究部門和政府監管部門的角色尤為重要。
對于金融企業而言,要從基礎數據上保證客戶數據的多樣化、連續性和實時性,確保數據真實可靠。
對于金融研究者而言,可從經濟學、數學等多個角度綜合論證大數據風控的有效性,為大數據風控提供理論支持。
對于政府監管部門而言,需要從法律制度、會計制度等方面進行建設,構建數據合理運用的良好環境體系。
(一)對于金融企業而言,要構建多樣化、連續性和實時性的基礎數據
1.多維度的收集數據,互聯互通,打破數據的孤島
美國征信系統的完善是因為美國政府對其擁有的大數據資源的開放程度日益透明化。
目前我國的大數據風控系統還沒有實現互通互聯,阿里、銀聯、平安、騰訊以及眾多的P2P公司,都是各自為政,P2P公司拿不到央行的數據,幾家大的互聯網平臺在相關大數據的分享上彼此也未互通有無。
因而,各金融企業要建立互聯互通機制,打破數據孤島,從而能多維度地收集數據,確保數據之間能夠相互驗證。
2.從供應鏈交易環節獲取數據
獲取真實數據最好的途徑就是要切入客戶的交易環節,尤其是穩定可持續的交易環節,即供應鏈。
一方面,經過了幾十年的發展,當前的供應鏈都有一套完整上下游進入和退出機制,數據的真實性對于核心企業而言至關重要,因而這些數據的質量非常優異。
另一方面,這些數據和數據維度對于供應鏈中的企業評價是可靠的,金融企業可以此為基礎,加上自身的風險控制經驗,構建一套全新的基于數據的信用評價機制。
3.積極布局“物聯網+”
物聯網覆蓋了產品生產、交易和使用的環節,因而互聯網只是物聯網的一部分。在物聯網下,不僅要獲取交易環節的數據,更重要的是獲取生產環節和使用環節的數據。
因而,金融企業要積極布局“物聯網+”,為獲取更為全面的數據打下基礎。例如,企業機器運行數據,可以收集客戶汽車駕駛數據,可穿戴設備的身體狀況數據,等等。這些數據都是大數據風控不可或缺的部分。
(二)對于金融研究部門而言,可從經濟、金融等多個角度綜合論證大數據風控的有效性,為大數據風控提供理論支持
當前對于大數據風控模型的構建大多是從技術的角度探討的。但是,從經濟、金融角度進行的探討亟待加強,不同的經濟假設會使模型推導的結果產生截然不同的變化。因而,從經濟、金融等角度對大數據風控有效性的研究就顯得很有必要了。比如大數據風控如何順應經濟周期的變化,如何從統計上論證過去的數據對于未來行為判斷的準確性,如何解決道德風險所帶來的不確定性。例如,唐時達(2015)提出要把數據提升至與傳統抵質押品同等重要的高度,建立“數據質押”風控體系。
(三)對于政府監管部門而言,要推動和完善與數據相關的制度建
1.法律制度的建設,對數據的收集和使用予以法律上的保護
我國對于數據保護的制度性舉措散見于多部法律中,如憲法、刑法、侵權責任法等,多是以保護個人隱私、通信秘密等形式出現,尚缺乏一部數據保護的專門性法律。這導致了數據的法律邊界不明,數據保護法律的操作性不強、數據保護執法機制滯后等問題,制約了數據收集和運用的發展。
對此,最理想的狀況是出臺一部《信息保護法》。在完善個人信息保護法律制度的道路上,應出臺《個人信息保護法》,明確國家機關、商家和其他法人、自然人掌握個人信息的邊界和使用的范圍[6-7]。齊愛民、盤佳(2015)認為要構建數據主權和數據權法律制度[8]。2014年最高人民法院頒布的《關于審理侵害信息網絡傳播權民事糾紛案適用法律若干問題的規定》(以下簡稱《規定》)就是此領域的進展之一,《規定》首次明確了個人信息保護的范圍。
2.會計制度建設,對數據資產予以明確的計量
隨著數據重要性的提升,數據列入企業資產負債表只是時間問題,數據將和土地、勞動力和資本一樣,成為一種生產要素(Viktor Mayer-Sch?nberger,2013)。越來越多的理論界和實務界的研究者都傾向于認為數據將成為個體的財產和資產。
2012年達沃斯世界經濟論壇的《大數據,大影響》報告認為,數據已經成為一種新的經濟資產類別。