五月激情开心网,五月天激情社区,国产a级域名,婷婷激情综合,深爱五月激情网,第四色网址

數據分析統計學方法優選九篇

時間:2023-07-28 16:42:39

引言:易發表網憑借豐富的文秘實踐,為您精心挑選了九篇數據分析統計學方法范例。如需獲取更多原創內容,可隨時聯系我們的客服老師。

數據分析統計學方法

第1篇

關于醫學論文數據、資料的統計分析方法,總結如下:

1.定量資源

對于定量資料,應根據所采用的設計類型、資料所具備的條件和分析目的,選用合適的統計分析方法,不應盲目套用t檢驗和單因索方差分析;

2.定性資源

對于定性資料,應根據所采用的設計類型、定性變量的性質和頻數所具備的條件以及分析目的,選用合適的統計分析方法,不應盲目套用X-檢驗;

3.回歸分析

對于回歸分析,應結合專業知識和散布圖,選用合適的回歸類型,不應盲目套用簡單直線回歸分析,對具有重復實驗數據的回歸分析資料,不應簡單化處理;

4. 多因索、多指標資料

第2篇

關鍵詞:大數據;統計學;數據分析;抽樣理論;理論

重構隨著信息科學技術的高速度發展,當代獲取和儲存數據信息的能力不斷增強而成本不斷下降,這為大數據的應用提供了必要的技術環境和可能.應用大數據技術的優勢愈來愈明顯,它的應用能夠幫助人類獲取真正有價值的數據信息.近年來,專家學者有關大數據技術問題進行了大量的研究工作[1],很多領域也都受到了大數據分析的影響.這個時代將大數據稱為未來的石油,它必將對這個時代和未來的社會經濟以及科學技術的發展產生深遠的意義和影響.目前對于大數據概念,主要是從數據來源和數據的處理工具與處理難度方面考慮,但國內外專家學者各有各的觀點,并沒有給出一致的精確定義.麥肯錫全球數據分析研究所指出大數據是數據集的大小超越了典型數據庫工具集合、存儲、管理和分析能力的數據集,大數據被Gartner定義為極端信息管理和處理一個或多個維度的傳統信息技術問題[23].目前得到專家們認可的一種觀點,即:“超大規模”是GB級數據,“海量”是TB級數據,而“大數據”是PB及其以上級別數據[2].

一些研究學者把大數據特征進行概括,稱其具有數據規模巨大、類型多樣、可利用價值密度低和處理速度快等特征,同時特別強調大數據區別于其他概念的最重要特征是快速動態變化的數據和形成流式數據.大數據技術發展所面臨的問題是數據存儲、數據處理和數據分析、數據顯示和數據安全等.大數據的數據量大、多樣性、復雜性及實時性等特點,使得數據存儲環境有了很大變化[45],而大部分傳統的統計方法只適合分析單個計算機存儲的數據,這些問題無疑增加了數據處理和整合的困難.數據分析是大數據處理的核心過程,同時它也給傳統統計學帶來了巨大的挑戰[6].產生大數據的數據源通常情況下具有高速度性和實時性,所以要求數據處理和分析系統也要有快速度和實時性特點,而傳統統計分析方法通常不具備快速和實時等特點.基于大數據的特點,傳統的數據統計理論已經不能適應大數據分析與研究的范疇,傳統統計學面臨著巨大的機遇與挑戰,然而為了適應大數據這一新的研究對象,傳統統計學必須進行改進,以繼續和更好的服務于人類.目前國內外將大數據和統計學相結合的研究文獻并不多.本文對大數據時代這一特定環境背景,統計學的抽樣理論和總體理論的存在價值、統計方法的重構及統計結果的評價標準的重建等問題進行分析與研究.

1傳統意義下的統計學

廣泛的統計學包括三個類型的統計方法:①處理大量隨機現象的統計方法,比如概率論與數理統計方法.②處理非隨機非概率的描述統計方法,如指數編制、社會調查等方法.③處理和特定學科相關聯的特殊方法,如經濟統計方法、環境科學統計方法等[7].受收集、處理數據的工具和能力的限制,人們幾乎不可能收集到全部的數據信息,因此傳統的統計學理論和方法基本上都是在樣本上進行的.或者即使能夠得到所有數據,但從實際角度出發,因所需成本過大,也會放棄搜集全部數據.然而,選擇最佳的抽樣方法和統計分析方法,也只能最大程度還原總體一個特定方面或某些方面的特征.事實上我們所察覺到的數據特征也只是總體大量特征中的一小部分,更多的其他特征尚待發掘.總之,傳統統計學是建立在抽樣理論基礎上,以點帶面的統計分析方法,強調因果關系的統計分析結果,推斷所測對象的總體本質的一門科學,是通過搜集、整理和分析研究數據從而探索數據內部存在規律的一門科學.

2統計學是大數據分析的核心

數的產生基于三個要素,分別是數、量和計量單位.在用數來表示事物的特征并采用了科學的計量單位后,就產生了真正意義上的數據,即有根據的數.科學數據是基于科學設計,通過使用觀察和測量獲得的數據,認知自然現象和社會現象的變化規律,或者用來檢驗已經存在的理論假設,由此得到了具有實際意義和理論意義的數據.從數據中獲得科學數據的理論,即統計學理論.科學數據是通過統計學理論獲得的,而統計學理論是為獲得科學數據而產生的一門科學.若說數據是傳達事物特征的精確語言,進行科學研究的必備條件,認知世界的重要工具,那么大數據分析就是讓數據最大限度地發揮功能,充分表達并有效滿足不同需求的基本要求.基于統計學的發展史及在數據分析中的作用,完成將數據轉化為知識、挖掘數據內在規律、通過數據發現并解決實際問題、預測可能發生的結果等是研究大數據的任務,而這必然離不開統計學.以大數據為研究對象,通過數據挖掘、提取、分析等手段探索現象內在本質的數據科學必須在繼承或改進統計學理論的基礎上產生.

統計數據的發展變化經歷了一系列過程,從只能收集到少量的數據到盡量多地收集數據,到科學利用樣本數據,再到綜合利用各類數據,以至于發展到今天的選擇使用大數據的過程.而統計分析為了適應數據可觀察集的不斷增大,也經歷了相應的各個不同階段,產生了統計分組法、大量觀察法、歸納推斷法、綜合指標法、模型方程法和數據挖掘法等分析方法,并且借助計算機以及其他軟件的程度也越來越深.300多年來,隨著數據量以指數速度的不斷增長,統計學圍繞如何搜集、整理和分析數據而展開,合理構建了應用方法體系,幫助各個學科解決了許多復雜問題.現在進入了大數據時代,統計學依舊是數據分析的靈魂,大數據分析是數據科學賦予統計學的新任務.對于統計學而言,來自新時代的數據科學挑戰有可能促使新思想、新方法和新技術產生,這一挑戰也意味著對于統計學理論將面臨巨大的機遇.

3統計學在大數據時代下必須改革

傳統統計學是通過對總體進行抽樣來搜索數據,對樣本數據進行整理、分析、描述等,從而推斷所測對象的總體本質,甚至預測總體未來的一門綜合性學科.從研究對象到統計結果的評判標準都是離不開樣本的抽取,完全不能適應大數據的4V特點,所以統計學為適應大數據技術的發展,必須進行改革.從學科發展角度出發,大數據對海量數據進行存儲、整合、處理和分析,可以看成是一種新的數據分析方法.數據關系的內在本質決定了大數據和統計學之間必然存在聯系,大數據對統計學的發展提出了挑戰,體現在大樣本標準的調整、樣本選取標準和形式的重新確定、統計軟件有待升級和開發及實質性統計方法的大數據化.但是也提供了一個機遇,體現在統計質量的提高、統計成本的下降、統計學作用領域的擴大、統計學科體系的延伸以及統計學家地位的提升[7].

3.1大數據時代抽樣和總體理論存在價值

傳統統計學中的樣本數據來自總體,而總體是客觀存在的全體,可以通過觀測到的或經過抽樣而得到的數據來認知總體.但是在大數據時代,不再是隨機樣本,而是全部的數據,還需要假定一個看不見摸不著的總體嗎?如果將大數據看成一個高維度的大樣本集合,針對樣本大的問題,按照傳統統計學的方法,可以采用抽樣的方法來減少樣本容量,并且可以達到需要的精度;對于維度高的問題,可以采取對變量進行選擇、降維、壓縮、分解等方法來降低數據的復雜程度.但實際上很難做得到,大數據涵蓋多學科領域、多源、混合的數據,各學科之間的數據融合,學科邊界模糊,各范疇的數據集互相重疊,合成一體,而且大數據涉及到各種數據類型.因此想要通過抽樣而使數據量達到傳統統計學的統計分析能力范圍是一件相當困難或是一件不可能的事.大量的結構數據和非結構數據交織在一起,系統首先要認清哪個是有價值的信息,哪個是噪聲,以及哪些不同類型的數據信息來自于同一個地址的數據源,等等,傳統的統計學是無法做到的.在大數據時代下,是否需要打破傳統意義的抽樣理論、總體及樣本等概念和關系,是假設“樣本=總體”,還是“樣本趨近于總體”,還是不再使用總體和樣本這兩個概念,而重新定義一個更合適的概念,等等.人們該怎樣“安排”抽樣、總體及樣本等理論,或人們該怎樣修正抽樣、總體、樣本的“公理化”定義,這個問題是大數據時代下,傳統統計學面臨改進的首要問題.

3.2統計方法在大數據時代下的重構問題

在大數據時代下,傳統的高維度表達、結構描述和群體行為分析方法已經不能精確表達大數據在異構性、交互性、時效性、突發性等方面的特點,傳統的“假設-模型-檢驗”的統計方法受到了質疑,而且從“數據”到“數據”的統計模式還沒有真正建立,急切需要一個新的理論體系來指引,從而建立新的分析模型.去除數據噪聲、篩選有價值的數據、整合不同類型的數據、快速對數據做出分析并得出分析結果等一系列問題都有待于研究.大數據分析涉及到三個維度,即時間維度、空間維度和數據本身的維度,怎樣才能全面、深入地分析大數據的復雜性與特性,掌握大數據的不確定性,構建高效的大數據計算模型,變成了大數據分析的突破口.科學數據的演變是一個從簡單到復雜的各種形式不斷豐富、相互包容的過程,是一個循序漸進的過程,而不是簡單的由一種形式取代另一種形式.研究科學數據的統計學理論也是一樣,也是由簡單到復雜的各種形式相互包容、不斷豐富的發展過程,而絕不是完全否定一種理論、由另一種理論形式所代替.大數據時代的到來統計學理論必須要進行不斷的完善和發展,以適應呈指數增長的數據量的大數據分析的需要.

3.3如何構建大數據時代下統計結果的評價標準框架

大數據時代下,統計分析評價的標準又該如何變化?傳統統計分析的評價標準有兩個方面,一是可靠性評價,二是有效性評價,然而這兩種評價標準都因抽樣而生.可靠性評價是指用樣本去推斷總體有多大的把握程度,一般用概率來衡量.可靠性評價有時表現為置信水平,有時表現為顯著性水平[8].怎么確定顯著性水平一直是個存在爭議的問題,特別是在模型擬合度評價和假設檢驗中,因為各自參照的分布類型不一樣,其統計量就不一樣,顯著性評價的臨界值也就不一樣,可是臨界值又與顯著性水平的高低直接相關.而大數據在一定程度上是全體數據,因此不存在以樣本推斷總體的問題,那么在這種情況下,置信水平、可靠性問題怎么確定?依據是什么?有效性評價指的是真實性,即為誤差的大小,它與準確性、精確性有關.通常準確性是指觀察值與真實值的吻合程度,一般是無法衡量的,而精確性用抽樣分布的標準差來衡量.顯然,精確性是針對樣本數據而言的,也就是說樣本數據有精確性問題,同時也有準確性問題.抽樣誤差和非抽樣誤差都可能存在于樣本數據中,抽樣誤差可以計算和控制,但是非抽樣誤差只能通過各種方式加以識別或判斷[910].大多數情況下,對于樣本量不是太大的樣本,非抽樣誤差可以得到較好的防范,然而對于大數據的全體數據而言,沒有抽樣誤差問題,只有非抽樣誤差問題,也就是說大數據的真實性只表現為準確性.但是由于大數據特有的種種特性,使得大數據的非抽樣誤差很難進行防范、控制,也很難對其進行準確性評價.總之,對于大數據分析來說,有些統計分析理論是否還有意義,確切說有哪些統計學中的理論可以適用于大數據分析,而哪些統計學中的理論需要改進,哪些統計學中的理論已不再適用于大數據統計研究,等等,都有待于研究.所以大數據時代的統計學必是在繼承中求改進,改進中求發展,重構適應大數據時代的新統計學理論.

4結論

來自于社會各種數據源的數據量呈指數增長,大數據對社會發展的推動力呈指數效應,大數據已是生命活動的主要承載者.一個新事物的出現,必然導致傳統觀念和傳統技術的變革.對傳統統計學來說,大數據時代的到來無疑是一個挑戰,雖然傳統統計學必須做出改變,但是占據主導地位的依然會是統計學,它會引領人類合理分析利用大數據資源.大數據給統計學帶來了機遇和挑戰,統計學家們應該積極學習新事物,適應新環境,努力為大數據時代創造出新的統計方法,擴大統計學的應用范圍.

參考文獻:

[1]陳冬玲,曾文.頻繁模式挖掘中基于CFP的應用模型[J]沈陽大學學報(自然科學版),2015,27(4):296300.

[3]卞友江.“大數據”概念考辨[J].新聞研究導刊,2013,35(5):2528.

[5]靳小龍,王元卓,程學旗.大數據的研究體系與現狀[J].信息通信技術,2013(6):3543.

[6]覃雄派,王會舉,杜小勇,等.大數據分析:Rdbms與Mapreduce的競爭與共生[J].軟件學報,2012,23(1):32-45.

[7]游士兵,張佩,姚雪梅.大數據對統計學的挑戰和機遇[J].珞珈管理評論,2013(2):165171.

[8]李金昌.大數據與統計新思維[J].統計研究,2014,31(1):1017.

第3篇

關鍵詞:統計學;教育改革;大數據

一、引言

最早提出大數據時代到來的機構是全球知名的麥肯錫咨詢公司,該公司在一份研究報告中指出:“數據已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素,人們對于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來”。

大數據是隨著互聯網技術的廣泛應用帶來的數據量和數據類型激增而衍生出來的一種現象,但大數據一詞不僅指規模大、種類多的數據集,還包括對這種數據集進行采集、處理與分析以提取有價值信息和直接創造價值的技術構架和技術過程。大數據的第一個特征是數據量巨大。截止到2012年,數據量已經從TB(1024GB=1TB)級別躍升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)級別。第二個特征是數據類型繁多、異構性突出,包括網絡日志、音頻、視頻、圖片、地理位置信息等等。第三個特征是數據價值密度較低,數據中存在大量重復性和無價值性信息或噪聲。如何通過強大的計算技術和統計分析等方法迅速完成數據的價值提純,是大數據時代亟待解決的難題。第四個特征是處理速度快、時效性要求高。這是大數據區分于傳統數據挖掘最顯著的特征。

目前,不同的學科領域對大數據概念有著不盡相同的解釋,但各種解釋中大致可以從兩個方面去理解。首先,大數據概念體現在數據量的巨大、種類的眾多及產生速度的飛快,同時產生的數據集極有可能包含著各種半結構化和非結構化數據;其次,大數據概念還體現在對數據進行處理的手段和流程方面,由于數據量的龐大和類型復雜,利用常規的統計軟件已經無法對當今的數據進行及時有效的存儲、分析及處理。因此,所謂的大數據并不是單純指數據流量的巨大,還指其結構的復雜和種類的多樣,在數據處理和分析上需要采用高端計算平臺或高級統計軟件,以及海量數據中存在著可挖掘的潛在的大量價值信息與知識。

近年來,隨著高速計算機的應用、信息技術的快速發展,特別是云計算技術的發展,使大數據的存儲和分析技術得到迅速發展,目前的核心技術有MapReduce、GFS、BigTable、Hadoop,以及數據可視化等。在數據搜集上,可方便地通過在線互聯網數據庫獲取二手數據或一手實時數據。在數據分析上,傳統統計學方法采取的是基于統計模型的樣本數據分析,而大數據分析技術則是通過高端計算平臺,對大數據中的信息進行挖掘。

統計學作為對數據進行處理和分析的科學,必然受到大數據的影響。在大數據時代,統計學教育必須與時俱進,跟上時展步伐。近年來,有不少文獻討論了大數據環境下我國統計學教育的改革問題(例如[1]-[5]),本文在分析大數據時代特征的前提下,進一步討論我國統計學教育的現狀與挑戰、統計學教育改革的內容、方法、借鑒和適應時代要求的變革問題。

二、統計學教育的現狀與挑戰

2013年,教育部對我國統計學專業設置進行一次新的調整,將原來的既可授予理學學位,也可授予經濟學學位的統計學專業劃分為統計學、應用統計學和經濟統計學三個本科專業[6]。根據教育部高等學校統計類專業教學指導委員會2013年11月公布的數據,當時全國有194所高校開設了統計學專業,156所高校開設了應用統計學專業,164所高校開設了經濟統計學專業[6]。目前,全國開設這三個統計學專業的高校個數和在校學生人數與2013年相比都有不少的增加。

面對大數據時代,我們目前的統計學教育無論在培養目標和教學內容上,還是在教育方式和人才培養模式上,都存在著亟待解決的挑戰性問題。例如,在專業培養目標和人才培養過程中,我們比較重視課程層面上的評價,比較輕視專業層面上的整體評價,缺乏對學生綜合能力的反饋機制。

關于教學內容,目前三個統計學專業在統計理論和應用統計兩個方面有不同的側重。統計理論主要包括:抽樣理論、實驗設計、估汁理論、假設險驗、決策理論、貝葉斯統計、半參數和非參數統計、序貫分析、多元統計分析、時間序列分析、小樣本理論和大樣本理論等。在數據分析中,現今的統計方法基本以結構化數據為主要處理對象,而對非結構化和半結構化數據的分析和工具涉及較少。因此,現今統計學課程及內容已不能滿足從事非結構型和半結構型的大數據研究和商業應用對人才培養的需要,必須進行必要的改革。

對于教育方式,鑒于大數據時代要求,統計分析人員需要具備較高的數學和現代統計學基礎,具有較高的軟件操作能力,掌握一定的大數據收集、整理、分析、處理和挖掘數據的技能。日本學者城田真琴認為:“數據科學家要有計算機科學專業背景,數學、統計方面的素養和使用數據挖掘軟件的技能,善于利用數據可視化的手法展現晦澀難懂的信息,而且具備相應的專業知識、眼界和視野,具有適應社會發展和創造價值的能力”。現今的統計學教育方式還不能很好適應大數據時代數據科學人才培養需要,必須進行必要及時的調整和變革。

對人才培養模式,大數據時代不僅要求培養具有數據處理和分析所需的基本素質與技能,更重視培養從海量數據中發現和挖掘價值信息、把握市場機遇、創造利潤的潛在能力。面對大數據時代的諸多挑戰,現代統計技術、數據挖掘方法、計算機信息技術、軟件工具和理念的日新月異,培養統計人才的教育模式也需要相應變化,統計學教育只有與時俱進,主動做出全面的調整和變革才能適應新時代知識進步和激烈人才市場競爭的需要,積極迎接大數據時代的挑戰。

大數據時代對統計學教師有更高的要求,統計學教師需要與時俱進,跟上時代步伐。隨著互聯網、物聯網、云計算等信息技術的發展,對數據的分析和處理的技術也隨之要求更高,統計學教師固有的知識體系已不能滿足培養現代統計人才的需要,必須進一步深化和更新原有的統計學理論知識,而且還需要學習掌握計算機技術、互聯網、數據庫和信息科學等有關知識和技術,同時還要熟悉處理非結構型和半結構型數據的知識和技能,以適應現代統計學教育對教師的知識結構和基本素質的要求。

大數據時代對統計專業的學生也提出了更高的要求,他們不僅需要掌握現代統計理論、統計方法和專業統計軟件,還要學會如何分析、處理來自互聯網或各種實際問題中的海量數據,如何利用統計軟件和互聯網技術進行數據操作,如何借助軟件技術和統計準則判斷數據質量,如何進行模型選擇和評價模型方法的有效性,如何準確清晰地呈現統計分析結果和結論,等等。

2014年11月,美國統計學會了統計學本科專業指導性教學綱要 [7],該教學綱要對統計學專業提出四個方面的要求:(1)具有扎實的數學和統計學基礎、強大的統計計算和編程能力,熟練使用統計軟件和數據庫;(2)分析來自現實問題的真實數據,真實數據是統計專業教育的重要組成部分;(3)掌握多樣化的統計模型方法;(4)具有通過語言、圖表和動畫等方式解釋數據分析結果的能力。美國是統計學教育和人才培養最先進的國家之一,該指導性教學綱要代表著美國統計學專業培養人才的基本要求和發展方向,對我國統計教育的改革具有重要的參考價值。以該指導性教學綱要為參考依據,對照我國目前的統計學本科專業教育,無論是在培養目標和課程設置方面,還是在教學內容和教學方法方面,都存在著亟待解決的挑戰性問題。

三、統計學教育的改革

大數據時代的統計學教育不僅是各種統計方法、數據挖掘方法和信息技術手段的延續或發展,更主要的是這些方法的集成應用和在實際數據分析中的真實體驗。過去,企業數據庫價格昂貴,在統計學教育的教學案例或實驗課教學中,很少采用真實和海量的數據庫資源,基本都是采用過時或虛擬的數據。今天,像百度大數據引擎這樣的數據庫的逐步對外開放,將有助于開展“線上大數據統計實驗”教學。為了適應大數據時代要求,有必要利用網絡資源以及各種數據處理軟件,搭建線上大數據分析實驗教學平臺,全面開展大數據統計實驗教學的改革。實際上,借助大數據分析平臺,本科階段的統計學教育就可以融人聯機分析和數據的可視化教學。其次,要時刻關注大數據分析理論的進展,及時將新理論新方法融入課堂教學內容。

需要指出的是,在大數據時代,經典統計理論和方法并沒有過時,但需要進行改進和進一步發展。這是因為,網上采集的巨型數據集往往存在大量的重復性和無價值數據信息,使得大數據價值密度降低。在對這些數據進行分析處理之前往往需要通過去噪、分層、截斷、聚類等方法的預處理,將其變成便于進行分析處理的小數據,繼而借助于經典統計方法進行分析和處理。因而在大數據時代仍然需要采用傳統統計學的小樣本理論和方法。所以,即便是在大數據時代,經典統計方法仍然是進行統計分析的基石,其核心地位不可動搖。所以,在大數據時代仍然要強化統計學的基本理論和方法,尤其是在長期發展和實踐應用中經過驗證的、成熟有效的經典和現代統計方法,在大數據時代仍然沒有過時,但需要結合大數據分析的需要對經典統計方法進行必要的發展和改進。

大數據科學需要統計學與數學、計算機等學科的結合。亞馬遜大數據科學家John Rauser 認為:“數據科學家是統計學家和計算機工程師的結合體”。為了滿足大數據時代的要求,統計學專業的課程設置需要進行必要的調整。應根據新時代人才培養的要求,增設與大數據前沿領域發展相關的課程,如計算機網絡和大數據相關的軟件應用,同時要加大實驗課和社會實踐課的比重,引導學生理解和掌握大數據概念、理論、技術和方法,培養其運用大數據的相關分析工具解決實際問題的能力。對于理論課程,除基本統計理論外,還應開設一些較為現代和深入的課程,如現代貝葉斯方法、神經網絡、數據挖掘、應用隨機過程論等。另外,還應開設與大數據分析相關的關聯規則、決策樹、機器學習、支持向量機等課程。

為了培養與時代適應的統計學人才,統計學專業教師應不斷更新自身的知識結構和價值觀念,改變認識數據、收集數據和分析數據的思維,主動學習和補充互聯網、現代數據分析技術、數據庫和數據挖掘技術,使自己的知識體系不斷更新和提升,跟上時展的步伐。

在大數據時代,要注意培養學生適應社會的能力。統計專業人才培養模式應以提高本專業學生數據分析方面的能力,開闊他們的視野,培養其適應社會的能力。應積極引導學生進入實訓場所動手操作和鍛煉,嘗試以企事業單位的財政、金融、保險、統計、咨詢和信息公司等部門為主構建專業性教育實踐基地。鼓勵學生到大數據相關的機構部門、產業園區和企業中去調查研究和實踐。此外,統計專業應積極同其他專業進行合作,聯合培養適應新時代要求的數據分析人才。鑒于大數據對數據分析人員在計算機技術、行業認知、業務知識、數據分析工具和方法的要求提高,統計學科應主動與計算機、經濟學、管理學等相關學科合作,培養學生的計算機能力、專業素質和業務修養。

“它山之石可以攻玉”,關于統計學專業的課程設置,可以參考和借鑒美國統計學會公布的統計學本科專業指導性教學綱要。根據該教學綱要,統計專業的課程設置應該涵蓋五個模塊[7]:(1)統計方法與統計理論。建立統計模型并對模型的輸出結果進行評價,熟悉統計推斷,能夠從數據分析中得出恰當的結論。(2)數據操作和統計計算。熟練使用一款專業統計軟件進行探索性數據分析,發現和清洗數據中的錯誤記錄,具有編程能力和算法思維,可以進行各種數據操作,還應掌握統計計算技術,能夠進行模擬研究。(3)數學基礎。熟練掌握微積分、線性代數、矩陣論、概率論和數理統計的基礎知識。(4)實踐訓練和表達能力。具有良好的表達和交流能力,善于通過圖示和動畫等聽眾易于理解的方式展示分析結論,并且具有團隊合作精神和項目領導能力。(5)特定領域的知識。掌握特定應用領域的知識,并用統計學特有的思維方法來分析和解決特定領域的實際問題。

大數據時代是以數據為中心的時代,統計學專業的教育改革必須適應這個時代的要求。統計數據分析中軟件應用能力至關重要。在眾多統計軟件中推薦使用R和SAS軟件,因為R是免費開源軟件,其統計建模、統計計算和可視化功能強大,更新迅速,是最新統計方法的主要平臺,非常有利于培養學生的編程能力和知識更新能力,而SAS軟件被很多公司用于數據管理和數據分析,在實際應用領域具有長期而深遠的影響,是數據分析不可或缺的專業統計軟件。當然,教學中也可以嘗試使用其他專業統計軟件,例如經濟統計專業學生也可使用SPSS軟件,但最好會使用SAS或R軟件。在加強軟件使用和編程能力的基礎上,應加強學生統計計算和統計模擬能力的培養。在大數據時代,強調統計計算的重要性是大勢所趨。統計模擬技術是伴隨著高速計算機和信息技術的快速發展而廣泛應用的現代技術,可用來解決傳統學科領域中無法解決的問題。例如,在計算技術飛速發展的今天,貝葉斯統計方法過去曾經面臨的計算瓶頸正在逐漸消失,基于馬爾科夫鏈蒙特卡洛(MCMC)技術的統計模擬方法在數據分析中的強大威力正在日益顯現[8]。

參考文獻:

[1] 劉春杰,大數據時代對當代統計學教育的挑戰,統計與決策,2015年,第8期。

[2] 孟生旺,袁衛,大數據時代的統計教育,統計研究,2015年,第32卷4期。

[3] 葛虹,韓偉,大數據時代統計教育變革的SWOT分析與發展策略,統計與決策,2015年,第4期。

[4] 張海波,黃世祥,統計學專業學生大數據分析能力的培養方式選擇,統計與決策,2014年,第24期。

[5] 李衛東,大數據對統計學科發展的影響,統計與決策,2014年,第13.期。

[6] 教育部高等學校統計類專業教學指導委員會.統計學專業教學單位.http:///category/信息公開/教學單位,2013-11-15.

第4篇

關鍵詞:大數據;數據分析;統計學

大數據在如今社會已經成為熱點詞匯,不僅在計算機領域,在其他各個行業都能夠得到運用,為各個行業提供便捷,為了讓大數據能夠得到充分利用,下文將對大數據分析相關方面進行討論。

一、大數據與大數據時代

(一)大數據大數據是在當今科技飛速發展的情況下,一種新興的信息數據處理技術。隨著社會科技的進步,各行各業對于數據的應用也越來越廣泛,傳統的數據處理技術耗時較長且精準度較為低下,已經不能滿足現代科技對數據應用的要求。新時代的大數據系統具有超大的數據容量,同時兼容半結構化與結構化的數據,遠遠超出傳統數據庫管理系統的管理能力。因此新的大數據技術就此誕生。大數據在發展過程中,具有比為鮮明的特點。與傳統數據處理技術相比,大數據具有數量龐大、多樣化、速率快、價值高的特點。在信息處理的速度不斷加快的當今社會,這樣的特點為大數據的廣泛應用打下了堅實基礎。由于數據的數量較為龐大,且各種數據近年來的增長趨勢呈指數型,其數據的種類和形式也各有不同。其次,合理利用大數據技術,能夠在一定程度上降低成本,提高效率,因此,大數據處理各項關鍵技術的進一步的開發與利用已成為了提高自身效率,實現核心競爭力的重中之重。

(二)大數據時代大數據時代是指在物聯網技術、計算機技術、數據信息處理技術的基礎上,通過互聯網途徑,大量收集并處理分析數據資源,而形成一種新型的信息時代。大數據時代的主要核心內容是對龐大的數據體系進行處理以發揮價值,從而提升數據分析效率以及數據應用價值。大數據時代是由多種信息技術共同組成,可以有效地避免數據處理中不同步、使用不方便的情況發生,具有高效可靠的數據處理、整合、分析及匯總的功能。因此,大數據時代的新型數據處理技術可最大程度的對數據進行分析與挖掘,極大提高處理數據的效率。

二、大數據時代與統計學

(一)大數據時代與統計學的關系統計工作是集數據的搜集、整理、分析和解釋為一體的系統的過程。大數據與統計二者互相依存,通過統計的方法和原理對數據進行整理和分析,提高數據的精確度和適用度,以此來實現數據的價值和利用率。由此看來,大數據與統計學的聯系既緊密,又存在區別。大數據與統計學的關系甚為密切,它們都是關于數字的學科。統計學為大數據提供了了施展方向,而大數據將統計學引領至更深更廣的空間。共性之一就是社會與數據。幾乎所有的行業與大數據都有著密切聯系,這些聯系或直接或間接,而人們正是通過獲取數據并進行分析,從而才能得到商業知識和社會服務等能力。大數據與統計學的區別。首先,信息規模不同。大數據的分析對象是與某事物有關聯的所有數據,要求數據量龐大。統計學則是用樣本來分析和推斷總體的數量特征。在大數據時代,則可以通過各種方法和渠道獲得全面而又完整的的信息資料,從而完成更多從前無法完成的事情。其次,動靜標準不同。數據經過了搜集、整理、分析的過程就很有可能因為精確性不足而被認為失去了用處。而大數據時代,則不必再擔心這個問題,數據的精確性和原始性不在被過分重視,人們可以接受復雜數據。第三,數據搜集形式不同。在以往數據搜集形式主要是抽樣調查,方法局限。而在大數據時代,特點是信息爆炸和互聯網飛速發展,這一情況得到改觀。最后,思維方式不同。大數據時代人們的思維發生轉變,人們開始更多的關注事物的相關關聯。

(二)大數據對統計學研究工作的影響首先,大數據豐富了統計學的研究對象。在大數據時代,我們既可以以結構化數據作為測量單位對文本、圖像和視頻等進行分析,還可以對非結構化數據實行分析。其次,大數據影響了統計學的工作進程。統計數據需求豐富,原有的統計抽樣分析不能在適應時代的發展,而現代科技方法如透過傳感器自動收集數據等方法取代了傳統方法,更加便捷有效。

三、大數據數據分析理念

(一)統計學的應用隨著現代科技的發展,傳統的大數據已經不能滿足人們對數據處理的要求。傳統的抽樣數據調查不能滿足大數據的數據處理以及知識發現。因此,新技術及思維的引進就顯得尤為重要。新的統計學思維以及知識的應用能夠很大程度的提高大數據分析的效率。摒棄對傳統的小數據樣本的依賴,不在用傳統的統計工具對數據進行全部分析。而是對數據進行針對性的分析,使數據分析更加精準,并且能夠更加全面的體現數據的價值。我們利用統計計算工具對數據進行分析從而判斷數據的變化趨勢。統計學的應用可以,為數據分析提供科學的參考依據。

第5篇

【論文關鍵詞】統計學;統計思想;認識

【論文摘要】所謂統計思想,就是在統計實際工作、統計學理論的應用研究中,必須遵循的基本理念和指導思想。統計思想主要包括均值思想、變異思想、估計思想、相關思想、擬合思想、檢驗思想等思想。文章通過對統計思想的闡釋,提出關于統計思想認識的三點思考。

1關于統計學

統計學是一門實質性的社會科學,既研究社會生活的客觀規律,也研究統計方法。統計學是繼承和發展基礎統計的理論成果,堅持統計學的社會科學性質,使統計理論研究更接近統計工作實際,在國家和社會得到廣泛發展。

2統計學中的幾種統計思想

2.1統計思想的形成

統計思想不是天然形成的,需要經歷統計觀念、統計意識、統計理念等階段。統計思想是根據人類社會需求的變化而開展各種統計實踐、統計理論研究與概括,才能逐步形成系統的統計思想。

2.2比較常用的幾種統計思想

所謂統計思想,就是統計實際工作、統計學理論及應用研究中必須遵循的基本理念和指導思想。統計思想主要包括:均值思想、變異思想、估計思想、相關思想、擬合思想、檢驗思想。現分述如下:

2.2.1均值思想

均值是對所要研究對象的簡明而重要的代表。均值概念幾乎涉及所有統計學理論,是統計學的基本思想。均值思想也要求從總體上看問題,但要求觀察其一般發展趨勢,避免個別偶然現象的干擾,故也體現了總體觀。

2.2.2變異思想

統計研究同類現象的總體特征,它的前提則是總體各單位的特征存在著差異。統計方法就是要認識事物數量方面的差異。統計學反映變異情況較基本的概念是方差,是表示“變異”的“一般水平”的概念。平均與變異都是對同類事物特征的抽象和宏觀度量。

2.2.3估計思想

估計以樣本推測總體,是對同類事物的由此及彼式的認識方法。使用估計方法有一個預設:樣本與總體具有相同的性質。樣本才能代表總體。但樣本的代表性受偶然因素影響,在估計理論對置信程度的測量就是保持邏輯嚴謹的必要步驟。

2.2.4相關思想

事物是普遍聯系的,在變化中,經常出現一些事物相隨共變或相隨共現的情況,總體又是由許多個別事務所組成,這些個別事物是相互關聯的,而我們所研究的事物總體又是在同質性的基礎上形成。因而,總體中的個體之間、這一總體與另一總體之間總是相互關聯的。

2.2.5擬合思想

擬合是對不同類型事物之間關系之表象的抽象。任何一個單一的關系必須依賴其他關系而存在,所有實際事物的關系都表現得非常復雜,這種方法就是對規律或趨勢的擬合。擬合的成果是模型,反映一般趨勢。趨勢表達的是“事物和關系的變化過程在數量上所體現的模式和基于此而預示的可能性”。

2.2.6檢驗思想

統計方法總是歸納性的,其結論永遠帶有一定的或然性,基于局部特征和規律所推廣出來的判斷不可能完全可信,檢驗過程就是利用樣本的實際資料來檢驗事先對總體某些數量特征的假設是否可信。

2.3統計思想的特點

作為一門應用統計學,它從數理統計學派汲取新的營養,并且越來越廣泛的應用數學方法,聯系也越來越密切,但在統計思想的體現上與通用學派相比,還有著自己的特別之處。其基本特點能從以下四個方面體現出:(1)統計思想強調方法性與應用性的統一;(2)統計思想強調科學性與藝術性的統一;(3)統計思想強調客觀性與主觀性的統一;(4)統計思想強調定性分析與定量分析的統一。

3對統計思想的一些思考3.1要更正當前存在的一些不正確的思想認識

英國著名生物學家、統計學家高爾頓曾經說過:“統計學具有處理復雜問題的非凡能力,當科學的探索者在前進的過程中荊棘載途時,唯有統計學可以幫助他們打開一條通道”。但事實并非這么簡單,因為我們所面臨的現實問題可能要比想象的復雜得多。此外,有些人認為方法越復雜越科學,在實際的分析研究中,喜歡簡單問題復雜化,似乎這樣才能顯示其科學含量。其實,真正的科學是使復雜的問題簡單化而不是追求復雜化。與此相關聯的是,有些人認為只有推斷統計才是科學,描述統計不是科學,并延伸擴大到只有數理統計是科學、社會經濟統計不是科學這樣的認識。這種認識是極其錯誤的,至少是對社會經濟統計的無知。比利時數學家凱特勒不僅研究概率論,并且注重于把統計學應用于人類事物,試圖把統計學創建成改良社會的一種工具。經濟學和人口統計學中的某些近代概念,如GNP、人口增長率等等,均是凱特勒及其弟子們的遺產。

3.2要不斷拓展統計思維方式

統計學是以歸納推理或歸納思維為主要的邏輯方式的。眾所周知,邏輯推理方式主要有兩種:歸納推理和演繹推理。歸納推理是基于觀測到的數據信息(尤其是不完全甚至劣質的信息)去產生新的知識或去驗證一個假設,即以所掌握的數據信息為依據,歸納得出具有一般特征的結論。歸納推理是要在數據信息的基礎上透過偶然性去發現必然性。演繹推理是對統計認識能力的深化,尤其是在根據必然性去研究和認識偶然性方面,具有很大的作用。

3.3深化對數據分析的認識

任何統計研究都離不開數據分析。因為這是得到統計研究結論的必要環節。雖然統計分析的形式隨時代的推移而變化著,但是“從數據中提取一切信息”或者“歸納和揭示”作為統計分析的目的卻一直沒有改變。對統計數據分析的原因有以下三個方面:一是基于同樣的數據會得出不同、甚至相反的分析結論;二是我們所面對的分析數據有時是缺損的或存在不真實性;三是我們所面對的分析數據有時則又是海量的,讓人無從下手。雖然統計數據分析已經經歷了描述性數據分析(DDA)、推斷性數據分析(IDA)和探索性數據分析(EDA)等階段,分析的方法技術已經有了質的飛躍,但與人類不斷提高的要求相比,存在的問題似乎也越來越多。所以,我們必須深化對數據分析的認識,圍繞“準確解答特定問題并且從數據中獲取一切有效信息”這一目的,不斷拓展研究思路,繼續開展數據分析方法技術的研究。

新晨

參考文獻:

[1]陳福貴.統計思想雛議[J]北京統計,2004,(05).

[2]龐有貴.統計工作及統計思想[J]科技情報開發與經濟,2004,(03).

第6篇

【摘要】所謂統計思想,就是在統計實際工作、統計學理論的應用研究中,必須遵循的基本理念和指導思想。統計思想主要包括均值思想、變異思想、估計思想、相關思想、擬合思想、檢驗思想等思想。文章通過對統計思想的闡釋,提出關于統計思想認識的三點思考。

一、關于統計學

統計學是一門實質性的社會科學,既研究社會生活的客觀規律,也研究統計方法。統計學是繼承和發展基礎統計的理論成果,堅持統計學的社會科學性質,使統計理論研究更接近統計工作實際,在國家和社會得到廣泛發展。

二、統計學中的幾種統計思想

1統計思想的形成

統計思想不是天然形成的,需要經歷統計觀念、統計意識、統計理念等階段。統計思想是根據人類社會需求的變化而開展各種統計實踐、統計理論研究與概括,才能逐步形成系統的統計思想。

2比較常用的幾種統計思想

所謂統計思想,就是統計實際工作、統計學理論及應用研究中必須遵循的基本理念和指導思想。統計思想主要包括:均值思想、變異思想、估計思想、相關思想、擬合思想、檢驗思想。現分述

2.1均值思想

均值是對所要研究對象的簡明而重要的代表。均值概念幾乎涉及所有統計學理論,是統計學的基本思想。均值思想也要求從總體上看問題,但要求觀察其一般發展趨勢,避免個別偶然現象的干擾,故也體現了總體觀。

2.2變異思想

統計研究同類現象的總體特征,它的前提則是總體各單位的特征存在著差異。統計方法就是要認識事物數量方面的差異。統計學反映變異情況較基本的概念是方差,是表示“變異”的“一般水平”的概念。平均與變異都是對同類事物特征的抽象和宏觀度量。

2.3估計思想

估計以樣本推測總體,是對同類事物的由此及彼式的認識方法。使用估計方法有一個預設:樣本與總體具有相同的性質。樣本才能代表總體。但樣本的代表性受偶然因素影響,在估計理論對置信程度的測量就是保持邏輯嚴謹的必要步驟。

2.4相關思想

事物是普遍聯系的,在變化中,經常出現一些事物相隨共變或相隨共現的情況,總體又是由許多個別事務所組成,這些個別事物是相互關聯的,而我們所研究的事物總體又是在同質性的基礎上形成。因而,總體中的個體之間、這一總體與另一總體之間總是相互關聯的。

2.5擬合思想

擬合是對不同類型事物之間關系之表象的抽象。任何一個單一的關系必須依賴其他關系而存在,所有實際事物的關系都表現得非常復雜,這種方法就是對規律或趨勢的擬合。擬合的成果是模型,反映一般趨勢。趨勢表達的是“事物和關系的變化過程在數量上所體現的模式和基于此而預示的可能性”。

2.6檢驗思想

統計方法總是歸納性的,其結論永遠帶有一定的或然性,基于局部特征和規律所推廣出來的判斷不可能完全可信,檢驗過程就是利用樣本的實際資料來檢驗事先對總體某些數量特征的假設是否可信。

3統計思想的特點

作為一門應用統計學,它從數理統計學派汲取新的營養,并且越來越廣泛的應用數學方法,聯系也越來越密切,但在統計思想的體現上與通用學派相比,還有著自己的特別之處。其基本特點能從以下四個方面體現出:(1)統計思想強調方法性與應用性的統一;(2)統計思想強調科學性與藝術性的統一;(3)統計思想強調客觀性與主觀性的統一;(4)統計思想強調定性分析與定量分析的統一。

三、對統計思想的一些思考

1要更正當前存在的一些不正確的思想認識

英國著名生物學家、統計學家高爾頓曾經說過:“統計學具有處理復雜問題的非凡能力,當科學的探索者在前進的過程中荊棘載途時,唯有統計學可以幫助他們打開一條通道”。但事實并非這么簡單,因為我們所面臨的現實問題可能要比想象的復雜得多。此外,有些人認為方法越復雜越科學,在實際的分析研究中,喜歡簡單問題復雜化,似乎這樣才能顯示其科學含量。其實,真正的科學是使復雜的問題簡單化而不是追求復雜化。與此相關聯的是,有些人認為只有推斷統計才是科學,描述統計不是科學,并延伸擴大到只有數理統計是科學、社會經濟統計不是科學這樣的認識。這種認識是極其錯誤的,至少是對社會經濟統計的無知。比利時數學家凱特勒不僅研究概率論,并且注重于把統計學應用于人類事物,試圖把統計學創建成改良社會的一種工具。經濟學和人口統計學中的某些近代概念,如GNP、人口增長率等等,均是凱特勒及其弟子們的遺產。

2要不斷拓展統計思維方式

統計學是以歸納推理或歸納思維為主要的邏輯方式的。眾所周知,邏輯推理方式主要有兩種:歸納推理和演繹推理。歸納推理是基于觀測到的數據信息(尤其是不完全甚至劣質的信息)去產生新的知識或去驗證一個假設,即以所掌握的數據信息為依據,歸納得出具有一般特征的結論。歸納推理是要在數據信息的基礎上透過偶然性去發現必然性。演繹推理是對統計認識能力的深化,尤其是在根據必然性去研究和認識偶然性方面,具有很大的作用。

3深化對數據分析的認識

任何統計研究都離不開數據分析。因為這是得到統計研究結論的必要環節。雖然統計分析的形式隨時代的推移而變化著,但是“從數據中提取一切信息”或者“歸納和揭示”作為統計分析的目的卻一直沒有改變。對統計數據分析的原因有以下三個方面:一是基于同樣的數據會得出不同、甚至相反的分析結論;二是我們所面對的分析數據有時是缺損的或存在不真實性;三是我們所面對的分析數據有時則又是海量的,讓人無從下手。雖然統計數據分析已經經歷了描述性數據分析(DDA)、推斷性數據分析(IDA)和探索性數據分析(EDA)等階段,分析的方法技術已經有了質的飛躍,但與人類不斷提高的要求相比,存在的問題似乎也越來越多。所以,我們必須深化對數據分析的認識,圍繞“準確解答特定問題并且從數據中獲取一切有效信息”這一目的,不斷拓展研究思路,繼續開展數據分析方法技術的研究。

參考文獻:

陳福貴.統計思想雛議[J]北京統計,2004,(05).

龐有貴.統計工作及統計思想[J]科技情報開發與經濟,2004,(03).

第7篇

1關于統計學

統計學是一門實質性的社會科學,既研究社會生活的客觀規律,也研究統計方法。統計學是繼承和發展基礎統計的理論成果,堅持統計學的社會科學性質,使統計理論研究更接近統計工作實際,在國家和社會得到廣泛發展。

2統計學中的幾種統計思想

2.1統計思想的形成

統計思想不是天然形成的,需要經歷統計觀念、統計意識、統計理念等階段。統計思想是根據人類社會需求的變化而開展各種統計實踐、統計理論研究與概括,才能逐步形成系統的統計思想。

2.2比較常用的幾種統計思想

所謂統計思想,就是統計實際工作、統計學理論及應用研究中必須遵循的基本理念和指導思想。統計思想主要包括:均值思想、變異思想、估計思想、相關思想、擬合思想、檢驗思想。現分述如下:

2.2.1均值思想

均值是對所要研究對象的簡明而重要的代表。均值概念幾乎涉及所有統計學理論,是統計學的基本思想。均值思想也要求從總體上看問題,但要求觀察其一般發展趨勢,避免個別偶然現象的干擾,故也體現了總體觀。

2.2.2變異思想

統計研究同類現象的總體特征,它的前提則是總體各單位的特征存在著差異。統計方法就是要認識事物數量方面的差異。統計學反映變異情況較基本的概念是方差,是表示“變異”的“一般水平”的概念。平均與變異都是對同類事物特征的抽象和宏觀度量。

2.2.3估計思想

估計以樣本推測總體,是對同類事物的由此及彼式的認識方法。使用估計方法有一個預設:樣本與總體具有相同的性質。樣本才能代表總體。但樣本的代表性受偶然因素影響,在估計理論對置信程度的測量就是保持邏輯嚴謹的必要步驟。

2.2.4相關思想

事物是普遍聯系的,在變化中,經常出現一些事物相隨共變或相隨共現的情況,總體又是由許多個別事務所組成,這些個別事物是相互關聯的,而我們所研究的事物總體又是在同質性的基礎上形成。因而,總體中的個體之間、這一總體與另一總體之間總是相互關聯的。

2.2.5擬合思想

擬合是對不同類型事物之間關系之表象的抽象。任何一個單一的關系必須依賴其他關系而存在,所有實際事物的關系都表現得非常復雜,這種方法就是對規律或趨勢的擬合。擬合的成果是模型,反映一般趨勢。趨勢表達的是“事物和關系的變化過程在數量上所體現的模式和基于此而預示的可能性”。

2.2.6檢驗思想

統計方法總是歸納性的,其結論永遠帶有一定的或然性,基于局部特征和規律所推廣出來的判斷不可能完全可信,檢驗過程就是利用樣本的實際資料來檢驗事先對總體某些數量特征的假設是否可信。

2.3統計思想的特點

作為一門應用統計學,它從數理統計學派汲取新的營養,并且越來越廣泛的應用數學方法,聯系也越來越密切,但在統計思想的體現上與通用學派相比,還有著自己的特別之處。其基本特點能從以下四個方面體現出:(1)統計思想強調方法性與應用性的統一;(2)統計思想強調科學性與藝術性的統一;(3)統計思想強調客觀性與主觀性的統一;(4)統計思想強調定性分析與定量分析的統一。

3對統計思想的一些思考

3.1要更正當前存在的一些不正確的思想認識

英國著名生物學家、統計學家高爾頓曾經說過:“統計學具有處理復雜問題的非凡能力,當科學的探索者在前進的過程中荊棘載途時,唯有統計學可以幫助他們打開一條通道”。但事實并非這么簡單,因為我們所面臨的現實問題可能要比想象的復雜得多。此外,有些人認為方法越復雜越科學,在實際的分析研究中,喜歡簡單問題復雜化,似乎這樣才能顯示其科學含量。其實,真正的科學是使復雜的問題簡單化而不是追求復雜化。與此相關聯的是,有些人認為只有推斷統計才是科學,描述統計不是科學,并延伸擴大到只有數理統計是科學、社會經濟統計不是科學這樣的認識。這種認識是極其錯誤的,至少是對社會經濟統計的無知。比利時數學家凱特勒不僅研究概率論,并且注重于把統計學應用于人類事物,試圖把統計學創建成改良社會的一種工具。經濟學和人口統計學中的某些近代概念,如GNP、人口增長率等等,均是凱特勒及其弟子們的遺產。

3.2要不斷拓展統計思維方式

統計學是以歸納推理或歸納思維為主要的邏輯方式的。眾所周知,邏輯推理方式主要有兩種:歸納推理和演繹推理。歸納推理是基于觀測到的數據信息(尤其是不完全甚至劣質的信息)去產生新的知識或去驗證一個假設,即以所掌握的數據信息為依據,歸納得出具有一般特征的結論。歸納推理是要在數據信息的基礎上透過偶然性去發現必然性。演繹推理是對統計認識能力的深化,尤其是在根據必然性去研究和認識偶然性方面,具有很大的作用。

3.3深化對數據分析的認識

任何統計研究都離不開數據分析。因為這是得到統計研究結論的必要環節。雖然統計分析的形式隨時代的推移而變化著,但是“從數據中提取一切信息”或者“歸納和揭示”作為統計分析的目的卻一直沒有改變。對統計數據分析的原因有以下三個方面:一是基于同樣的數據會得出不同、甚至相反的分析結論;二是我們所面對的分析數據有時是缺損的或存在不真實性;三是我們所面對的分析數據有時則又是海量的,讓人無從下手。雖然統計數據分析已經經歷了描述性數據分析(DDA)、推斷性數據分析(IDA)和探索性數據分析(EDA)等階段,分析的方法技術已經有了質的飛躍,但與人類不斷提高的要求相比,存在的問題似乎也越來越多。所以,我們必須深化對數據分析的認識,圍繞“準確解答特定問題并且從數據中獲取一切有效信息”這一目的,不斷拓展研究思路,繼續開展數據分析方法技術的研究。

論文摘要】所謂統計思想,就是在統計實際工作、統計學理論的應用研究中,必須遵循的基本理念和指導思想。統計思想主要包括均值思想、變異思想、估計思想、相關思想、擬合思想、檢驗思想等思想。文章通過對統計思想的闡釋,提出關于統計思想認識的三點思考。

參考文獻:

[1]陳福貴.統計思想雛議[J]北京統計,2004,(05).

[2]龐有貴.統計工作及統計思想[J]科技情報開發與經濟,2004,(03).

第8篇

關鍵詞:統計測度;統計學;大數據;數據科學;

作者簡介:李金昌,男,50歲,浙江義烏人。浙江財經大學校長,統計學教授,博士生導師。研究方向為經濟統計學,統計理論與方法,抽樣技術,政府統計等。

最近兩年,統計學界對大數據問題所進行的理論探討逐漸增多,視角也各有千秋,引起了一些共鳴。圍繞大數據問題,由統計學、計算機科學、人工智能、數學等學科共同支撐的數據科學開始形成。但大數據畢竟是一個新課題,因此遠未達到對其有一個系統完整的認識,仍然需要從不同的方面加以研究,其中有一個重要但又容易被忽視的問題,即統計測度問題,值得去探討。

一、什么是統計測度

漢語上,測度是指猜測、揣度、估計。數學上,測度是一個函數,它對一個給定集合的某些子集指定一個數,這個數可以比作大小、體積、概率等等。通俗地說,測度把每個集合映射到非負實數來規定這個集合的大小:空集的測度是0;集合變大時測度至少不會減小(因為要加上變大的部分的測度,而它是非負的)。

除了數學角度的測度論,查閱國內文獻資料,帶有測度這個詞匯的文獻不少,但專門針對統計測度(或測度)內涵的討論幾乎沒有。一些對社會經濟現象進行分析測度的文獻,例如新型工業化進程測度、貨幣流動性測度、全面小康社會發展進程測度、收入分配公平性測度、技術效率測度、人力資本測度、金融風險測度、產業關聯測度等等,所做的測度都是再測度,均不對測度本身進行討論。查閱國外文獻資料(關鍵詞:measurement),也同樣存在這樣的問題,只能收集到一些比較零散的表述。LudwikFinkelstein(1975)[1]認為,在我們對事物或現象進行描述時,測度可以被定義為對現實世界中某一現象的個體屬性或特征進行量化的過程。JamesT.Townsend和F.GregoryAshby(1984)[2]認為,如果按照極端的觀點,那么統計分析中的基本測度理論的含義仍然是存在爭議的。LudwikFinkelstein(2003)[3]指出,測度在那些原來尚未得到卓有成效或廣泛應用的領域,也已取得了明顯的進步,社會、政治、經濟和行為科學正在更大程度地利用定量技術;測度是現代思維的一種實際有效的工具,是我們借以描述世界的一種方法。GiovanniBattistaRossi(2007)[4]認為,用以表示測度結果的,是數字或者數字符號。LucaMari(2013)[5]認為,測度的基礎特征是被公認為世界上獲取并正式表達信息的基本方法,這讓它成為一種跨學科的工具。LudwikFinkelstein(2014)[6]指出,在自然科學技術中,測度的重要性不可否認,它是科學調查和發現必不可少的工具,它可將宇宙中的復雜現象用精確、簡潔和普遍的數學語言來描述。

那么,到底什么是統計測度呢?目前沒有一個統一的定義。本文認為,統計測度具有不同于測度的意義,并且大大超越數學上的界定,即它具有數學定義的一般屬性,但又不受制于函數表現形式,因為統計測度所要面對的是現實世界,實際問題要比理論上可以定義的問題復雜得多。按照我們的理解,統計測度就是用一定的符號和數字,用一定的形式和載體,對所研究的現象或事物的特征進行量化反映,表現為可用于統計分析的數據的過程。它應該具有這樣一些屬性:以實際現象為測度對象,測度結果具有實際意義;以量化為目的,把信息轉化為數量,提供人們容易理解的定量結論;個體特征的測度符合形成總體定量結論的要求,同時能夠體現個體差異。可以發現,統計測度需要借用數學工具,但更重要的是對具體測度現象本質特征的認識和掌握。

統計測度可以從若干不同角度進行分類。邱東教授(2012)[7]曾在“宏觀測度的邊界悖律及其意義”一文中,從邊界的角度對宏觀測度進行了分類:一是因事物本身可測度性而形成的邊界,即本體論意義上的測度邊界;再一是由人的認知能力而形成的邊界,即認識論意義上的測度邊界;第三則是由統計相關性偏好和投入約束而形成的邊界,即操作意義上的測度邊界。這三條測度邊界,應該以本體論意義的測度邊界最大,認識論意義的測度邊界次之,而操作意義的測度邊界最小。這樣的分類,對于我們正確理解統計測度的內涵很有幫助。受此啟發,筆者認為統計測度還可以有如下分類:

1.從測度的實現形式看,可以分為原始測度和再測度。原始測度也可以稱為直接測度,它通過對測度對象進行直接測度來獲取數據,例如清點庫存物品數量、丈量作物播種面積、觀察培育細菌數目、檢測藥物成分等獲得的數據,以及各種登記、記錄的原始數據等等。再測度也稱為間接測度,它以其他已知的測度數據為基礎去計算、推算或預測所需的未知數據,例如根據GDP和人口數測度人均GDP、根據人口普查分年齡人口數據測度老齡化系數和社會負擔系數、根據相關指標數據測度CPI的變化等等。復雜的再測度則需要借助相應的統計模型作為工具,因為它實際上是對相關變量之間的關系進行定量反映。從兩者關系上看,原始測度是基礎,是根本,沒有科學的原始測度就不會有可靠的再測度;再測度則是測度功能提升的必然要求,以解決原始測度不能解決的問題。

2.從測度的計量方式看,可以分為自然測度、物理測度、化學測度、時間測度和價值測度。自然測度是利用現象的自然屬性所進行的一種統計測度,例如人口規模、企業數量等的測度,采用自然計量單位;物理測度是利用現象的物理屬性所進行的一種統計測度,例如公路長度、作物播種面積、天然氣產量等的測度,采用物理計量單位;化學測度是利用現象的化學屬性所進行的一種統計測度,例如醫學、生物學中化學合成物的成分結構測度,采用百分數、千分數或特定標識為計量單位;時間測度是利用現象的時間屬性所進行的一種統計測度,例如勞動用工、閑暇時間等測度,采用時間計量單位;價值測度是利用現象的價值屬性所進行的一種統計測度,例如勞動報酬、經濟活動成果等測度,采用貨幣計量單位。在這些測度計量方式中,價值測度因最具有綜合功能而應用最為廣泛。

3.從測度的方法看,可以分為計數測度、測量測度、實驗測度、定義測度和模型測度。計數測度是一種通過觀測計數來獲得數據的方法,最為簡單,一般用于自然測度或時間測度;測量測度是一種根據物理或化學規制對現象進行測量、測算來獲得數據的方法,一般用于物理測度或化學測度;實驗測度是一種按照科學實驗原理、通過觀察實驗對象在既定條件下的反應來獲得數據的方法,一般與測量測度相結合,用于獲取科學研究數據;定義測度也可以稱之為指標測度,是一種通過探究現象的本質特征和活動規律、歸納出表現其數量特征的范疇、給出統計指標定義(包括內容、口徑、計算方法和表現形式等)來獲取數據的方法,最常用于價值測度,也用于其他形式的測度。可以說,定義測度方法應用最為廣泛,但也最為困難。模型測度是一種根據現象與現象之間的內在聯系關系、或者現象自身的發展變化規律,通過建立一定的方程模型來獲取數據的方法。前面三種統計測度方法基本上都屬于直接測度,定義測度既可能是直接測度、也可能是間接測度,而模型測度都屬于間接測度方法。

4.從測度的維度看,可以分為單一測度與多維測度。單一測度是指采用單一的方式方法對所研究現象或事物進行單一角度的測度,獲得單一的數據。多維測度是指對所研究現象或事物進行多角度的測度,測度過程中可能需要采用多種測度方法和計量方式,例如多指標綜合評價就需要借助統計指標體系對評價對象進行多角度的測度。顯然,單一測度是多維測度的基礎。

二、統計測度是統計學的立足之本

首先,從統計學的發展歷史看,是統計測度使統計學破繭而出。為什么主流觀點認為政治算術是統計學的起源而不是國勢學?正是因為威廉·配第首次采用統計測度的方式進行了國家實力的統計分析和有關推算,得出了令人信服的結論。威廉·配第在1693年出版的《政治算術》[8]中寫道“因為和只使用比較級或最高級的詞匯以及單純作思維的論證相反,我卻采用了這樣的方法(作為我很久以來就想建立的政治算術的一個范例),即用數字、重量和尺度的詞匯來表達我自己想說的問題,只進行能訴諸人們的感官的論證和考察在性質上有可見的根據的原因”,這一觀點在統計學的發展過程中產生了非常重要的影響。他的這段話雖然沒有出現測度一詞,但卻道出了測度的本質,即讓事物變得明白、變得有根據,因為“數字、重量和尺度”就是測度、就是根據,用“數字、重量和尺度的詞匯來表達想說的問題”就是一種測度的思想,盡管測度的方式方法還很簡單。相反,國勢學雖然提出了歸納法這一統計學的基本方法并首創了統計學一詞,但由于沒有采用統計測度的方式進行國勢問題的研究而難以修成正果。正如邱東教授[7]所說:“在配第之前,統計學的研究對象雖然是國家的態勢,但它在方法論上只是定性言說。一個國家的財富總量在本體論意義上是可以測度的。然而只是到了配第時期,人類才想到了要測度它,并發明了如何測度的基本方法。政治算術,即開創期的經濟統計學,實現了從無到有的轉變,大大擴展了宏觀測度的認識論邊界,因而才具有了統計學范式創新的革命性意義。”同樣,格朗特的《關于死亡表的自然觀察和政治觀察》也是人口統計測度方面的經典之作,無論是原始測度還是再測度,都給后人留下了寶貴的財富。之后,統計學就是沿著如何更加科學、準確測度世界這一主線而發展的。筆者曾在“從政治算術到大數據分析”一文[9],對數據的變化與統計分析方法的發展進行了粗淺的歸納,其主題實際上就是統計測度問題。

其次,從統計學的研究對象上看,統計測度是體現統計學數量性特征的前提條件。統計學的研究對象是現象的數量方面,或者說統計學是關于如何收集和分析數據的科學。統計數據從何而來?從統計測度中來。數據不同于數字,數字是統計測度的符號,數據是統計測度的結果,這也正是統計學區別于數學之處。所以說,數據的本質問題就是統計測度問題,故此統計測度是統計學的基本問題。這里重點討論兩個問題:一是統計測度與統計指標的關系,二是統計測度面臨的新問題。關于第一個問題,本文認為統計測度與統計指標是一個事物的兩個方面,這個事物就是數據。統計指標法是統計學的基本方法之一,盡管前面對統計測度從方式方法上進行了分類,但從廣義上說所有統計測度都是定義測度,都表現為指標。也就是說,任何統計測度———不論是直接測度還是間接測度,最終目的是獲得能夠讓人明白的數據,而表現數據的最主要形式就是統計指標,其他表現數據的形式都是派生出來的。所以,統計測度就是根據所設定的統計指標去獲得所需的數據。關于第二個問題,與后文所要論及的大數據有關,就是定性測度問題。在統計學中,數據可以分為兩類———定性數據與定量數據,其中定性數據又包括定類數據與定序數據兩種,它們屬于非結構化或半結構化數據。相應地,統計測度也可分為定性測度與定量測度。很顯然,只有定性測度與定量測度方法得到同步發展,統計學才能更加完善。總體上看,定量數據的統計測度已經比較完善,但定性數據的統計測度還有很多問題尚待解決,難點就在于測度的切入點———如何提取有效的信息、如何最終轉化為統計指標。盡管關于定性數據分析的論著已經不少,但還沒有從理論方法上建立起定性數據統計測度的體系,因此統計學在這方面的任務依然很重。

第三,從統計學的永恒主題看,通過科學的數據分析、得出有效的結論是其不變的追求,而數據分析過程就是綜合的統計測度過程。獲得數據的目的是為了發現隱含其中的有價值的信息,即發現數據背后的數據,讓數據再生數據,從而滿足人們認識事物、掌握規律、科學決策的需要。除了總量、結構等基本信息外,更重要的是通過數據分析來呈現現象的變化規律與相互關系。不難發現,這種數據分析的過程,就是不斷進行各種統計測度的過程,所以最終的統計分析結果實際上就是各環節、各方面的各種類型的統計測度的疊加結果,或者說是統計測度不斷放大的過程。大量針對社會經濟現象進行分析研究的文獻(不論是否冠以“測度”兩字),只要有數據分析,都是如此。可以說,統計測度貫穿于統計數據分析的全過程。但是,為什么很多統計數據分析并沒有得出有效的結論呢?本文認為原因就出在統計測度上,尤其是沒有首先解決好原始統計測度問題。應該說,圍繞數據分析已經建立起一整套比較完整的統計方法體系,很多方法也都身經百戰、行之有效,但一旦原始統計測度有問題、數據不準確或不真實,那么任何方法都只是擺設。仔細研讀很多所謂的實證分析文獻,其重點均在于構建什么樣的模型或運用什么樣的方法,雖然有的文獻也必須要討論選擇什么樣的變量(指標)這個問題,但并不是系統地從測度的角度進行闡述,因此所用的模型越來越復雜,但所得的結論卻離實際情況越來越遠。學界總是有這樣一種觀念:變量越多、符號越新奇、模型越復雜的文章才越有水平,似乎這樣分析所得的結論才越可靠。殊不知,不以科學可靠的原始統計測度為基礎,任何數據分析都會成為無源之水、無本之木,所得的結論也只是更精確的錯誤而已。本文認為,任何脫離科學統計測度的統計分析都是毫無意義的,充其量是一種數字游戲而已。應該樹立這樣一種觀念:科學的統計數據分析首先取決于科學的統計測度,而不是首先取決于什么樣的分析模型,雖然模型也很重要。這也再一次證明,統計測度問題是統計學的根本問題。其實,歸根結底看,在統計數據分析過程中,每一步分析都以前一步的測度為原始測度,每一步所用的方法都是統計測度方法,因此所有的統計分析方法都是統計測度方法。甚至可以說,統計學方法體系就是統計測度方法體系。

當然,在實際的統計分析中,統計測度往往遇到一些困難,即有些指標數據由于各種原因無法獲得,這就不得不采用替代這種途徑。例如,綠色GDP核算的概念已經提出很多年,但為什么還沒有哪個國家真正公布綠色GDP數據,原因就是自然資源價值、生態環境價值等的統計測度目前還面臨著很大的困難,其背后存在著一系列有待進一步研究和解決的理論與實踐問題,因此不少學者進行了替代測度的探討。這一方面說明統計測度的重要性,另一方面說明統計測度替代的無奈性。但是,替代測度必須遵守相應的規則與邏輯,要經得起推敲。有的文獻明明知道有關變量無法測度、有關數據無法獲得,卻隨意地、不符合邏輯地進行所謂的替代,結果是最后的結論不知替代成什么樣了,很難理解它的意義。關于替代測度的有效性問題,邱東教授[7]已有精辟的論述,在此不再展開討論。

三、統計測度是數據科學的基礎

籠統地講,數據科學就是以大數據為研究對象的科學,需要多學科交叉融合、共同支撐。由于大數據是快速增長的復雜數據,因此大數據分析僅有統計思維與統計分析方法是不夠的,還需要強大的數據處理能力與計算能力。只有把統計思維、統計方法與計算技術結合起來,才有可能真正挖掘出大數據中的有價值信息。本文認為統計思維、統計方法與計算技術相結合的基礎就是科學的統計測度。

首先,大數據技術不能自行解決其計算和分析應從何處著手的問題。現代信息技術與互聯網、物聯網技術的快速發展,使人類進入大數據時代,也有人說進入到數聯網時代,這意味著我們一方面被各種越來越多、越來越復雜的數據所包圍,另一方面又被數據中巨大的信息價值所吸引,想從中挖掘出可供決策之用的信息。如何挖掘大數據?人們已經進行了艱苦的探索,發展了很多專門的方法技術,并已嘗到了不少甜頭,但遠未達到充分利用大數據中有效信息的目的,因為已有的大數據分析研究主要集中于計算機科學與技術、軟件工程、計算數學等領域,重點是計算能力與算法研究,而很少從統計學的角度進行有針對的探討,還沒有真正進入數據分析的深層。這里面實際上忽略了最基礎的統計測度問題。如果說,計算技術的發展能夠解決數據儲存與計算的能力問題,算法模型的改進能夠解決大數據分析的綜合能力問題,那么它們仍然不能解決對誰進行計算與分析的問題,也即從何處著手的問題。無論是傳統的結構型數據,還是現在的包含大量非結構型數據的大數據,要對它們進行分析都必須找到正確的切入口,即分析的基本元素是什么,或者說需要測度什么。當然,還有如何測度的問題。然后,才能進行分組、綜合和構建模型,否則大數據分析不會達到人們的預期。

其次,大數據之所以催生數據科學,就是為了通過多學科交叉融合來共同解決大數據分析中存在的問題,其中包括統計測度問題,這一點對于非結構化數據尤為突出。實際上,大數據的本質就是非結構化數據,一是體量大、比重高(超過95%),二是變化快、形式多,三是內容雜、不確定。通過各種社交網絡、自媒體、富媒體,以及人機對話和機器感應記錄等產生的各種非結構化數據,例如各種文字、各種表情符號、各種聲音、各種圖像,到底表示什么?綜合在一起能體現什么規律?如何綜合各種信息?存在著大量有待研究的問題。其實,文字的長短、用詞、表達形式(敘述式、議論式、散文式、詩歌式,等)甚至字體大小與顏色,表情類型與偏好,聲音高低、頻率與情緒,圖像顏色等等,都是有特定意義的,即在特定環境條件下的反應。所以,一句話或一段聲音的意義并非文字本身的意思,一個表情符號的意義并非符號表征的意思,一個圖像的意義并非圖像內容與色彩本身的意思,因為背后有太多的未知。人們瀏覽檢索各種信息的習慣、收看與回復郵件等信息的習慣、參與信息網絡的習慣、購物習慣與支付習慣等等,也是如此。更何況,同樣的網絡詞匯在不同的時間代表著不同的語義。這背后隱藏著的是人們的行為與社會關系,既具有個性又具有共性,極其復雜。所以對這樣的數據進行分析,首先絕非是計算問題,也不是用什么模型問題,而首先是從何處著手、如何選取關鍵詞、如何選定關聯詞、可以用什么樣的指標來綜合、可以用什么樣的表式來表現等問題,一句話就是統計測度問題。非結構化數據的統計測度將主要是定義測度,這些問題不解決,分析模型也是難以構建的,或者難以得出令人信服的結論。

例如,關于《紅樓夢》前80回與后40回是否同一作者的爭論,韋博成[10]進行了綜合性的比較研究并提出了自己的觀點,他指出已有美國威斯康辛大學華裔學者陳炳藻教授(1980)[11]、我國華東師范大學陳大康教授(1987年)[12]和復旦大學李賢平教授(1987年)[13]等學者從統計學的角度進行過專門的研究,但卻得出了不同的結論:陳炳藻教授認為前80回與后40回均是曹雪芹所著;陳大康教授認為前80回與后40回為不同人所著;李賢平教授認為前80回是曹雪芹根據《石頭記》增刪而成,后40回是曹雪芹親友搜集整理原稿加工補寫而成。此外,還有其他一些學者進行過類似的研究,也有一些不同的結論。為什么都通過提取關聯詞和統計的方法卻得出不同的結論?原因就在于用以分析的關聯詞不同,即統計測度的切入點不同,當然也有統計方法上的差異,但前者是根本。至少存在幾個統計測度上的問題:提取單一維度的關聯詞還是多維度的關聯詞?提取什么類型的關聯詞(例如:關聯詞是名詞、形容詞還是動詞;是花卉、樹木、飲食、醫藥還是詩詞)?這些關聯詞可以綜合為什么樣的指標?等等。由此可見,原始統計測度代表著數據分析的方向。

相比《紅樓夢》,大數據分析要復雜得多、困難得多。所以,數據科學除了需要數學、統計學、計算機科學與技術、人工智能等學科的交叉融合外,還需要與行為科學、語言學、社會學、經濟學等學科相結合,以便能很好地解決作為數據分析之前提的統計測度問題。

第三,數據科學將進一步拓展統計測度的邊界,并提出更高的要求。伴隨著人類認識世界的范圍的不斷拓展,統計測度的范圍也不斷擴大,從自然現象統計測度到人口現象、經濟現象統計測度,再到社會現象、環境現象、政治現象等統計測度,幾乎已經滲透到了所有可以想象到的領域。相應地,統計數據分析也從少量數據的分析進入到了大數據分析。大數據的復雜性、不確定性和涌現性(王元卓等,2013)[14],意味著統計測度的內容大大增加,原來一些不能測度的數據被納入到了統計測度的范圍,按照邱東教授的說法就是統計測度的邊界大大擴展了。統計測度邊界的擴大,必須以統計測度能力的提升為前提,即要求統計學借助現代信息技術進一步提升處理和分析數據的能力———對大數據“化繁為簡”、“變厚為薄”的能力,這就必須以科學準確的大數據統計測度為前提,既改變統計思維,又創新統計分析方法,其中就包括統計測度思維、統計測度方法與統計測度標準。面對大量繁雜的數據,如果沒有更好的統計測度思路與方法,包括個體標志定義方法、最小數據細胞分組與聚類方法、關聯詞含義的時間影響計量方法、定性測度指標篩選方法、再測度路徑與方法、大數據統計測度評價標準等,那么統計學在數據科學發展過程中就難以發揮應有的作用,數據科學也將裹足不前。這就是統計學邁向數據科學的重要挑戰之一。

綜上所述,統計測度的基礎性問題從統計學延伸到了數據科學,是兩者的共同基礎,并且對于數據科學而言顯得更為重要。大數據的復雜性、不確定性和涌現性導致了統計測度的難度猛增,亟需建立面向大數據分析的統計測度理論與方法。要通過研究大數據的復雜性、不確定性和涌現性特征的基本因素,以及這些因素之間的內在聯系、外在指標和測度方法,進而研究基于先進計算技術的大數據度量模型,構建尋找面向計算的數據內核或者數據邊界的基本方法。總之,建立有效易行的數據表示方法,即科學的統計測度方法,是數據科學必須解決的基礎問題之一。

四、創新與完善大數據統計測度方法

如前所述,統計學研究對象已經從結構化數據延伸到了包括非結構化數據在內的一切數據,統計測度邊界得到了大大的擴展。按照邱東教授[7]曾經引用過的海德格爾的話:“界限并不表示某一事物的發展到此為止,而是像希臘人所認知的那樣,界限是某種事物開始展現的地方”,預示著統計學在數據科學發展階段的新起點已經展現在我們面前。新的統計測度邊界催生統計測度方法的創新,統計測度方法的創新促進統計測度邊界的拓展,兩者相輔相成,共同推動統計學與數據科學的發展。為此,我們要系統梳理統計測度方法的發展歷程,面對大數據提出的新挑戰,大膽探索統計測度的新思路、新理論和新方法,為數據科學奠定堅實的統計學基礎。為此提出如下幾點建議:

首先,要緊密結合現象的本質去探求更科學的統計測度方法。本質決定一切,既然統計測度的目的是獲得客觀反映現象本質的數據,那么深入到現象本質、認識和掌握現象的本質,是科學統計測度的關鍵,也是探求新的統計方法的出發點。換句話說,科學的統計測度方法能夠體現出數據的真正意義。例如,要探求社交網絡數據的統計分析和測度方法,就必須了解社交網絡的產生背景、構成要素、表現形式與基本特征,既要研究它的共性問題,又要研究它的個性問題與差異性,同時還要研究它的變化趨勢。只有這樣,才能掌握社交網絡數據的構成要件或元素,才能建立起科學的、能有效體現社交網絡數據意義的統計測度方法。再如,要分析研究電子商務數據,也必須先弄清楚什么是電子商務,尤其是弄清楚它與傳統的商業模式有什么不同(包括物流、資金流與信息流)、有哪些新生事物(包括時空特征、法律監管)等等,否則統計測度無從下手或者抓不住要害。同時,作為一個新的研究領域,數據科學的理論基礎將與計算機科學、統計學、人工智能、數學、社會科學等有關,離不開對相關學科領域知識與研究方法的借鑒,因此對相關領域的知識與研究方法的學習十分重要。否則,就會嚴重扭曲統計測度方法,胡亂設置測度標志,這需要引起高度關注。

其次,要緊密結合大數據的特點去創新統計測度方法。大數據的特點是復雜性、不確定性和涌現性并存,構成了多維的數據空間,里面蘊藏著豐富的信息資源,這是傳統的統計數據不可比擬的。那么該從何處進入這樣的數據空間?怎么進去?又怎么出來?這歸根結底還是統計測度方法問題。因此,在開展大數據分析之前,首先要研究大數據的基礎性問題,包括大數據的內在機理(包括大數據的演化與傳播機制、生命周期),數據科學與社會學、經濟學、行為科學等之間的互動機制,以及大數據的結構與效能的規律性等等,為創新統計測度方法提供導向。本文認為,再復雜的數據也有共性,再不確定的數據也有規律,再涌現的數據也有軌跡。網絡大數據背后的網絡平均路徑長度、度分布、聚集系數、核數、介數等具有共性的特征與參數,是開展復雜網絡數據分析的基礎(李國杰、程學旗,2012)[15];大數據在時空維度上的分布形式、內在結構、動態變化和相關聯的規律,是找到大數據分析切入口、進而簡化大數據表征的前提;大數據的涌現性軌跡(包括模式涌現性、行為涌現性和智慧涌現性),是研究更多的社會網絡模型和理解網絡瓦解失效原因,理解人們網絡行為涌現特征(例如人們發郵件數量的時間分布特征),以及探求大量自發個體語義融合連接形成有特定意義的通用語義之過程的路徑(靳小龍等,2013)[16]。也就是說,這些共性、規律和軌跡就是統計測度的主要依據,也是重點內容。發展和創新能夠準確發現大數據的共性、規律和軌跡的定量方法,其實就是發展和創新大數據統計測度方法。

第三,要緊密結合現代信息技術以完善統計測度方法。復雜、多變和不斷涌現的大數據,不僅需要借助現代信息技術(包括硬件與軟件)來解決極其復雜的分析計算問題,也需要利用現代信息技術來解決其繁雜多樣的統計測度問題。對于大數據,不論是原始統計測度還是再測度,其復雜性或難度都不是傳統的結構化數據所能相提并論的,哪怕是基本的關聯詞計數、分類與匯總,其工作量之大也超乎想象,不借用現代信息技術幾乎是不可能完成的。而事實上,有些統計測度的內容與方法本身也是以數據處理能力的提升為前提的。可以說,脫離現代信息技術,人們難以承受大數據的統計測度與分析任務;要把統計測度思想變為可實現的統計測度方法,必須借助現代信息技術。為此,要充分利用各種信息技術和手段,把統計測度與數據清洗相結合、與數據分析模型相結合、與計算方法相結合,努力建立融自動搜索統計測度、動態演化統計測度和自主優選統計測度為一體的大數據統計測度方法體系。

第9篇

【關鍵詞】統計學;統計思想;認識

1關于統計學

統計學是一門實質性的社會科學,既研究社會生活的客觀規律,也研究統計方法。統計學是繼承和發展基礎統計的理論成果,堅持統計學的社會科學性質,使統計理論研究更接近統計工作實際,在國家和社會得到廣泛發展。

2 統計學中的幾種統計思想

2.1 統計思想的形成

統計思想不是天然形成的,需要經歷統計觀念、統計意識、統計理念等階段。統計思想是根據人類社會需求的變化而開展各種統計實踐、統計理論研究與概括,才能逐步形成系統的統計思想。

2.2 比較常用的幾種統計思想

所謂統計思想,就是統計實際工作、統計學理論及應用研究中必須遵循的基本理念和指導思想。統計思想主要包括:均值思想、變異思想、估計思想、相關思想、擬合思想、檢驗思想。現分述如下:

2.2.1 均值思想

均值是對所要研究對象的簡明而重要的代表。均值概念幾乎涉及所有統計學理論,是統計學的基本思想。均值思想也要求從總體上看問題,但要求觀察其一般發展趨勢,避免個別偶然現象的干擾,故也體現了總體觀。

2.2.2 變異思想

統計研究同類現象的總體特征,它的前提則是總體各單位的特征存在著差異。統計方法就是要認識事物數量方面的差異。統計學反映變異情況較基本的概念是方差,是表示“變異”的“一般水平”的概念。平均與變異都是對同類事物特征的抽象和宏觀度量。

2.2.3 估計思想

估計以樣本推測總體,是對同類事物的由此及彼式的認識方法。使用估計方法有一個預設:樣本與總體具有相同的性質。樣本才能代表總體。但樣本的代表性受偶然因素影響,在估計理論對置信程度的測量就是保持邏輯嚴謹的必要步驟。

2.2.4 相關思想

事物是普遍聯系的,在變化中,經常出現一些事物相隨共變或相隨共現的情況,總體又是由許多個別事務所組成,這些個別事物是相互關聯的,而我們所研究的事物總體又是在同質性的基礎上形成。因而,總體中的個體之間、這一總體與另一總體之間總是相互關聯的。

2.2.5 擬合思想

擬合是對不同類型事物之間關系之表象的抽象。任何一個單一的關系必須依賴其他關系而存在,所有實際事物的關系都表現得非常復雜,這種方法就是對規律或趨勢的擬合。擬合的成果是模型,反映一般趨勢。趨勢表達的是“事物和關系的變化過程在數量上所體現的模式和基于此而預示的可能性”。

2.2.6 檢驗思想

統計方法總是歸納性的,其結論永遠帶有一定的或然性,基于局部特征和規律所推廣出來的判斷不可能完全可信,檢驗過程就是利用樣本的實際資料來檢驗事先對總體某些數量特征的假設是否可信。

2.3 統計思想的特點

作為一門應用統計學,它從數理統計學派汲取新的營養,并且越來越廣泛的應用數學方法,聯系也越來越密切,但在統計思想的體現上與通用學派相比,還有著自己的特別之處。其基本特點能從以下四個方面體現出:(1)統計思想強調方法性與應用性的統一;(2)統計思想強調科學性與藝術性的統一;(3)統計思想強調客觀性與主觀性的統一;(4)統計思想強調定性分析與定量分析的統一。

3 對統計思想的一些思考

3.1 要更正當前存在的一些不正確的思想認識

英國著名生物學家、統計學家高爾頓曾經說過:“統計學具有處理復雜問題的非凡能力,當科學的探索者在前進的過程中荊棘載途時,唯有統計學可以幫助他們打開一條通道”。但事實并非這么簡單,因為我們所面臨的現實問題可能要比想象的復雜得多。此外,有些人認為方法越復雜越科學,在實際的分析研究中,喜歡簡單問題復雜化,似乎這樣才能顯示其科學含量。其實,真正的科學是使復雜的問題簡單化而不是追求復雜化。與此相關聯的是,有些人認為只有推斷統計才是科學,描述統計不是科學,并延伸擴大到只有數理統計是科學、社會經濟統計不是科學這樣的認識。這種認識是極其錯誤的,至少是對社會經濟統計的無知。比利時數學家凱特勒不僅研究概率論,并且注重于把統計學應用于人類事物,試圖把統計學創建成改良社會的一種工具。經濟學和人口統計學中的某些近代概念,如gnp、人口增長率等等,均是凱特勒及其弟子們的遺產。

3.2要不斷拓展統計思維方式

統計學是以歸納推理或歸納思維為主要的邏輯方式的。眾所周知,邏輯推理方式主要有兩種:歸納推理和演繹推理。歸納推理是基于觀測到的數據信息(尤其是不完全甚至劣質的信息)去產生新的知識或去驗證一個假設,即以所掌握的數據信息為依據,歸納得出具有一般特征的結論。歸納推理是要在數據信息的基礎上透過偶然性去發現必然性。演繹推理是對統計認識能力的深化,尤其是在根據必然性去研究和認識偶然性方面,具有很大的作用。

3.3深化對數據分析的認識

任何統計研究都離不開數據分析。因為這是得到統計研究結論的必要環節。雖然統計分析的形式隨時代的推移而變化著,但是“從數據中提取一切信息”或者“歸納和揭示”作為統計分析的目的卻一直沒有改變。對統計數據分析的原因有以下三個方面:一是基于同樣的數據會得出不同、甚至相反的分析結論;二是我們所面對的分析數據有時是缺損的或存在不真實性;三是我們所面對的分析數據有時則又是海量的,讓人無從下手。雖然統計數據分析已經經歷了描述性數據分析(dda)、推斷性數據分析(ida)和探索性數據分析(eda)等階段,分析的方法技術已經有了質的飛躍,但與人類不斷提高的要求相比,存在的問題似乎也越來越多。所以,我們必須深化對數據分析的認識,圍繞“準確解答特定問題并且從數據中獲取一切有效信息”這一目的,不斷拓展研究思路,繼續開展數據分析方法技術的研究。

參考文獻:

[1] 陳福貴.統計思想雛議[j]北京統計, 2004,(05) .

[2] 龐有貴.統計工作及統計思想[j]科技情報開發與經濟, 2004,(03) .

相關文章
相關期刊
主站蜘蛛池模板: 国产一级高清视频在线 | 九九九精品在线观看 | 亚洲狠狠婷婷综合久久久图片 | 日本欧美在线视频 | 国产不卡免费 | 97se亚洲综合在线 | 欧美高清一级 | 乱老女人一二区视频 | 久久91av| 国内色综合精品视频在线 | 五月婷婷久 | 国产精品视频久久久久 | 免费的毛片网站 | 男女无遮挡羞羞视频 | 狠狠狠综合色 | 久久国产免费福利永久 | run away无删减全集 动漫 | 免费精品 | 嫩草影院免费在线观看 | 成人精品亚洲人成在线 | 精品福利视频导航 | 精品视频在线观看 | 免费两性的视频网站 | 五月婷婷亚洲 | 精品视频一区在线观看 | 久久这里只有精品免费视频 | 国产精品视频永久免费播放 | 日韩精品久久久久影院 | 涩涩涩丁香色婷五月网视色 | 久久久久九九精品影院 | 国产全部视频 | 精品伊人| 欧美在线视频第一页 | 色5月综合| 激情 亚洲| 国产午夜电影在线观看 | 99久久精品费精品国产一区二 | 97在线观看免费观看高清 | 干欧美女人 | 国产男女 爽爽爽爽视频 | 国产福利三区 |