時間:2023-08-16 17:11:45
引言:易發表網憑借豐富的文秘實踐,為您精心挑選了九篇統計學經典理論范例。如需獲取更多原創內容,可隨時聯系我們的客服老師。
關鍵詞:統計學;地質工作;重要作用;研究
近些年來,我國對地質工作的重視程度不斷提高,投入的資金力度也有所增加,在國家的大力支持下,地質工作取得了一定的進展,但和發達國家相比較,還存在一些問題。此種情況導致我國地質工作的發展受到阻礙,為了解決其中存在的問題,工作人員將統計學相關知識和地質工作結合在一起,通過有效的應用此方面的知識,推動了我國地質工作的發展。
一、地質統計學的概念
地質統計學是在1962年由法國的著名學者G.馬特隆教授提出的,此統計學的基礎是區域變化量,是在使用變異函數的情況下對隨機性以及空間性等為一體的自然現象進行熱分析的一門科學。只要是和空間數據所具有的隨機性以及結構性,或者是依賴性等有關系的研究,或者是使用無偏內插的方式來對數據進行估計,再或者是對數據所具有的波動性等進行模擬,都可以使用地質統計學理論[1]。
二、地質統計和經典統計兩者之間差異
地質統計和經典統計兩者之間是存在差異的,具體表現在以下幾個方面:第一,經典統計在對地質變量進行深入研究的時候,并沒將樣品所具有的空間分布特性考慮在內,要知道,即使地質變量的均值以及方差是一樣的,若是其樣品的分布位置不同,則其地質變量的穩定性也會是不相同的;第二,經典統計學的研究對象是隨機抽取出來的,所以這些對象都是按照一定概率來進行分布的,而地質統計則不同,在地質統計下的地質變量是集結構性以及隨機性為一體的;第三,經典統計對變量的原則可以進行無數次的實驗,并且每次實驗的結果可能都存在差異,而地質變量則做不到這一點;第四,經典統計學對抽樣的要求是獨立進行,而地質變量則并沒有這一方面的要求,反而是要求抽樣之間具有空間相關性[2]。地質研究人員為了可以同時滿足其對概率統計有效性的要求以及地質變量的特點,所以研究出了地質統計學。地質統計以及經典統計兩者的基礎都是大量采樣,通過對樣本屬性值所具有的分布頻率以及均值等進行分析,從而明確空間分布格局與其之間的關系。地質統計區別于經典統計的主要特點是,地質統計可以對樣本值所具有的大小、空間位置以及距離進行綜合考慮,這樣就可以對經典統計中存在不足進行彌補,進而提高地質工作的效率,推動地質工作的發展[3]。
三、統計學對地質工作的重要作用
1.地質統計工作可以深化經濟體制改革,并強化經濟管理
我國的市場經濟體制已經逐漸穩定,在市場經濟體制下,地質企業想要生存下去,就必須在發展過程中,采用創新的思想觀念,并建立完善的符合社會發展需求的管理機制,對企業內部的環境進行優化,采用科學的方法來開展管理工作,對地質勘查生產經營活動進行科學的指導,進而確保其可以從自我封閉的狀態中逐漸地走向開放,走出國門[4]。這樣的情況就使得地質勘查工作必須采用統計學理論,只有這樣才能推動地質工作更好地發展,使其適應當今社會的發展趨勢,加快地質工作現代化的發展步伐。
2.地質統計學是國民經濟信息化發展的必要要求
近些年來,我國科技水平的不斷提高,使計算機技術越來越成熟,其應用范圍日益廣泛,在這樣的情況下,地質工作部門在進行工作的過程中應用了計算機技術,開始地質信息自動化的建設。在發達國家中,信息的重要性已經被人們普遍的認可,因此,我國應該吸取國外先進的經驗,對信息的重要性進行深入地認識,進而推動我國地質工作的發展。
3.統計學可以對地質工作進行估計
在進行地質工作的過程中,相關人員需要對其進行估計,在估計過程中,使用統計學知識,就可以對其整體進行估計,也可以對其局部進行估計。
4.可以創新數學理論
在地質工作中人們應用了數學理論,但由于社會對地質工作的要求不斷提高,所以傳統的數學理論已經無法滿足社會需求,面對此種情況,相關人員可以應用統計學理論來對傳統的數學理論進行創新,這樣就可以解決地質工作中存在的問題,推動其發展。
5.可以提高估計精度
在地質工作中,工作人員需要對精度進行估計,應用了統計學理論之后,其中的克立格方程會提高估計精度,這樣地質工作的作用就可以更加充分地發揮出來。
6.可以對地質變量的變化進行模擬
應用了統計學理論之后的地質工作,可以將地質變量產生的變化更加真實的模擬出來,進而為工作人員對地質體進行定量研究提供有力的數據依據。
7.可以充分利用已知信息
在地質工作中,工作人員需要利用已知信息來深入地開展工作,在此過程中,傳統的地質工作已經無法滿足需求,但應用了統計學的地質工作可以幫助工作人員對未知地區以及已知信息的空間關系與區域變化量所具有的結構特征進行深入地分析,進而幫助工作人員作出正確的判斷。
8.可以節省時間
傳統的地質工作不僅需要耗費大量的時間,還需要大量的人力資源,為了節約時間提高工作效率,在其中應用了統計學理論,統計學理論可以自動的生成拼圖,這樣就為工作人員進行計算提供了方便。
四、結束語
綜上所述,地質統計學在地質工作中應用具有重要的作用,而且隨著理論的不斷豐富和完善,其應用范圍有了明顯的擴大,已經逐漸成為研究界中的常用科學方法,并且隨其在各領域中的廣泛應用,實際作用愈發突出,已經成為不容人們忽視的存在。因此,地質工作人員應該對統計學進行深入地研究,并提高自身應用統計學的水平,在地質工作中充分發揮其作用,推動地質工作的進一步發展。
作者:馬紅霞 單位:中國冶金地質總局第三地質勘查院
參考文獻:
[1]王允鋒.論統計學對地質工作的重要作用[J].知識經濟,2010(,11):77.
[2]周旋,王選問,金瑜,等.基于地質統計學方法的某鐵礦資源量估算[J].金屬礦山,2015(,7):86-90.
關鍵詞:數理統計;西方統計思想史;數量經濟學;貝葉斯
一、古典統計學時期
古典統計時期統計學同時存在不同的兩大學派,在這種情況下,爭議是必然的,但他們之間的爭議并未在國勢學派和政治算術學派之間爆發,而是通過內部紛爭表現的。隨著政治算術學派的發展,其計量思想沖擊使得國勢派分為兩個陣營,一個是以哥根廷大學教授為代表的正統派,他們堅持統計研究要以文字記述為主,另一個是以克羅姆為代表的圖表派,主張在文字記述的基礎上,接受政治算術學派所提倡的計量方法的思想。圖表派和正統派的矛盾在十九世紀初期終于爆發了,正統派指責圖表派的表式統計是沒有方法的大雜燴,沒有形式,只能沉迷于表現;而圖表派則堅持認為,正統派只是固步自封、墨守成規,不能真正意識到能真正反映客觀事實的圖表和數字的重要性。克尼斯指出,雖然統計學的命名最早是由國勢學派提出的,但國勢學派沒有統計學之實,它僅僅是關于用文字記述國家事項的“國家記述學”,并且其所使用的研究方法和目的與歷史學相一致,所以應該把它被歸為歷史學,而政治算術學派屬于以新任務、新方法的方式提出的新的觀點,因而政治算術學派才是真正的統計學。克尼斯的論證宣告了政治算術學派在此次思想交鋒中取得勝利,結束了國勢學派和政治算術學派長期以來的爭論,同時也為統計學界指出了未來統計學的發展方向。
二、近代統計學時期
到了近代統計學時期,比利時統計學家凱特勒同時融合了國勢學派和政治算術學派的思想,并在計量思想的基礎上引進概率論的方法,將統計學的發展推向了一個新的高度,形成了近代統計學發展的起源思想,開辟了統計學的新時代。
十八世紀中后期,起源于英國的政治算術學派將其研究中心轉移到了歐洲,政治算術學派在保留自身研究方法和內容的同時,吸收了國勢學派的研究目的形成新的統計學派――社會統計學派。社會統計學派的開創之作就是克尼斯在在解決政治算術學派和國勢學派爭端時發表的《作為獨立科學的統計學》,在這篇著作中克尼斯確立了統計學作為獨立社會科學的地位,隨后恩格爾支持并發展了他的統計理論。恩格爾認為統計學是根據合理的觀察,從而描述一定時期人類社會的組織和狀態以及這些組織、狀態的變化的一門科學。在克尼斯和恩格爾的統計思想基礎之上,德國統計學家梅爾總結了當時統計學界在各個方面取得的學術成果,建立和完善了社會統計學派的理論體系,由此社會統計學派又被人們稱為梅爾學派,該學派認為統計學是在大量事實的基礎上對社會現象進行研究,在研究中揭示社會現象發生變動的原因和規律,基于此,該學派將統計學定義為研究規律性的獨立實質性社會科學。并且他們提出將統計學的研究內容分為自然和社會,將其從存在形式分為總體與個體。
在社會統計學派發展的同時,留在英國本土的政治算術學派開始朝著數學方面發展,形成了舊數理統計學派。作為舊數理統計學派代表性人物的高爾頓比較擅長用統計方法研究生物進化(這主要受其熱衷于科學研究和統計調查的父親以及研究生物的表哥達爾文的影響),他在其創辦的雜志中首次提出生物研究中所使用的統計方法論為生物統計學,并在生物實驗中建立了若干新的數理統計概念和方法,諸如“相關”“回歸”“中位數”等。舊數理統計學派在方法上主要使用數學、概率論的方法,在搜集樣本資料時,更傾向于使用大樣本觀察,這與他們的生物統計研究思想是密不可分的。該學派的出現實現了統計學從實質性到方法性的轉變。
三、現代統計思想
到了現代,戈塞的出現為舊數理統計學派走向新數理統計學派提供了基礎,其實相比于他的原名,他的筆名“student”更為人所熟知。在戈塞之前,人們一直認為統計認識思想的核心是大量觀察法,依靠大樣本統計來研究問題,然而他提出大樣本統計方法并不是適合于所有的情況,有時候受客觀原因的限制,有的實驗很難進行多次,所以人們只能從少量的觀察得出結論,這一思想構成了后來形成的小樣本理論的基礎。該統計思想的出現也拉開了新數理統計時代的大幕,實現了數理統計學從描述性統計學向推斷性統計學的劃時代的轉變。
貝葉斯學派的思想源于1764年貝葉斯發表在倫敦皇家學會的遺作《An Essay Solving a Problem in the Doctrine of Chance》,在這篇著作中,貝葉斯提出了貝葉斯假設、貝葉斯公式以及參數的后驗分布密度等,從思想的呈現到貝葉斯得到廣泛的認可,期間經歷了近200年的歷史,原因就在于貝葉斯統計思想與經典統計思想之間存在很多分歧。他們之間的分歧基礎就在于統計學中對“概率”的理解,即“概率”的定義是客觀意義下還是主觀意義下。概率的存在有兩種解釋,第一是某系統的內在特性,該特性不依賴于人們對系統的認識,即屬于客觀意義下;第二是對某一說法的相信程度的度量,這是在主觀意義下的解釋。經典統計學堅持認為概率是客觀意義下的,而貝葉斯統計在經典統計中概率意義基礎上,擴展了意義的外延,即在包括第一種意義的同時加入了第二種意義。基于統計學中“概率”定義的不同理解,引發了這兩大學派在統計推斷以及推斷邏輯方面的更大分歧。
貝葉斯統計在發展的過程中,由于自身“主觀”的導向問題,受到了經典統計的批判,但實踐領域的成功應用證明了貝葉斯統計對統計思想的發展做出了很大的貢獻。貝葉斯統計的發展擴寬了統計學所研究問題的客體,使得統計學的應用范圍擴大到很多不能大量重復實驗的領域。同時貝葉斯統計不僅開創了新的統計推斷形式,而且解決了經典統計中的“兩難推斷問題”。
四、小結
在21世紀的今天,統計專家有各個方面的問題亟待解決,面對這些復雜的問題,哪一種統計思想在解決問題中占有支配地位,我們無從得知,但我們知道,統計學一定會在解決問題中更加趨于完善,在解決問題中留下更適合的。(作者單位:天津財經大學統計系)
參考文獻:
[1]竇雪霞.統計思想演化的哲學思考[J].商業經濟與管理,2011(1)
[2]郭海明.淺談幾種常見的統計思想[J].中國統計,2015(6)
[3]姚波,張凌翔.數學給了統計學什么[J].中國統計,2005(1)
[4]竇雪霞.歷史視野下的統計學內涵思想分歧探討[J].重慶科技學院學報,2010(5)
【提 要】 目的 探討經典統計學派與貝葉斯學派假設檢驗思想的異同。方法 總結和概括兩種思想,并結合一個實例對兩種思想進行比較。結果 兩種思想統一于貝葉斯定理,并在特定場合下相互等價;貝葉斯方法在先驗信息的利用、風險的回答、損失的考慮以及多重假設問題的處理等方面較經典方法具有明顯的優勢。結論 貝葉斯學派的理論應用受到重視。
【Abstract】 Objective To discuss differences between classical and Bayesian testing thoughts.Methods First these two thoughts are summarized’and then they are compared through an example.Results It is pointed out that these two thoughts are united on Bayes’s Theorem’that they are equal on given occasions’and that Bayesian testing approaches have more advantages than classical approaches in using prior information’indicating the hazard of testing’considering the loss’and dealing with the problem of multi-hypotheses.Conclusion Great attention should be paid to Bayesian theory.
【Key words】 hypothesis test Classical school Bayesian school
假設檢驗問題是統計學的傳統問題,對于該問題,經典統計學派與貝葉斯學派有不同的處理思想。目前,經典統計方法占據著統計學的主導地位,但是,貝葉斯方法正在國外迅速發展并得到日益廣泛的應用,我們有必要給以足夠的重視。本文結合一個例子,對兩大學派的假設檢驗思想進行初步比較,以揭示兩種思想的區別與聯系,并著重探討貝葉斯方法的優勢。
兩種假設檢驗思想
一、經典統計學派的假設檢驗思想
經典統計學派運用反證的思想進行推斷,即:在認定一次實驗中小概率事件不會出現的前提下,若觀察到的事件是H0為真時不合理的小概率事件,則拒絕H0。
上述思想可以用如下決策函數表示:
其中x代表樣本信息。Φ(x)取值為0時即為通常的“拒絕H0”。
二、貝葉斯學派的假設檢驗思想
貝葉斯學派直接討論H0和H1的后驗概率,依據后驗概率的大小進行推斷。
其基本的解決方案是:在先驗分布π下,有決策函數
Φ(x)取值為0時即“拒絕H0”。很明顯,它選擇了后驗概率較大的假設。
三、兩種思想的聯系與分歧
在經典統計學中,參數被看作未知常數,不存在參數空間,因而不存在H0和H1的概率,給出的是P(x|H0真),其中x代表樣本信息。在貝葉斯方法中,參數被看成隨機變量,在參數空間內直接討論樣本x下H0和H1的后驗概率,給出的是P(H0真|x)和P(H0不真|x)。
事實上,兩個學派的方法在一定程度上統一于貝葉斯公式。
由貝葉斯公式容易得到:
因此,當P(H0)=P(H1),即H0與H1居于平等地位時,經典學派與貝葉斯學派的結果是一致的。
然而,H0與H1地位往往不一致,H0常居于將被否定的位置,因而上述一致性并不總能成立。貝葉斯學派對此進行了深入的探討,他們的結果很有意義。
對于正態分布前提下的單側檢驗:X~N(θ,1),H0:θ≤0 H1:θ>0,經典方法得到的P值與貝葉斯方法在無信息先驗分布下的后驗概率相等,此結論可以推廣到正態分布前提下其他類似的單側檢驗。
對于形如H0:θ=0,H1:θ>0,(或H1:θ<0)的單側檢驗,情況則不同,與下述的雙側檢驗有類似結果。
對于形如H0∶θ=0, H1:θ≠0的雙側檢驗,經典方法得到的P值與貝葉斯方法的后驗概率大不相同。在Berger和Sellke 1987年對正態分布前提下二者的比較研究中,當經典方法得到的P在0.01~0.1之間時,貝葉斯方法得到H0為真的后驗概率大于P,因而此時拒絕H0所承擔的實際風險大于P,而這個區間對于經典方法下結論是非常重要的。Hwang和Pematle 1994年提出,對這類雙側檢驗,類似結果始終存在,因而P值應該由其他判斷標準來替代。但他們還沒有找到這種標準。
兩種思想的應用
下面我們通過一個例子對兩種假設檢驗思想進行一些比較。
例:以隨機變量θ代表某人群中個體的智商真值,θi為第i個個體的智商真值,隨機變量Xi代表第i個個體的智商測驗得分,若該人群的期望智商為μ,則第i個個體在一次智商測驗中的得分可以表示為:xij=θi+eij=μ+ei+eij,其中ei為第i個個體的自然變異,eij為第i個個體第j次測量的測量誤差。根據以往積累的資料,已知在某年齡兒童的智商真值θ~N(μ’τ2),其中μ=100’τ=15,個體智商測驗得分Xi~N(θi’σ2),其中σ=10。現在一名該年齡兒童智商測驗得分為115,問:(1)該兒童智商真值是否高于同齡兒童的平均水平(即θi>100)?(2)若取θi在(a’b)為正常,問該兒童智商是否屬于正常? 轉貼于
一、用經典統計方法解答
對第一問,設H0:θi≤100 H1:θi>100,按照經典統計學方法,若H0成立,則有:
因此,α水平下的拒絕域為{x:x>100+σ?u1-α}
已知σi=10,若取α=0.05,有u0.95=1.645,100+10×1.645=116.45。
現有x=115,因此,在0.05水平尚不能認為該兒童智商高于平均水平。
對第二問,經典方法需要進行兩次分別針對a、b的單側檢驗。過程與第一問相似,這里不再敘述。
二、用貝葉斯方法解答
在貝葉斯學派中,當θi未知時,將其看作隨機變量,與θ具有相同的分布,這是貝葉斯學派與經典學派的一個重大區別。
根據貝葉斯理論,若X~N(θ,σ2),其中σ2已知,θ未知,但已知θ的先驗分布是N(μ,τ2),其中μ和τ2均已知,則給定x后θ的后驗分布為N(μ(x)’ρ-1,)其中(證明參見文獻[1])。
由此得到,本例中該兒童智商θi的后驗分布為N(110.38,69.23)。
對第一問,同樣設H0:θi≤100 H1:θi>100,查正態分布表可以得到:
P(H0:θi≤100|x=115)=0.106,
P(H1:θi>100|x=115)=0.894
根據風險最小原則拒絕H0,接受H1。
對第二問,設H0:a<θi<b H1:θi<a或θi>b,查正態分布表可以分別得到P{H0:a<θi<b|x=115}和P{H1:θi<a或θi>b|x=115},類似第一問,依據風險最小原則作出推斷。
討 論
由上述分析和例子,我們可以看出,用貝葉斯方法處理假設檢驗問題至少在下述幾方面具有明顯優勢。
一、先驗信息利用的充分性和風險的直觀性
從前述問題的處理,我們清楚地看到,經典方法只使用了Xi的已有信息(貝葉斯學派稱之為先驗信息),而貝葉斯方法則同時利用了Xi和θ的先驗信息。因而在第二問的解決上,貝葉斯方法較經典方法少進行一次假設檢驗。
在貝葉斯方法中,由于導出了樣本x下的后驗分布,可以對風險給出正面的回答,因而較經典方法下的間接判斷更直觀。
二、可以將后續問題納入考慮范圍
如果推斷錯誤在后續問題的解決過程中會造成一定損失,貝葉斯方法在進行推斷時可將這一損失考慮在內。如:
在假設H0∶θ∈Θ0,H1∶θ∈Θ1(Θ0、Θ1是參數空間內兩個互補子集)下,有:
Φ等于0,1分別代表拒絕、接受H0,a0、a1分別代表了第一、第二類錯誤造成的損失,這時,貝葉斯方法給出如下決策函數:
由于可以將假設檢驗結果帶來的損失納入檢驗考慮的范疇之內,因而對問題的回答更接近實用。
三、多重假設的處理不存在困難
對多重假設,如將前例第二問改為:若θi∈(a’b)為智力正常,θi<a為智力低下,θi≥b為智力超常,問該兒童智力屬何種類型?
在現有條件下,經典方法很難處理這一問題。而貝葉斯方法對這一問題的解答并不存在特殊的困難,只需將假設設為:H0∶a≤θi<b H1∶θi<a H2∶θi≥b,多計算一個后驗概率便可。
關鍵詞:統計學習 試驗 方法
中圖分類號:C812文獻標識碼:A文章編號:1006-5954(2009)07-058-03
一、引言
統計的發展可以通過其所解決的問題展現:解決的問題不斷從簡單到復雜,從具體到抽象,這就要求其具有更強的計算能力,不斷的從狹義到廣義演變。傳統統計主要來源于具體的實驗,依賴于經典的參數估計方法,而現代統計學習理論是研究利用經驗數據進行機器學習的一種一般理論,屬于計算機科學、模式識別和應用統計學相交叉與結合的范疇。由于較系統地考慮了有限樣本的情況,統計學習理論與傳統統計學理論相比有更好的實用性。統計學習(Statistics learning)的起源是一系列著名的實驗(如Turing Test等),隨著信息技術的不斷發展與信息量不斷增大的進程,統計學習(Statistical Learning)理論也在逐步完善以適應新的需求。
現今的統計學習雖然已經有了重大的發展,但是若想把事情完全交給機器完成卻不能得到理想結果,仍需要加入大量的人類智慧,例如:尋找事物特征、參數選取等等。不過類神經網絡、SVM等技術的革新幫助解決了很多現實中復雜的問題,可以應用在諸多模式識別和回歸估計問題中,并已經在很多實際問題中取得了很好的應用成果。隨著統計學習發展,我們對統計有越來越高的期望,期望其可以發揮人類智慧的作用,計算能力再進一步提高,解決更加復雜的現實問題。
二、統計學習的過去和現在
Alan Turing于1950年提出了一個著名的實驗――圖靈測試(“Turing Test”):將一個具有智慧的機器和一個人類,放在一個布幕里面。人分別與機器和人類交談,如果分不出哪一個是機器,哪一個是人類的話,那么機器就具有了人工智能。由此揭開了人工智能(Artificial Intellegence)研究的序幕。在研究中,AI被劃分成Weak AI和Strong AI。Weak AI并不是功能較弱,而是指某個系統只要能表現出人類的智力就好,不管底層系統是否真的有人類的智力。Strong AI則是希望建構出來的系統即使不是用細胞做的,他的架構也卻是和人類相當,真的具有人類智慧。Weak AI可以由機器學習(Machine Learning)來代表。只要給定問題的范圍,訓練的資料(training data),就可以由數據中選擇特征(Feature selection),然后建構數據的模型(Model selection),最后把這個模型當成學習的成果,拿來做預測(Prediction)。
迄今為止,關于機器學習還沒有一種被共同接受的理論框架,其實現方法大致可以分為三種 :第一種是經典的(參數)統計估計方法。包括模式識別、神經網絡等在內;第二種方法是經驗非線性方法,如人工神經網絡(Artificial Neural Networks,ANN);第三種方法是統計學習理論( Statistical Learning Theory或 SLT)。
(一)經典的(參數)統計估計方法
經典的(參數)統計估計方法包括模式識別、神經網絡等在內,現有機器學習方法共同的重要理論基礎之一是統計學。參數方法正是基于傳統統計學,在這種方法中,參數的相關形式是已知的,訓練樣本用來估計參數的值。
但是隨著電腦解決問題的廣泛應用,研究人員試圖研究復雜問題時,發現了參數體系的缺點。
(1)大規模多變量問題導致了“維數災難”現象的發生。研究人員觀察到,增大可考慮因子的數量就需要成指數的增加計算量。因此,在含有幾十個甚至是幾百個變量的實際多維問題中定義一個相當小的函數集,也是一種不切實際的想法。
(2)透過實際數據分析,實際問題的統計成分并不能僅用經典的統計分布函數來描述。實際分布經常是有差別的,為了建構有效的算法,我們必須考慮這種差別。
(3)即使是最簡單的密度估計問題,最大似然方法也不見得是最好的。
總之,這種方法有很大的局限性。首先,它需要已知樣本分布形式,這需要花費很大代價,還有,傳統統計學研究的是樣本數目趨于無窮大時的漸近理論,現有學習方法也多是基于此假設。但在實際問題中,樣本數往往是有限的,因此一些理論上很優秀的學習方法實際中表現卻可能不盡如人意。
(二)經驗非線性方法
經驗非線性方法,如人工神經網絡(ANN)。這種方法利用已知樣本建立非線性模型,克服了傳統參數估計方法的困難。但是,這種方法缺乏一種統一的數學理論。
以人工神經網絡為例進行簡單的介紹。人工神經網絡(ANN),一種模仿動物神經網絡行為特征,進行分布式并行信息處理的算法數學模型。這種網絡依靠系統的復雜程度,通過調整內部大量節點之間相互連接的關系,從而達到處理信息的目的。人工神經網絡具有自學習和自適應的能力,可以通過預先提供的一批相互對應的輸入――輸出數據,分析掌握兩者之間潛在的規律,最終根據這些規律,用新的輸入數據來推算輸出結果,這種學習分析的過程被稱為“訓練”。人工神經網絡具有非線性、非局限性、非常定性和非凸性的特點,它是并行分布式系統,采用了與傳統人工智能和信息處理技術完全不同的機理,克服了傳統的基于邏輯符號的人工智能在處理直覺、非結構化信息方面的缺陷,具有自適應、自組織和實時學習的特點。但是,由于在長期發展過程中,由于人工神經網絡在理論上缺乏實質性進展,所以新的方法,統計學習理論開始受到越來越廣泛的重視。
(三)統計學習理論
統計學習理論( Statistical Learning Theory或 SLT)是一種專門研究小樣本情況下機器學習規律的理論,是傳統統計學的重要發展和補充,為研究有限樣本情況下機器學習的理論和方法提供了理論框架,其核心思想是通過控制學習機器的容量實現對推廣能力的控制。該理論針對小樣本統計問題建立了一套新的理論體系,在這種體系下的統計推理規則不僅考慮了對漸近性能的要求,而且追求在現有有限信息的條件下得到最優結果。V.Vapnik等人從六、七十年代開始致力于統計學習理論方面的研究,到九十年代中期,隨著其理論的不斷發展和成熟,其受到了越來越廣泛的重視。
在提到統計學習理論時不得不說的一個核心概念是VC維。它是描述函數集或學習機器的復雜性或者說是學習能力(Capacity of the machine)的一個重要指標,在此概念基礎上發展出了一系列關于統計學習的一致性(Consistency)、收斂速度、推廣性能(Generalization Performance)等的重要結論。
在統計學習理論基礎上,一種新的通用學習方法應運而生,支持向量機(Support Vector Machine 或SVM)。支持向量機方法是建立在統計學習理論的VC維理論和結構風險最小原理基礎上的,根據有限的樣本信息在模型的復雜性(即對特定訓練樣本的學習精度,Accuracy)和學習能力(即無錯誤地識別任意樣本的能力)之間尋求最佳折衷,以期獲得最好的推廣能力(Generalization Ability)。支持向量機方法有以下的幾個主要優點有:
(1)它是專門針對有限樣本情況的,其目標是得到現有信息下的最優解而不僅僅是樣本數趨于無窮大時的最優值。
(2)算法最終將轉化成為一個二次型尋優問題,從理論上說,得到的將是全局最優點,解決了在神經網絡方法中無法避免的局部極值問題。
(3)算法將實際問題通過非線性變換轉換到高維的特征空間(Feature Space),在高維空間中構造線性判別函數來實現原空間中的非線性判別函數,特殊性質能保證機器有較好的推廣能力,同時它巧妙地解決了維數問題,其算法復雜度與樣本維數無關。
在SVM 方法中,只要定義不同的內積函數,就可以實現多項式逼近、貝葉斯分類器、徑向基函數(Radial Basic Function 或RBF)方法、多層感知器網絡等許多現有學習算法。目前,SVM算法在模式識別、回歸估計、概率密度函數估計等方面都有應用。例如,在模式識別方面,對于手寫數字識別、語音識別、人臉圖像識別、文章分類等問題,SVM 算法在精度上已經超過傳統的學習算法或與之不相上下。
由于 SVM方法較好的理論基礎和它在一些領域的應用中表現出來的優秀的推廣性能,近年來許多關于 SVM方法的研究,包括算法本身的改進和算法的實際應用,都陸續提出。盡管SVM算法的性能在許多實際問題的應用中得到了驗證,但是該算法在計算上存在著一些問題,包括訓練算法速度慢、算法復雜而難以實現以及檢測階段運算量大等等。
傳統的利用標準二次型優化技術解決對偶問題的方法可能是訓練算法慢的主要原因。首先,SVM方法需要計算和存儲核函數矩陣,當樣本點數目較大時,需要很大的內存,例如,當樣本點數目超過 4000時,存儲核函數矩陣需要多達128兆內存;其次,SVM在二次型尋優過程中要進行大量的矩陣運算,多數情況下,尋優算法是占用算法時間的主要部分。
SVM方法的訓練運算速度是限制它的應用的主要方面,近年來人們針對方法本身的特點提出了許多算法來解決對偶尋優問題。大多數算法的一個共同的思想就是循環反復運算:將原問題分解成為若干子問題,按照某種反復運算策略,通過反復求解子問題,最終使結果收斂到原問題的最優解。根據子問題的劃分和反復運算策略的不同,又可以大致分為兩類。
第一類是所謂的“塊算法”(Chunking algorithm)。“塊算法”基于這樣一個事實,即去掉 Lagrange乘子等于零的訓練樣本不會影響原問題的解。對于給定的訓練樣本集,如果其中的支持向量是已知的,尋優算法就可以排除非支持向量,只需對支持向量計算權值(即 Lagrange乘子)即可。
當支持向量的數目遠遠小于訓練樣本數目時,“塊算法”顯然能夠大大提高運算速度。然而,如果支持向量的數目本身就比較多,隨著算法反復運算次數的增多,工作樣本集也會越來越大,算法依舊會變得十分復雜。因此第二類方法把問題分解成為固定樣本數的子問題:工作樣本集的大小固定在算法速度可以容忍的限度內,反復運算過程中只是將剩余樣本中部分“情況最糟的樣本”與工作樣本集中的樣本進行等量交換,即使支持向量的個數超過工作樣本集的大小,也不改變工作樣本集的規模,而只對支持向量中的一部分進行優化。
毫無疑問,固定工作樣本集的算法解決了占用內存的問題,而且限制了子問題規模的無限增大;但是,從這個意義上來說,固定工作樣本集的算法把解標準二次型的尋優問題的時間轉嫁到循環反復運算上了,它的反復運算次數一般會比“塊算法”多。尤其是 SMO,如果沒有一個好的啟發式反復運算策略,該算法就是一種盲目爬山法。
基于此,我們提出一種算法思想,希望能夠綜合兩類算法的特點。我們仍舊從最終目標中抽取子問題,借用某種反復運算策略使算法收斂。關鍵的,我們希望一方面子問題規模不會太小,以免反復運算次數太多,另一方面能借鑒 SMO的思想,利用二次問題的特點,找到子問題的解析解法,或者是近似解,從而不必對每一個子問題都調用尋優算法。
此外,由于 SVM方法的性能與實現的上的巨大差異,我們在求解子問題時不一定要得到精確解(解的精確度可以由反復運算來保證),甚至還可以考慮對最終目標求取近似解。這樣,盡管結果的性能會受到影響,但是如果能夠大幅度提高運算速度,它仍不失為一種好方法。
三、統計學習的將來
統計學習在現當代社會已經有了飛速發展,但其還不能完全滿足人類的需求。在其進一步的發展過程中,仍需要在機器學習問題、語言意識的學習、人機界面等方面進行改進。在完成一項任務時,人類總是希望機器能夠自主獨立的完成,自己介入的越少越好。這就需要加強機器的文字意識,而不是將所有的信息轉化成數字之后機器才能識別。如果人類比較高層次的認知活動,如語言產生意義、尋找類似物品和抽象化的能力,其背后的神經機制若能夠被發現,那么我們也可以了解大腦思想的表達方式,人腦和計算機之間可以互相轉換數據,這時候人腦的能力和計算機的計算能力,就可以互補,讓我們計算帕斯卡爾三角形速度更快而沒有負擔。計算機也可以運用人類抽象化的能力,更正確地尋找“類似”的東西,并且是以更快的速度達成抽象化才能解決的問題。
四、結語
傳統的統計學習為統計學習的發展提供了堅實的理論基礎,現代統計理論無論是在假設還是方法上都有了很大的突破和進展。在科學技術飛速發展的今天,統計學習理論廣泛吸收和融合相關學科的新理論,不斷開發應用新技術和新方法,深化和豐富了統計學傳統領域的理論與方法,并拓展了新的領域。相信,統計學習必將會應用于越來越廣泛的領域,解決迫在眉睫的問題,提供更大的便利。
■ 名詞解釋
[1] 人工神經網絡
人工神經網絡是一種應用類似于大腦神經突觸聯接的結構進行信息處理的數學模型,主要依靠系統的復雜程度,通過調整內部大量節點之間相互連接的關系,從而達到處理信息的目的。
[2] 支持向量機
支持向量機是數據挖掘中的一個新方法,能非常成功地處理回歸問題(時間序列分析)和模式識別(分類問題、判別分析)等諸多問題,并可推廣于預測和綜合評價等領域。
[3] 特征空間
特征空間是相同特征值的特征向量的集合。
[4] 徑向基函數網絡
徑向基函數網絡是一種向前反饋網絡,可以處理不規則分布的高維數據。
[5]多層感知器網絡
多層感知器網絡是具有多個中間層的網絡系統。
■ 參考文獻
[1] Berry Michael J. A., Linoff Gordon S. “Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management” John Wiley & Sons, Inc., 1997
[2] Guape, F.H.; Owrang, M.M. “Database Mining Discovering New Knowledge and Cooperative Advantage” Information Systems Management, 1995,12, pp.26-31
[3] Usama Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth, “The KDD Process for Extracting Useful Knowledge from Volumes of Data” Communications of the ACM, 1996, Vol 39., No.11, pp.27-34
【關鍵詞】雙語教學;統計學專業;專業英語
隨著社會、經濟和科學技術的發展,統計的范疇已覆蓋了社會生活的一切領域,是眾多學科不可缺少的實用型課程。而處在社會大環境中的統計專業學生要想獲取最新的專業技術信息,必須對專業英語有一定的了解,從而在軟件涉及專業知識時能夠運用自如,進而成長為學有所長,符合社會需求的高層次復合型、實用型人才。
一、我校統計學專業英語教學面臨的問題
為了能夠掌握世界先進技術和國外專業發展動向,本科生應該能夠熟練閱讀專業文獻,并在專業領域具有初步的語言交流能力。新形勢對統計學專業大學生的要求不僅是能夠閱讀,也應該能寫,能夠進行語言交流。但是,通過近幾年的專業英語教學實踐、教學效果及學生反映等方面收集的信息表明,目前本專業學生的專業英語實際能力與基本教學目標及實際應用仍有一定的差距。問題主要集中在以下幾個方面。
1.課程設置的局限性
隨著全球經濟一體化的日益發展,中國與世界的日益融合,培養視野開闊、專業突出、外語過關的統計學專業人才成為高校教書育人的重要任務,而我校統計學專業只在大三大四本科生中開設四十幾個學時的專業英語課程,遠遠達不到專業培養的目標,為此,應拓寬這種受時間限制的課程設置模式,逐步推廣雙語教學的專業英語教學模式,將專業英語貫穿于各門專業課程的學習過程中,這樣才能讓學生時時接受語言的影響,把漢語與英語,把英語與專業知識融為一體。
如果漢語的專業課先行,后學相應的專業英語,學生感覺學之無味。但如果專業英語安排在專業課之前,學生又如聽天書,或感覺深度不夠。因此,有必要由傳統的專業英語課程單獨開課改為某些專業課程的雙語教學。
2.教材局限性
我校統計學專業是由應用數學學科發展起來的,學生系統學習的專業知識涉及基礎數學、經濟學以及概率論等多學科,知識覆蓋面廣,內容非常豐富,因此專業英語課程的教學內容以概率統計為側重,同時也需要涵蓋高等數學、經濟學以及社會學等多領域。各個學校專業培養的方向不同,所用教材也有相當的差異。這就需要任課教師自己準備教材。但如果我們采取某些專業基礎課程實施雙語教學就比這要容易得多。國外許多統計學方面的專家學者原版的英文專業書籍,既有嚴謹的理論,又有富有時代氣息的例子,這些對增加學生學習的趣味性都特別有幫助。
3.師資匱乏
統計學專業課程涉及基礎數學、概率論、經濟學、金融學、社會學和醫學等諸多領域。因此教師如要能勝任專業英語的教學,不僅要求傳統意義上的英語好,還要求有開闊的視野,寬廣的知識面,這樣才能夠較好地引領學生順利地進行專業英語的學習。這就增加了專業英語教學的難度。但是對于一些學校剛剛引進的年輕博士們來說,對于自己專業方向上的英語是非常熟悉的。讓他們從事雙語教學也不是難事,但如果讓他們上好大一統的統計學專業英語課卻有相當的難度。
4.學生學習缺乏積極性
學生對專業英語的認識不足,認為是無足輕重并且可以輕松過關的一門課程。學生對于專業英語缺乏了解,認為是英語的后續。而如果把專業英語的教學融入到專業課的雙語教學中去,利于轉變學生對于這門課程的認識,進而調動大家的學習積極性,從而為更好地學習專業課服務。由于我國傳統外語教學中“費時較多,成效較低”等問題始終沒有得到很好的解決,進而反映在學生上就是學習效率低、英語應用能力差,這是雙語教學中的最大困難。
我校統計學專業英語的教學現狀迫切要求我們改革教育模式,提高教學質量,為培養21世紀高素質復合型人才服務。在教學實踐過程中,我們從建設師資隊伍、調整教學內容、改變教學方式、改善考核方式幾方面著手,對統計學雙語教學進行初步嘗試。
二、統計學專業雙語教學的建設
國家教育部已提出加強大學本科教學的12項措施,其中要求各高校在三年內開設5%~10%的雙語課程,并引進原版教材和提高師資水平。雙語教學是一個需要教師、學生和教學內容(教材)以及教學方法互相配合的復雜過程。想要建設好雙語教學,也要從這幾個方面入手。
1.內容設計
根據本專業的特點,我們將教學內容劃分為基礎知識和應用知識兩個模塊。在基礎知識模塊中,劃分為數學基礎知識、經濟學基礎知識和概率統計基礎知識三大板塊,在應用知識模塊,向學生介紹科技文獻的寫作規范、英語單詞的構詞方式以及國際交流的常見用語等,從而培養學生對專業語言的理解能力和實際運用能力。
2.教材的選擇
國內編寫的統計學專業方面教材系統性強、敘述嚴謹、知識體系清晰、重視基本概念的介紹和理論知識的推導;而國外的優秀教材則具有許多與時代緊密結合的實例,另外注重最新的科研成果。許多經典的專業課程在國外一些著名教授的主頁上都有相關課程的案例分析資料、授課PPT、相關的多媒體資源,鏈接豐富而且更新速度快。因此,教材以國外專業英文經典論著為基礎,結合國內的優秀教材,同時運用查閱網絡、資源共享、集中交流等手段選取一些介紹專業前沿領域及發展動態的相關文獻,這樣使學生在學習基礎專業知識的同時又接觸到學科前沿。英文經典讓學生體會原版的表達方式及相應的語言氛圍,相關文獻讓學生體會到科技文獻嚴謹的寫作規范和態度,學生在學習英語的同時,也能逐漸培養起一定的專業素養。貼近實際的案例分析,讓學生了解到專業課的實際用途,而不是只感覺到空洞的理論。
關鍵詞:統計學;教育改革;大數據
一、引言
最早提出大數據時代到來的機構是全球知名的麥肯錫咨詢公司,該公司在一份研究報告中指出:“數據已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素,人們對于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來”。
大數據是隨著互聯網技術的廣泛應用帶來的數據量和數據類型激增而衍生出來的一種現象,但大數據一詞不僅指規模大、種類多的數據集,還包括對這種數據集進行采集、處理與分析以提取有價值信息和直接創造價值的技術構架和技術過程。大數據的第一個特征是數據量巨大。截止到2012年,數據量已經從TB(1024GB=1TB)級別躍升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)級別。第二個特征是數據類型繁多、異構性突出,包括網絡日志、音頻、視頻、圖片、地理位置信息等等。第三個特征是數據價值密度較低,數據中存在大量重復性和無價值性信息或噪聲。如何通過強大的計算技術和統計分析等方法迅速完成數據的價值提純,是大數據時代亟待解決的難題。第四個特征是處理速度快、時效性要求高。這是大數據區分于傳統數據挖掘最顯著的特征。
目前,不同的學科領域對大數據概念有著不盡相同的解釋,但各種解釋中大致可以從兩個方面去理解。首先,大數據概念體現在數據量的巨大、種類的眾多及產生速度的飛快,同時產生的數據集極有可能包含著各種半結構化和非結構化數據;其次,大數據概念還體現在對數據進行處理的手段和流程方面,由于數據量的龐大和類型復雜,利用常規的統計軟件已經無法對當今的數據進行及時有效的存儲、分析及處理。因此,所謂的大數據并不是單純指數據流量的巨大,還指其結構的復雜和種類的多樣,在數據處理和分析上需要采用高端計算平臺或高級統計軟件,以及海量數據中存在著可挖掘的潛在的大量價值信息與知識。
近年來,隨著高速計算機的應用、信息技術的快速發展,特別是云計算技術的發展,使大數據的存儲和分析技術得到迅速發展,目前的核心技術有MapReduce、GFS、BigTable、Hadoop,以及數據可視化等。在數據搜集上,可方便地通過在線互聯網數據庫獲取二手數據或一手實時數據。在數據分析上,傳統統計學方法采取的是基于統計模型的樣本數據分析,而大數據分析技術則是通過高端計算平臺,對大數據中的信息進行挖掘。
統計學作為對數據進行處理和分析的科學,必然受到大數據的影響。在大數據時代,統計學教育必須與時俱進,跟上時展步伐。近年來,有不少文獻討論了大數據環境下我國統計學教育的改革問題(例如[1]-[5]),本文在分析大數據時代特征的前提下,進一步討論我國統計學教育的現狀與挑戰、統計學教育改革的內容、方法、借鑒和適應時代要求的變革問題。
二、統計學教育的現狀與挑戰
2013年,教育部對我國統計學專業設置進行一次新的調整,將原來的既可授予理學學位,也可授予經濟學學位的統計學專業劃分為統計學、應用統計學和經濟統計學三個本科專業[6]。根據教育部高等學校統計類專業教學指導委員會2013年11月公布的數據,當時全國有194所高校開設了統計學專業,156所高校開設了應用統計學專業,164所高校開設了經濟統計學專業[6]。目前,全國開設這三個統計學專業的高校個數和在校學生人數與2013年相比都有不少的增加。
面對大數據時代,我們目前的統計學教育無論在培養目標和教學內容上,還是在教育方式和人才培養模式上,都存在著亟待解決的挑戰性問題。例如,在專業培養目標和人才培養過程中,我們比較重視課程層面上的評價,比較輕視專業層面上的整體評價,缺乏對學生綜合能力的反饋機制。
關于教學內容,目前三個統計學專業在統計理論和應用統計兩個方面有不同的側重。統計理論主要包括:抽樣理論、實驗設計、估汁理論、假設險驗、決策理論、貝葉斯統計、半參數和非參數統計、序貫分析、多元統計分析、時間序列分析、小樣本理論和大樣本理論等。在數據分析中,現今的統計方法基本以結構化數據為主要處理對象,而對非結構化和半結構化數據的分析和工具涉及較少。因此,現今統計學課程及內容已不能滿足從事非結構型和半結構型的大數據研究和商業應用對人才培養的需要,必須進行必要的改革。
對于教育方式,鑒于大數據時代要求,統計分析人員需要具備較高的數學和現代統計學基礎,具有較高的軟件操作能力,掌握一定的大數據收集、整理、分析、處理和挖掘數據的技能。日本學者城田真琴認為:“數據科學家要有計算機科學專業背景,數學、統計方面的素養和使用數據挖掘軟件的技能,善于利用數據可視化的手法展現晦澀難懂的信息,而且具備相應的專業知識、眼界和視野,具有適應社會發展和創造價值的能力”。現今的統計學教育方式還不能很好適應大數據時代數據科學人才培養需要,必須進行必要及時的調整和變革。
對人才培養模式,大數據時代不僅要求培養具有數據處理和分析所需的基本素質與技能,更重視培養從海量數據中發現和挖掘價值信息、把握市場機遇、創造利潤的潛在能力。面對大數據時代的諸多挑戰,現代統計技術、數據挖掘方法、計算機信息技術、軟件工具和理念的日新月異,培養統計人才的教育模式也需要相應變化,統計學教育只有與時俱進,主動做出全面的調整和變革才能適應新時代知識進步和激烈人才市場競爭的需要,積極迎接大數據時代的挑戰。
大數據時代對統計學教師有更高的要求,統計學教師需要與時俱進,跟上時代步伐。隨著互聯網、物聯網、云計算等信息技術的發展,對數據的分析和處理的技術也隨之要求更高,統計學教師固有的知識體系已不能滿足培養現代統計人才的需要,必須進一步深化和更新原有的統計學理論知識,而且還需要學習掌握計算機技術、互聯網、數據庫和信息科學等有關知識和技術,同時還要熟悉處理非結構型和半結構型數據的知識和技能,以適應現代統計學教育對教師的知識結構和基本素質的要求。
大數據時代對統計專業的學生也提出了更高的要求,他們不僅需要掌握現代統計理論、統計方法和專業統計軟件,還要學會如何分析、處理來自互聯網或各種實際問題中的海量數據,如何利用統計軟件和互聯網技術進行數據操作,如何借助軟件技術和統計準則判斷數據質量,如何進行模型選擇和評價模型方法的有效性,如何準確清晰地呈現統計分析結果和結論,等等。
2014年11月,美國統計學會了統計學本科專業指導性教學綱要 [7],該教學綱要對統計學專業提出四個方面的要求:(1)具有扎實的數學和統計學基礎、強大的統計計算和編程能力,熟練使用統計軟件和數據庫;(2)分析來自現實問題的真實數據,真實數據是統計專業教育的重要組成部分;(3)掌握多樣化的統計模型方法;(4)具有通過語言、圖表和動畫等方式解釋數據分析結果的能力。美國是統計學教育和人才培養最先進的國家之一,該指導性教學綱要代表著美國統計學專業培養人才的基本要求和發展方向,對我國統計教育的改革具有重要的參考價值。以該指導性教學綱要為參考依據,對照我國目前的統計學本科專業教育,無論是在培養目標和課程設置方面,還是在教學內容和教學方法方面,都存在著亟待解決的挑戰性問題。
三、統計學教育的改革
大數據時代的統計學教育不僅是各種統計方法、數據挖掘方法和信息技術手段的延續或發展,更主要的是這些方法的集成應用和在實際數據分析中的真實體驗。過去,企業數據庫價格昂貴,在統計學教育的教學案例或實驗課教學中,很少采用真實和海量的數據庫資源,基本都是采用過時或虛擬的數據。今天,像百度大數據引擎這樣的數據庫的逐步對外開放,將有助于開展“線上大數據統計實驗”教學。為了適應大數據時代要求,有必要利用網絡資源以及各種數據處理軟件,搭建線上大數據分析實驗教學平臺,全面開展大數據統計實驗教學的改革。實際上,借助大數據分析平臺,本科階段的統計學教育就可以融人聯機分析和數據的可視化教學。其次,要時刻關注大數據分析理論的進展,及時將新理論新方法融入課堂教學內容。
需要指出的是,在大數據時代,經典統計理論和方法并沒有過時,但需要進行改進和進一步發展。這是因為,網上采集的巨型數據集往往存在大量的重復性和無價值數據信息,使得大數據價值密度降低。在對這些數據進行分析處理之前往往需要通過去噪、分層、截斷、聚類等方法的預處理,將其變成便于進行分析處理的小數據,繼而借助于經典統計方法進行分析和處理。因而在大數據時代仍然需要采用傳統統計學的小樣本理論和方法。所以,即便是在大數據時代,經典統計方法仍然是進行統計分析的基石,其核心地位不可動搖。所以,在大數據時代仍然要強化統計學的基本理論和方法,尤其是在長期發展和實踐應用中經過驗證的、成熟有效的經典和現代統計方法,在大數據時代仍然沒有過時,但需要結合大數據分析的需要對經典統計方法進行必要的發展和改進。
大數據科學需要統計學與數學、計算機等學科的結合。亞馬遜大數據科學家John Rauser 認為:“數據科學家是統計學家和計算機工程師的結合體”。為了滿足大數據時代的要求,統計學專業的課程設置需要進行必要的調整。應根據新時代人才培養的要求,增設與大數據前沿領域發展相關的課程,如計算機網絡和大數據相關的軟件應用,同時要加大實驗課和社會實踐課的比重,引導學生理解和掌握大數據概念、理論、技術和方法,培養其運用大數據的相關分析工具解決實際問題的能力。對于理論課程,除基本統計理論外,還應開設一些較為現代和深入的課程,如現代貝葉斯方法、神經網絡、數據挖掘、應用隨機過程論等。另外,還應開設與大數據分析相關的關聯規則、決策樹、機器學習、支持向量機等課程。
為了培養與時代適應的統計學人才,統計學專業教師應不斷更新自身的知識結構和價值觀念,改變認識數據、收集數據和分析數據的思維,主動學習和補充互聯網、現代數據分析技術、數據庫和數據挖掘技術,使自己的知識體系不斷更新和提升,跟上時展的步伐。
在大數據時代,要注意培養學生適應社會的能力。統計專業人才培養模式應以提高本專業學生數據分析方面的能力,開闊他們的視野,培養其適應社會的能力。應積極引導學生進入實訓場所動手操作和鍛煉,嘗試以企事業單位的財政、金融、保險、統計、咨詢和信息公司等部門為主構建專業性教育實踐基地。鼓勵學生到大數據相關的機構部門、產業園區和企業中去調查研究和實踐。此外,統計專業應積極同其他專業進行合作,聯合培養適應新時代要求的數據分析人才。鑒于大數據對數據分析人員在計算機技術、行業認知、業務知識、數據分析工具和方法的要求提高,統計學科應主動與計算機、經濟學、管理學等相關學科合作,培養學生的計算機能力、專業素質和業務修養。
“它山之石可以攻玉”,關于統計學專業的課程設置,可以參考和借鑒美國統計學會公布的統計學本科專業指導性教學綱要。根據該教學綱要,統計專業的課程設置應該涵蓋五個模塊[7]:(1)統計方法與統計理論。建立統計模型并對模型的輸出結果進行評價,熟悉統計推斷,能夠從數據分析中得出恰當的結論。(2)數據操作和統計計算。熟練使用一款專業統計軟件進行探索性數據分析,發現和清洗數據中的錯誤記錄,具有編程能力和算法思維,可以進行各種數據操作,還應掌握統計計算技術,能夠進行模擬研究。(3)數學基礎。熟練掌握微積分、線性代數、矩陣論、概率論和數理統計的基礎知識。(4)實踐訓練和表達能力。具有良好的表達和交流能力,善于通過圖示和動畫等聽眾易于理解的方式展示分析結論,并且具有團隊合作精神和項目領導能力。(5)特定領域的知識。掌握特定應用領域的知識,并用統計學特有的思維方法來分析和解決特定領域的實際問題。
大數據時代是以數據為中心的時代,統計學專業的教育改革必須適應這個時代的要求。統計數據分析中軟件應用能力至關重要。在眾多統計軟件中推薦使用R和SAS軟件,因為R是免費開源軟件,其統計建模、統計計算和可視化功能強大,更新迅速,是最新統計方法的主要平臺,非常有利于培養學生的編程能力和知識更新能力,而SAS軟件被很多公司用于數據管理和數據分析,在實際應用領域具有長期而深遠的影響,是數據分析不可或缺的專業統計軟件。當然,教學中也可以嘗試使用其他專業統計軟件,例如經濟統計專業學生也可使用SPSS軟件,但最好會使用SAS或R軟件。在加強軟件使用和編程能力的基礎上,應加強學生統計計算和統計模擬能力的培養。在大數據時代,強調統計計算的重要性是大勢所趨。統計模擬技術是伴隨著高速計算機和信息技術的快速發展而廣泛應用的現代技術,可用來解決傳統學科領域中無法解決的問題。例如,在計算技術飛速發展的今天,貝葉斯統計方法過去曾經面臨的計算瓶頸正在逐漸消失,基于馬爾科夫鏈蒙特卡洛(MCMC)技術的統計模擬方法在數據分析中的強大威力正在日益顯現[8]。
參考文獻:
[1] 劉春杰,大數據時代對當代統計學教育的挑戰,統計與決策,2015年,第8期。
[2] 孟生旺,袁衛,大數據時代的統計教育,統計研究,2015年,第32卷4期。
[3] 葛虹,韓偉,大數據時代統計教育變革的SWOT分析與發展策略,統計與決策,2015年,第4期。
[4] 張海波,黃世祥,統計學專業學生大數據分析能力的培養方式選擇,統計與決策,2014年,第24期。
[5] 李衛東,大數據對統計學科發展的影響,統計與決策,2014年,第13.期。
[6] 教育部高等學校統計類專業教學指導委員會.統計學專業教學單位.http:///category/信息公開/教學單位,2013-11-15.
(一)以統計分析軟件為分析工具
在構建案例庫過程中,會面對大量的現實數據,更離不開統計軟件的使用。經過長期的統計學教學實踐總結,Excel、SPSS、Eviews等統計計量軟件普及程度高,簡單易學。這些統計軟件能進行描述統計分析、方差分析、回歸分析、時間序列分析;統計軟件協助學生進行數據模擬,展示抽象統計公式。以統計軟件作為構建案例庫的輔助工具,不僅可以提高對案例數據進行處理和分析的需要,而且統計軟件基本具有強大的繪圖功能,能使后續案例授課直觀明了,從而加深學生對統計理論的運用和認知。
(二)以資源型城市采煤沉陷區為主要調研對象
應用性高等教育人才符合地方區域經濟發展要求,服務地方經濟。作為應用型本科院校的經管統計類課程更具較強的區域性和應用性,讓學生親身調研搜集數據,利用課堂所學的統計理論應用技巧能讓統計學系列課程教學達到最好的效果,也能分析解決區域經濟發展中的實際問題。我們基于資源型城市的本科院校,以資源型城市和采煤沉陷區以及中小企業發展為主要調研對象。每年組織正在學習統計類課程的學生進行系統的實地調查(塌陷區農戶、農村實地調研、中小企業微觀數據調研、消費者行為調研等)。大量開展課外實踐活動,學生可以從實踐中搜集資料,從數據中學會統計軟件,從軟件分析結果中提煉調研結果,從調研結果中凝練統計類課程案例,構建應用性高等教育資源型城市統計學系列課程案例庫。
二、構建統計類課程案例庫的必要性及重要性
筆者通過對國外著名大學(哈佛大學、芝加哥大學、普林斯頓大學、劍橋大學、倫敦經濟學院)的官網課程設置說明的查詢,新浪、網易、優酷名校名師講壇視頻的學結出當前國外統計學教學,案例教學的凸顯特點。傳統統計學類課程授課時,教師基本以經濟理論、統計理論為主。因此,統計教學具有明顯的理論性,但其課程卻還兼具強烈的實踐性、應用性和特色性。因此,“黑板粉筆”理論教學就不再適應統計學綜合特征,構建應用性高等教育統計學類案例庫就成為時代的必然。由德國教育家瓦•根舍因和克拉夫基最先倡導的案例教學法,其意義是“運用精選的范例使學生掌握一般的具有普遍意義的知識,形成獨立和主動學習的能力”。統計學類課程作為一系列應用性和實踐性極強的學科,通過利用理論作為分析現實經濟的分析決策工具,其教學目標是培養學生運用數理統計理論分析解決實際問題,而案例教學則是實現該目標最主要和最有效的途徑。
三、構建統計學類課程案例庫思路
基于地方應用型本科院校辦學目標,區域經濟發展人才需求任務,應用性高等教育統計學類課程案例庫構建要基于以下四個步驟:
(一)綜合教學
所謂綜合教學就是理論與實驗相結合、案例與實踐相結合的教學模式。構建案例庫的最終目的是服務教學。綜合教學方式以多媒體案例進行教學,調動學生學習的積極性和主動性,將案例嵌入統計理論當中,組織學生進行案例討論,積極開展課外實踐調研,積極將理論與實踐相結合,提升其分析解決問題的能力。
(二)課外實踐調研
積極引導學生親自參與各類項目及課外調研,基于資源型城市發展特色,采煤沉陷區各種現存的數據,組織授課學生以考核方式組成小組自選課題,設置調查問卷,進行實地調研。以調查的過程及搜集回來的微觀數據資料進行編寫,集中體現大學生行為、資源型城市采煤沉陷區和中小企業發展及城鎮化發展等微觀數據。細化而言,大學生消費行為、大學生兼職行為、資源型城市產業發展現狀、資源型城市經濟發展現狀、采煤沉陷區農戶生活現狀、采煤沉陷區綜合治理情況、采煤沉陷區土地流轉情況、采煤沉陷區失地農戶勞動力轉移現狀、中小企業發展現狀、中小企業融資現狀、小微企業經營能力瓶頸等等案例。這些案例大大地豐富了理論教學,并利用學生身邊現象,貼近學生生活現實,體現資源型城市發展特色,解決資源型城市采煤沉陷區存在的種種社會及經濟問題。
(三)整理實踐調查數據、統計軟件分析數據和編制案例
為了滿足區域經濟發展需求和應用性人才需求以及統計學類課程教學要求,我們編制案例時主要從資源型城市統計年鑒及政府公報和以上大量學生實地調研微觀數據獲取,通過搜集回來的數據,利用各種傳統理論課程中相對應的理論與統計軟件進行分析,系統編制案例,最終擇優收錄我們構建的特色案例庫。隨著每年教學變化及時展,案例庫將逐步更新并完善。案例素材的另一渠道是由師生共同查閱國內外著名高校統計學案例庫,選取經典案例,編輯經典統計案例。在案例編寫的過程中,讓學生積極參與,發揮其主動性和創造性,并在案例中附學生的調研前期、中期及后期的經驗和心得,從而豐富特色案例庫的內容。
(四)建設資源型城市案例庫
關鍵詞:衛生統計學 PBL教學模式 教學改革
中圖分類號:G623 文獻標識碼:A 文章編號:1674-098X(2013)04(b)-0158-01
衛生統計學是研究居民健康狀況以及衛生服務領域中數據的收集、整理和分析的一門科學,是預防醫學本科生必修的一門基礎課程,它具有實用性強、應用廣等特點。衛生統計學的理論知識體系有別于其他門類的醫學課程,因此被很多醫學生認為是一門難以學習和掌握的課程。Problem-Based S.Learning,簡稱PBL,是美國的神經病學教授Ho Barrows于1969年首先創立,認為是一種較好促進學生的評判性思維能力的教學方法[1]。自引入醫學教育領域以來,許多研究表明PBL有利于學生提高學習技能和實踐能力。我們嘗試在衛生統計學教學過程中引入PBL教學模式,調動醫學生的學習主動性。
1 PBL教學模式與傳統教學模式的區別
傳統的教學多采用“灌輸”的方式,老師灌得多,導得少;學生學得多,議得少;授課時間多,自學時間少。學生學習缺乏主動性,只能被動接受知識,遇到實際問題時,仍不能確定該選用哪種統計方法。這種模式下學生的學習動力和積極性明顯降低,由于長期的死記硬背,學生的分析問題推理能力未能很好鍛煉,不能充分合理地運用其學過的知識來解決問題。PBL教學法則是在介紹每章內容前要先提出一個或多個在實際工作中常常遇到的問題,然后再引導學生尋找解決問題的方法,使學生對統計方法的原理尤其是應用有了深刻的認識,在實際工作中就能夠正確選擇統計方法了。
2 PBL教學模式成功的關鍵
2.1 教師角色的轉變
在PBL教學中,教師的角色要從知識的傳授者逐漸轉變為學生學習的幫促者,要設計恰當的問題;在課堂交流中營造輕松的課堂氣氛,培養學生的問題意識,提高他們的提問能力。
2.2 學生的學習態度
以交互討論為主要學習方式,調動學生主動學習積極性,密切師生聯系和雙向交流,采用理論和實踐相結合的教學方法,以問題為基礎的學習和訓練,幫助學生系統掌握統計基本概念與統計方法,提高學生解決實際問題的能力,最大限度地調動他們的能動性,培養學生的創造性思維[2]。
3 PBL教學模式的具體步驟
PBL教學為將來獨立解決問題奠定基礎,其具體步驟。
(1)理論授課:結合各個章節的內容,采用案例教學,以典型案例引出問題,給出正確處理問題的統計思路與統計分析方法。
(2)確定問題:每次理論授課后,由授課教師根據各章節的內容,結合自身科研工作中所遇到的問題以及文獻中出現的統計學問題,進行歸納總結,提出問題,同時明確學生的學習目標與任務。
(3)小組討論學習:指定學生組成專題學習小組,各小組根據特定問題查閱文獻,對文獻中研究內容、存在的不足以及如何改進進行課堂討論分析,并對分析討論結果已報告形式進行總結。
(4)教師指導:教師對學生在文獻資料的檢索與學習過程中遇到的問題提出建議和指導,歸納總結各小組討論報告。
(5)成績評定:通過小組自評、學生互評、教師評價等形式對專題學習小組和課堂提問的學生進行評定[3]。
4 PBL教學模式的局限性及相應對策
4.1 PBL教學模式的局限性
PBL教學模式實施過程中也存在一些問題,影響PBL教學效果。(1)傳統教學法的講授能給學生一個系統的知識框架,而PBL教學只是針對某個問題進行探討,影響了教學內容的系統性。(2)學生長期習慣于傳統式的灌輸式教學,缺乏主動學習的技巧。(3)衛生統計學總課時有限,學生要較好地回答問題,需占用大量的課余時間,加重了學生的學習負擔。(4)目前國內醫學院校采用的各種版本衛生統計學的教材,編排體系并不適合PBL教學。
4.2 解決對策
針對PBL教學模式出現的問題,可以采取以下策略:(1)PBL教學模式結合傳統教學模式――各章節內容學習時,首先采用經典案例授課,用經典案例引出分析問題的統計學思路,給出解決問題的統計學方法,在講授理論同時培養學生形成統計思維方式。(2)根據專題討論內容,加強師生互動,培養學生提問的能力,充分調動學生的主觀能動性,改變傳統教學中學生被動學習的局面。(3)結合授課情況以及學生學習過程中出現的問題,及時給予指導,使學生在較短時間內高效完成學習任務。(4)培養學生分析問題和解決實際問題的能力的關鍵是看老師的主導作用與傳授知識的技能和技巧,這就要求老師不斷提高自身業務素質[4]。(5)根據授課內容、設置的問題、討論主題,探索編制適合PBL教學模式的衛生統計學教材。
通過PBL教學模式改革,使預防醫學本科學生逐漸培養起良好的科研思維能力,了解衛生統計學理論知識體系,將實踐與理論知識相結合,增強學生解決實際問題的能力,同時提升教師的自身素質,在提高教學質量同時也有助于教師醫學科研能力的提升。
參考文獻
[1] 孫蓉,王勁松,孫峰.PBL教學模式在醫學統計學教學中應用效果評價[J].中國校外教育,2010(1):95.
[2] 彭志行,趙楊,易洪剛,等.PBL教學模式在醫學統計學教學中的應用[J].中國高等醫學教育,2010(3):79-81.
關鍵詞:計量經濟學;“深入淺出”;實驗教學
中圖分類號:G642.4 文獻標志碼:A 文章編號:1674-9324(2014)19-0077-02
一、計量經濟學背景介紹
1.計量經濟學的產生與發展。計量經濟學(Econometrics)一詞最早由挪威經濟學家、第一屆諾貝爾經濟學獎獲得者弗里希(R.Frisch)于1926年在《論純經濟問題》一文中,按照“生物計量學”(Biometrics)一詞的結構仿造出來的。計量經濟學是經濟學的一個分支學科,是以揭示經濟活動中客觀存在的數量關系為內容的分支學科,是由經濟學、統計學和數學三者結合而成的交叉學科。1930年12月弗里希和丁伯根(J.Tinbergen)等經濟學家發起在美國克里富蘭成立國際計量經濟學會,該學會的成立標志著計量經濟學作為經濟學的一門獨立學科被正式確立。美國諾貝爾經濟學獎獲得者薩謬爾森(P.Samuelson)認為:“第二次世界大戰后的經濟學是計量經濟學的時代。”20世紀70年代以來,隨著計算機的廣泛應用和非經典計量經濟學的理論有了新突破,使得計量經濟學的理論和應用又進入一個新的階段。
2.計量經濟學在國內的發展。中國高等學校開設計量經濟學課程已有20多年的歷史,起初只是在部分學校的少數專業開設,1998年經教育部全國經濟學教學指導委員會討論決定,把計量經濟學納入了高等學校經濟學門類各專業8門共同核心課程之一。全國各高校不僅在經濟學類各專業已普遍開設了計量經濟學,而且一些管理類專業也十分重視這門課程的學習。與此同時,計量經濟學的學習不再僅限于理論層面,計量經濟分析在經濟領域中得到一定運用,僅從經濟學類期刊文章看,學者在探索經濟問題的過程中,更希望通過對經濟問題的定量分析來提升文章實用價值,它也成為文章含金量的一個重要尺標。據統計,在1984―2007年《經濟研究》刊物上發表的近3300余篇論文中,以計量模型作為主要分析方法的論文占到了53%[1]。
二、計量經濟學的學科特點
從學科綜合性看,計量經濟學是一門綜合性邊緣學科。計量經濟學的一個顯著特點是它自身并沒有固定的經濟理論,計量經濟學中的各種計量方法和技術,大多來自數學和統計學,但建立的計量經濟模型需有相關的經濟理論作為支撐。因此,在運用計量經濟學的過程中,我們需堅持以科學的經濟理論為指導,緊密結合經濟問題所處的環境,選擇適當的計量方法才能使計量研究成果發揮它應有的作用。從方法論角度看,計量經濟學是一門工具學科。作為方法論學科,計量經濟學信奉“經驗主義”,作為經濟問題分析的工具,計量經濟學需要通過對經濟問題的數量關系,并從定量角度分析實際經濟問題。因此,計量經濟學通過自身的優勢,將現實中的經濟問題,通過計量經濟方法并結合相應軟件,將經濟問題轉化為可度量且具有實際經濟意義的分析結果,并為后續政策的制定提供數據支撐。
三、計量經濟學在財經院校的發展現狀
財經院校在開設課程的過程中,更強調課程的實際應用而不是課程的理論推導,理論推導并不是其教學主要目的。雖然理論推導及證明不是其學生的強項,但學生具有較強的經濟學基礎。雖然計量經濟學作為經濟學門類各專業核心課程,且該課程在教學建設中越來越受到重視,但計量經濟學在財經院校的課程開設中仍面臨著許多挑戰。首先,課程具有課時少、內容多、實踐性強的特點。目前,財經院校為本科生開設的計量經濟學課時較為有限,而計量經濟學是由經濟學、統計學和數學結合而成的交叉學科,以微積分、線性代數、概率論與數理統計、微觀經濟學、宏觀經濟學和經濟統計學等為先修課程。因此,計量經濟學所涉及的知識內容廣泛,內容較多。其次,計量經濟學現有教學特點致使學生課程壓力進一步加大。計量經濟學要求學生在學習計量經濟學之前必須具有宏微觀經濟學、微積分、線性代數、概率論及數理統計等先行課程的良好基礎。但對財經院校而言,選修計量經濟學課程的本科生其數學基礎參差不齊,加之開設的時間正好為學生專業課最多的時間段。另一方面,計量經濟學的學習是一個循序漸進的過程,前部分知識掌握的熟悉程度將直接影響后面知識的學習效果。最后,教學方法仍以理論講授為主,導致教學的“深入深出”。現行的計量經濟學教材中充斥著各種數學公式,教師在教學過程中可能過分注重于數學理論推導,而忽視了財經院校學生知識結構背景,在課堂教學過程中缺乏對學生的引導與啟發,使得學生對計量經濟學的學習興趣縮減。
四、實現計量經濟學本科教學的“深入淺出”途徑
如果在計量經濟學教學過程中忽視定量分析,經濟研究很難深入下去,對經濟“政策效應的驗證也是一句空話”,但如果不改變理論脫離實踐的問題,我們將會看到從公式到公式的數字游戲[2],這將最終形成計量經濟學教學的“深入深出”,教學效果難于達到最大化。從財經院校本科教學視角出發,實現計量經濟學教學的“深入淺出”教學途徑可以從以下幾方面進行考慮:
1.選擇經典計量經濟學部分作為本科教學重點。在本科階段,計量經濟學的教學目標應定位于讓學生掌握計量經濟學最基本的理論與方法,讓學生具有運用計量經濟方法分析實際經濟問題的初步能力[3]。其中,經典計量經濟學應用最為普遍,也是學習更高層次計量經濟學課程的重要基礎,符合財經院校絕大多數本科教學的實際要求。因此,可以選擇經典計量經濟學部分作為本科教學重點,更多的非經典計量經濟學的內容可以放入更高層次學生的教學或學生根據自己個人興趣愛好拓展非經典計量經濟學知識。
2.減少數學的理論推導,重視其分析思想及實際應用。計量經濟學是一門經濟學課程,并不是數學課。因此,教學的內容和教學過程不能過于數學化。盡可能地避免不必要的數學推導,使學生了解方法的基本思想即可。以學生扎實的經濟知識基礎為支撐,加強其計量經濟學的實際應用。
3.加強實驗教學及啟發教學。教師在教學實踐中需適當引入案例調動學生的學習興趣,增加教師與學生之間的互動。根據理論教學的進度合理安排實驗教學的時間,通過案例演示及實驗操作以提高學生解決實際問題的能力。在案例講解的過程中,選擇經濟熱點主題,同時案例內容緊扣教學大綱,改變教材中實例一成不變的形象,保持案例的動態更新[4]。計量經濟學的實驗課程學習可以讓學生更為直觀掌握計量經濟學的運用。在實驗課案例講解的過程中,各個步驟需要結合經濟問題及計量經濟軟件講解,增加講解的直觀性,培養學生綜合運用知識的能力。
4.增加同行間的學術交流,把握學術前沿發展動態。計量經濟學是一門交叉性學科,雖然這門學科在中國發展僅20多年,但其運用領域在不斷擴大。僅從目前權威的經濟學類相關文獻統計數據可知,越來越多的文獻在分析實際經濟問題的過程中涉及計量經濟學方法作為輔助。計量經濟學在中國的發展仍不成熟,并且其學術前沿問題也在不斷更新,僅憑專業教師單一力量還略顯單薄,因此,專業教師需增加專業間的學術交流活動,探討專業領域相關困惑。通過學術交流活動,專業教師可以更為深刻地理解計量經濟學相關理論及學術前沿發展動態。教師在教學過程中可適當為學生講解專業相關的學術前沿發展現狀,增強學生自主學習能力。
參考文獻:
[1]陳永偉.計量經濟學課程教學的創新性探索與思考[J].科教新報(教育科研),2011,(4):12-13.
[2]陳岱孫.陳岱孫文集(下卷)[M].北京:北京大學出版社,1989.
[3]莊.關于《計量經濟學》課程本科教學改革的研討[J].統計與咨詢,2010,(06):46-47.
[4]徐盈之.研究型大學高級計量經濟學課程教學改革探討[J].東南大學學報(哲學社會科學版),2009,11(12):228-231.
[5]高鐵梅.計量經濟學分析方法與建模[M].北京:清華大學出版社,2006.
[6]李子奈.關于計量經濟學課程教學內容的創新與思考[J].中國大學教學,2010,(1):18-22.