五月激情开心网,五月天激情社区,国产a级域名,婷婷激情综合,深爱五月激情网,第四色网址

數據挖掘課程優選九篇

時間:2023-03-07 15:19:21

引言:易發表網憑借豐富的文秘實踐,為您精心挑選了九篇數據挖掘課程范例。如需獲取更多原創內容,可隨時聯系我們的客服老師。

數據挖掘課程

第1篇

國外很多大學都開設了數據挖掘課程,波士頓大學的“數據管理與商務智能”課程主要包括基礎、核心技術、應用三部分。授課方式包括理論內容講授、案例教學,以及學生以團隊合作方式完成項目并進行課堂演講。從麻省理工學院開放性課程資料(斯隆管理學院)中可以看出,在每章講解一種算法之后都盡可能地安排了商務實例的分析,并在課程后期安排了客座講座的形式。國內對于數據挖掘的教學類研究成果也很多,主要集中在三類問題的研究上,較為普遍的是根據專業建立大綱的研究,例如針對電子商務專業進行大綱設計;另外也有專注研究某一種或多種適合數據挖掘或商務智能的教學方法,如專題研討法;還有的討論算法理解與程序設計、軟件應用的關系。

2、基于模塊化方法的課程內容分析

模塊化教學模式是按照程序模塊化的構想和原則來設計教學內容的一整套教學體系,它是在既定的培養目標指導下,將全部教學內容按照一定標準或規則進行分解,使其成為多個相對獨立的教學模塊,且各教學模塊之間可以按照一定的規則有選擇性的重新組合。該方法在20世紀70年代,由國際勞工組織引入教學之中,開發出以現場教學為主,以技能培訓為核心的模塊化教學模式,在很多國家得到廣泛應用。由于該教學法具有針對性、靈活性、現實性等特點,越來越受到教育界的關注。模塊化教學本質上是以知識點與實踐的細化為出發點研究,本課程的知識點細化分為兩個層次:一是從宏觀角度,參考ACM的SIGKDD的數據挖掘課程建設建議,設計課程的基礎內容模塊和高級主題模塊;二是從微觀角度,針對較為復雜的算法進行的知識點劃分。課程內容的一至五章屬于基礎內容模塊,介紹本課程的基礎理論和入門的數據挖掘技術;六至第八章介于基礎內容與高級主題之間,介紹數據挖掘的核心算法,可以根據學生情況進行靈活處理,可強調應用,也可深化算法介紹;第九、十章為高級主題模塊,可以作為擴展材料介紹應用,或為感興趣同學提供算法介紹;課程實踐模塊包含數據倉庫建設與數據挖掘算法的應用,難度居中,可以在引導學生思考的前提下給出實驗步驟,并引導學生使用類似的方法處理不同的數據。

3、基于模塊化方法進行重要知識點的模塊化分析

重要知識點內涵較為豐富,一般體現在經典數據挖掘算法上,通常一大類算法下還分有多個算法,不同算法的在難度上有漸進層次,同一種算法也有很大改進研究空間,講授彈性比較大。因此,適合使用模塊化方法進行處理,并且需要在課程設計中明確一定課時量所要達到的內容和難度。基礎部分為必選內容,介紹基本概念和基本原理;決策樹作為數據挖掘分類算法的最基礎算法也是必選內容,決策樹算法有多種分類,需要進行按照難易程度進行選擇;最后要根據難度選擇其他分類算法進行介紹。

4、結論

第2篇

關鍵詞:數據挖掘;成績分析;決策樹算法

一、引言

成績作為考試的結果,不僅是對學生學業和教師教學效果的檢查和評定,進而激勵學生學習及教師工作;更是一種信息,具有反饋于教學活動、服務于教學決策、為教育科研提供資料等作用。為充分發揮考試的效能,綜合評價命題質量,及時反饋教學效果,溝通教學信息,教學部門對考試成績進行統計分析和總結是非常必要的。

二、問題提出

我們以軟件技術系軟件開發專業為例進行分析。在眾多專業課程中,很多科目之間是相互聯系相互影響的,例如《Java初級程序設計》是《Java高級程序設計》的前置課程,《J2EE企業級應用開發》則是《Java高級程序設計》的后續課程,《網頁制作―HTML、CSS》的學習效果將會影響《網頁制作―JavaScript》,而這些課程之間又是相互滲透相互聯系的。有時候有的教師在上一門課時會抱怨這個班的基礎不好,后續課程很難上,那么究竟是什么哪些前置課程對后續課程造成了影響呢?這里我們以軟件開發專業核心課程《J2EE企業級應用開發》為例,分析研究影響這門課成績的前置課程對其的影響。

三、數據預處理

07級軟件開發專業一共9個班,前4個學期一共開設23門課程,在教學管理的數據庫中保存著大量屬性繁多,定義復雜,冗余多,不完整的數據。我們首先要從大量的數據中篩選出適合分析的數據。

在課程的選擇中,我們選取《計算機基礎》、《計算機網絡基礎》、《計算機數學基礎》、《Java程序設計基礎》、《數據結構》、《數據庫原理與SQL Server》、《Java高級程序設計》、《網頁制作技術》以及《J2EE企業級應用開發》這幾門有關聯的課程進行分析。并且在分析之前把《計算機基礎》、《計算機網絡基礎》、《計算機數學基礎》這3門基礎課取平均值合并成一個《計算機基礎》。

這是在軟件技術專業9個班400多人中隨機抽樣選取91個學生的記錄作為樣本集。

表1 采樣成績表

經統計,91個學生記錄中,各門課程及格和不及格人數如表5.2所示。

表2 樣本集中各門課及格不及格人數統計

四、建立模型

1. 決策樹方法介紹

決策樹是一個類似流程圖的樹型結構,其中樹的每個內部結點代表對一個屬性(取值)的測試,其分支就代表了測試的每個結果;而樹的每個葉結點就代表一個類別,可以根據決策樹的結構對數據集中的屬性值進行測試,從決策樹的根結點到葉結點的一條路徑就形成了對相應對象的類別預測。

2. ID3算法的基本思想及原理

ID3算法是R.Quinlan于1986年提出的,其前身是CLS。CLS的工作過程為:首先找出最有判別力的因素,把數據分成多個子集,每個子集又選擇最有判別力的因素進行劃分,一直進行到所有子集僅包含同一類型的數據為止,最后得到一棵決策樹,可以用它來對新的樣例進行分類。

3. 構建決策樹

成績結果分為正例和反例兩類:及格(P)和不及格(N)。

下面用ID3算法,建立決策樹,對課程成績分類。

具體計算過程如下:

首先計算J2EE課程所含有的信息量。J2EE及格人數P=81,不及格人數N=10,則可得到:

0.4493

然后計算當J2EE及格和不及格時,其他課程所包含的總信息量。經統計,其他6門課程和J2EE有如表3所示的統計數據:

計算機基礎:

0.4421

從而得到計算機基礎的信息增益度為:

Gain(計算機基礎)=0.4493-0.4421=0.0072

同樣的方式,得到其他課程的信息增益度,結果如表4所示:

表4 各門課程的信息增益度

可以看出所有課程當中JAVA高級程序設計是最能區別訓練集中決定J2EE成績與否的課程。根據各個課程的信息增益度,應該選擇JAVA高級程序設計作為所建決策樹的根結點。由于JAVA高級的屬性值只有兩個:1(及格)和0(不及格),所以在JAVA高級下可以建立兩個分支。此時,將訓練實例集分為二個子集,生成包含二個葉結點的決策樹。如圖1所示。

圖1 根節點分類決策樹

經統計,JAVA高級程序設計及格且J2EE也及格的人數為73,其準確率為73/79=92.4%。因此對JAVA高級程序設計及格這個分支(結點一)停止分割。經統計,JAVA高級程序設計不及格的12人中有5人J2EE及格,7人J2EE不及格,所以對高級程序設計不及格這個分支(結點二)進行再次分割。

對圖1中的葉結點二進行分類。經過計算,此刻正例為4,反例為8,所以此時的熵值為:

0.9799

采用上面同樣的方法計算各門課程的信息熵,得到

計算機基礎:

0.9799

得到Gain(計算機基礎)= 0.9799-0.9799=0.0000

同理,得到:

Gain(JAVA基礎)= 0.9799-0.9371=0.0482

Gain(數據結構)= 0.9799-0.8669=0.1130

Gain(數據庫)= 0.9799-0.9799=0.0000

Gain(網頁設計)= 0.9799-0.9371=0.0482

選擇數據結構為分裂點,將結點二分為兩個子集。JAVA高級不及格且數據結構及格的人數為1人,該結點停止分割,JAVA高級不及格且數據結構不及格的11人中有4人J2EE及格,7人不及格,因此對該節點需要再次分割。

采用上述同樣的方式劃分,最后得到如圖2所示的最終決策樹。

圖2最終決策樹

五、結果分析

分析圖2所示的決策樹,我們可以得到:對于軟件專業后期的核心課程《J2EE企業級應用開發》來說,《Java高級程序設計》的學習程度直接影響其學習效果,《數據結構》和《JAVA初級程序設計》也會對《J2EE企業級應用開發》的成績帶來影響,如果學生《JAVA高級程序設計》學習一般但是《數據結構》和《JAVA初級程序設計》基礎較好的話,依然能夠在學習《J2EE企業級應用開發》時取得好的成績。這比較符合專業課程學習過程的實際情況。決策樹得出的結果反映了實際情況,這也充分說明了數據挖掘是一個強有力的輔助決策工具。

六、結束語

回顧一下這個案例,驗證數據挖掘技術解決這個問題的效果。在分析過程中,我們利用相關的數據,通過橫向比較《計算機基礎》、《Java程序設計基礎》、《數據結構》、《數據庫原理與SQL Server》、《Java高級程序設計》、《網頁制作技術》以及《J2EE企業級應用開發》等課程成績,經過數據收集、數據選擇、數據清理、數據歸納、數據轉換等過程,運用決策樹中的ID3算法課程之間知識結構相互支撐的模型,發現專業核心課程之間的內在聯系。輔助教學管理人員根據該模型對現有教學計劃做出調整,對師資資源合理利用,將優質師資用在主干課程上。

參考文獻:

1.李小映,數據挖掘在高職院校學校綜合信息中的應用,計算技術與自動化,2006.12

2.陳松、盧繼萍,教學管理系統中的數據挖掘技術的應用研究,中國教育技術裝備,2007.12

3.李雪真、陳燕國 ,基于數據挖掘的高校課程設置評價方法,科技資訊,2008.8

第3篇

關鍵詞:大數據;數據挖掘課程;教學方法;人才培養

近年來,在社會發展和科學進步的過程中,以信息技術為中心的各領域產生了豐富的數據,引起了社會各界人員的高度關注。體量大、速度快、模態多和價值密度低是大數據具有的特點,其能夠促進科學和社會經濟的進一步發展,對國家安全也具有重要的影響。然而從大量數據中挖掘出有價值的信息和知識是需要專業的數據挖掘人才來實現的,因此,在高校數據挖掘課程教學過程中,教師要創新教學方法,運用科學的教學理論培養學生對數據的意識,從而促進教學質量的提高和大量數據人才的培養。

一、科學引導,培養數據意識

在我國的各大高校中,數據挖掘課程是理科和工科都開設的一門課程,其專業性質較強,最初開設這門課程的主要目的是在于讓學生了解數據的相關概念和挖掘數據的相關技術手段,并能夠在以后的社會實踐中應用到數據挖掘技術。但社會經濟的發展和科學技術的進步,給數據挖掘課程帶來了較大的挑戰,僅僅是了解數據的相關知識和掌握淺層次的數據挖掘技術是不能適應時展需求的。因此,需要開設數據挖掘課程的高校教師在教學過程中對學生要進行科學的引導,注重培養學生的數據意識,提高學生對數據挖掘課程的積極性。

數據驅動的理論分析和應用是數據挖掘課程的重點,具體性和抽象性是其具有的兩個特點。數據挖掘課程的主要研究對象是具體的數據,并從數據中挖掘出有價值的信息和知識,能夠對數據進行解釋和理解,這主要體現出數據挖掘課程的具體性特點;而在進行數據挖掘過程中使用的理論、方法和技術等概念,體現的是數據挖掘課程的抽象性,其在課堂學習過程中的消化和理解的難度是較大的,因為時間較短。由于種種因素對數據挖掘課程造成影響,因此在設計數據挖掘課程的教學之前,首先要做的就是讓學生對數據挖掘課程感興趣,并在發展過程中使學生的數據意識得以培養和提高。

在設計數據挖掘課程的教學過程中,可以增加講解什么是數據、數據有什么作用、所具有的重要性等的學時,加強學生對數據的認識和重視。處在大數據的時代環境下,要讓學生了解什么是“大數據”,而生活中的哪些方面存在大數據、大數據是以何種增長方式在哪些領域進行發展的大數據能夠發揮作用等。教師在教學過程中可以使用多媒體教學的方法,通過實例和聲像的展示,讓學生了解生活中存在的數量,并清楚的掌握數據挖掘的技術方法,并從大量的數據中挖掘出有價值的信息和知識,為社會發展和企業進步提供服務,讓學生了解在企業的發展過程中,數據挖掘的重要性。為了增加學生對數據挖掘課程的興趣和重視程度,在教學過程中,教師還可以將數據分析和數據挖掘的相關招聘案例融入到教學過程中,從數據挖掘課程以往的就業率、職位性質、工資待遇及未來的職業發展前景等方面來增加學生對數據挖掘課程的興趣,有利于在以后的學習生活中更好地掌握數據挖掘技術和應用數據知識。

二、深化基礎,加強理論體系

現有的數據中心技術因大數據的特征而很難滿足數據分析的需求,去噪降維技術、數據儲存、數據整合、數據特征表示、數據通信傳輸和處理,以及非結構化和半結構化處理等方面是其主要表現。基于此,數據挖掘技術面臨的局勢較為嚴峻,并且數據挖掘課程是一門綜合性較強的學科,涉及的內容較為廣泛、復雜,主要包括數據庫技術、統計學知識、機器設備知識、信息檢索技術和智能計算等學科內容。然而現階段的高校在教學設計過程中難以在有限的時間里將這些學科全部開設,即使是將這些學科全部開設了,每個學科的課時就會較少,不利于各學科的深入學習,從而對數據挖掘技術的掌握造成不同程度的阻礙。為了解決這個問題,在高校進行教學設計的過程中,可以把大三或大四的學生作為數據挖掘課程的主要教學對象,因為這部分學生對自己的職業生涯有清晰的認識,并且在大一、大二的學習過程中有一定的知識基礎。在大一學年和大二學年開設高等數學、統計學、算法分析、智能計算、數據庫原理和計算機系統原理等學科,為數據挖掘課程的學習做好基礎性的工作。在教學過程中,教師也可以向學生推薦數據挖掘課程相關的數據,最好的專業領域較為著名的案例,有利于鼓勵學生學習數據挖掘課程的自信心。外語水平也是數據挖掘課程對學生的一個要求,因為只有掌握了高水平的外語,才能夠了解國外的數據挖掘技術的發展水平,全面的掌握國內外的數據挖掘發展情況。所以在設計高校數據挖掘課程的教學過程中,要推進基礎知識的深化以及理論體系的完善,為日后的數據挖掘課程的學習奠定知識基礎。

三、聯系實際,創新教學方法

實踐是理論來源的基礎,對于理論的檢驗,實踐是最有效的途徑。由于數據挖掘技術具有強烈的抽象性,以至于學生對大數據的認識較為模糊,讓學生了解數據挖掘課程的內容和在實際生活中的應用所采取的方式就是教師的教學方法。案列教學法是教學過程中最好的教學方法,有利于學生對數據挖掘知識的了解和掌握,還有利于學生掌握良好的數據挖掘技術方法。通過案例教學法,讓學生了解數據挖掘在生活中的重要作用,在處理大數據時具有很大的作用。

教師在積極轉變教學內容和教學方法的同時,學生也應該積極探索提高學習質量的方法,在課堂教學過程中,雖然教師起主導作用,但是課堂的主體仍然是學生。對于教學內容,學生應該主動接受,與被動接受相比,會獲得較好的學習效果,因此要讓學生欣然地接受教師教學過程中的新內容和新方法。此外,在上機實驗課程的教學過程中,對于案例中的具體案例需要學生親自來演算,而教師在這個過程中主要是引導和指導,啟發學生對深層次內容的創新思考。還可以在每次采集和試驗案例之后,要求學生提交相應的分析研究報告,這樣一來,學生對于大數據挖掘課程的接受程度能夠被教師很好地掌握,從而完善教師的教學方法,提高教學質量。

四、增強興趣,深入科學研究

數據挖掘在大數據下面臨著巨大的挑戰,數據挖掘學科是一門綜合性的學科,其中涉及的其他學科較多,所以學習難度和教學難度較大。因此在教學過程中要充分發揮教師的主導作用,引導學生對數據挖掘課程的深入學習。例如,讓學生間隔性地去了解大數據環境下數據挖掘技術解決了什么問題,甚至讓他們調查如今各大型招聘網中有關大數據分析和數據挖掘等職位的情況,進而增強學生對數據挖掘的興趣。此外,對于年級較高的學生來說,深造是其主要選擇的方式,也可以通過出國或是考研等渠道進行知識資源的深入學習,從而掌握更多的知識,提升自身的綜合素養。對于這樣的學生,教師應該通過鼓勵的方式使其選擇研究數據挖掘方向的科學,為了充分有效地提高這部分學生的研究水平,教師可以給學生布置一些具體的課題任務,課題任務的研究內容一定要保證精細程度,甚至可以精細到數據挖掘過程中使用的一個方法的研究,這有利于學生深刻認識課題任務重要性的培養,同時還有利于學生較為準確地把握問題研究的方法和內容。提高學生對新型研究技術和研究方法的掌握,可以增加學生的經典文獻的閱讀量,在這個過程中,學生的創新性思維得到了有效培養,教師還要采取有效的措施引導學生進行學術性的創作研究。在實際的教學過程中,將科學研究引入到其中,有利于促進學生對新知識的理解和吸收,還能夠使學生解決問題的能力得到有效提升,為學生研究大數據的挖掘提供有利保證,并且打下一個堅實的基礎。

五、結語

在大數據環境下,數據挖掘課程是各大高校急需開設的一門課程,教師在教學過程中,要使用創新的教學方法,讓學生真正地了解到數據挖掘技術對社會進步和企業發展的重大作用。教師還要結合教學經驗,重點從培養學生的數據意識、加強理論體系、創新教學方法和深入科學研究等方面進行數據挖掘課程教學設計,為提高大數據環境下挖掘課程的教學質量提供參考依據。

參考文獻:

[1]劉建偉.數據挖掘課程設計的教學探索[J].科技信息,2013,(23).

[2]黃美麗.“數據倉庫與數據挖掘”研討型教學實踐探析[J].計算機時代,2012,(12).

[3]周森鑫,盛鵬飛,王夫芹.數據挖掘課程案例教學研究[J].計算機技術與發展,2012,(11).

第4篇

近年來,數據挖掘與商務智能技術發展迅速,充分借鑒國外相關研究,尤其是ACMSIGKDD課程委員會對數據挖據課程建設建議,對進行數據挖掘類課程的教學建設研究有重要意義。ACM(美國計算機協會)于1998年成立了SIGKDD(知識發現興趣小組),致力于知識發現與數據挖掘的相關研究,ACMSIGKDD課程委員會連續多年多次更新其主要課程———數據挖據課程的建議,其中委員會將數據挖掘課程分為基礎部分與高級主題,基礎部分覆蓋了數據挖掘的基本方法,高級主題既有數據挖掘基本方法的深入研究,又有更高級算法的介紹。國外很多大學的計算機科學學院、商學院都開設了數據挖掘類課程并同時進行相關研究。波士頓大學開設了“數據管理與商務智能”課程,課程主要包括基礎、核心技術、應用三部分。許多國外著名大學建立了教學管理系統,提供大量的案例、在線討論和在線輔導功能。國內很多學校都開設了數據挖掘的相關課程,我國大多數高校的課程大綱內容與國外大致相同,只是在實踐部分選用了不同的商務案例。數據挖掘的應用領域廣泛,因此可以根據開課學院和專業選擇合適的實例。

二、根據信息管理專業本科生培養要求確定課程目標

數據挖掘課程是一門綜合性很強的前沿學科,對計算機軟硬件、數據庫、人工智能技術、統計學算法、優化算法等基礎知識都有較高的要求。因此該門課程開設在學生大三下學期,既有相關知識的基礎,又為大四做畢業設計提供了一種思路。信息管理專業是計算機與管理相結合的專業,旨在培養具備信息系統開發能力與信息資源分析與處理能力的綜合應用型人才。對信息管理專業的學生而言,本課程主要的目標是數據挖掘算法原理理解、數據挖掘算法在商務管理問題中的應用以及常用數據倉庫與數據挖掘軟件的熟練應用和二次開發。

三、基于模塊化方法的課程內容分析

模塊化教學模式是按照程序模塊化的構想和原則來設計教學內容的一整套教學體系,它是在既定的培養目標指導下,將全部教學內容按照一定標準或規則進行分解,使其成為多個相對獨立的教學模塊,且各教學模塊之間可以按照一定的規則有選擇性的重新組合。學生可以根據個人興趣和職業取向在不同模塊之間進行選擇和搭配,從而實現不同的教學目標和人才培養要求。模塊化教學本質上是以知識點與實踐的細化為出發點研究的。商務智能方法本身非常豐富,實踐應用也是課程的主要特點之一,因此十分適合使用模塊化的知識分解方式。本課程的知識點模塊管理分為兩個層次,一是從宏觀角度設計課程的基礎內容模塊和高級主題模塊;二是從微觀角度針對較為復雜的教學內容進行的知識點劃分。

1.課程主要內容模塊化分析。目前該課程包括十章理論內容,分別為數據倉庫與數據挖掘的基本知識、數據倉庫的OLAP技術、數據預處理、數據挖掘系統的結構、概念描述:特征化與比較、挖掘大型數據庫中的關聯規則、分類與預測、聚類分析、復雜類型數據挖掘和序列模式挖掘。根據模塊化管理的宏觀角度分類,課程內容的第一至五章屬于基礎理論部分和簡單數據挖掘技術的介紹,可以作為基礎內容模塊;第六至八章為數據挖掘的核心算法,其中既有基礎理論與技術方法,又可深入到較難的方法和復雜的應用,因此介于基礎內容與高級主題之間;第九、十章可以算做課程的高級主題模塊;另外,課程的實踐模塊既包含數據倉庫的建設又包含數據挖掘算法的應用,難度也介于基礎內容與高級主題之間。

2.復雜知識點的模塊化管理。從微觀角度對知識點進行設計主要針對的是上述的高級主題、以及難度介于基礎內容與高級主題之間的章節,由于這些章節知識點在難度上有一定層次,講授內容彈性比較大,因此需要在課程設計中明確一定課時量所要達到的難度。以商務智能技術中的分類算法為例:首先一般的入門課程都會介紹分類算法的概念和基本原理;接著開始介紹分類算法的基礎算法———決策樹,而決策樹算法中又包含ID3等多種算法,并且除了決策樹外,還有其他更高級的分類算法;在真正使用分類法進行預測時,還要分析預測準確度;最終要將所學知識加以應用。這樣就形成了一個結構清晰、難度循序漸進的知識點模塊的層次關系。在宏觀角度、微觀角度對教學內容進行分類的前提下進行相應的授課方法與考查方法的研究,才能真正有助于學生的學習。

四、授課與考核方法設計

對不同層次學生要求不同,這種不同既體現在知識點的要求上,又直接體現在任務的難易性程度上,這都需要教師在課程設計時充分考慮不同要求情況下的不同的授課方式,并使學生清楚自己需要掌握的程度。對于高級算法和實現部分,通常可以選擇一到兩章內容采用專題探討式的教學方法。這種方法是指在教師啟發和引導下,以學生為主體,選擇某個基本教學單元為專題,學生自主研究作為知識傳遞的基本形式,將多種靈活的教學方式綜合運用到教學環節的教學方法。根據信管專業培養方案的培養目標、以及對學生調研的情況,實踐環節比較適合選擇成熟的商務智能工具進行數據的整合和多維數據建模,也就是直接使用現成的;或者使用數據挖掘軟件進行數據建模,完善數據挖掘算法。可以針對學生管理基礎課與IT基礎課知識的掌握情況,選擇合適的工具為學生設計綜合性實驗。實驗中給出部分操作步驟,并在實驗后期僅給出數據與工具,讓學生自己設計數據倉庫、進行數據挖掘、并對挖掘結果進行多種形式的展示。

五、結論

第5篇

課程相關性分析數據挖掘相關分析典型相關分析關聯規則一、引言

課程是實現教學內容傳遞的集中體現,是學校教育的目的性、計劃性和組織性的集中體現。課程設置規定著課程類型、課程性質、課程排序和學時分配,還規定各類各科課程的學習目標、學習內容和學習要求等,其合理與否將直接影響到所培養人才的質量,關系到學生知識面的寬度、深度、動手實踐和研究能力的高低,同時也已經成為了影響大學生就業的主要因素之一。因此,課程結構和課程內容的合理設置尤為重要。

課程相關性分析可定量描述課程之間的相關性,可根據相關系數值的大小確定課程間關系的緊密程度,然后從順序性、整體性、關聯性和連續性四個方面為優化課程設置提供參考信息,優化課程結構和課程內容。近年來,國內外教育工作研究人員開展了大量的課程相關性方面的研究,國內外多所著名高校已將課程相關性研究成果作為課程設置的基本依據。

目前課程相關性分析研究所采用的方法均基于數據分析,其方法主要包括傳統數據分析法和數據挖掘分析法兩種,而兩者又有著本質的區別。在探索數據關系時,傳統的分析方法一般是基于驗證的方法,即用戶首先對數據之間的關系做出一定的假設,然后通過數據分析來驗證假設是否正確來得出相應結論,其分析過程是基于假設驅動的演繹型分析;數據挖掘不是用于驗證某個假定的模式(模型)的正確性,而是在數據庫中自己尋找模型,數據挖掘在本質上是一個完全基于發現驅動的歸納型分析過程。

本文對課程相關性分析中的數據挖掘過程及基于數據挖掘技術的課程相關分析方法進行介紹,以期為我國高校課程的優化設置研究提供理論指導和方法借鑒。

二、數據挖掘技術

數據挖掘(Data Mining,DM)又稱數據庫中的知識發現,是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,通過使用成熟的數據挖掘模型,提取出隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識,得到數據中反映出來的數據內在的關系,從而進一步應用到具體的數據分析研究中去。數據挖掘得到的信息具有先前未知、有效和實用三個特征。

目前,數據挖掘技術的已被應用于關聯分析(Association Analysis)、概念/類別描述(Concept/Class Description)、分類與估值(Classification and Estimation)、聚類分析(Clustering Analysis)、時間序列分析(Time-Series Analysis)、偏差分析(Deviation Analysis)、孤立點分析(Outlier Analysis)等方面,隨著數據挖掘技術的發展,可能還會繼續出現新的數據挖掘功能。課程相關性分析為其關聯分析功能中的一部分,所采用的分析方法主要有相關分析法、典型相關分析法和關聯規則分析法等。

數據挖掘分析過程各步驟之間互相影響、反復調整,形成一種螺旋式上升過程,具體分析流程見圖1所示。目前已建立的數據挖掘模型有CRISP-DM模型(Cross Industry Standard Process for Data Mining)、ODDM模型(OLE DB for Data Mining)、Oracle9i數據挖掘模型等多種,對于課程相關性分析來說,具有直觀、簡單和可靠等特點的CRISP-DM模型最為適用,其模型見圖2所示。

三、基于數據挖掘的課程相關性分析方法

基于數據挖掘的課程相關性分析方法主要有相關分析法、典型相關分析法和關聯規則分析法,三種方法各具優缺點,互不可取代。

1.相關分析法

相關分析法又稱單因子相關分析法,主要用于研究兩個變量因子間的相關關系。作為教育信息多元統計分析方法的一種,相關分析法主要用于測定現象之間相關關系的規律性,據此進行預測和控制。將其用于課程相關性的探討研究,可直接量化兩門課程間的相關性,分析過程簡單、快捷,顯示方式直觀,數據可信度高。

相關分析法在課程相關性分析研究中應用,主要有以下幾個步驟:

第6篇

關鍵詞:數據挖掘原理與算法;實例;教學探索

0.引言

隨著經濟、科技和信息技術的飛速發展,特別是網絡技術的發展,數據的產生和存儲能力有了很大程度的提高。數據挖掘的出現,為人們提供了一條解決“數據豐富而知識貧乏”困境的有效途徑Ⅲ。所以很多高校,包括世界上一些著名高校都開設了數據挖掘課程。課程的基礎理論部分一般包括數據預處理、關聯規則、分類、聚類、時間序列挖掘、Web挖掘等內容。該課程使學生學會分析研究數據挖掘中數據預處理、常用算法、結果的可視化等技術,并培養學生的數據抽象能力,幫助學生形成科學思維和專業素養,使他們畢業后在就業上有更多的選擇。

筆者將探討基于實例教學的數據挖掘課程的教學內容安排,強調淡化學科背景,加強算法的應用性訓練,將實際的例子貫穿于教學中,并重新組織授課內容、安排實踐環節,教會學生學以致用。

1.教學現狀分析

1.1課程本質

數據挖掘原理與算法涉及的學科領域很寬泛。其最終目的是在數據中挖掘出可供人們利用的知識和信息,因此數據挖掘技術要從數據庫技術、統計學、機器學習、神經網絡、知識系統、信息檢索、高性能計算和可視化等領域汲取營養。另外,每個學科都在進行著日新月異的發展變化,數據挖掘技術遇到的挑戰也為相關學科領域的深入研究提供了新的契機。由于課程難度較大,很多高校把這門課程作為研究生的專業課程,也有院校將此課作為本科生高年級選修課開設腳。但是本科生開設這門課程的普通院校較少,我們能借鑒的教學經驗有限。

1.2數據挖掘課程教學環節的弊端

①某些學校對本科生開設的數據挖掘課程,其教學過程對理論的探討過多,與應用存在距離,沒有體現出這門課程面向應用的特質,缺少對學生工程能力的訓練,存在學生在學了這門課程后不知道能干什么的現象。

②教學形式呆板單一。傳統的教師講、學生聽的教學模式,很難引起學生的探究興趣,不利于發揮他們自身的能動性和創新動機。

2.選擇恰當實例貫穿數據挖掘課程的教學過程

煙臺大學計算機學院所開設的數據挖掘課程在教學上安排了6章內容,涉及3個實例(其中兩個是實際生活中的項目課題):第1個是用于房產信息調查的房產客戶關系管理系統;第2個是用于煙臺大學督評中心評教文本分類的中文文本數據挖掘系統;第3個是用于國家葡萄酒檢測中心的數據分析的葡萄酒成分數據挖掘系統。

2.1房產客戶關系管理系統

在講述房產客戶關系管理系統時內容涵蓋緒論、知識發現過程和關聯規則3章,重點講授內容包括:

(1)數據倉庫。住房管理數據倉庫中的數據是按主題組織的,可從歷史觀點提供信息。數據挖掘技術能按知識工程的方法完成高層次需求,可以發現蘊藏在數據內部的知識模式。挖掘后形成的知識表示模式可為企業決策提供支持。

(2)通過對客戶信息進行分析,闡述關聯規則的參數:support、confidence、expected confidence,并簡單介紹關聯規則中的多維、多層次等拓展知識。

(3)關聯規則挖掘。①講授關聯規則挖掘的Apriori算法;②講述布爾關聯規則的概念,對處理后形成的交易數據庫進行布爾關聯規則挖掘,將問題轉化為尋找以決策屬性為結果的規則;③將關聯規則挖掘應用于客戶關系管理的最終目的是努力將潛在客戶轉變為現實客戶,將滿意客戶轉變為忠誠的終生客戶,提高客戶滿意程度,降低市場銷售及宣傳成本,增加利潤率。

(4)設minsup=10%,minconf=70%。在統計的各類人群中獵取咨詢的渠道主要是雜志、報紙、互聯網和電視。經試驗統計后得到以下有關知識:①滿足age>50 AND職業=“工人”的客戶占所統計總人數的9.7%;其中滿足age>50 AND職業=“工人”AND渠道=“TV”的客戶占92%。②符合學歷=“大專”AND職業=“工人”的客戶占所統計總人數的24.8%,其中滿足學歷=“大專”AND職業=“工人”AND渠道=“newspaper”的客戶占82%。③被統計人群中滿足income=“5000-9000”AND職業=“教師、醫生、公務員”的客戶占所統計總人數的32.7%;其中滿足income=“4000-6000”AND職業=“教師、醫生、公務員”AND渠道=“雜志”的客戶占83%。④被統計人群中滿足學歷=“本科”AND income≥“10000”的客戶占所統計總人數的占11.6%;其中符合學歷=“本科”ANDincome≥“8000”AND職業=“公司經理”AND渠道=“雜志”的客戶占86.5%。

(5)教師要分析Apriori算法的瓶頸和改進,介紹Close算法和FP-樹算法,并且要求學生們掌握這3種經典算法。

2.2中文文本數據挖掘系統

中文文本數據挖掘系統圍繞評教分類模型的建立講述特征選擇和主要分類算法。根據煙臺大學教學督評中心提供的學生對教師的中文評教文本,利用分類的方法找出其評價的傾向性,結合教材,重點講授了以下內容:

1)特征選擇。

①介紹有監督、無監督和半監督的特征選擇方法。②介紹使用分詞軟件后,統計詞頻,去掉小于閾值的低頻詞。③對比詞頻率、IG值(信息增益)、期望值差異對分類結果的影響留取特征詞。

部分數據示例如下:用特征選擇的方法對重要的屬性進行抽取,略去對分類影響不大的屬性,達到降維的目的,把特征選擇作為預處理。我們選用517條主觀評價作為訓練樣本,其中233條留言是一般評價,采用以下3種方式進行特征選擇:詞頻率、IG值(信息增益)、期望值差異。不同方式特征選擇對分類準確性的影響如表1所示。

2)分類。

在介紹常用的分類基礎知識和決策樹、ID3、樸素貝葉斯分類、最近鄰分類算法之后,又介紹了基于潛在語義分析的降維技術,講授了支持向量機(SVM)適用于文本分類的原因。布置給學生的任務是用爬蟲獲取網評,作傾向性分析。

評教文本分類統計后的結論是:將降維技術和支持向量機算法結合在評教模型的建立過程中,研究討論的主要內容有:①各個指標取不同值對分類的影響,這些指標主要集中在特征抽取和選擇、保留詞性和降維維數等幾方面;②對分詞后的文本進行特征選擇,篩去了詞頻數小于4的文本;③降維至30維,并適當設置SVM中的可變參數,找到合適的訓練一測試樣本的比例,最后綜合出一個現有條件下的最佳分類模型。

2.3葡萄酒成份數據挖掘系統

葡萄酒成份數據挖掘系統介紹數值數據的預處理和聚類2章內容。對葡萄酒成份的分析是根據所提供的酒中各成份的含量數據,采用聚類或分類的方法確定某種葡萄酒的種類,比如是紅葡萄酒、白葡萄酒還是甜葡萄酒。圍繞這個問題我們介紹了如下內容:

1)數值數據的預處理。

①介紹葡萄酒中各個屬性的含義和取值范圍;②講授數據的離散化技術,如等深、等寬、聚類技術;③講授本例中使用的m一估值計算對數值屬,1生的離散化技術;④講述本例中如何避免0值出現及去噪聲技術。

葡萄酒中各成份的含量數據如表2所示。

2)聚類。

在介紹聚類的基本知識和常用算法(如k均值、k中心點、DBSCAN技術)之后,講解了:①本課題使用的層次聚類算法。在測試結果時通過測試樣本和分類樣本的不同比例,對結果進行了對比。②講述了用樸素貝葉斯分類計數對這一問題的分類處理,同時對比了聚類和分類算法在同一問題上的結論差異。利用樸素的貝葉斯分類器可以完成預測目標,根據訓練樣本建立分類器,對待測樣本進行預測,準確率可達到90%以上。③引導學生思考對問題的處理可以聯合使用各種算法,并分析各種算法對結果的影響,從而找出解決問題的最佳方案。

2.4利用已知算法和實例講授Web挖掘技術

因特網規模龐大、結構復雜、動態變化性大,蘊含大量的信息。將Web上豐富的信息轉變成有用的知識正是Web挖掘的意義所在。用之前中文文本分類的方法引導學生在一些購物網站中下載對商品評論的中文文本,抽取特征詞,進行傾向性分析,使學生熟悉支持向量機的分類方法,分詞軟件的使用及文本挖掘的整個過程。

3.結語

文章在前期制定應用型本科生數據挖掘課程教學大綱的基礎上,針對數據挖掘課程內容多學科交叉的特點,在教學中提出淡化學科背景,注重算法應用與實踐,以客戶關系管理、葡萄酒數據分析、中文評教文本分類等實例作為授課內容主線,讓實例教學始終圍繞著典型的算法和前沿知識展開的教學方式。在今后的教學工作中,我們還應該不斷站在學科發展的前列,經常更新實例,使其更好地融入教學,將教與學有機統一,取得更好的教學效果。因此我們還有大量的工作需要探索研究。

參考文獻:

[1]宋成,李晉宏,項目驅動的數據挖掘教學模式探討[J],中國電力教育,2011(27):116-177.

[2]劉云霞,統計學專業本科生開設“數據挖掘”課程的探討[J],吉林工程技術師范學院學報,2010(6),20-22.

[3]徐金寶,對應用型本科生開設數據挖掘課程的嘗試[J],計算機教育,2007(7):27-29.

[4]高園園,呂慶文,數據挖掘課程的教學思考[J],醫學信息,2009,22(11):23-24.

第7篇

(武漢科技大學城市學院信息工程學部 湖北 武漢 430083)

摘 要:數據倉庫與數據挖掘是大數據時代產生的一門新興交叉的課程。針對該課程的特點,將CDIO工程教學理念融合到教學過程,重新設置了教學目標與大綱、調整了教學內容、改進了教學方法,總結了數據挖掘課程教學實踐的一般流程并給出具體的實驗教學設計方案。

關鍵詞 :教學改革;數據倉庫;數據挖掘;CDIO

中圖分類號:G642 文獻標識碼:A doi:10.3969/j.issn.1665-2272.2015.09.040

收稿日期:2015-03-15

1 CDIO簡介

CDIO工程教育模式是基于項目的學習的一種模式。CDIO中,C(Conceive)構思,根據工程實踐,讓學生掌握專業知識的基本原理,確定未來發展方向;D(Design)設計,以產品設計與規劃為核心,解決具體問題;I(Implement)執行,以制造為核心,組織一體化的課程實踐,其中包括學生必須掌握的理論知識與實踐能力;O(Operate)運作,即產品應用的各個環節。它以產品的研發到運行的生命周期為載體,通過系統的產品設計讓學生以主動的、實踐的、課程有機聯系的方式學習。CDIO代表工程項目生命全周期,是產業轉型升級對創新人才需求的形勢。

CDIO培養大綱將工程畢業生的能力分為技術知識與推理、個人專業能力和素質、團隊合作與溝通能力、在企業和社會環境下CDIO系統四個層面,大綱要求以綜合的培養方式達到這四個層面的預定目標。其精髓在于:以工程項目設計為導向、工程能力培養為目標的工程教育模式。

2 “數據倉庫與數據挖掘”課程概況

當今的大數據時代,人們處理數據的能力大大增強,快速增長的海量數據已經遠遠超出人們的理解能力,因此數據倉庫與數據挖掘技術得到了廣泛關注,有效地挖掘和運用海量數據,獲得有價值的知識和信息,從而幫助人們制定正確的決策。很多高校為工程類專業本科生開設這門專業課,研究如何將信息處理技術運用于企業管理決策的具體實際。

本工程課程涉及到數據倉庫的設計與構建技術、聯機分析處理OLAP技術、分類與預測、聚類、關聯規則算法、數據挖掘應用綜合項目技術等多方面的知識和技能。通過課程的學習,不僅要求學生掌握在數據倉庫與數據挖掘方面的知識,還要求培養學生的工程CDIO能力。

但是目前許多高校在工程教育采用的教學方式存在以下問題:培養目標不清楚,學術化傾向嚴重;人才培養模式單一,缺乏多樣性和適應性;工程性缺失和實踐環節薄弱;課程體系與產業結構調整不適應等。在教學過程中,強調教師的主導作用,卻忽視了學生的主體作用,忽視了學生的工程意識、工程素質和工程實踐能力的培養。這與高校培養創新性應用型人才的目標相悖。因此,改革勢在必行。

3 “數據倉庫與數據挖掘”課程改革實踐

3.1 基于CDIO理念的教學目標與大綱

CDIO教育理念所提倡的工程畢業生的能力分為技術知識與推理、個人專業能力和素質、團隊合作與溝通能力、在企業和社會環境下CDIO系統四個層面,四個層面上進行綜合培養的教學模式。在CDIO能力培養目標方面,課程在四個能力層面上建立培養目標。

針對“數據倉庫與數據挖掘概述”內容,知識點是數據倉庫的含義與特征、數據挖掘的任務、多維數據模型。講授數據倉庫的概念、特點、構成以及數據挖掘和數據處理的基本知識,使學生有一個初步的理解。培養學生技術知識與推理能力。

針對“聯機分析處理OLAP”內容,知識點是數據倉庫的數據組織、數據預處理、數據存儲、基于多維數據模型的數據分析。本階段如果不結合直觀的舉例講解,學生就失去了興趣,因此筆者要布置一些思考題,教會學生自主學習,自己查閱教材、網絡等資源資料,從中提煉出結論。培養個人分析問題、解決問題的能力、所學知識的靈活應用能力;

針對“分類與預測、聚類、關聯規則”內容,知識點是數據采集、關聯規則算法的設計、結果分析。在這個階段經常會是“數據的堆砌”,講了很廣泛的算法知識卻沒有足夠的時間進行深入理解。因此應抓住關鍵的概念、能力,引導學生提出問題,并學會調查研究,為學生提供深層學習的機會,并把在第一層面所學的知識運用到對問題的解決之中去。這樣,學習的焦點就從“覆蓋”的方式過渡到以學生為中心的學習方式。培養數據獲取能力、程序設計能力、問題表達能力;

針對“數據挖掘應用綜合項目”內容,知識點是項目的準備、進度管理、文檔管理和項目設計和實現。實際工作牽涉到企業或者組織的各個部門多類人員,所有團隊成員之間協同、合作,會有分工、溝通、協調,甚至會有妥協,這就要求在運用實例的過程中一定要具有團隊合作精神。培養工程系統能力和人際團隊能力。

3.2 改革教學內容

在教學內容中安排了兩級項目:多種初級項目和一個高級項目。初級項目是將課程內容分成各種項目,數據主要來源于SQL Server 2008的示例數據倉庫Adventure Works DW,以項目實現促進理論學習;高級項目是綜合性項目:“卷煙產品銷售規律挖掘”,利用卷煙產品歷史銷售數據中蘊含的信息,采用數據挖掘技術對各個卷煙品種銷售的關聯關系進行分析并預測,以制定更加合理的卷煙產品營銷策略。具體項目設置如下:

項目一:基于SQL Server 2008的數據倉庫數據庫及多維數據模型設計。步驟如下:分析組織的業務狀況及數據源結構組織需求調研,收集分析需求采用信息包圖法設計數據倉庫的概念模型利用星型圖設計邏輯模型物理模型設計構建多維數據模型。本項目旨在個人能力的培養(分析問題、解決問題的能力、所學知識的靈活運用能力等)。

項目二:關聯規則挖掘。使用商業智能開發工具進行購物籃分析,以達到重新設計網站功能,提高產品的零售量。

項目三:潛在客戶分析即分類及預測。使用商業智能開發工具分析購買自行車的潛在客戶。

項目四:K-Means聚類分析。使用商業智能開發工具分析客戶購買自行車情況分析。

項目五:貝葉斯網絡應用。使用商業智能開發工具解決一個簡單的預測和診斷問題。

項目二至五旨在培養學生個人能力(數據獲取能力、程序設計能力等)和人際團隊能力(問題表達能力、人際交流能力),倡導學生樂于探究、勤于動手。

高級項目:數據挖掘應用綜合項目“卷煙產品銷售規律挖掘”。將一個相對獨立的項目交由學生自己處理,從信息的收集,方案的設計,到項目實施及最終評價,都由學生自己負責,學生通過該項目的進行,了解并把握整個過程及每一個環節中的基本要求。通過綜合項目,學生完成了CDIO的四個階段,提升CDIO所提倡的四大能力,具體體現如表1所示。

3.3 改革教學方法

在課程教學方法是項目教學法為主,任務驅動法和案例教學法為輔的教學模式,起到很好的教學效果。

4 結語

CDIO工程教育模式由麻省理工學院和瑞典皇家工程學院提出,包括構思、設計、實現和運作四個環節,是國際流行的工程人才培養理念,強調對學生創新思維、實踐能力和團隊協作精神的培養。本文體現了CDIO理念的能力培養要求,將數據倉庫設計開發方法和數據挖掘技術融入具有較強工程背景與應用價值的項目設計與開發中,理論與實踐緊密結合,推動課程建設和課程教學改革。

參考文獻

1 顧佩華,沈民奮,陸小華譯.重新認識工程教育—國際CDIO培養模式與方法[M].北京:高等教育出版社,2009

2 郭長虹. 重構CDIO特色的工程圖學課程體系[J].圖文學報,2013(3)

3 王麗麗. CDIO視角下項目驅動法在“數據倉庫與數據挖掘”教學中的應用[J].電子商務,2013(9)

第8篇

關鍵詞:數據挖掘技術;應用型本科;理論教學;實驗教學

中圖分類號:G642 文獻標識碼:A 文章編號:1009-3044(2016)22-0148-02

1 引言

數據挖掘總是讓人覺得就是“高大上”、“深不可測”,而該領域當前主要是博士生、碩士生所研究的,另外,也只在一些研究生或重點大學的高年級的本科生中開設數據挖掘課程,在應用型本科院校中很少開設 [1]。

數據挖掘技術應用很廣,應用較好的領域、行業有:金融保險業、電信、市場營銷分析、醫學、體育、生物信息學(Bioinformatics)等方面[2]。在商業領域中,主要應用如:客戶細分、客戶獲得、公司風險管理、企業危機管理、欺詐行為檢測和異常模式的發現等;在計算機領域中,主要應用如:信息安全(入侵檢測,垃圾郵件的過濾)、互聯網信息挖掘、自動問答系統、網絡游戲(網絡游戲外掛檢測、免費用戶到付費用戶的轉化)等[3]。這一技術的廣泛應用,必然在相關的企業中迫切需求掌握這一技術的人才。所以,開設數據挖掘技術課程對于應用型本科來說是很有必要的。

但對于應用型本科來說,若是像重點本科院校或研究生課程那樣,在教學中以研究型為主,會導致學生的培養要求與教學內容的深度和廣度不適應,學生會感覺到學習得很吃力,而且他們今后工作中的需求與所學到的知識相差也較大。對于應用型本科的數據挖掘技術課程的內容的安排,不僅要反映出數據挖掘技術的特點及前沿,還應該結合學生的學習能力及興趣,也還需要綜合考慮本校該課程的學時分配、教學條件等,要具針對性,突出應用這一重點,目的是使學生能夠“學以致用”。

本文從應用型本科的實際出發,討論了數據挖掘課程的理論教學內容及方法、實驗教學內容及方法,使學生能夠掌握和應用所學的知識。

2 先導課程及課程的基本要求

先導課程有:程序設計語言、數據結構、數據庫技術、Web技術、概率論等[4]。必須深入學習一門程序設計語言,從計算機發展和應用角度,推薦學習C/C++和Java;對于“數據結構”課程,掌握樹的知識,數據挖掘中的很多算法都涉及樹的應用;對于“數據庫技術”課程,掌握數據庫操作和應用,因為數據挖掘的主要對象是數據庫中的數據;對于“Web技術”,因為Web已經存在于我們生活方方面面,對于Web挖掘相當重要,而且還具有巨大的應用價值;對于“概率統計”課程,要能夠熟練掌握其中的思維方式、條件概率以及各種分布,在數據挖掘中的關聯規則、分類預測等,都會涉及概率統計中的思維和方法。

課程的基本要求:①了解數據挖掘的重要性,了解國內外的發展的狀況及未來發展的方向;②掌握數據挖掘中的一些基本概念、經典算法及相關技術;③對于實際應用問題,能熟練地運用數據挖掘技術及工具解決;④為以后進一步深造或進行高級應用開發打下基礎。[5,6]

3 理論教學及方法

對于應用型本科生數據挖掘技術課程的教學,本人認為重要的是普及經典算法,若有多余時間,可以補充一些較難的算法。對于經典算法原理的講解,采取的是一步步地對小數據集案例進行算法演練,以具體化比較抽象的算法,對于算法的優缺點,采取課堂討論的方式,可以加深學生對算法的理解和吸收。本校的數據挖掘技術課程的理論教學是32個學時,課程的理論教學內容主要包括:

(1)緒論(4學時):①先舉幾個數據挖掘中有意思的例子。第一個:超市貨架的組織―“啤酒與尿布”;第二個:基于拐點變化的股票趨勢預測;第三個:網上購物―“定向營銷”;第四個:農夫山泉用大數據賣礦泉水;第五個:阿迪達斯的“黃金羅盤”;第六個:網易的“花田”―定制愛情。通過例子讓學生對數據挖掘有一個大致的認識,可以提起學生對學習本課程的興趣,也讓學生了解到目前的數據挖掘已經發展到何種程度。②講解KDD與數據挖掘相關概念。③數據挖掘對象:關系數據庫、數據倉庫、事務數據庫、空間數據庫、時態和時間序列數據庫、文本數據、萬維網數據、流數據等等。④數據挖掘的方法與相關領域:分類預測型和描述型,通過例子簡單介紹聚類、關聯規則、分類算法的概念、應用領域等,使學生對要學習的算法有大致的認識。⑤數據挖掘軟件與應用系統:介紹數據挖掘軟件:IBM Intelligent Miner、SPSS Clementine、Microsoft SQL Server 2008 Data Mining、Weka;數據挖掘應用系統:介紹在商業領域和計算機領域的應用。

(2)數據預處理(2學時):先對數據進行概述,包括:數據集的三個特性:維度、稀疏性和分辨率,它們對數據挖掘技術具有重要影響;數據挖掘中一些很常見的數據集的類型:記錄數據、基于圖形的數據和有序的數據。然后分別詳細介紹數據預處理的主要任務:①數據清理;②數據集成;③數據變換;④數據歸約;⑤數據概念分層與離散化。每一項任務舉例講解。

(3)關聯規則(6學時):主要介紹關聯規則的相關概念、關聯規則的經典算法Apriori及它的改進算法FP_Tree、規則的產生,簡單介紹多級關聯規則和多維關聯規則、非二元屬性的關聯規則、關聯規則的評估(提升度(lift) /興趣因子的計算)等。

(4)聚類(6學時):主要介紹聚類的概念及距離的計算(歐氏距離、曼哈頓距離、明可夫斯基距離)、基于劃分的聚類算法(基本K-means聚類算法及其拓展、PAM算法)、層次聚類算法(凝聚的層次聚類算法AGNES、分裂的層次聚類算法DIANA)、基于密度的聚類算法(DBSCAN);簡單介紹層次聚類方法的改進―BIRCH算法、CURE算法以及聚類算法評價。

(5)分類和預測(10學時):①決策樹(4學時):主要講解決策樹的概念、信息論、ID3算法和C4.5算法。②貝葉斯分類(2學時):主要講解貝葉斯定理及樸素貝葉斯分類算法。③人工神經網絡(4學時):主要介紹人工神經網絡的概念及單感知器模型,簡單介紹BP神經網絡。

(6)數據挖掘模型的評估(2學時):簡單介紹模型的過擬合、沒有天生優越的分類器、模型選擇和模型評估、評估分類器或預測器的準確率――簡單劃分和交叉驗證、數據挖掘模型評估的錯誤觀念。

對于9個需主要介紹的經典算法的講解,如Apriori算法,先介紹算法的流程,然后通過超市購物籃的一個小數據集一步步地進行算法的演練,得出頻繁項集,如下圖所示:

又如決策樹算法和樸素貝葉斯分類算法,通過如下所示的關于動物的數據集,一步步地進行相關算法的演練,通過建立決策樹或計算概率問題,判斷一個未知的動物X={1,0,0,1,?}是否會生蛋。

對于算法的優缺點,在講解完算法的過程之后,采取課堂討論的方式,與學生共同分析總結算法好在哪里,不足又在哪里,學生通過參與,可以加深對算法的理解與掌握。

4 實驗教學及方法

對于應用型本科的學生來說,采用Weka進行算法編寫是不切實際的,實驗教學工具建議采用目前一些主流的數據挖掘軟件,如 SPSS Clementine或 Microsoft SQL Server 2008 Data Mining等[7]。這些軟件都具有必需的數據預處理工具及預設的挖掘算法,學生可以把注意力放在要挖掘的數據及要相關需求上,設定挖掘的主題,然后采用這些軟件完成相關主題的數據挖掘過程,這樣也可以積累一定的處理實際挖掘問題的實戰經驗,今后碰到項目時也可知道從何處下手。

本校的數據挖掘技術課程的實驗教學是8個學時,共兩次上機,采用Microsoft SQL Server 2008 Data Mining對Adventure Works DW 2008R2 示例數據庫進行數據挖掘。課程的實驗教學內容主要包括:

實驗一:SQL Server 2008 數據多維分析環境的建立;

實驗二:關聯規則挖掘方法;

實驗三:決策樹挖掘方法;

實驗四:聚類挖掘方法。

為了讓學生更好地進行實踐動手,在教學中分兩步:第一步,具體的操作步驟的講解,由老師進行;第二步,學生上機并詳細的分析挖掘結果,要求學生熟悉使用Microsoft SQL Server 2008進行數據挖掘的步驟,以及幾種常用的算法的挖掘過程:包括創建數據源、創建數據源視圖、創建挖掘結構(主要參數的設置)、處理和瀏覽挖掘模型。如關聯規則,要求學生分析挖掘的模型,找出有價值的規則出來。

5 結論

為迎接大數據時代帶來的互聯網經濟機遇,很有必要同時也是時代迫使在應用型本科中開設數據挖掘課程。對這一類學校的教學也是一個挑戰,需要老師們在教學過程中不斷摸索和改進。在教學過程中,需要針對應用型本科生的學習能力、知識結構,設計好教學內容并采用適當的教學方法,從而使學生對學習的內容感興趣,改進課堂教學效果,以提高學生實際動手能力,使學生對數據挖掘課程的整體結構、基本概念、經典算法有較深入理解和掌握,最終達到教學目的。

參考文獻:

[1] 徐金寶.對應用型本科生開設數據挖掘課程的嘗試[J].計算機教育,2007(14):27-29,57.

[2] 李姍姍,李忠. 就業需求驅動下的本科院校數據挖掘課程內容體系探討[J].計算機時代,2015(1):60-61,64.

[3] 張艷.大數據背景下的數據挖掘課程教學新思考[J].計算機時代,2014(4):59-61.

[4] 李忠,李姍姍. 應用型本科院校IT專業數據挖掘課程建設[J].計算機時代,2014(11):65-69.

[5] 張增平,喬曉華. 針對應用型本科生數據挖掘課程的教學實踐[J].內蒙古財經大學學報,2015,13(4):132-137.

第9篇

[關鍵詞] 經濟與管理;本科生;數據挖掘;教學探索

[中圖分類號] G642.3 [文獻標識碼] A [文章編號] 1005-4634(2013)04-0082-03

0 引言

數據挖掘技術能從大量數據中發現和學習有價值的和隱藏的知識,因而近年來在國內外受到極大重視,在電信業、零售業和銀行業等生產大數據的行業中正獲得越來越廣泛的應用[1]。因此,近幾年數據挖掘這門課程已越來越多的走進了高校課堂。但是,數據挖掘又是一門綜合性較強的交叉學科,它涉及到統計學、數據庫技術、數據倉庫、人工智能、機器學習和數據可視化等學科知識,對學生的專業知識背景和前期所學課程有較高的要求,這在一定程度上限制了數據挖掘作為一門既有理論價值又有實踐價值的學科的應用和推廣。筆者結合自己的教學實踐研究經管類專業本科生開設數據挖掘課程的教學探索。

1 經管類專業本科生開設數據挖掘課程的必要性和可行性分析

從經管類各專業的培養目標角度分析。以南京郵電大學經管類專業為例,該專業包含信息管理與信息系統、電子商務、市場營銷、經濟學和工商管理等專業,這些專業的培養計劃都把培養學生具備市場分析、經營和管理決策能力作為專業的基本培養要求之一。數據挖掘作為商務智能的核心技術,是輔助管理者進行決策分析的有效工具,在激烈的商業競爭中發揮的作用越來越大。因此,為經管類專業本科生開設數據挖掘課程可以更好地實現專業培養目標。

從經管類專業本科生的就業角度分析。經管類專業本科生畢業后,有相當一部分同學會從事營銷崗位或者信息管理、網站設計與維護等技術崗位。對于從事營銷崗位的同學來說,由于現在的市場營銷概念已經發展到精細營銷理念,即企業恰當而貼切地對自己的市場進行細分,對各種客戶群進行深入的分析和定位,并根據不同的客戶群特點,采取精耕細作式的營銷操作方式,將市場做深做透,進而獲得預期效益。數據挖掘技術是實現精細營銷的重要工具;對于從事技術崗位的同學來說,學習數據挖掘課程,掌握數據挖掘的思想和方法對培養學生的系統思維和解決實際問題的能力、提高學生的信息素養很有必要。因此,學習數據挖掘課程對學生未來的工作也是非常有幫助的。

數據挖掘是一門交叉學科,課程理論性強,且對學生的計算機基礎要求較高。經管類專業只有信息管理與信息系統、電子商務兩個專業開設了較多的計算機課程。但是所有經管類專業都開設了統計學必修課程和數據庫原理與應用必修或選修課程,這兩門課程是數據挖掘的核心。因此,適當地調整教學目標,將數據挖掘作為一門選修課程為經管類專業本科學生開設是完全可行的。

2 教學過程中存在的問題

筆者在為經管類專業本科生開設數據挖掘課程的過程中,往往遇到兩個問題。

1)課程較強的理論性與學生知識結構缺陷之間的矛盾問題。數據挖掘這門課程涵蓋了統計學、數據庫原理、機器學習、信息論和時間序列等眾多內容,課程教材中有較多的公式推導和算法分析,因此課程的理論性較強。然而,經管類專業本科生之前只是學習了統計學和數據庫原理與應用兩門課程,機器學習等其他課程知識均沒有涉及到,因此在學習數據挖掘課程時會感到內容難度較大,障礙較多[2]。

2)理論教學與實驗教學學時合理分配的問題。由于數據挖掘課程通常是作為選修課安排在經管類專業本科生培養計劃中,總學時數相比學位課程要少,只有32學時。正如前文所述,這門課程包含的內容多、難度大,因此必須要保證足夠的理論教學學時數量。同時,數據挖掘又是一門應用性較強的課程,特別是對于經管類專業本科生來說,一定要安排足夠的實驗教學學時,讓學生在實踐中提高分析問題和解決問題的能力。在較少的總學時約束條件下,如何合理地分配理論教學學時和實驗教學學時是課程教學遇到的又一個問題。

針對經管類專業本科生開設數據挖掘課程時遇到的矛盾問題,將這門課程的教學目標確定為:掌握數據挖掘基本流程和經典算法的基本原理,熟練運用數據挖掘軟件工具,分析和解決商業應用問題。課程教學目標指出,為經管類專業本科生開設數據挖掘課程的目的是培養學生利用數據挖掘這種工具去分析和解決商業應用問題的能力,而不是要求學生具備數據挖掘算法設計能力。因此,對于經管類專業本科生來說,實驗教學和理論教學同等重要。在課程教學大綱中應將理論教學學時和實驗教學學時設置為各16個學時。

3 教學內容設計

用16個學時來介紹數據挖掘課程的理論知識點,這就要求教師能夠為經管類專業本科生精心挑選知識點,“量身定做”教學內容。

1)以應用為目的設計教學內容。根據經管類專業本科生數據挖掘課程的教學目標,本門課程在教學過程中應注重培養學生應用數據挖掘分析問題和解決問題的能力,這就要求教師能夠圍繞數據挖掘的整個應用過程來安排教學內容。數據挖掘的應用過程包括數據收集、數據預處理、模型構建和知識評價四個主要步驟。數據收集步驟是指準備數據挖掘的對象——數據源,有的數據源是一個數據文件或者是數據庫中的一張關系表,但對于具體的商業應用來說,數據源往往是來源于同一個或不同數據庫中的多張關系表,或者是多個數據文件,這時需要對數據源進行集成,甚至是構建數據倉庫;數據預處理步驟是指通過數據清洗、數據集成、數據變換和數據歸約等操作為數據挖掘任務提供干凈、準確和簡潔的數據,提高數據挖掘效率和挖掘結果的質量,它是數據挖掘中非常重要的環節;模型構建步驟是指選用數據挖掘算法在預處理后的數據集上構建挖掘模型的過程,關聯、分類、聚類和回歸分析是數據挖掘中四個主要的挖掘任務,每個挖掘任務又對應了多個挖掘算法;知識評價步驟是指采用各種統計指標對挖掘結果進行評價,以發現有價值的知識。由于不同挖掘算法得出的挖掘結果表現形式不同,知識評價應針對具體挖掘算法進行,因此知識評價步驟要安排在每個挖掘算法介紹完之后。

2)重點介紹經典算法。針對經管類專業本科生在學習數據挖掘課程時感到內容難度較大這一問題,且考慮到課程的理論授課學時有限,筆者對原有的數據挖掘內容進行了適當的精簡。數據挖掘包含數十種挖掘算法,刪除復雜和難度大的數據挖掘算法,針對每種挖掘任務重點介紹其經典算法。例如,關聯挖掘中的Apriori算法,實現分類挖掘的決策樹算法,實現回歸分析的最小二乘法以及聚類分析的k-means算法。對于神經網絡、貝葉斯分類、時間序列挖掘和Web數據挖掘等難度較大或內容拓展性算法,在介紹相關章節時略提一下,并鼓勵有興趣的學生在課余時間自學。

3)增加商業案例。數據挖掘是一門技術性較強的課程,一般的教材往往注重理論,相關案例較少,因而不容易激發學生的學習熱情[3]。為了幫助經管類專業本科生增加對課程中各種挖掘任務的感性認識,同時也是為了激發學生對本門課程的學習興趣,筆者在講授過程中增加了若干關于數據挖掘的幽默故事、經典案例和在各行業中的應用案例,通過分析案例加深學生對算法應用的理解。例如,在介紹關聯挖掘任務時給學生們引入“啤酒與尿布”的故事;在介紹分類挖掘任務時講解客戶流失分析的應用案例;在介紹聚類挖掘任務時分析客戶細分的應用案例。

基于上述分析,筆者為經管類專業本科生開設的數據挖掘課程教學內容具體如下。

第一章為緒論,主要是對數據挖掘技術作概括性描述,讓學生對數據挖掘定義、與數據倉庫的關系、研究熱點以及發展趨勢形成感性認識。本章內容分配2個理論教學學時。

第二章為數據倉庫,主要內容包括數據倉庫的定義與特征、數據倉庫的數據組織、數據模型、總體結構和設計等原理性知識點,以及聯機分析處理(OLAP)的基本概念和分析操作等基本知識。本章內容分配2個理論教學學時。

第三章為數據預處理,主要介紹數據清洗、數據集成、數據轉換以及數據歸約等數據預處理的基本步驟和常見方法。本章分配3個理論教學學時。

第四章至第七章圍繞數據挖掘的4個重要任務——關聯、分類、聚類和回歸分析,在介紹每種挖掘任務基本概念的基礎上,重點介紹經典算法的基本原理和挖掘結果評價方法,以及每個挖掘任務在具體行業的應用案例。第四章至第六章每章內容分別分配3個理論教學學時,第七章內容分配2個學時。

4 實驗項目設計

數據挖掘是一門與實際應用結合緊密、實踐性較強的課程。為了加深學生對數據挖掘理論知識點的理解,鍛煉和提高學生的實際動手能力,必須結合實驗進行教學。數據挖掘課程的理論教學和實驗教學構成一個完整的整體,缺一不可[4]。實驗教學要充分調動學生的主動積極性,而不是簡單地讓學生進行驗證式的操作實驗或僅僅局限于機械地使用、熟悉某種軟件工具。

筆者針對課程知識點設計了4個實驗項目,每個實驗項目分配4個實驗學時。

第一個實驗項目為數據倉庫構建,實驗軟件是SQL Server 2000,它提供了一套完全的數據庫和數據分析解決方案,其中的Analysis Service 組件支持數據倉庫的創建和應用,并提供OLAP聯機分析操作。構建數據倉庫的數據源來自SQL Server 2000的樣例數據庫Northwind,Northwind是一家虛構的公司,從事世界各地的特產食品進出口貿易。Northwind數據庫包含有這家公司的銷售數據,數據內容多,數據量大,數據結構貼近企業的真實數據,符合實驗要求[5]。實驗包含4個步驟:(1)理解業務數據,確定分析主題。Northwind數據庫中的表非常多,需要理清各關系表的內容及其相互間的關聯,在此基礎上確定感興趣的主題;(2)圍繞分析主題,將主題相關的關系表通過企業管理器中的DTS進行清洗和轉換,為數據倉庫提供合適的數據;(3)使用Analysis Server向導,建立多維數據集;(4)基于構建好的多維數據集,對數據進行切片、切塊、鉆取、聚合和旋轉等各種OLAP分析操作。

第二至第四個實驗項目均是基于Clementine12.0等數據挖掘工具,通過構建數據挖掘模型分析具體商業問題。其中,第二個實驗項目為關聯挖掘的綜合實踐,要求學生運用關聯挖掘經典算法Apriori分析移動產品交叉銷售;第三個實驗項目為分類挖掘的綜合實踐,要求運用決策樹算法進行電信客戶流失分析;第四個實驗項目為聚類挖掘的綜合實踐,要求運用聚類經典算法K-means進行電信客戶細分分析。上述三個綜合實驗項目都要求學生首先能夠分析具體應用問題,然后進行數據預處理、構建數據挖掘模型,并對挖掘結果進行分析和討論,以鍛煉學生數據挖掘的思維體系和數據分析能力。

5 教學方案實施

在教學方案實施過程中,著重營造活躍的課堂教學氛圍,重視對課后作業的指導,以期提高課堂教學效果。考慮到經管類專業本科生的知識背景和本門課程的特點,在每次課堂上都會拋出一個思考題,要求學生們運用所學理論聯系身邊實際展開討論。例如,在介紹完第一章后設計了一個討論題:如何運用數據挖掘幫助電信企業提高競爭優勢?學生討論得很熱烈,也得出了多個答案。由于本門課程課堂講授學時較少,為了幫助學生復習、鞏固及應用所學內容,課程每章節后都安排了課外作業,并就其中的難點進行指導和講解。實驗過程中,著重培養學生的獨立性和數據分析能力。首先向學生講授清楚實驗具體要求和注意事項,然后放手讓學生自己去做,遇到問題先鼓勵學生自己思考解決,實在有困難再稍加指點。實驗結束后,要認真分析實驗結果,完成實驗報告。選擇實驗數據時要考慮到數據是否符合現實情況且能夠突出所分析的問題。除實驗以外,其它實驗項目均采用SPSS產品培訓過程中所用的相關數據,數據量大小適中,適合在實驗課上使用,而且這些數據與真實數據的差異小,有助于提高學生解決現實問題的能力。數據挖掘課程的教學方案已實踐了5年,其間不斷進行經驗總結和探索,無論從近幾年選修本門課程的學生人數還是從課堂上學生的反映和學習氣氛看,本門課程都取得了很好的課堂教學效果。

6 結束語

數據挖掘作為一門技術性和應用性較強的課程,對優化經管類專業本科學生的知識結構、擴展學生的專業應用領域有著重要的作用。筆者結合自己的教學經驗,對經管類專業本科生數據挖掘課程的教學內容和實驗環節等方面進行了積極的教學探討和實踐,學生反映非常好。在今后的教學工作中,要不斷實踐,不斷總結,進而不斷改進和提高數據挖掘課程的教學質量。

參考文獻

[1]劉云霞.統計學專業本科生開設“數據挖掘”課程的探討[J].吉林工程技術師范學院學報,2010,26(6):20-22.

[2]李志勇,王翔,喻軍.信息管理專業數據挖掘課程教學探討[J].管理工程師,2012,(4):66-68.

[3]劉昆宏.淺談本科階段數據挖掘課程設置[C]//In Proceedings of 2010 Third International Conference on Education Technology and Trainning,Wuhan,2010:4-5.

相關文章
相關期刊
主站蜘蛛池模板: 成人欧美一区二区三区视频 | 毛片区 | 国产一级片在线 | 国产成人www免费人成看片 | 日韩视频精品在线 | 欧美精品一区二区三区免费 | 丁香婷婷六月天 | 亚洲精品天堂在线观看 | 四虎影视精品永久免费网站 | 久久狠狠色噜噜狠狠狠狠97 | 日韩精品在线观看视频 | 久久久一区二区三区 | 黄视频免费在线观看 | 欧美婷婷色 | 成年人国产网站 | 中文字幕日本亚洲欧美不卡 | 一级毛片不收费 | 色综合久久综合网 | 国产成人精品日本亚洲语音2 | 欧美亚洲视频一区 | 精品区在线观看 | 日本无卡码免费一区二区三区 | 日韩欧美一区在线观看 | 99re久久在热线播放最新地址 | 中文字幕久久久久久精 | 五月花在线视频 | 国产一级理仑片日本 | 国产精品久久久久久久牛牛 | 免费二级c片在线观看a | 九九精品视频在线 | 爱插综合网 | 99re久久 | 久久免费手机视频 | 精彩视频一区二区三区 | 四虎精品成在线播放 | 狠狠色丁香久久综合五月 | 99在线免费观看视频 | 青草国内精品视频在线观看 | 国产精品男人的天堂 | 久久精品视频播放 | 免费视频不卡一区二区三区 |