五月激情开心网,五月天激情社区,国产a级域名,婷婷激情综合,深爱五月激情网,第四色网址

數據挖掘技術探討論文優選九篇

時間:2022-04-17 04:04:38

引言:易發表網憑借豐富的文秘實踐,為您精心挑選了九篇數據挖掘技術探討論文范例。如需獲取更多原創內容,可隨時聯系我們的客服老師。

數據挖掘技術探討論文

第1篇

統計學論文2000字(一):影響民族院校統計學專業回歸分析成績因素的研究論文

摘要:學習成績是評價學生素質的重要方面,也是教師檢驗教學能力、反思教學成果的重要標準。利用大連民族大學統計學專業本科生有關數據(專業基礎課成績、平時成績和回歸分析期末成績),建立多元線性回歸模型,對影響回歸分析期末成績的因素進行深入研究,其結果對今后的教學方法改進和教學質量提高具有十分重要的指導意義。

關鍵詞:多元線性回歸;專業基礎課成績;平時成績;期末成績

為了實現教學目標,提高教學質量,有效提高學生學習成績是很有必要的。我們知道專業基礎課成績必定影響專業課成績,而且平時成績也會影響專業課成績,這兩類成績與專業課成績基本上是呈正相關的,但它們之間的關系密切程度有多大?它們之間又存在怎樣的內在聯系呢?就這些問題,本文主要選取了2016級統計專業50名學生的四門專業基礎課成績以及回歸分析的平時成績和期末成績,運用SPSS統計軟件進行分析研究,尋求回歸分析期末成績影響因素的變化規律,擬合出關系式,從而為強化學生的后續學習和提高老師的教學質量提供了有利依據。

一、數據選取

回歸分析是統計專業必修課,也是統計學中的一個非常重要的分支,它在自然科學、管理科學和社會、經濟等領域應用十分廣泛。因此研究影響統計學專業回歸分析成績的相關性是十分重要的。

選取了統計專業50名學生的專業基礎課成績(包括數學分析、高等代數、解析幾何和概率論)、回歸分析的平時成績和期末成績,結合多元線性回歸的基礎理論知識[1-2],建立多元回歸方程,進行深入研究,可以直觀、高效、科學地分析各種因素對回歸分析期末成績造成的影響。

二、建立多元線性回歸模型1及數據分析

運用SPSS統計軟件對回歸分析期末成績的影響因素進行研究,可以得到準確、科學合理的數據結果,全面分析評價學生考試成績,對教師以后的教學工作和學生的學習會有較大幫助。自變量x1表示數學分析成績,x2表示高等代數成績,x3表示解析幾何成績,x4表示概率論成績,x5表示平時成績;因變量y1表示回歸分析期末成績,根據經驗可知因變量y1和自變量xi,i=1,2,3,4,5之間大致成線性關系,可建立線性回歸模型:

(1)

線性回歸模型通常滿足以下幾個基本假設,

1.隨機誤差項具有零均值和等方差,即

(2)

這個假定通常稱為高斯-馬爾柯夫條件。

2.正態分布假定條件

由多元正態分布的性質和上述假定可知,隨機變量y1服從n維正態分布。

從表1描述性統計表中可看到各變量的平均值1=79.68,2=74.66,3=77.22,4=78.10,5=81.04,1=75.48;xi的標準差分別為10.847,11.531,8.929,9.018,9.221,y1的標準差為8.141;有效樣本量n=50。

回歸分析期末成績y1的多元回歸模型1為:

y1=-5.254+0.221x1-0.4x2+0.154x3

+0.334x4+0.347x5

從表2中可以看到各變量的|t|值,在給定顯著水平?琢=0.05的情況下,通過t分布表可以查出,自由度為44的臨界值t?琢/2(44)=2.015,由于高等代數x2的|t|值為0.651小于t?琢/2(44),因此x2對y1的影響不顯著,其他自變量對y1都是線性顯著的。下面利用后退法[3]剔除自變量x2。

三、后退法建立多元線性回歸模型2及數據分析

從模型1中剔除了x2變量,多元回歸模型2為:

y1=-5.459+0.204x1+0.149x3+0.377x4+0.293x5(5)

在表4中,F統計量為90.326,在給定顯著水平?琢=0.05的情況下,查F分布表可得,自由度為p=4和n-p-1=45的臨界值F0.05(4,45)=2.579,所以F>F0.05(4,45),在表5中,所有自變量的|t|值都大于t?琢/2(45)=2.014,因此,多元回歸模型2的線性關系是顯著的。

四、結束語

通過對上述模型進行分析,即各個自變量對因變量的邊際影響,可以得到以下結論:在保持其他條件不變的情況下,當數學分析成績提高一分,則回歸分析成績可提高0.242分[4-5];同理,當解析幾何成績、概率論成績和平時成績每提高一分,則回歸分析成績分別提高0.149分、0.377分和0.293分。

通過對學生專業基礎課成績、平時成績與回歸分析期末成績之間相關關系的研究,一方面有利于教師把控回歸分析教學課堂,提高教師意識,注重專業基礎課教學的重要性,同時,當學生平時成績不好時,隨時調整教學進度提高學生平時學習能力;另一方面使學生認識到,為了更好地掌握回歸分析知識,應加強專業基礎課的學習,提高平時學習的積極性。因此,通過對回歸分析期末成績影響因素的研究能有效的解決教師教學和學生學習中的許多問題。

統計學畢業論文范文模板(二):大數據背景下統計學專業“數據挖掘”課程的教學探討論文

摘要:互聯網技術、物聯網技術、云計算技術的蓬勃發展,造就了一個嶄新的大數據時代,這些變化對統計學專業人才培養模式的變革起到了助推器的作用,而數據挖掘作為拓展和提升大數據分析方法與思路的應用型課程,被廣泛納入統計學本科專業人才培養方案。本文基于數據挖掘課程的特點,結合實際教學經驗,對統計學本科專業開設數據挖掘課程進行教學探討,以期達到更好的教學效果。

關鍵詞:統計學專業;數據挖掘;大數據;教學

一、引言

通常人們總結大數據有“4V”的特點:Volume(體量大),Variety(多樣性),Velocity(速度快)和Value(價值密度低)。從這樣大量、多樣化的數據中挖掘和發現內在的價值,是這個時代帶給我們的機遇與挑戰,同時對數據分析技術的要求也相應提高。傳統教學模式并不能適應和滿足學生了解數據處理和分析最新技術與方法的迫切需要。對于常常和數據打交道的統計學專業的學生來說,更是如此。

二、課程教學探討

針對統計學本科專業的學生而言,“數據挖掘”課程一般在他們三年級或者四年級所開設,他們在前期已經學習完統計學、應用回歸分析、多元統計分析、時間序列分析等課程,所以在“數據挖掘”課程的教學內容選擇上要有所取舍,同時把握好難度。不能把“數據挖掘”課程涵蓋了的所有內容不加選擇地要求學生全部掌握,對學生來說是不太現實的,需要為統計學專業本科生“個性化定制”教學內容。

(1)“數據挖掘”課程的教學應該偏重于應用,更注重培養學生解決問題的能力。因此,教學目標應該是:使學生樹立數據挖掘的思維體系,掌握數據挖掘的基本方法,提高學生的實際動手能力,為在大數據時代,進一步學習各種數據處理和定量分析工具打下必要的基礎。按照這個目標,教學內容應以數據挖掘技術的基本原理講解為主,讓學生了解和掌握各種技術和方法的來龍去脈、功能及優缺點;以算法講解為輔,由于有R語言、python等軟件,學生了解典型的算法,能用軟件把算法實現,對軟件的計算結果熟練解讀,對各種算法的改進和深入研究則不作要求,有興趣的同學可以自行課下探討。

(2)對于已經學過的內容不再詳細講解,而是側重介紹它們在數據挖掘中的功能及綜合應用。在新知識的講解過程中,注意和已學過知識的融匯貫通,既復習鞏固了原來學過的知識,同時也無形中降低了新知識的難度。比如,在數據挖掘模型評估中,把混淆矩陣、ROC曲線、誤差平方和等知識點就能和之前學過的內容有機聯系起來。

(3)結合現實數據,讓學生由“被動接收”式的學習變為“主動探究”型的學習。在講解每種方法和技術之后,增加一個或幾個案例,以加強學生對知識的理解。除了充分利用已有的國內外數據資源,還可以鼓勵學生去搜集自己感興趣的或者國家及社會大眾關注的問題進行研究,提升學生學習的成就感。

(4)充分考慮前述提到的三點,課程內容計劃安排見表1。

(5)課程的考核方式既要一定的理論性,又不能失掉實踐應用性,所以需要結合平時課堂表現、平時實驗項目完成情況和期末考試來綜合評定成績。采取期末閉卷理論考試占50%,平時實驗項目完成占40%,課堂表現占10%,這樣可以全方位的評價學生的表現。

三、教學效果評估

經過幾輪的教學實踐后,取得了如下的教學效果:

(1)學生對課程的興趣度在提升,課下也會不停地去思考數據挖掘有關的方法和技巧,發現問題后會一起交流與討論。

(2)在大學生創新創業項目或者數據分析的有關競賽中,選用數據挖掘方法的人數也越來越多,部分同學的成果還能在期刊上正式發表,有的同學還能在競賽中取得優秀的成績。

(3)統計學專業本科生畢業論文的選題中利用數據挖掘有關方法來完成的論文越來越多,論文的完成質量也在不斷提高。

(4)本科畢業生的就業崗位中從事數據挖掘工作的人數有所提高,說明滿足企業需求技能的人數在增加。繼續深造的畢業生選擇數據挖掘研究方向的人數也在逐漸增多,表明學生的學習興趣得以激發。

教學實踐結果表明,通過數據挖掘課程的學習,可以讓學生在掌握理論知識的基礎上,進一步提升分析問題和解決實際問題的能力。

第2篇

討論如何在圖書館個性化推薦中應用網絡數據挖掘,并具體對社會網絡分析的應用進行了深

入分析,提出了具體算法。

網絡數據挖掘又稱Web數據挖掘,是數據挖掘技術在網絡信息處理中的應用,從與網絡相關的資源和行為中抽取感興趣的、有用的模式和隱含信息,是從Web網站的數據中發掘關系和規則。其挖掘對象是大量、異質、分布的Web文檔,可以對數據庫、Web服務器上的日志、讀者信息等數據展開挖掘工作。同時,由于Web在邏輯上是一個由文檔節點和超鏈接構成的圖,因此Web挖掘所得到的模式可能是關于Web內容的,也可能是關于Web結構的,或者是關于用戶行為模式的1。通過網絡數據挖掘對每個用戶的訪問行為、頻度、和內容等進行分析,能提取出每個用戶的特征,給每個用戶個性化的界面,提供個性化的Web信息服務。

本文以中國知網(CNKI)總庫為統計源,以主題“We數據挖掘”、“網絡數據挖掘”搜索到國內近六年的論文數量,從中可以看出相關領域的研究從2007年開始呈逐年上升趨勢,2009年達到峰值后,逐年有所下降。具體數據如表2所示:

根據對這些文章內容的分析,研究網絡數據挖掘算法及其實現的占大多數,國內關于網絡數據挖掘在圖書館的應用研究不多,大多是作為電子商務中數據挖掘研究的一部分。網絡數據挖掘在圖書館中的應用主要表現在以下幾個方面:

(1)圖書推薦系統。這類系統主要通過日志挖掘讀者的借閱習慣,推測讀者的閱讀需求,從而為不同興趣的讀者提供相應的推薦內容。這種個性化推薦系統能夠較好地把握讀者需求,通過聚類和關聯規則為讀者推薦借閱過的相似圖書或可能需要的其他文獻。但它的缺點在于,推薦的相似圖書,讀者已經借閱過,再借閱的幾率不大。因此,這個研究的重點和難點在使用的挖掘算法上2。

(2)網絡學習平臺。現代圖書館越來越重視讀者的學習需求,從而推出各種學習服務3。這類應用主要是針對網絡學習中的學習資源的挖掘。因為在圖書館提供的虛擬學習平臺中,資源是龐大的,而讀者的精力有限,同時每個人的興趣不同,需要對不同的讀者組織不同的教育資源。而網絡數據挖掘在其中所起的重要作用就是對讀者的借閱和瀏覽行為進行挖掘分析,根據分析結果為讀者匹配學習資源。

(3)文獻檢索系統。網絡數據挖掘技術也常見于文獻檢索系統的應用中,圖書館資源包含大量的文本、期刊、視頻等。讀者常常需要通過檢索才能獲取自己想要的信息,使用網絡數據挖掘也是為讀者提供高效獲取信息的方式。

由以上分析看出,網絡數據挖掘在圖書館中應用的主要目的就是為讀者找到所需資源,滿足讀者的個性化需求。下面我們就針對網絡數據挖掘在圖書館個性化推薦中的應用進行探討。

1、 圖書館個性化推薦常用分析方法

1.1聚類算法

通常說來,許多圖書館的讀者建模方法是基于統計的,即對所有讀者的統計數據(比如基于平均值)進行分析。這樣的后果是對讀者的個性化行為視而不見,影響了讀者專業性和個性化需求,忽略了隱含的讀者信息的價值。而讀者聚類建模,則是把一類讀者聚集起來,分析他們的特性并對這類讀者建模,在建模質量相同或接近的條件下,聚類建模所需的數據量將遠遠低于對單個讀者建模的數據量,因為分類中的每個讀者(知識背景和生活閱歷貢獻具有很大的相似度)都貢獻了其數據。常用聚類算法如表3。

1.2 社會網絡分析

社會網絡分析已經有相當長的一段歷史了,近60年來,相關研究人員做了大量的研究,由Brin和Page等人提出的PageRank算法,以及由Kleinberg說提出來的HITS算法開創了將社會網絡研究應用在Web范疇的先河。這兩種算法都來源于社會網絡分析,都利用了網頁的超鏈接結構并依據網頁的“威望”或者“權威”級別來對網頁進行分級排序。這在搜索引擎中得到了廣泛的運用。圖書館也同樣存在著這樣的社會網絡關系,這種關系主要通過讀者瀏覽和獲取文獻行為體現。這種關系和活動可以用網絡或圖來表示,其中,每一個頂點(結點)用來表示一個讀者,而一條邊的連接用來表示兩個讀者之間的關系。利用網絡圖我們可以研究該網絡的結構特征,以及每個讀者威望性、中心性等屬性。同時從中我們也可以找到各種類型的子圖,即社區。

2、 基于網絡數據挖掘的圖書館個性化推薦分析

2.1基于K-means聚類推薦分析

圖書館讀者聚類可以通過兩種方式進行聚類,建立二維推薦模型,即:查詢聚類和借閱聚類。在此,只要實現查詢信息和借閱信息的高效率、高準確率的自動分類,然后根據讀者興趣模型匹配,就可以完成其推薦過程。自動分類信息可以采用K-均值聚類算法實現,并根據圖書館相關信息結構的特點,對算法本身加以改進。具體流程如圖1。

2.2 基于PageRank社會網絡分析

在圖書館借閱場景下,讀者瀏覽和借閱行為反應了讀者的需求。PageRank算法關鍵在于測度每個對象的隨機訪問概率。我們假定讀者借閱史就是讀者推薦書目單,反應了讀者對于圖書的認可程度。在此,我們可以把訪問概率轉化為讀者推薦書目單的緊密程度,因此,問題轉化為求讀者推薦書目單的緊密程度,然后通過PageRank算法,求出讀者推薦書目單的權威度排名,進而推薦給興趣模型相似的讀者。

我們用dist(j, t)表示兩個讀者推薦書目單關系程度,使用其文本相似度 來度量,進而產生新的PageRank2算法。對于每個讀者推薦書目單,其重要度PR2(i)可定義為:

其中DIS(j,i)定義為:

在實際應用中,由于某些讀者推薦書目單可能與其他讀者推薦書目單 值為0,故將公式2調整為:

其中a為衰減系數,設定為0和1之間,其本質是為了消除孤立讀者,給每個讀者增加一條指向所有其它讀者的鏈接,并且給予每個鏈接一個由參數a控制的轉移概率,在這里我們沿用PageRank中的取值a=0.8570。

3、 結語

本文主要探討了網絡數據挖掘在圖書館中的應用問題,并對于社會網絡分析的應用進行了較為深入的分析,提出了具體算法。網絡數據挖掘廣泛應用于互聯網。隨著數字圖書館的不斷興起,其在圖書館領域的應用將更加廣泛4。但是,圖書館相對封閉的信息環境制約著網絡數據挖掘的應用。相信隨著Web2.0和讀者個性化需求不斷得到重視5,數字圖書館技術的不斷發展,網絡數據挖掘將會發揮更加重要的作用。

參考文獻

[1] 馬費成,王曉光.信息資源管理研究及國際前沿[J].情報學研究進展.武漢大學出版社,2007.

[2] 劉曉忠.數據挖掘技術在圖書館建設中的應用[J].硅谷,2012(6).

[3]夏南強,張紅梅.基于數據挖掘的數字圖書館個性化服務[J].圖書館學研究, 2006, (1):32-34.

第3篇

關鍵詞:數據挖掘技術;成績管理

一、數據挖掘的定義

數據挖掘是一個涉及多學科交叉的研究領域,綜合了人工智能、機器學習、數理統計等學科,它把對數據的應用從較低層次的簡單的查詢提升到從數據中挖掘知識。簡單的說,數據挖掘就是從數據中獲取知識。從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道、但又是潛在有用的信息和知識的過程。數據挖掘應該更正確地命名為“從數據中挖掘知識”。

二、數據挖掘的過程

數據挖掘過程大概可以概括為三部分:數據準備、數據挖掘、結果的表達和解釋。如圖1-1。

三、數據挖掘的特點

數據挖掘是在沒有明確假設的前提下去挖掘信息、發現知識,所得到的信息具有事先未知、有效、實用三個特征;用戶不必提出明確的要求,系統能夠根據數據本身的規律性,自動地挖掘數據潛在的模式,或通過分析建立新的業務模型,幫助決策者調整市場策略,這有利于發現未知的事物。因此,它是由數據驅動的一種真正的知識發現方法。

四、學生成績管理的現狀

隨著高校招生規模的擴大使成績管理處理的數據量急劇增加,存放在數據庫中的大量的成績數據,對于一般的查詢過程是有效的,管理人員能夠通過簡單的統計或排序等功能獲得一些表面的信息,但隨著數據庫中存儲的數據量的增大,傳統的數據庫管理系統的數據管理和處理功能就不能滿足現實的需要,因為無論是查詢、排序還是方差,其處理方式都是對指定的數據進行簡單的數字處理,對于學生成績管理方面,往往只能做一些簡單的功能,由于大量數據以不同的形式存儲在不同的計算機上,從而使隱藏在其中的大量有用信息無法得到有效的利用,無法發現數據中存在的關聯和規則,無法根據現有的數據預測未來的發展趨勢。上述問題直接導致教學管理部門無法進行有效的評估,任課教師無法進行有效的教學方法改進。而如何將這些數據信息轉化為知識表示,為學校管理者提供決策依據,科學指導教學,提高教學管理水平,將是高校需要迫切解決的問題。

五、將數據挖掘技術在成績管理中的應用

1、學生成績分析方面

學生的學習成績是評估學生表現好壞的重要依據,也是學生是否掌握好所學知識的重要標志,目前高校使用的成績管理系統大部分只能做一些簡單的數據管理和處理,例如:學生的平時成績輸入、考試成績輸入、畢業設計成績登記,進行各類統計報表和信息查詢、分析某一個班學生學習成績分布的情況等。目前大量的成績數據只是簡單地存儲在數據庫中,隱藏在這些數據中的潛在信息被閑置,沒能被充分利用。在數據庫中學生成績分析從定性的角度考慮不是很精確,而數據挖掘是從定量的角度精確地分析學生成績分析的各個方面數據。

2、在考試方面

考試是對教師教學效果和學生學習效果的一個檢驗,是教學中必不可少的環節,雖然按考試成績可以總體評價在一定時期內學生取得的成績,但這并不能有效地說明成績的高低與哪些因素有關,無法知道教師教學環節中的成功與不足之處,對教師教學方法的改進和學生學習成績的提高都沒有實際意義上的幫助,而且,學生考試成績的高低也與試題的質量有著很大的關系,因此探索有效的方法來評價試題的質量如試題難易度,知識點全面度等在實際的教學過程中同樣具有重要的意義。將數據挖掘技術應用于試卷分析數據庫中,然后根據學生得分情況分析出每道題的難易度、區分度、相關度等指標,那么據此,教師可以對試題的質量作出比較準確的評價,進而可以用來檢查自己的教學情況及學生的掌握情況,并為今后的教學提供指導。

2、在教學評價方面

教學評價是教學中的一個重要環節,是引導教育、培養高素質人才,幫助社會充分利用教育成果和促進教育健康發展的保證。傳統的教學評價大多是參考相關評價指標體系和調查問卷等方式實施的,而且更是注重評價的結果,以作為教師晉升、學生評優等的依據.高校每學期都要搞課堂教學評價調查,積累了大量的教學信息數據,利用數據挖掘技術,從教學評價數據中進行數據挖掘,探討教學效果的好壞與教師的年齡、職稱之間有無必然的聯系,課堂教學效果與教師整體素質關系如何,合理配備班級的上課教師,使學生能夠較好的保持良好的學習態度,從而為教學部門提供了決策支持信息,促使更好地開展教學工作,提高教學質量。

3、選擇教師的教學方法方面

在教學過程中,教師可以采用多種方法來完成自己的教學任務,比如講授法、多媒體演示、分組討論法、課程實習法等,在通常情況下,一般可以采取一種或幾種方法進行.據此可用數據挖掘的方法來挖掘數據庫中的數據,判定下一步應采取什么樣的教學方法,以滿足教學的需要,更有利于學生對知識的吸收。

4、課程的合理設置方面

在學校,學生的課堂學習是循序漸進的,而且課程之間有一定的關聯與前后順序關系,在學一門較高級課程之前必須先修一些先行課程,如果先行課程沒有學好,勢必會影響后續課程的學習,此外,每一學期安排課程的多少,也會影響學生的學習效果。利用學校教務管理系統中存放的歷屆學生各門學科的考試成績,結合數據挖掘技術的相關功能,得出一些有價值的規則和信息,最終找到影響學生成績的原因,在些基礎上,對課程設置做出合理安排。

六、結束語

隨著我國各高校管理信息化的不斷推進,各類學校的數據庫建設不斷完善,在學校平時的教育教學管理中累積了大量的數據。在這些海量的數據中,隱藏著大量有用的知識,如果利用好這些知識,將能夠對學校的教育教學工作起到積極的指導作用。數據挖掘技術正是為了解決如何從海量數據中挖掘出有用的知識,因此,將數據挖掘技術應用到高校的教育教學中去是非常有必要的。

參考文獻:

【1】吉根林,帥克,孫志揮.數據挖掘技術及其應用.南京師大學報(自然科學版),2000,23(2):25-27

【2】李慶香.數據挖掘技術在高校學生成績分析中的應用研究:碩士學位論文.重慶:西南大學教育技術系,2009

第4篇

【摘要】

介紹了數據挖掘的意義和任務,綜述了近幾年來數據挖掘在中醫各領域中的應用,分析了目前存在的問題,并探討了今后的發展趨勢。

【關鍵詞】 數據挖掘 中醫

隨著計算機技術和網絡技術的快速發展,在中醫藥的現代化過程中建立了很多的數據庫。堆積在數據庫中的信息呈超指數爆炸式增長。例如中醫藥科技信息數據庫就有50個子數據庫、110個表單及數百個自動生成的中間表、800余個著錄項目,涵蓋所有中醫藥有關醫、藥及學術的內容。而數據挖掘技術的發展使我們有可能從這些海量數據中發現新的知識,發現數據背后隱藏的關系和規則,還可以對未知的情況進行預測。多學科交叉目前正成為增強科技創新的重要途徑,數據挖掘正是從統計學、數據庫、機器學習等多門學科中發展起來的。

1 數據挖掘介紹

1.1 數據挖掘的定義

數據挖掘(datamining)也稱為數據庫知識發現,為解決上述矛盾提供了強有力的工具[1]。數據挖掘這一術語出現于1989年,其定義幾經變動,本研究中引用Frayyad UM等提出的對數據挖掘的定義[2]。

數據挖掘是從數據庫中識別出有效的、新穎的、潛在有用的并且最終可理解的模式的非平凡過程。其中:

① 有效性要求挖掘前要對被挖掘的數據進行仔細檢查,具備該特性,才能保證挖掘出來信息的可靠性。

② 新穎性要求發現的模式應該是從前未知的,甚至是違背直覺的信息或知識,挖掘出的信息越是出乎意料,就可能越有價值。

③ 潛在有用性是指發現的知識將來有實際效用,即這些信息或知識對于所討論的業務或研究領域是有效的、是有實用價值和可實現的,常識性的結論或已被人們掌握的事實或無法實現的推測都是沒有意義的。

④ 最終可理解性要求發現的模式能被用戶理解,目前它主要是體現在簡潔性上。發現的知識要可接受、可理解、可運用,最好能用自然語言表達所發現的結果。實際上,所有發現的知識都是相對的,是有特定前提和約束條件,面向特定領域的。

⑤ 非平凡是一個數學概念,即數據挖掘既不是把數據全部抽取,也不是一點兒也不抽取,而是抽取出隱含的、未知的、可能的有用的信息。要有一定程度的智能性、自動性(僅僅給出所有數據的總和不能算作是一個發現過程)。

數據挖掘的結果通常表示為概念(concepts)、規則(rules)、規律(regularities)、模式(pattern)、約束(constraint)、可視化(visualization)等形式。這些知識可以直接提供給決策者,用于輔助決策過程;或者提供給領域專家,修正專家的已有的知識體系;也可以作為新的知識轉存到應用系統中,作為實際事務處理中決策的依據[3]。

2 數據挖掘的任務

數據挖掘的任務主要是預測和描述。預測是指用一些變量或數據庫的若干已知字段預測其他感興趣的變量或字段的未知的或未來的值。描述是指找到描述數據的可理解模式。預測方法有統計分析、關聯規則和決策樹預測、回歸樹預測等。其中關聯規則反映了一個事務與其他事務之間存在關聯,那么就能根據其他已知事務預測到另一個事務。描述性方法主要有數據分類、回歸分析、聚類、變化和偏差分析、模式發現等。

3 數據挖掘在中醫藥中的應用

中醫藥的發展也需要多門學科的交叉應用。數據挖掘最初在生物醫學中的應用是在對基因組測序數據的分析,因為人類基因組計劃研究中產生了數十億的核苷酸和上百萬的氨基酸,傳統的統計方法無能為力。中醫學具有系統性、整體性、復雜性、不確定性等特點,不適宜運用傳統的還原論的方法研究,而適宜與數據挖掘類似的從整體觀上入手的研究方法。數據挖掘可以從海量數據中挖掘出潛在的規律,數據挖掘的結果一部分可能與傳統的診療規律相符,不符合的部分可能是潛在的新知,也可能是沒有意義的,這都需要在相應目標領域專家的指導下進行解釋和評價。將數據挖掘(DM)和知識發現(DMKD)應用于中醫藥領域的研究,是中醫藥現代化研究的重要組成部分[1],必將促進中醫藥的發展。而數據挖掘在中藥藥譜研究和新藥開發中取得了一定進展,本研究主要對其在中醫以下領域的研究作一介紹。

3.1 證實質的研究

中醫的“證”又稱“證候”,是疾病在某一階段病變的本質反映,是由一組能反映疾病本質的癥狀組成的,能揭示病因、病位、病性、病勢,為論治提供依據。證候是中醫診斷的核心概念和理論精髓,具有整體性、抽象性、時間性和相對穩定性的特點。現在對證實質的研究多從西醫的生理理化指標來揭示證的實質,但實踐中卻發現缺少證的特異性指標。如果從分子生物學的角度,利用數據挖掘技術對中醫證與相關基因的對應關系,可能取得更好的結果。通過研究“證”和基因多態性之間的內在聯系,從基因多態性所帶來的該基因功能上的變化,由此探尋“證”的相關基因表達譜。

3.2 中醫診斷

中醫診斷過程主要是對證的判定。而現在證的標準不太規范,缺乏定量的標準,而且其分類與描述也存在不同的觀點。數據挖掘則可能完成證的規范化研究,也可輔助臨床醫生對病人進行證的判定。

陳明等[5]嘗試運用關聯規則發現診斷模式,他把《傷寒論》中的病名、癥狀、舌脈分別作為數據表建立數據庫,挖掘得出規則:發熱、惡寒、脈浮太陽病(支持度65%,置信度5%),可以認為發熱,惡寒的確是太陽病的診斷依據。

秦中廣等[6]運用粗糙集進行中醫類風濕證候的診斷,共收集了224個病例,每個病例有81個屬性,并從這224個病例中隨機抽取學習樣本180例,進行預測診斷44例。他們利用屬性約簡得到寒濕阻絡、濕熱阻絡、痰閼阻絡、氣陰兩虛、寒熱錯雜5種證的必定規則和可能規則。在44例預測診斷中診斷正確率達到90%以上,高于傳統的模糊數學方法,并認為粗糙集有可能是中醫診斷研究的動態理想工具。

劉晉平[7]運用數據挖掘的手段對中醫脈象進行研究,并開發出初步的軟件。以明清、近現代3000余例病案為研究分析對象,將病案分為病名、證型、脈象、舌象及癥狀幾項,然后進行統一化及規范化處理,得出醫案中細脈出現頻率最高,占34.39%。其脈象軟件可以進行脈象與病名,脈象與證型之間的相互關聯分析,發現其內在的規律。

4 方劑配伍規律的研究

方劑配伍理論是中藥方劑理論的核心,也是研究方劑的關鍵問題。采用數據挖掘技術進行基于中醫藥理論的方劑配伍規律研究,既能為中醫新藥的臨床和實驗研究提供目標和思路,減少盲目性,縮短研究周期;同時又為大量古今驗方研究探索出一條有價值的研究途徑和方法[8]。

何前鋒等[9]運用高頻集挖掘的方法,對中國方劑數據庫、中藥新藥品種數據庫、中藥成方制劑標準數據庫中各方劑藥物組成數據進行了分析,分別得到3個庫的前20味高頻藥,可以看出古今用藥頻率的變化。并把高頻用藥組合與經驗藥對進行比較分析,提示可能成為新藥對的組合。

姚美村等[10]應用關聯規則分析技術,以文獻中收錄的106個治療消渴病的中藥復方為對象,經解析后建立復方特征數據庫,以數據挖掘系統Enterprise Miner為平臺,關聯規則分析為工具,在單味藥層次上進行消渴病復方組成藥味之間的關聯模式研究。得到了藥物與上中下三消的關聯以及藥物之間的關聯,與中醫專家對于消渴病的治療在主要藥物的配伍方面基本一致,這在一定程度上反映出歷代中醫在消渴病治療方面認識和治療的整體規律性。

陳波等[11]應用關聯規則對李東垣的脾胃方從藥物間關聯、癥狀間關聯、處方結構與癥狀關聯進行分析,得出當出現當歸、黃芪、升麻時,同時出現柴胡的次數為60次,支持度為10.91%,可信度為84.51%;當出現當歸、黃芪、柴胡時,同時出現升麻的次數為60次,支持度為10.91%,可信度為84.51%。兩者的支持度和可信度都較高,提示他們常共同使用。此反映出李東垣補氣與升陽同用的學術思想,此藥組也是補中益氣湯的基本組成部分。

現在的研究中存在著方法比較簡單,頻繁模式、關聯規則為其主要方法。方劑配伍不僅是各藥味之間的組合,還包含著各藥劑量比例的搭配,這也是臨床組方的關鍵,但現在對其進行數據挖掘的研究還很少。

數據挖掘的方法不僅可以運用于中醫基礎理論中的傷寒、溫病等研究,也可用于臨床各科的研究。但高質量的數據挖掘不僅需要有被處理數據的質量,更要在中醫藥專業背景知識引導下,針對具體問題,選擇合適的數據挖掘方法,利用各種工具的效能和應用的可能性,取長補短。

對中醫藥知識進行規范化、數字化、信息化是促進中醫藥國際化和現代化進程的重要內容[12]。通過數據挖掘,就可以對中醫藥發展過程中某些缺失的信息進行預測完善并可以避免主觀性的干擾。數據挖掘還可以發現一些新的模式和規則,為中醫藥知識的創新和發展提供一條新途徑。

參考文獻

1 喬延江.中藥(復方)KDD研究開發的意義.北京中醫藥大學學報,1998,21(3):15~17.

2 Frayyad UM, PiatetskyShapiro G,Smyth P, et al. Knowledge Discovery and Data mining:Towards a Unifying Framework ProcKDD96,Menlo park, CA:AAAIPress,1996,82~88.

3 胡文豐,張正國.生物醫學數據挖掘.國外醫學生物醫學工程分冊,2003,26(1):11~15.

4 周雪忠,吳朝暉,劉保延.生物醫學文獻知識發現研究探討及展望.復雜系統與復雜性科學,2004,1(3):45~55.

5 陳明,張書河.關聯規則在中醫疾病證候診斷中的應用.中華醫學叢刊,2004,4(5):14~16.

6 秦中廣,毛宗源,鄧兆智.粗糙集在中醫類風濕證候診斷中的應用.中國生物醫學工程學報,2001,20(4):354~363.

7 劉晉平.數據挖掘在中醫脈診研究中的應用.天津中醫藥大學碩士論文,2002.

8 蔣永光,胡波,劉娟,等.方劑配伍的數據挖掘可行性探索.四川中醫,2004,22(8):25~28.

9 何前鋒,崔蒙,吳朝暉,等.方劑中配伍知識的發現.中國中醫藥信息雜志,2004,11(7):655~658.

10 姚美村,艾路,袁月梅,等.消渴病復方配伍規律的關聯規則分析.北京中醫藥大學學報,2002,25(6):48~50.

11 陳波,蔣永光,胡波,等.東垣脾胃方配伍規律之關聯分析評述.中醫藥學刊,2004,22(4):611~612.

第5篇

關鍵詞:實驗平臺;教學管理;數據倉庫;數據挖掘

中圖分類號:G642 文獻標志碼:B 文章編號:1674-9324(2013)09-0253-03

一、引言

21世紀是國家全面推進學生素質培養的時期,計算機專業課既具有較強的理論性,又具有較深的實踐性。目前,計算機專業的教學過程中往往理論教育與實際脫節,很多學生通過了專業理論課的考試,卻不能將理論付諸于實踐,學生對課程知識并沒有深刻的理解和消化,對課程理論的實際應用沒有感觀上的體驗。經調查顯示,60%以上的學生認為在校期間的計算機理論課的學習對就業和實際工作幫助不大,這給學生學習計算機理論的積極性帶來了消極的影響,更有很多學生熱衷于參加社會上的計算機培訓機構,放棄在高校的課程學習。因此,在培養學生的理論創新能力的同時,提高學生的動手操作能力,加強學生理論聯系實際的能力是計算機教學十分緊迫和必要的任務。

隨著信息技術和網絡技術的快速發展,在短短幾年內數據倉庫和數據挖掘就已經成為IT信息領域廣泛應用和熱點研究的領域。該領域主要是研究如何從浩如煙海的海量數據中有效地提取并挖掘知識,對其進行自動分析和匯總,是計算機行業中最熱門、最有前景的領域之一[1]。數據倉庫與數據挖掘課程也順應計算機發展的需要,進入到高校計算機教育的專業課課程列表中。

本論文在深入研究了數據倉庫和數據挖掘課程的內容和特點的基礎上,采用B/S(Browser/Server)架構,即瀏覽器/服務器架構,開發了web課程教學實驗平臺。

二、數據倉庫與數據挖掘學科教學現狀

隨著數據倉庫與數據挖掘課程在各大高校成功試教后,近年來各大高校都為計算機專業都設立了數據倉庫和數據挖掘課程,時至今日,其課堂理論教學已經比較成熟。然而,絕大多數學生在經過該課程的學習后,普遍反映雖然基本了解了數據倉庫和數據挖掘相關理論知識,卻缺乏感性認識和實踐應用能力。這主要是因為該課程的實驗教學較難開展,缺乏一個符合以下特點的教學實驗平臺。

市場中通用數據倉庫和數據挖掘軟件昂貴且難以使用,大量的專業術語、專業業務理論、數學知識和挖掘模型讓人無從下手。因此我們需要的僅僅是一個實驗平臺,并非大型企業應用軟件,只要學生能通過它更簡易地完成該課程的實驗環節即可。

1.可視化、易操作。可視化和易操作可以提高學生的學習興趣,讓學生更直觀的參與到教學活動中來,而不是苦惱于如何使用該平成實驗。

2.交互性。一個好的教學平臺不僅是一個可以提供給學生傳授知識的平臺,還應該是一個可以和學生及老師有交互性的平臺,并且使學生和學生有交互性,老師和學生有交互性[2]。

3.教學與實驗相結合。我們需要不僅僅是一個數據倉庫與數據挖掘實驗軟件,而是綜合課程教學和課程實驗的平臺。教學與實驗相結合、理論與實踐并重,這才是計算機專業教育的核心。

4.擁有合理和充足的實驗數據。對于一個實驗平臺來說,數據的缺乏將使得實驗無法進行。尤其是對于數據倉庫與數據挖掘這個特殊的領域,數據不僅要足夠的多而且要合理,否則會嚴重影響實驗結果和教學效果。

三、數據倉庫與數據挖掘學科教學實驗平臺的構建

為適應教育發展需要,秉承深化教學改革的方針,改革數據倉庫和數據挖掘課程原有的普通教學模式,啟動了“數據挖掘課程設計平臺建設”教學改革項目。該平臺依托我校電信學院985平臺的優良硬件環境,由遠程開放實驗平臺服務器和終端PC機組成,其成本低廉、維護方便、部署容易。該實驗平臺服務器直接部署于本校的學院985實驗基地,具有操作穩定性、魯棒性和容錯性。通過該實驗教學平臺,學生對該課程的學習過程將不受場地限制,只要通過網絡就可以登錄該平臺。該平臺主要框架如圖1所示。

1.用戶管理模塊實現了對不同用戶的權限設置、登錄和注冊等功能,超級管理員可以為普通學生用戶分配權限。

2.實驗平臺模塊給學生提供了算法模擬和試驗的平臺,主要分為以下兩個部分。

(1)數據倉庫的維度建模設計模塊。雪花模型設計案例;星型模型設計案例;ETL抽取操作平臺。

(2)數據挖掘算法實驗模塊。數據預處理程序實現算法平臺;Apriori算法實驗平臺;ID3算法實驗平臺;BP算法實驗平臺;K-Mean和K-Medoid算法實驗平臺;C4.5算法和決策樹算法實驗平臺;KNN算法實驗平臺;貝葉斯算法實驗平臺。

維度建模設計平臺和數據挖掘算法實驗平臺模塊是該平臺的核心模塊。

3.實驗課程模塊主要向學生介紹該實驗課程的相關內容、教學大綱和教學任務,也包含數據倉庫環境的具體安裝和配置視頻演示。

4.作業提交模塊更是改變了傳統的提交紙質作業的模式,讓學生將動手完成的實驗和相關作業通過該平臺提交,一個學生一個賬戶,避免了作業抄襲和拷貝。學生提交的作業只要運行正確,按題目要求編程,不論采用何種語言或者何種算法都是可以的,并沒有唯一性的標準答案。當實驗課程考核的時候,學生能夠通過作業提交系統向服務器提交指定課程內容的作業,供教師在線評閱和打分。

5.教學資源下載提供給學生自學的資料,給感興趣的學生提供了進一步學習的捷徑。

6.當有學生對實驗環節和該課程有任何疑問,都可以登錄在線答疑系統,給授課老師留言,這些信息都會以郵件的形式發送到授課老師的收件箱,從而實現即時的答復,讓學生在第一時間接受老師的指導。當有問題重復出現三次以上,系統就會自動識別,將問題和答復展示在FAQ中,提供給更多的學生共享該問題和該問題的解答,避免重復提問,也給還未遇到該問題的學生共享和學習。在線答疑給學生和教師提供了交互、交流和學習的平臺。

7.數據挖掘實驗平臺的在線代碼編譯環境主要采用gcc編譯器,能夠對學生提交的各種代碼進行實時編譯,給用戶的感覺就像是在本地執行一樣。它能夠支持的在線運行編程語言包括java、C和C++等,給學生提供多樣化的語言實現方式,體現了非機械化的計算機應試理念。

四、數據倉庫與數據挖掘學科教學實驗平臺的教學效果

在數據倉庫和數據挖掘課程中使用該教學實驗平臺,具有教育的先進性和優越性。

(一)建設了數據倉庫和數據挖掘課程的實驗教學體系

1.數據倉庫和數據挖掘模型。本平臺可以培養學生自己動手創建多維星型模型、多維雪花模型、緩慢變化維、ETL模型、數據立方體模型及其實例等,還可以增加學生對各類重要挖掘算法的特點和應用場景的理解,讓學生在實驗平臺上體驗基于數據倉庫的主要數據挖掘算法。

2.模型評估。當學生創建完畢自己的數據倉庫和數據挖掘模型后,可以通過調整不同的參數值和更改數據集來檢驗算法的輸出結果,并通過記錄在不同的應用場景下的參數值和結果值得到最優值。

3.優化創建模型和算法的性能。學生通過使用計算機領域中的一些經典優化技術,如創建位圖索引、哈希索引、S-tree索引等來優化模型和算法的性能,并記錄和比較不同優化技術對模型和算法的效率和響應時間的影響。

4.定期對學生所學實驗內容進行測試,根據學生的實驗測試結果對平臺的遠程實驗操作功能進行改進和完善。

(二)部署和實施了基于網絡的數據倉庫和數據挖掘課程遠程實驗教學環境

本項目通過構建基于網絡技術的遠程實驗教學平臺,不僅給學生和教師提供這樣一個教學實驗平臺,而且還實現了實驗教學的網上開放式管理,改革原有相對封閉的實驗教學模式為開放的實驗教學模式,構建了一個符合實踐教學環節需求、虛擬和真實環境相結合、基于Web的多應用場景的遠程開放實驗平臺。

(三)基于采樣評估證明了遠程網絡實驗教學的可行性和優越性

根據采樣評估結果,該系統體現了遠程網絡實驗的可行性和優越性。在該平臺真正投入使用之前,我們將一批學生分為兩個組進行數據倉庫和數據挖掘課程的學習,A組學生使用現有的課程教學方法,而B組學生使用該平臺的遠程實驗教學環境。具體教學內容為多維數據模型和數據立方體的概念以及k-means聚類和Apriori關聯分析算法。兩組學生通過不同的教學方式學習后,對他們進行了問卷調查和統計,結果如圖2所示。

從圖2的數據結果可以看到,無論是從學生興趣程度、作業完成度還是考試成績的角度對兩組學生的學習效果進行評估,使用該數據倉庫與數據挖掘課程教學實驗平臺的教學方式都具有明顯的優勢。在實驗過程中學生是主體,用所學知識發揮創造性思維進行實踐。當實驗取得結果時,不論結果成功與否,都能帶給學生一定的鼓勵,從而在某種程度上激發學生的創造力和積極性,真正加速問題解決和理論創新。因此,我們有理由相信該平臺的使用可以極大地提高學生的學習興趣,促進教學目標的實現。

五、結論

在計算機專業的教學中,如何提高學生的實踐能力和獨立解決問題的能力是當前高等教育發展的新形勢下所面臨的主要問題。本文首先介紹了基于數據倉庫和數據挖掘課程的實驗平臺的整體架構,展示了該平臺的優點,證明了該平臺可以將課堂學習和課后練習、理論教育與工程實踐有機結合,為實施更加行之有效的教學組織和教學管理模式提供了可能。只有教育者和學生充分認識到計算機課程中實驗環節的重要性,更有效地利用現有的社會資源和計算機技術為我們的教育服務,專業學科教學模式和方法才能不斷推陳出新,不斷進步和發展。

參考文獻:

[1]Jiawei Han,Micheline Kamber.Data Mining Concept and Technology[M].Beijing:China Machine Press,2007:10-12

[2]李旭晴.學科教學網站設計的應用探討[J].計算機教育,2009,(02):1-2.

第6篇

隨著云計算和云存儲的推廣,可以收集和利用越來越多的數據。為了高效地處理和有效地利用各種形式的海量數據,以數據倉庫、數據挖掘、聯機分析處理等為核心的商業智能(BusinessIntelli-gence,BI)技術應運而生。商業智能這一概念由加特納•格魯派于1989年提出,可將商業智能理解為一種能夠將機構現有的數據轉化為知識,幫助機構通過基于事實和電腦化系統,做出科學業務決策的工具。商業智能技術已成功地應用于銀行、電信、保險、制造業和零售業等行業。[6]從全球范圍來看,商業智能已經成為最具有前景的信息化領域。通過調查了解世界各地的高等教育部門采用商業智能技術的狀況發現,高等教育已明顯落后于其它行業。然而,DaveWells在文獻中指出,越來越多的高校正在關注商業智能應用這一主題,高等教育在技術方面已經到了應用商業智能的時候了。[7]例如,北美高等教育界較早關注商業智能應用的重要性,美國部分高校已經采用或正開始采用商業智能技術,對學校的教育數據進行整合分析,為學校的科學決策與管理提供信息支持。如賓州州立大學、密執根大學均于2005年提出建設BI項目的倡議,弗羅里達州立大學、華盛頓大學分別于2007年、2008年開始利用BI項目分析學校整合數據進行決策支持,普渡大學于2008-2014年期間建設學校新的協同集成系統,印第安納大學2009年提出BI建設路線圖,斯坦福大學商業智能中心2009年提交的BI架構及方案獲批準、2010年正式啟動項目建設,加州大學(總部)建設StatFinder系統,伊利諾斯大學建立學校決策支持數據倉庫,亞利桑那州立大學為支持科學決策建設了儀表盤(dashboard)等。在歐洲、亞洲等地區的高等教育體系中,商業智能技術的應用才剛剛起步。我國少數高校也開始邁出了建設BI系統的步伐,如中山大學2010年開始提出學校BI系統建設倡議,現已初步完成BI系統的數據倉庫建設,上海交通大學2011年推出BI項目的子系統———財務管理駕駛艙系統,復旦大學為學校師生在校生命周期實現管理信息化“全覆蓋”,中國人民大學推出綜合數據填報、數據存儲、數據管理和數據展示等四大功能的數據平臺,浙江大學為優化資源配置建設共享數據中心進行數據集成,上海財經大學建設校務決策支持系統,常熟理工學院建立高校決策支持系統等等。同時,基于商業智能技術產出的數據,也形成一批對高等教育和高校自身進行深入分析的研究報告。如美國教育研究的主要組織院校研究學會,年會報告除了涵蓋數據管理、數據倉庫等關于計算機技術本身的報告之外,關于評估、資源、學生、合作和分析的報告,較多地來自于商業智能系統數據的研究結果。[8]

二、數據驅動的高校教育管理智能平臺架構

在海量教育數據亟待有效利用的驅動下,為提高高校管理效益,將商業智能技術應用到高校教育管理中,對高校產生的大量數據用數據挖掘等商業智能技術進行分析研究與處理,可以幫助高校決策者做出對學校發展更為有利的科學決策。其關鍵是建立綜合層面上的、能反映高校整體教育教學管理的信息集成系統平臺(下文簡稱高校BI系統平臺)。高校BI系統平臺體系架構由數據源、數據存儲與管理層、數據分析層和用戶接口層組成,如圖1所示。

(一)數據源

數據源是整個系統的基礎,包括高校各類業務管理信息系統的內部數據和其他外部數據。內部數據包括存放于操作型數據庫中的各種業務數據和辦公自動化系統包含的各類文檔數據,如學校財務處、人事處、教務處、科研處、設備處等部門數據庫中業務數據;外部信息包括各類教育信息、外部統計和調研數據及文檔等。

(二)數據存儲與管理

數據存儲與管理層是整個系統的核心,包括ETL管理工具、公共數據集、元數據、數據倉庫和數據集市。高校BI系統平臺建設采用數據驅動設計方法,從學校原有的各個部門的業務處理系統和外部數據源中經過ETL提取數據,并根據常見的分析和統計主題,建設校級數據倉庫以及人才培養、師資隊伍、科學研究、辦學資源、交流合作等主題的數據集市。

(三)數據查詢與分析

高校決策者常常希望從不同的角度審視教育數據,比如從時間、區域、學科、教學或科研成果、課程建設、學生層次、交流合作、辦學資源等維度全面了解學校的教育質量和狀態。高校BI系統平臺的數據分析層利用商業智能技術為高校管理主要提供固定報表、即席查詢、統計分析、多維分析、預警功能、預測分析、數據挖掘建模分析及優化分析等,根據學校現有學生、教師、資源、科研和人才培養等狀況,有助于高校決策者全面地對學校資源配置進行調控、對學校整體辦學信息的內部結構進行調整等,做出對學校發展更為有利的科學決策。

(四)用戶接口

用戶接口層根據高校用戶訪問需求和角色訪問授權機制,提供強大的多用戶數據查詢操作,并以儀表盤或表格、直方圖、餅圖等直觀方式將查詢結果或決策信息呈現給用戶。

三、應用案例

下面以高校BI系統平臺中的調研數據為商業智能技術應用案例,利用回歸方法對大學生學習成果進行數據挖掘分析。

(一)數據來源

案例分析的數據來源于高校BI系統平臺中“中山大學學生學習狀況調查”項目于2012在中山大學全校范圍內開展的在線調研數據。[13]調查覆蓋全校36個學院(系),調查總體約為3.3萬名本科生。讓學生在無壓力的情況下答題,共回收問卷7051份,回收率約為21.2%,與國際上通用的問卷回收率相當。案例分析聚焦于本科樣本,全部回收的問卷根據答題時長、問卷質量標準等原則,篩選出有效問卷數據6673份,有效率為94.6%。本研究從學生學習經歷角度,在“生源-學習-成果”的邏輯框架中,考察分析學校因素和學生因素對于學生學習成果的影響機制。調查把學生學習經歷和成果分解為生源情況、學校學習資源供給、學生與學校的融合、學生學習投入、學生成果、學校成果6大維度,各維度下題目的內部一致性均達到0.9以上,具有較高的信度。

(二)數據分析

逐步回歸提供了一種識別與學生學習成果相關的具體經歷的方法,對于學生學習狀況調查中的227項進行相似項合并,用向前和向后逐步回歸確定與學習成果相關的項目,對殘差圖和診斷法的徹底審查,最后確定17個獨立變量出現在多元回歸模型中(如表2所示),其中,相關系數R為0.994,校正判定系數R2為0.988,因變量變化中有98.8%左右的信息可以由預測變量解釋,說明模型的擬合優度較好;Durbin-Watson為1.937,接近最佳理想值,如表1所示。表2顯示的是回歸系數的相關統計量,可以看出,這17個獨立變量的顯著性概率Sig.都小于0.05,說明其系數顯著不為0,這17個變量均與學生學習成果顯著相關。分析表2中的數據可以看出,學生學習經歷中的學校學習資源提供、學生學習投入和校園文化及學校成果等四大維度的17個變量均為影響學生學習成果的重要預測變量,包括課程作業評價、專業學習經歷評價、學術規范指導、平等文化、多元能力的培養氛圍等學校因素變量,以及朋輩交流情況、自主學習情況、活動參與情況、課外閱讀情況、論文寫作情況、討論關注的內容情況、師生交流、課業活動及個人閑暇活動時間分配等學生因素變量。同時,在校經歷滿意度、綜合滿意度和能力培養滿意度等融合學校因素和學生因素的學校成果也對學生學習成果具有一定的影響。通過標準系數可以看出,朋輩交流情況、自主學習情況和討論關注的內容情況分別是第一、第二和第三重要的預測變量,而性別、年級、所在校區等人口學變量并未出現在該回歸分析模型中,對學生學習成果的影響不顯著。進一步分析朋輩交流情況和自主學習情況調查指標應答概況,如表3所示,“有時”、“時常”或“頻繁”進行朋輩交流的比例為63.7%~97.7%,自主學習的比例為52.5%~92.9%,朋輩交流和自主學習的平均比例相當高(81.8%)。“有時”、“時常”或“頻繁”地進行朋輩交流方面的主要比例情況為:“與家庭背景(社會、經濟的)不同的同學交流”為97.7%、“與興趣不同的同學交流”為95.6%、“在與同學的談話中得到啟發,改變自己的想法”為94.4%、“與世界觀、價值觀不同的同學交流”為93%、“與不同專業的同學交流”為92.6%、“同學與你談話后,表示受到了你的啟發”為90.8%。“有時”、“時常”或“頻繁”地進行自主學習的主要比例情況為:“利用圖書館、網絡等資源豐富自己的學識”為92.9%、“根據課程安排,做課堂展示”為91.3%、“努力掌握對自己而言較難的課程內容”為91.3%、“隨著學習經歷的豐富不斷整合、梳理自己的知識系統”為88.4%,“因課程設置和教師的要求具有挑戰性而更加努力地學習”為85.9%。上述情形符合VincentTinto在研究大學生退學問題時提出的理論模型:學生取得較好的學習成果,依賴于他們在學習經歷中能否將自身的經驗和目標與學校系統內部的學術系統和社交系統相融合。[10]學術系統代表學生個人的課業表現、智力發展、學業成就等綜合表現,如表2中自主學習情況、活動參與情況、課外閱讀情況、論文寫作情況、討論關注的內容情況及課業活動等屬于學術系統的范疇。社交系統代表學生在校內的同伴關系、師生關系、社交行為等綜合表現,如朋輩交流情況、師生交流及個人閑暇活動時間分配等屬于社交系統的范疇。學生在其學習經歷中,有效地利用學習資源和校園文化氛圍、將學術系統和社交系統進行整合,可以從學業和人際關系上自我提升,從而提高學習成果。

四、小結

第7篇

1知如何能夠投其所好,為用戶實現主動推薦,提供個性化服務;這些都是電子商務成敗的關鍵問題。在這種新型的商務模式下,如何對網絡上大量的信息進行有效組織利用,幫助海量數據的擁有者們找出真正有價值的信息和知識,以指導他們的商業決策行為,成為電子商務經營者關注的問題。迅速發展的基于Web的數據挖掘技術,為解決電子商務所面臨的問題提供了有效途徑。

2 Web數據挖掘

2.1 Web數據挖掘概述

數據挖掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的和隨機的數據中提取人們事先不知道的、潛在有用的信息和知識的非平凡過程。

Web數據挖掘(Web Mining)是從Web文檔和Web活動中抽取感興趣的、潛在的有用模式和隱藏的信息,是數據庫、數據挖掘、人工智能、信息檢索、自然語言理解等技術的綜合應用,是在一定基礎上應用數據挖掘的方法以發現有用的知識來幫助人們從WWW中提取知識。Web數據挖掘可以分為Web內容挖掘(Web Content Mining)、Web結構挖掘(Web Structure Mining)、Web使用記錄挖掘(Web Usage Mining)三類。Web內容挖掘是指從文檔內容或其描述中抽取知識的過程,又可以分為基于文本的挖掘和基于多媒體的挖掘兩種。Web文本挖掘可以對Web上大量文檔集合的內容進行總結、分類、聚類、關聯分析等。Web結構挖掘是指從Web組織結構和鏈接關系中推導知識。通過對Web結構的挖掘,可以用來指導對頁面進行分類和聚類,找到權威頁面,從而提高檢索的性能,同時還可以用來指導網頁采集工作,提高采集效率。Web使用記錄挖掘是指從服務器端記錄的客戶訪問日志或從客戶的瀏覽信息中抽取感興趣的模式。

基于Web的數據挖掘技術的出現不僅為商家做出正確的商業決策提供了強有力的工具,也為商家更加深入地了解客戶需求信息和購物行為的特征提供了可能性。

2.2 電子商務中Web數據挖掘的步驟

電子商務中Web數據挖掘的步驟如下:

① 明確數據挖掘的對象—業務對象,確定商業應用主題,不能盲目地進行挖掘;

② 將與業務對象的各類原始數據收集起來作為挖掘的數據源泉;

③ 對收集的數據進行預處理,一般包括數據凈化、用戶識別、會話識別、路徑補充、事務識別和格式化等階段,以提高挖掘效率,剔除無用、無關信息并對信息進行必要的整理。

④ 根據需要解決的問題建立合適的數據挖掘模型,然后利用已知數據對模型進行訓練和測試,并應用該模型得到挖掘結果;

⑤ 利用可視化技術,驗證、解釋挖掘的結果,并據此做出決策或豐富知識,即進行模式分析與應用。

在整個Web數據挖掘的過程中,被明確的業務對象是挖掘過程的基礎,它驅動整個Web數據挖掘的全過程; 同時,也是檢驗挖掘結果和引導分析人員完成挖掘的依據。

2.3 電子商務中Web數據挖掘的數據源

在電子商務中,可以用來作為數據挖掘分析的數據量比較大,而且類型眾多,總結起來有以下幾種類型的數據可用于Web數據挖掘技術產生各種知識模式。

① 服務器數據。客戶訪問站點時會在Web服務器上留下相應的日志數據,這些日志數據通常以文本文件的形式存儲在服務器上。一般包括servers logs、error logs、cookies logs等。

② 查詢數據。它是電子商務站點在服務器上產生的一種典型數據。例如,對于再現存儲的客戶也許會搜索一些產品或某些廣告信息,這些查詢信息就是通過cookie或是登記信息連接到服務器的訪問日志上。

③ 在線市場數據。這類數據主要是傳統關系數據庫里存儲的有關電子商務站點信息、用戶購買信息、商品信息等數據。

④ Web頁面。主要是指HTML和XML頁面的內容,包括文本、圖片、語音、圖像等。

⑤ Web頁面超級鏈接關系。主要是指頁面之間存在的超級鏈接關系,這也是一種重要的資源。

⑥ 客戶登記信息。客戶登記信息是指客戶通過Web頁輸入的、要提交給服務器的相關用戶信息,這些信息通常是關于用戶的人口特征。在Web的數據挖掘中,客戶登記信息需要和訪問日志集成,以提高數據挖掘的準確度,使之能更進一步的了解客戶。

2.4 Web數據挖掘能夠獲取的知識模式

運用Web數據挖掘技術能夠對站點上的各種數據源進行挖掘,找到相關的一些知識模式,以指導站點人員更好地運作站點和向客戶提供更好的服務。一般運用Web數據挖掘可以在站點上挖掘出來的知識模式有以下幾個:

① 路徑分析。它可以被用于判定在一個Web站點中最頻繁訪問的路徑。通過路徑分析,可以得到重要的頁面,可以改進頁面及網站結構的設計。

② 關聯規則的發現。在電子商務中關聯規則的發現可以找到客戶對網站上各種文件之間訪問的相互關系,可以找到用戶訪問的頁面與頁面之間的相關性和購買商品間的相關性。利用這些相關性,可以更好的組織站點的內容,實施有效的市場策略,增加交叉銷售量,同時還可以減少用戶過濾信息的負擔。

③ 序列模式的發現。序列模式的發現就是在時間戳有序的事務集中,找到那些“一些項跟隨另一項”的內部事務模式。它能夠便于進行電子商務的組織預測客戶的訪問模式,對客戶開展有針對性的廣告服務。通過系列模式的發現,能夠在服務器方選擇有針對性地頁面,以滿足訪問者的特定要求。

④ 分類和預測。分類發現就是給出識別一個特殊群體的公共屬性的描述,這個描述可以用來分類新的項。分類的目的是通過構造分類模型或分類器,把數據庫中的數據項映射到給定類別中的某一個,以便用于預測;也就是利用歷史數據記錄自動推導出對給定數據的推廣描述,從而能對未來數據進行預測,進行適合某一類客戶的商務活動。

⑤ 聚類分析。聚類分析可以從Web訪問信息數據中聚集出具有相似特性的那些客戶。在Web事務日志中,聚類顧客信息或數據項能夠便于開發和執行未來的市場策略。這種市場策略包括自動給一個特定的顧客聚類發送銷售郵件、為屬于某一個顧客聚類中的顧客推薦特定的商品等。對電子商務來說,客戶聚類可以對市場細分理論提供有力的支持。通過對聚類客戶特征的提取,電子商務網站可以為客戶提供個性化的服務。

⑥ 異常檢測。異常檢測是對分析對象的少數的、極端的特例的描述,以揭示內在的原因,從而減小經營的風險。異常檢測在電子商務中的應用可以體現在信用卡欺詐甄別、發現異常客戶和網絡入侵檢測等方面。

Web數據挖掘的各項功能不是獨立存在的,而是在挖掘過程中互相聯系,發揮作用。

3 Web數據挖掘在電子商務中的應用

3.1數據抽取方法在電子商務中的應用

與傳統商務活動相比,電子商務具有更多的虛擬和不確定的因素:如客戶購買的心理、動機、能力、欲望等。Web數據挖掘要解決的問題就是如何從零散的無規則的網絡數據中找到有用的和有規則的數據和知識,基本方法之一就是進行數據抽取,以期對數據進行濃縮,給出它的緊湊描述,如方差值等統計值或用直方圖等圖形方式表示,從數據泛化的角度討論數據總結,把最原始、基本的信息數據從低層次抽象到高層次,以便于企業決策。

3.2 基于Web數據挖掘的智能化搜索引擎

電子商務企業在活動過程中面臨的問題之一是如何通過Internet全面、準確、及時地收集到企業內、外部的環境信息,尤其是一些隱性的、關系到企業經營成敗的關鍵信息,以提高競爭力。目前的搜索引擎存在著查準率低、返回無用信息多的問題,使企業無法得到優質的信息。鑒于此,將Web數據挖掘技術應用于搜索引擎,使之成為智能搜索引擎,從而提高性能,滿足電子商務企業的需要。Web挖掘技術主要在以下幾個方面對搜索引擎有借鑒作用:文檔的自動分類、自動摘要的形成、檢索結果的聯機聚類和相關度排序及實現個性化的搜索引擎。經過文檔的分類處理,可以對搜索結果進行分門別類,可以通過限制搜索范圍來使文本的查找更為容易,幫助用戶快速的對目標知識進行定位,從而提高用戶進行網上信息搜索的效率;自動摘要能夠解決大部分搜索引擎機械地截取文檔的前幾句和固定字數的摘要使信息反映不完整的缺陷,使用戶能較準確、快速、方便地了解檢索信息;通過對檢索結果的文檔集合進行聚類,可以使得與用戶檢索結果相關的文檔集中在一起,從而遠離那些不相關的文檔,將處理以后的信息以超鏈結構組織的層次方式可視化地提供給用戶,由用戶選擇他所感興趣的那一簇,將大大縮小所需瀏覽的頁面數量;將Web使用挖掘中的個性化技術應用在搜索引擎中,可以在大量訓練樣本的基礎上,得到數據對象間的內在特征,并以此為依據進行有目的的信息提取,使得搜索引擎可以按照用戶的興趣偏好擴充用戶搜索的關鍵詞,以使得檢索結果更接近用戶要求,或者根據用戶歷史瀏覽信息的分析獲得用戶興趣庫,調用個性化的搜索引擎可以提高用戶檢索的查全率與查準率。通過借鑒Web挖掘技術可以提高查準率與查全率,改善檢索結果的組織,從而使檢索效率得到改善。

3.3 Web數據挖掘在客戶關系管理中的應用

① 客戶關系管理的核心

客戶關系管理(Customer Relationship Management,簡稱CRM)的核心是通過客戶和他們行為的有效數據收集,發現潛在的市場和客戶,從而獲得更高的商業利潤,通過完善的客戶服務和深入的客戶分析來滿足客戶的需求,保證實現客戶的終生價值。可以說 CRM 能給傳統企業帶來在網絡經濟時代謀取生存之道的管理制度和技術手段。它要求企業從“以產品為中心”的模式向“以客戶為中心”的模式轉移。

② Web數據挖掘在客戶關系管理中的應用

Web數據挖掘能夠幫助企業確定客戶的特點,使企業能夠為客戶提供有針對性的服務。將Web數據挖掘用在電子商務CRM中主要體現在客戶的獲取和保持、價值客戶鑒別、客戶滿意度分析及改善站點結構等幾方面。

通過Web數據挖掘,可以理解訪問者的動態行為,據此優化電子商務網站的經營模式。通過把所掌握的大量客戶分成不同的類,對不同類的客戶提供個性化服務來提高客戶的滿意度,從而保持老客戶;通過對新訪問者的網頁瀏覽記錄進行分析,就可以判斷出該訪問者是屬于哪一類客戶,是有利可圖的潛在客戶還是毫無價值的過客,達到區別對待、節省銷售成本、提高訪問者到購買者的轉化率的目的,從而挖掘潛在客戶;通過對具有相似瀏覽行為的客戶進行分組,提取組中客戶的共同特征,從而實現客戶的聚類,這可以幫助電子商務企業更好地了解客戶的興趣、消費習慣和消費傾向,預測他們的需求,有針對性地向他們推薦特定的商品并實現交叉銷售,可以提高交易成功率和交易量,提高營銷效果。

此外,站點的結構和內容是吸引客戶的關鍵。利用關聯規則的發現,針對不同客戶動態調整站點結構和頁面內容,把具有一定支持度和信任度的相關聯的物品放在一起以有助于銷售;通過路徑分析等技術可以判定出一類用戶對Web站點頻繁訪問的路徑,這些路徑反映這類用戶瀏覽站點頁面的順序和習慣,將客戶訪問的有關聯的文件實現直接鏈接,讓客戶容易地訪問到想要的頁面。這樣的網站會給客戶留下好印象,提高客戶忠誠度,吸引客戶,延長他們在網站上的駐留時間以及提高再次訪問的機率。

通過挖掘客戶的行為記錄和反饋情況,進一步優化網站組織結構和服務方式以提高網站的效率。通過Web數據挖掘,可以得到可靠的市場反饋信息,評測廣告的投資回報率,從而評估網絡營銷模式的成功與否;可以根據關心某產品的訪問者的瀏覽模式來決定廣告的位置,增加廣告針對性,提高廣告的投資回報率,降低公司的運營成本。

③ 維護客戶的隱私權

維護客戶的隱私權是商家在商業運作過程中不能忽視的一個基本組成部分。因此,作為電子商務企業,應該盡量避免對單個客戶數據進行挖掘。企業管理客戶隱私權的保護應該從技術和管理兩個方面來實現:技術上,通常是采用加密標志符,并且盡量避免對單個客戶數據進行挖掘;管理上,很多電子商務企業現在已經增設了首席隱私官(CPO,Chief Privacy Officer)職位,隱私官將能在個人對隱私的需求和公司以合理手段使用隱私材料的權利之間,建立適當的平衡關系。這種平衡關系的大成,需要以長期的實踐和經驗為基礎。除了電子商務企業以單獨的主體身份進行客戶隱私權保護的管理之外,行業自律也是保護客戶隱私權的一個行之有效的手段。目前,電子商務網站越來越傾向于通過行業自律的方式來樹立其在客戶心目中的形象,讓客戶放心地提交數據。

3.4 Web數據挖掘在個性化服務推薦系統中的應用

電子商務個性化服務推薦系統是向站點企業提供在電子商務中更好地運作CRM,建立良好客戶關系的一種解決方法,是“以客戶為中心”、“一對一”的行銷的堅實執行者。

該系統主要是將數據挖掘的思想和方法應用到Web服務器日志及Web數據庫等資源上,挖掘出客戶的訪問規律;然后將在線訪問客戶歸結到某一類中去,根據該類用戶的訪問規律進行Web頁面的推薦;并且系統還可以通過不斷地跟蹤用戶的當前訪問,實時調整推薦集,為用戶提供個性化的訪問。該系統由五大模塊組成:數據收集模塊、數據預處理模塊、數據存儲模塊、離線挖掘模塊和在線推薦模塊。其系統結構模型如圖1所示:

圖1 基于Web數據挖掘的個性化服務推薦系統結構模型

數據收集模塊主要用于收集Web數據庫、使用日志等數據,形成數據采集庫,為以后的挖掘做準備;數據預處理模塊主要是對所收集的數據進行預處理,數據預處理的質量與挖掘的效率和結果緊密相關;數據存儲模塊將預處理后的數據存入用戶事務庫;離線挖掘模塊中的挖掘引擎使用挖掘算法庫中的數據挖掘技術如統計分析、關聯規則、聚類分析、序列模式等,來發現用戶瀏覽模式,并通過模式分析對其進行分析與解釋,根據實際應用,通過觀察和選擇,把發現的統計結果、規則和模型轉換為知識,經過篩選后得到有用的模式用來指導實際的電子商務行為;在線推薦模塊在Web服務器前端設置了推薦引擎,它將用戶當前的瀏覽活動與瀏覽出的頁面推薦集結合起來考慮,生成相應推薦集,然后在用戶最新請求的頁面上添加推薦集的頁面,再通過Web服務器傳遞到用戶端的瀏覽器,為用戶實現實時個性化服務;同時將推薦結果送往網站管理中心,以便調整網站設計,優化網站結構,提高網站效率。

總的來說,在個性化服務推薦系統中運用數據挖掘技術有兩個階段:第一個階段是學習階段,離線進行。第二個階段是模式的使用階段,在線進行。挖掘和在線推薦的特征獲取和規則生成是離線處理的,而當用戶訪問該網站時通過在線推薦引擎進行在線服務。離線模塊和在線模塊相互聯系,在線模塊主要是利用離線模塊提供的規則模型對在線用戶推薦(推薦引擎);離線模塊主要是利用在線模塊積累的數據運用系統推薦算法形成相應的規則。挖掘算法和推薦策略可以根據不同類型站點的要求來具體選擇,挖掘結果和推薦集通過推薦引擎反饋給用戶。電子商務網站的客戶登錄網站以后,其訪問信息將會被記錄到服務器端。這些數據將在經過預處理后,在專用的數據挖掘模塊中,通過具體的挖掘算法和推薦策略來進行模式識別和模式分析。用戶訪問信息也會傳到推薦引擎,推薦引擎根據客戶的會員標識,向挖掘模塊抽取對應客戶的挖掘結果和推薦集,將其可視化地反饋給用戶,達到個性化服務的目的。

3.5基于Web的數據挖掘在商業信用評估中的應用

發達的社會信用水平是發展電子商務的重要基礎,通過Web數據挖掘對站點數據統計和歷史記錄之間的差別,結果與期望值的偏離以及反常實例進行充分的分析,可以有效地防范投資和經營風險。另外,通過數據挖掘技術對企業經營進行跟蹤,開展企業的資產評估、利潤收益分析和發展潛力預測,構建完善的安全保障體系,實施網上全程監控,監督網上言論,維護企業信譽,強化網上交易和在線支付的安全管理,利用數據挖掘的信用評估模型,對交易歷史數據進行挖掘發現客戶的交易數據特征,建立客戶信譽度級別,有效地防范和化解信用風險,提高企業信用甄別與風險管理的水平和能力。

4 結論

本文對Web挖掘技術進行了綜述,介紹了其在電子商務中的典型應用。Web數據挖掘高度自動化地對電子商務中的大量信息進行分析和推理,從中挖掘出潛在的模式,預測客戶行為,幫助企業的決策者調整市場策略,減少風險,做出正確的決策。Web數據挖掘是近幾年來數據挖掘領域的探討熱點,利用它的技術知識將它運用到電子商務,將會解決許多實際問題,具有豐富的學術價值。將Web數據挖掘技術和電子商務兩者有機結合,將會為企業更有效的確認目標市場,改進決策,獲得競爭優勢提供幫助,有著很廣闊的應用前景,使電子商務網站更具有競爭力,從而為企業帶來更多的效益。面向電子商務的Web數據挖掘能發現大量數據背后隱藏的知識,指導商家提高銷售額,改善企業客戶關系,提高網站運行效率,改進系統性能,具有良好的發展和應用前景,必將得到越來越多的關注。

參考文獻

[1] 毛國君.數據挖掘原理與算法[M].清華大學出版社.2005(07).

[2] 張冬青.數據挖掘在電子商務中應用問題研究[J].現代情報.2005(09).

[3] 李鳳慧.面向電子商務的Web數據挖據的研究[D].山東科技大學碩士學位論文. 2004(06).

[4] 楊風召,白慧.異常檢測技術及其在電子商務中的應用[J].情報雜志. 2005(12).

第8篇

在江蘇省政府2003年度公派留學計劃“訪問學者”項目資助下,我于2006年3月~2007年2月對美國德雷克塞爾大學(Drexel University)進行了訪問研究。在美期間,我觀摩了信息科學與技術學院信息處理專業、軟件工程以及工程學院計算機科學與技術系計算機科學專業的軟件工程、數據結構、數據庫及數據庫管理系統、高級人工智能、數據挖掘、數字圖書等的教學,接觸了導師所申請到的美國國家自然科學基金課題和賓夕法尼亞(PA)州的研究基金課題(NSF Career Grant IIS 0448023;NSF CCF 0514679;Dept of Health Tobacco Settlement Formula Grant, PA, No.240205 and No.240196; Dept of Health Grant, PA, No.239667),參與了博士生的研究指導活動和每周的專題學術研討會,并撰寫了7篇研究論文(后來陸續在國際學報Kybernetes、國際學術會議上公開發表),取得了圓滿的訪問成果。

采用計算機科學技術、現代信息技術和新的數學理論和工具處理復雜的信息,從各類文本、數據、表格、圖像、視頻等浩瀚的數據海洋中挖掘規律,發現有用的潛在知識,指導人們進行科學分類、預測、決策,是多年來美國及國際計算機、信息科學和數學家一直在探索的研究領域。知識獲取、知識表示和智能化的人機交互,甚至實現計算機可視化信息處理,建立新穎的知識庫,從而獲得領域信息和知識分析結果,將有助于商業活動、生物信息處理、蛋白質結構分析、科技研究動態分析,有助于科學家在復雜的科研信息中開辟新的未知領域,提供快速獨立科學判斷的客觀依據,探討和預測學科知識的發展前沿,準確把握學科研究方向,從事科學創新和研究。

多年來,我一直在智能信息處理這一研究領域進行探索。這次聯系到美國德雷克塞爾大學信息科學技術學院Tony• H教授,在他的指導下進行數據挖掘、生物信息挖掘以及Rough Set Theory等方向的研究。

Tony•H教授現擔任國際學報《Data Mining and Bioinformatics》和《Granular Computing》等的主編和國際粒計算會議的程序委員會主席,他所研究的Rough Set Theory、Data mining、Bioinformatics和Data Management Systems等內容,是近年來在世界智能信息分析中最具特色和影響力的研究領域。從2000年至今,他在這一研究領域中發表的研究論文達60多篇,出版的研究專著為3部。在為期一年的時間里,我與Tony•H進行了很好的合作研究,采用新的研究方法,對前沿領域進行了有益的探索研究,并接受了Tony•H等教授們的研究思想、研究方法、教學思想和教學方法的熏陶,對相關課程的教學方法、教學手段、教學組織方式進行了深入的交流和探討。此外,我還以志愿者的身份參加了在美國舉辦的兩個大型的全球性國際會議:美國工業數學聯合會舉辦的2006年國際知識發現與數據挖掘會議(Knowledge Discovery and Data Mining- KDD, by SIAM, Maryland April,2006);國際知識發現和數據挖掘會議(International Knowledge Discovery and Data Mining (KDD), Philadelphia August, 2006)。

這次訪問研究使我開闊了眼界,接觸到很多當今信息科學研究領域中最先進的思想和方法。對Rough Set Theory、Data mining、Bioinformatics等前沿性探索和預測的科學研究也有了更深入的認識。同時,能夠有機會和這一研究領域的世界知名專家和教授進行面對面的學術交流與探討,參加各種類型的學術研討會,我覺得受益匪淺。我所感受的學術氛圍、學到的教學思想和教學方法是一筆寶貴的精神財富,我會將他們直接應用到自己的教學和科研中。下面就我在訪美期間印象深刻的幾件事談談體會,以期對我們的工作有所啟示。

2優秀的學習環境

2.1優美的校園環境

我所訪問的德雷克塞爾大學地處美國費城的市中心西部,緊鄰世界著名的賓法尼亞大學(世界上第一臺電子計算機ENIAC在這里誕生,現在這里還保留有部分元件的展覽)。雖然離市中心較近,校園也沒有圍墻與外界明顯隔開,由跨南北東西幾條街和大道的建筑組成,但校區及周邊環境寂靜優雅。校園中央有一座代表性的龍雕塑,路邊插的許多旗桿上掛著印有龍的圖案和Dragon字樣的杏黃校旗,幾只松鼠在校園內的樹上自由地跳躍活動,小道邊或樹下都設有長凳,供教職工或學生休息、討論。

教學樓、實驗樓、辦公樓、圖書館、體育館內中央空調處于恒溫狀態,非常適合工作學習。每棟樓的大廳或較寬的走道邊的墻壁上都貼有各種名言及名畫,營造著好的學習環境,渲染著極其重要的文化氛圍。大廳內布置有椅子和圓桌,在上課、實驗或面談之前,教師或學生可在此休息等待,這一點的確做到了以人為本,給我留下了十分深刻的印象。

體育館內各種體育設施齊全,如健身、跑步、球類等,全年對學生免費開放。游泳也只需支付少量的費用(3個月只需25美元),全天多時段使用。

9月迎接新生、校際間的籃球比賽等活動舉辦得井井有條,充滿生機。

2.2完備的信息化建設

首先,信息化建設表現在數字資源的建設上。圖書館大廳內設有很多計算機,學生可在此上網瀏覽,查閱資料。書架周邊靠墻處設有自習的桌椅,供有網絡插口,學生可鏈接自己的筆記本電腦。圖書館資料豐富,如果在本館找不到相關資料,也可請圖書管理員在館際間查找,將返回的電子文檔通過郵件發送到學生校園網內的電子郵箱中,十分方便。

校園無線網覆蓋了整個校園,教室周圍也預設了網線插口,在教室內上課或自習的學生均可免費無線或有線上網。在校的本、碩、博學生都有自己的校內學號,憑該學號可直接在自己的實驗室登陸校園網的電子圖書館,查到僅在校園網上提供的論文資料。學生還可從校園網中心服務器上下載以學校或機構名義購買的正版軟件,這一點國內很多高校還沒能做到。

其次,信息化建設也體現在師生信息素養的建設上。無論在信息意識、信息知識、信息能力,還是在信息道德上,師生們都顯現出十分成熟的高水平。良好的信息化數字資源建設為師生的教學科研提供了良好的保障,師生們利用簡單的搜索機制或便捷的館際服務就可查到需要的資源。雖然本校師生可從校園網上下載正版軟件,但每個人都遵守不宜外拷的基本原則,這也體現了良好的信息素養。

3教師教學與學生學習

3.1教師教學情況

美國高校一般一年分為4個學期,每個學期大約3個月。按照校方的要求,每個教師至少3個學期要有教學任務,而且必須在每個學期完成平均3門課程的教學,個別教師甚至在一個學期要承擔4門課程的教學任務。一門課的教學約32學時,這樣,每個教師每學期(一學期不到3個月)約完成72~96學時的教學工作量。除非有科研課題,可以用科研任務充抵教學工作量,否則,教學任務就是相當飽滿的。除了承擔教學工作外,每個教師還要承擔科研、指導碩士及博士生進行研究的工作。年輕教師除了要完成教學任務,還要進一步深造,提高自己的學位和水平。教師的教學情況由學生來評價,學生填寫調查表格,收齊后交由學院教學秘書統計,最后由學院將統計結果通報給教師本人,類似國內高校的學生評教。所以教師同樣很有壓力,他們對教學一絲不茍、敬業,并非普通人所想象的美國教師工資高、工作輕松。

在課下,教師必須將所授課程的內容介紹、大綱、演示文檔資料、習題等組織好,全部掛在校園網的個人主頁上,以便學生隨時瀏覽。備課、批改作業、設計實驗題目等各個環節,教師都要十分認真地對待,每周有一次約定學生到辦公室進行問題討論或答疑,保證教學任務圓滿完成。教師對實驗項目的設計循循善誘,既不是全盤托出,也不是僅給一個題目,讓學生冥思苦想地琢磨。除了將學生建立成團隊,教師還布置與課程相關的大量文獻和資料閱讀,并要求學生寫出讀書報告。對于課程結束或評定成績用的大作業,甚至要求每個學生制作成演示文稿,并加以匯報、討論。我看到一位叫愛德華(中譯名)的老師,他承擔了數據庫、軟件工程等多門課程的教學任務,每天都在辦公室工作到很晚,有時甚至在教學樓大廳的休閑式自習間伏案研究。

在課上,每門課程開始的第一節課,教師就將學生分組,形成一個一個團隊。在布置學習和研討課題后,教師要求學生先獨立思考,不明白的東西可在團隊內討論,有問題還可及時問老師。也就是說,每門課都在培養學生的團隊協作精神。教師在課堂上的演示文稿經過精心準備,圖文并茂,層次分明,令人賞心悅目,但他們也不完全拘泥于演示稿,也在黑(或白)板上演繹關鍵的內容,突出重點,使學生感到他們備課充分,對教學內容十分精通。

3.2學生學習情況

在美國讀書的學生,普遍感到課外閱讀任務較重。學生不光要學好課內的基本教學內容,還要閱讀文獻,查找與主題相關的資料,并加以整理、歸納、匯總。這培養了學生自主學習的意識,清除他們完全靠老師課堂講授的依賴心理。

課堂上,學生們會踴躍發言,認真記筆記,回答老師的提問,在老師的引導下完成課堂練習。下課后,學生到圖書館查閱資料或自習,也會在網上下載老師在主頁上布置的作業,按時完成后及時提交給老師批改。如在課程結束時,教師會給學生布置大作業,學生要在一定時間內當面交給老師,并接受面試提問,作為考查依據的一部分。在接到作業任務后,學生要認真對待,完成后連帶其他作業一起交給老師。老師根據學生的總體完成情況給出五級分制的成績。

我曾遇到一位碩士生,她就接到這樣一個大作業。老師給的任務是一個較大的程序,要求她調試運行通過。經過一周的調試,程序始終沒能運行成功。在快要到期時,她正好碰到我,聽說我是從事這方面教學工作的,就向我請教。我很想了解美國教師采用什么樣的教學方法,出什么樣的題目讓學生做,于是答應幫他。我仔細閱讀分析和反復測試網上下載的源代碼,終于找出了問題所在。原來老師在程序中故意預設了兩個問題,這是學生在學習此類程序設計語言時容易忽略或犯錯的問題,程序在編譯中并不報錯,但就是運行結果不正確,得不到期望的結果,學生找不到出錯的地方,感到很困惑。經過修改,程序很快調試運行通過,進一步優化和調整后,她交給了老師。老師看了她的程序運行結果,并問了她的體會,得到非常滿意的回答后,表示十分高興。

其實,這就是教師在主導學生去主動學習,自己找資料,自己研究問題,形象地講,就是“逼”學生好好學習。這樣可以解決學生遇到較難問題時無從下手的迷惑,循循善誘他們找到解決問題的方法,避免了“越俎代庖”。

4 碩士生和博士生的培養過程

在碩、博研究生的指導過程中,如何對學生加以良好的指導,始終是困擾國內外導師們的問題,至今仍無絕對規范。

從導師與學生一見面,指導工作就已開始。導師一般提供很多必要的幫助,如幫助開設相互聯系的校園郵箱,確定聯系方式和時間,根據學生的知識結構制定研究方向等。作為一項基本約定,指導教師每周要有一個下午與學生見面,由學生匯報學習和研究情況,導師當面給出指導意見。導師有時還會幫助學生查找并提供最相關的研究論文或資料,必要時將研究論文的電子稿發送給學生,甚至將論文復印件放在學生的信箱中――這絕對有別于國內有的指導老師因兼職過多或擔任其他職務,指導缺乏或持久不到位現象。這種指導方式加強了導師與學生的交流,也便于將學生引導到相關研究領域的最前沿,而導師也始終站在研究的最高點。而通過不斷的交流和指導,學生能很快系統地了解相關領域的研究進展,較早找到問題的抓手,有興趣地開展有意義的研究,往往容易產生創新型成果,包括理論和應用性實驗成果等,并能。

當學生或導師認識到某個研究點的價值所在時,就會著力加以深入研究。如導師要求學生認真閱讀研究后再來參加討論,甚至有時要求學生將討論內容制成演示文檔講解,這樣他們對重要的概念和研究結果的掌握就會更加透徹,文獻跟蹤程度和研究思路水平就會得到提升。這種有意識的訓練大大強于“散放式”的指導方式。

5良好的學術氛圍

學科建設和課程教學離不開學術研究。在德雷克塞爾大學,給人留下深刻印象的就是每個教授(正教授、副教授和助理教授)都將自己的研究方向和最新論文或成果以一幅畫的形式貼在工作室的外墻上,上面有個人簡介、主要方法和結果說明。這樣就打出了自己的招牌,便于他人了解自己。此外,每個教授甚至普通教師都在校園網上建有自己的主頁,對自己的教學科研工作進行介紹,并將研究論文、著作等目錄列在其中,便于與他人交流或溝通。教師也經常根據教學內容聯系國際國內的專家做學術報告,始終用新知識武裝學生的頭腦。

重視營造活躍的學術氛圍,并使學術交流制度化、經常化,是我在美做訪問學者期間感受最深的一點。每個系或學院基本上每周都舉辦1~2次學術研討會,主講者有來自世界各地的專家教授,也有某個研究領域資深的校內教師。每次學術研討會的時間大都定在中午12:30,12:00就開始提供免費的午餐。這樣既充分利用了時間,又解決了聽報告者的午飯問題,也通過免費午餐吸引了不少聽眾,特別是一些來自第三世界國家的“窮”留學生們。通過網上邀請,大多數感興趣的學生甚至老師都會來參加研討會,在這里了解一些最新的研究進展和報告人的研究思路,并能與主講人交流自己的研究體會,視野隨之開闊,思想也隨之富有。有時,一些大的跨國公司或政府部門(如安全部門)的技術專家也被邀請來做專題報告,這樣學術交流的氛圍就比較活躍,研究工作也不會是一潭死水。

6結語

在美國德雷克塞爾大學訪問進修一年,我目睹了該大學在環境建設、教學科研等方面的好的做法,開闊了視野。回國后,我給我的學生們講解我的所見所聞,也給他們留下了深刻印象。這次進修不僅使我在業務上得到進一步修煉,也獲得了不少“精神財富”,如下所示:

(1) 抓實抓好教學工作的每個環節,是高校教師的永恒主題。任何一個環節,如教學方法、教學手段、實驗項目設計、主導學生學習、提出學習要求、組織討論答疑、批改作業等方面的提高,都會大大提高教學質量和教學效率,取得事半功倍的效果。

(2) 指導學生方向和過程并重,確保處于研究前沿。指導學生,特別是碩、博士生的導師,不僅在一開始就要幫助學生確定研究方向,而且要定期開展學習檢查和交流活動,必要時還要為學生提供前沿性的研究論文或資料,以便將他們早日引導到國際國內的前沿陣地,保持在高新水平上從事研究工作,取得創新性的研究成果。

(3) 創造活躍的學術氛圍和良好的學習環境,是高校各級領導及教師的基本責任。只有將教師和學生置于始終向前的滾滾波濤中,教學和研究才會具有不可估量的創造力,才會在科學的道路上獲得可持續發展。

參考文獻:

第9篇

1加強期刊文獻推送服務的必要性

2001年以來,信息推送模式成為我國圖書情報界關注與討論的熱點,對信息推送的技術、內容、方式、應用和存在的問題等進行了研究[7],尤其在數字圖書館信息推送中得到較多的實踐,如浙江大學圖書館推出了入藏新書郵件推送服務[8],西北工業大學圖書館對三大索引收錄論文進行郵件推送服務等[9]。期刊擁有3支較大的隊伍,即作者隊伍、審稿專家隊伍和編委隊伍,他們是期刊文獻潛在的用戶群。由于用戶以拉取模式獲取期刊文獻存在以上問題,筆者提出基于用戶科研工作文獻信息的需要,以電子郵件方式進行期刊文獻的推送,以便用戶能夠及時獲取和引用相關文獻信息。這樣可以宣傳與推介期刊,轉變服務理念,由過去的用戶單向被動獲取文獻,到現在的期刊主動出擊,從而加強用戶與期刊的互動與合作,以實現“推”“拉”結合的方式,為用戶提供更及時、主動和有針對性的文獻服務,提升期刊文獻的顯示度、利用率和影響力。

2電子郵件系統進行期刊文獻推送的策略

2.1用戶數據庫的建立

要向用戶推送期刊文獻,必須要有需求期刊文獻用戶的數據信息和電子郵件地址等,可以通過多種渠道準確獲取用戶的有關信息:一是通過編輯部的投審稿系統提取投稿作者及評審專家的信息,如用戶姓名、研究方向及電子郵箱等;二是通過編委資源庫獲取相關編委的個人信息;三是通過行業學術會議的通訊錄等提取相關專業學者的信息;四是通過高校院系網站獲取專業學科帶頭人及有關學者的信息;五是與其他期刊編輯部進行資源互換,獲取有關專家的信息。將收集到的用戶數據(用戶名、專業方向、電子郵箱等)建立在群發郵件工具Outlook(或OutlookExpress等)中,及時更新用戶數據庫,并將用戶按照專業方向進行歸類分組,不斷挖掘和發現用戶文獻信息的需求。

2.2期刊文獻的提取

已被錄用并正式確定刊期的文章,經過編輯、排版、校對后,便可形成最終的電子版本,須盡快將期刊目次和正文轉化為PDF格式等常用格式,再將相近專業的文獻進行聚合分類,建立分組文件,并打包壓縮。另外可將過往的期刊文獻進行提取、分類和壓縮。同時,將用戶數據庫與提取的文獻信息進行關聯,準備發送。2.3期刊文獻的推送在垃圾郵件滿天飛的狀況下,為防止被當做垃圾信息過濾,就要在郵件模板設計時特別注意,郵件主題及內容描述力求準確,既要介紹刊物,又可歡迎賜稿;還建議已實行OA(開放獲取)的期刊,將OA網址一并加入;語言表述還要體現個性化,以確保推送的質量。文獻推送主要采用電子郵件的群發方式。目前可以群發郵件的軟件較多,如Outlook、OutlookExpress、W3JMail等,要注意選擇如可調用Outlook作為數據推送客戶端,實現郵件推送服務的自動化,自動將期刊文獻信息推送到用戶郵箱。

相關文章
相關期刊
主站蜘蛛池模板: 国产观看精品一区二区三区 | 精品综合久久久久久97超人该 | 国产成人在线视频播放 | 九月丁香婷婷亚洲综合色 | 日韩欧美高清视频 | 国产一级大片在线观看 | 精品成人久久 | 综合精品视频 | 国产在线精品一区二区中文 | 男人天堂2018| 亚洲a成人网77777在线 | 色综合日韩 | 久久综合狠狠综合久久 | 国产精品久久免费 | 久久99这里只有精品国产 | 婷婷成人丁香五月综合激情 | 久久综合精品视频 | 青青草国产精品视频 | 嫩草影院最新网址 | 青青综合 | 毛片在线网站 | 五月月色开心婷婷久久合 | 奇米第四色在线视频 | 女老师电影全集免费看 | 欧美一级高清片欧美国产欧美 | 欧美综合天天夜夜久久 | 欧美视频a | 男人的天堂黄色 | 秋霞在线观看视频一区二区三区 | 男女男精品视频免费观看 | 狠狠色婷婷综合天天久久丁香 | 99亚洲精品视频 | 国产精品日韩欧美 | 国产婷婷高清在线观看免费 | 毛片免费网站 | 开心色播五月 | 国产精品永久免费视频观看 | 一级毛片在线视频 | 亚洲欧美精品中字久久99 | 免费精品国产日韩热久久 | 激情五月激情综合网 |