時間:2023-03-13 11:24:15
引言:易發表網憑借豐富的文秘實踐,為您精心挑選了九篇數據挖掘技術論文范例。如需獲取更多原創內容,可隨時聯系我們的客服老師。
[關鍵詞]數據挖掘數據挖掘方法
隨著信息技術迅速發展,數據庫的規模不斷擴大,產生了大量的數據。但大量的數據往往無法辨別隱藏在其中的能對決策提供支持的信息,而傳統的查詢、報表工具無法滿足挖掘這些信息的需求。因此,需要一種新的數據分析技術處理大量數據,并從中抽取有價值的潛在知識,數據挖掘(DataMining)技術由此應運而生。
一、數據挖掘的定義
數據挖掘是指從數據集合中自動抽取隱藏在數據中的那些有用信息的非平凡過程,這些信息的表現形式為:規則、概念、規律及模式等。它可幫助決策者分析歷史數據及當前數據,并從中發現隱藏的關系和模式,進而預測未來可能發生的行為。數據挖掘的過程也叫知識發現的過程。
二、數據挖掘的方法
1.統計方法。傳統的統計學為數據挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術。貝葉斯推理是在知道新的信息后修正數據集概率分布的基本工具,處理數據挖掘中的分類問題,回歸分析用來找到一個輸入變量和輸出變量關系的最佳模型,在回歸分析中有用來描述一個變量的變化趨勢和別的變量值的關系的線性回歸,還有用來為某些事件發生的概率建模為預測變量集的對數回歸、統計方法中的方差分析一般用于分析估計回歸直線的性能和自變量對最終回歸的影響,是許多挖掘應用中有力的工具之一。
2.關聯規則。關聯規則是一種簡單,實用的分析規則,它描述了一個事物中某些屬性同時出現的規律和模式,是數據挖掘中最成熟的主要技術之一。關聯規則在數據挖掘領域應用很廣泛適合于在大型數據集中發現數據之間的有意義關系,原因之一是它不受只選擇一個因變量的限制。大多數關聯規則挖掘算法能夠無遺漏發現隱藏在所挖掘數據中的所有關聯關系,但是,并不是所有通過關聯得到的屬性之間的關系都有實際應用價值,要對這些規則要進行有效的評價,篩選有意義的關聯規則。
3.聚類分析。聚類分析是根據所選樣本間關聯的標準將其劃分成幾個組,同組內的樣本具有較高的相似度,不同組的則相異,常用的技術有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內部關系,從而對樣本結構做出合理的評價,此外,聚類分析還用于對孤立點的檢測。并非由聚類分析算法得到的類對決策都有效,在運用某一個算法之前,一般要先對數據的聚類趨勢進行檢驗。
4.決策樹方法。決策樹學習是一種通過逼近離散值目標函數的方法,通過把實例從根結點排列到某個葉子結點來分類實例,葉子結點即為實例所屬的分類。樹上的每個結點說明了對實例的某個屬性的測試,該結點的每一個后繼分支對應于該屬性的一個可能值,分類實例的方法是從這棵樹的根結點開始,測試這個結點指定的屬性,然后按照給定實例的該屬性值對應的樹枝向下移動。決策樹方法是要應用于數據挖掘的分類方面。
5.神經網絡。神經網絡建立在自學習的數學模型基礎之上,能夠對大量復雜的數據進行分析,并可以完成對人腦或其他計算機來說極為復雜的模式抽取及趨勢分析,神經網絡既可以表現為有指導的學習也可以是無指導聚類,無論哪種,輸入到神經網絡中的值都是數值型的。人工神經元網絡模擬人腦神經元結構,建立三大類多種神經元網絡,具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學習、自組織和自適應能力的種種優點。
6.遺傳算法。遺傳算法是一種受生物進化啟發的學習方法,通過變異和重組當前己知的最好假設來生成后續的假設。每一步,通過使用目前適應性最高的假設的后代替代群體的某個部分,來更新當前群體的一組假設,來實現各個個體的適應性的提高。遺傳算法由三個基本過程組成:繁殖(選擇)是從一個舊種群(父代)選出生命力強的個體,產生新種群(后代)的過程;交叉〔重組)選擇兩個不同個體〔染色體)的部分(基因)進行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進行變異的過程。在數據挖掘中,可以被用作評估其他算法的適合度。
7.粗糙集。粗糙集能夠在缺少關于數據先驗知識的情況下,只以考察數據的分類能力為基礎,解決模糊或不確定數據的分析和處理問題。粗糙集用于從數據庫中發現分類規則的基本思想是將數據庫中的屬性分為條件屬性和結論屬性,對數據庫中的元組根據各個屬性不同的屬性值分成相應的子集,然后對條件屬性劃分的子集與結論屬性劃分的子集之間上下近似關系生成判定規則。所有相似對象的集合稱為初等集合,形成知識的基本成分。任何初等集合的并集稱為精確集,否則,一個集合就是粗糙的(不精確的)。每個粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補集元素的元素。粗糙集理論可以應用于數據挖掘中的分類、發現不準確數據或噪聲數據內在的結構聯系。
8.支持向量機。支持向量機(SVM)是在統計學習理論的基礎上發展出來的一種新的機器學習方法。它基于結構風險最小化原則上的,盡量提高學習機的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學習問題,現已成為訓練多層感知器、RBF神經網絡和多項式神經元網絡的替代性方法。另外,支持向量機算法是一個凸優化問題,局部最優解一定是全局最優解,這些特點都是包括神經元網絡在內的其他算法所不能及的。支持向量機可以應用于數據挖掘的分類、回歸、對未知事物的探索等方面。
事實上,任何一種挖掘工具往往是根據具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。
三、結束語
目前,數據挖掘技術雖然得到了一定程度的應用,并取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對數據挖掘技術的深人研究,數據挖掘技術必將在更加廣泛的領域得到應用,并取得更加顯著的效果。
數據挖掘技術是一種新型的技術,在現代數據存儲以及測量技術的迅猛發展過程中,人們可以進行信息的大量測量并進行存儲。但是,在大量的信息背后卻沒有一種有效的手段和技術進行直觀的表達和分析。而數據挖掘技術的出現,是對目前大數據時代的一種應急手段,使得有關計算機數據處理技術得到加快發展。數據挖掘技術最早是從機器學習的概念中而產生的,在對機器的學習過程中,一般不采用歸納或者較少使用這種方法,這是一種非常機械的操作辦法。而沒有指導性學習的辦法一般不從這些環境得出反饋,而是通過沒有干預的情況下進行歸納和學習,并建立一種理論模型。數據挖掘技術是屬于例子歸納學習的一種方式,這種從例子中進行歸納學習的方式是介于上述無指導性學習以及較少使用歸納學習這兩種方式之間的一種方式。因此,可以說,數據挖掘技術的特征在出自于機器學習的背景下,與其相比機器主要關心的是如何才能有效提高機器的學習能力,但數據挖掘技術主要關心如何才能找到有用、有價值的信息。其第二個特征是,與機器學習特點相比較而言,機器關心的是小數據,而數據挖掘技術所面臨的對象則是現實中海量規模的數據庫,其作用主要是用來處理一些異常現象,特別是處理殘缺的、有噪音以及維數很高的數據項,甚至是一些不同類型數據。以往的數據處理方法和現代的數據挖掘技術相比較而言,其不同點是以往的傳統數據處理方法前提是把理論作為一種指導數據來進行處理,在現代數據挖掘技術的出發角度不同,主要運用啟發式的歸納學習進行理論以及假設來處理的。
2、數據挖掘技術主要步驟
數據挖掘技術首先要建立數據倉庫,要根據實際情況而定,在易出現問題的有關領域建立有效的數據庫。主要是用來把數據庫中的所有的存儲數據進行分析,而目前的一些數據庫雖然可以進行大量的存儲數據,同時也進行了一系列的技術發展。比如,系統中的在線分析處理,主要是為用戶查詢,但是卻沒有查詢結果的分析能力,而查詢的結果仍舊由人工進行操作,依賴于對手工方式進行數據測試并建模。其次,在數據庫中存儲的數據選一數據集,作為對數據挖掘算法原始輸入。此數據集所涉及到數據的時變性以及統一性等情況。然后,再進行數據的預處理,在處理中主要對一些缺損數據進行補齊,并消除噪聲,此外還應對數據進行標準化的處理。隨后,再對數據進行降維和變換。如果數據的維數比較高,還應找出維分量高的數據,對高維數數據空間能夠容易轉化為檢點的低維數數據空間進行處理。下一步驟就是確定任務,要根據現實的需要,對數據挖掘目標進行確定,并建立預測性的模型、數據的摘要等。隨后再決定數據挖掘的算法,這一步驟中,主要是對當前的數據類型選擇有效的處理方法,此過程非常重要,在所有數據挖掘技術中起到較大作用。隨后再對數據挖掘進行具體的處理和結果檢驗,在處理過程中,要按照不同的目的,選擇不同的算法,是運用決策樹還是分類等的算法,是運用聚類算法還是使用回歸算法,都要認真處理,得出科學的結論。在數據挖掘結果檢驗時,要注意幾個問題,要充分利用結論對照其他的信息進行校核,可對圖表等一些直觀的信息和手段進行輔助分析,使結論能夠更加科學合理。需要注意的是要根據用戶來決定結論有用的程度。最后一項步驟是把所得出的結論進行應用到實際,要對數據挖掘的結果進行仔細的校驗,重點是解決好以前的觀點和看法有無差錯,使目前的結論和原先看法的矛盾有效解除。
3、數據挖掘技術的方法以及在電力營銷系統中的應用和發展
數控挖掘技術得到了非常廣泛的應用,按照技術本身的發展出現了較多方法。例如,建立預測性建模方法,也就是對歷史數據進行分析并歸納總結,從而建立成預測性模型。根據此模型以及當前的其他數據進行推斷相關聯的數據。如果推斷的對象屬于連續型的變量,那么此類的推斷問題可屬回歸問題。根據歷史數據來進行分析和檢測,再做出科學的架設和推定。在常用的回歸算法以及非線性變換進行有效的結合,能夠使許多問題得到解決。電力營銷系統中的數據挖掘技術應用中關聯規則是最為關鍵的技術應用之一。這種應用可以有效地幫助決策人員進行當前有關數據以及歷史數據的規律分析,最后預測出未來情況。把關聯規則成功引入電力營銷分析,通過FP-Growth算法對電力營銷的有關數據進行關聯規則分析,從中得出各種電量銷售的影響因素以及外部因素、手電水平等的關聯信息,以便更好地為電力的市場營銷策略提供參謀和決策。對電力營銷系統的應用中,時間序列挖掘以及序列挖掘非常經典、系統,是應用最為廣泛的一種預測方法。這種方法的應用中,對神經網絡的研究非常之多。因此,在現實中應用主要把時間序列挖掘以及神經網絡兩者進行有效地結合,然后再分析有關電力營銷數據。此外,有關專家還提出應用一種時間窗的序列挖掘算法,這種方式可以進行有效地報警處理,使電力系統中的故障能夠準確的定位并診斷事故。此算法對電力系統的分析和挖掘能力的提高非常有效,還可判定電力系統的運行是否穩定,對錯誤模型的分析精度達到一定的精確度。
4、結語
執行記錄屬于軟件工程中的挖掘領域,其主要任務是針對執行記錄的挖掘主要針對程序執行路徑進行分析,進而找出與程序代碼所具有的必然聯系,以實現軟件系統程序與模塊代碼相結合共同發生作用的目的,對程序的整體起到維護、驗證和了解的作用[2]。究其工作的實質,就是以執行路徑為線索實現逆向建模,有助于軟件工程系統各個環節的理解、維護、跟蹤以及驗證。
2檢測軟件漏洞
作為軟件工程領域需要協助的軟件工程目標之一,針對軟件漏洞的檢測固然是挖掘數據技術系統中不可或缺的一環。檢測的對象和任務主要包括:軟件測試的具體項目,對軟件系統漏洞庫數據信息的收集、轉換和清理,信息系統數據的采集與抽取,選擇合適的軟件系統數據挖掘信息并對其展開驗證、整合與訓練,對軟件數據系統中存在的缺陷漏洞進行整體的分類、定位與具體描述,以及廣泛應用于軟件測試項目中的各種工程活動。究其最終目的,就是找出軟件系統在開發與應用的具體過程中存在的問題、謬誤與漏洞,對業已搜索出的問題和漏洞進行及時的矯正與修復。確保軟件系統的有效運作與安然運行。
3版本控制信息
版本控制的挖掘屬于軟件工程領域中的挖掘對象技術之一,這種軟件系統的駕馭手段具有與上述兩種應用截然不同的獨特作用:有效確保軟件工程項目編程人員所編輯與制作的檔案得到十分有效的管理,進而對系統全局的更新提供穩定的基礎與平臺。版本控制信息的技能價值看似“默默無聞”,地位實則非常重要,是所有軟件工程項目開發必須采用的一門技術,否則任何軟件工程項目的開發都無從談及與運作。這門技術功能經過不斷的發展更新,多以應用版本控制系統實施軟件開發工作的保護或者管理的方式著稱于世。
4開源軟件挖掘
開源軟件的挖掘,其項目的開發環境優勢可謂得天獨厚,主要體現在開放性、全局性、動態性三個特征層面上。既然具有別具一格的開放手段與應用方式,所以對該類軟件的開發管理,也要采取與與其他傳統軟件和異類軟件截然不同的原則與策略,形成“具體問題具體分析”的思想實踐思路。針對其開放性的特征,需要工作人員的頻繁流動與變更;針對其動態性的特征,開源項目必須達到優質管理的水平;針對其全局性的特征,有需要開發人員在開發活動與應用軟件的過程中保持一個比較完整的記錄,以便于廣泛的社會網絡的生成。
5結語
(1)確定業務對象:做好業務對象的明確是數據域挖掘的首要步驟,挖掘的最后結構是不可預測的,但是探索的問題必須是有預見的,明確業務對象可以避免數據挖掘的盲目性,從而大大提高成功率。
(2)數據準備:首先,對于業務目標相關的內部和外部數據信息進行查找,從中找出可以用于數據挖掘的信息;其次,要對數據信息的內容進行全面細致分析,確定需要進行挖掘操作的類型;然后,結合相應的挖掘算法,將數據轉化稱為相應的分析模型,以保證數據挖掘的順利進行。
(3)數據挖掘:在對數據進行轉化后,就可以結合相應的挖掘算法,自動完成相應的數據分析工作。
(4)結果分析:對得到的數據分析結果進行評價,結合數據挖掘操作明確分析方法,一般情況下,會用到可視化技術。
(5)知識同化:對分析得到的數據信息進行整理,統一到業務信息系統的組成結構中。這個步驟不一定能夠一次完成,而且其中部分步驟可能需要重復進行。
二、數據挖掘技術在水利工程管理中的實施要點
水利工程在經濟和社會發展中是非常重要的基礎設施,做好水利工程管理工作,確保其功能的有效發揮,是相關管理人員需要重點考慮的問題。最近幾年,隨著社會經濟的飛速發展,水利工程項目的數量和規模不斷擴大,產生的水利科學數據也在不斷增加,這些數據雖然繁瑣,但是在許多科研生產活動和日常生活中都是不可或缺的。例如,在對洪澇、干旱的預防以及對生態環境問題的處理方面,獲取完整的水利科學數據是首要任務。那么,針對日益繁雜的海量水利科學數據,如何對有用的信息知識進行提取呢?數據挖掘技術的應用有效的解決了這個問題,可以從海量的數據信息中,挖掘出潛在的、有利用價值的知識,為相關決策提供必要的支持。
1.強化數據庫建設
要想對各類數據進行科學有效的收集和整理,就必須建立合理完善的數據庫。對于水利工程而言,應該建立分類數據庫,如水文、河道河情、水量調度、防洪、汛情等,確保數據的合理性、全面性和準確性,選擇合適的方法,對有用數據進行挖掘。
2.合理選擇數據挖掘算法
(1)關聯規則挖掘算法:關聯規則挖掘問題最早提出于1993年,在當前數據挖掘領域,從事務數據庫中發現關聯規則,已經成為一個極其重要的研究課題。關聯規則挖掘的主要目的,是尋找和挖掘隱藏在各種數據之間的相互關系,通過量化的數據,來描述事務A的出現對于事務B出現可能產生的影響,關聯規則挖掘就是給定一組Item以及相應的記錄組合,通過對記錄組合的分析,推導出Item間存在的相關性。當前對于關聯規則的描述,一般是利用支持度和置信度,支出度是指產品集A、B同時出現的概率,置信度則是在事務集A出現的前提下,B出現的概率。通過相應的關聯分析,可以得出事務A、B同時出現的簡單規則,以及每一條規則的支持度和置信度,支持度高則表明規則被經常使用,置信度高則表明規則相對可靠,通過關聯分析,可以明確事務A、B的關聯程度,決定兩種事務同時出現的情況。
(2)自頂而下頻繁項挖掘算法:對于長頻繁項,如果采用關聯規則挖掘算法,需要進行大量的計算分析,不僅耗時耗力,而且影響計算的精準度,這時,就可以采用自頂而下頻繁項挖掘算法,這種算法是一種相對優秀的長頻繁項挖掘算法,利用了事務項目關聯信息表、項目約簡、關鍵項目以及投影數據庫等新概念與投影、約簡等新方法,在對候選集進行生成的過程中,應該對重復分支進行及時修剪,提升算法的實際效率,從而有效解決了長頻繁項的挖掘問題。結合計算機實驗以及算法分析,可以看出,這種方法是相對完善的,同時也是十分有效的。不過需要注意的是,當支持度較大、頻繁項相對較短時,利用關聯規則挖掘中典型的Apriori方法,可以起到更好的效果。
(3)頻繁項雙向挖掘算法:這種算法是一種融合了自頂向下以及自底向上的雙向挖掘算法,可以較好的解決長頻繁項以及段頻繁項的挖掘問題,主挖掘方向是利用自頂向下挖掘策略,但是結合自底向上方法生成的非頻繁項集,可以對候選集進行及時修剪,提升算法的實際效率。
三、結語
關鍵詞:數據挖掘;決策樹;C4.5算法;教學管理;高校教學
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2012)30-7150-04
隨著數字信息化社會的飛速發展,計算機技術和數據庫管理系統被廣泛應用于科學探索、商業、金融業、電子商務、企業生產等各種行業,已逐漸發展成為一種智能管理過程。數據挖掘作為一種新興的數據分析技術,它的研究成果取得了令人矚目的成就[1]。利用數據庫技術,通過對教務管理的大量數據進行多層次、多維度的加工處理,從而實現人性化管理,為科學決策提供支持。
畢業論文在教學體系中占有十分重要的位置,是本科生培養計劃中衡量教學質量的重要指標。提高畢業論文教學質量是一項系統工程,為研究在當前的教學條件下如何提高畢業論文教學質量,本文采用數據挖掘技術對影響畢業論文成績管理的多方面因素進行了深入分析和挖掘,以期發現對學校畢業論文教學管理有用的知識,將這些知識應用于本科學生畢業論文教學實踐中,為學校管理者提供有用的信息,進而獲得更好的管理效益,為學校未來的發展提供更廣闊的空間,發揮重要的作用。
1 數據挖掘簡介
數據挖掘(Data Mining),又稱數據庫中的知識發現(Knowledge discovery in Database. KDD)[2],是通過分析每一個具體數據,從大量的、有噪聲的、模糊的、隨機的海量數據中尋找其規律的技術,它是數據庫研究中的一個很有應用價值的新領域。
1.1 數據挖掘的定義
H包含如下功能:
綜上所述,數據挖掘具有三大特點:其一是處理大型數據;其二應用數據挖掘的目的是發現未知的、有意義的模式或規律;其三是一個對大量數據處理的過程,有特定的步驟[3]。
1.2 數據挖掘的主要方法
數據挖掘是一個多學科交叉領域,它由人工智能、機器學習的方法起步,并與統計分析方法、模糊數學和可視化技術相融合,以數據庫為研究對象,圍繞面對應用,為決策者提供服務。
數據挖掘的方法主要可分為六大類:統計分析方法、歸納學習方法、仿生物技術、可視化技術、聚類方法和模糊數學方法。歸納學習法是目前重點研究的方向,本文根據給定的訓練樣本數據集,采用歸納學習法中的決策樹技術構造分類模型,將事例分類成不同的類別。
2 決策樹算法基本理論
2.1 決策樹方法介紹
決策樹[4]方法是以事例學習為基礎的歸納推算法,著眼于從一組無序的,無規則的事例中推斷出類似條件下會得到什么值這類規則的方法,它是一種逼近離散值函數的方法,也可以看作一個布爾函數[5]。決策樹歸納方法是目前許多數據挖掘商用系統的基礎,可以應用于分析數據,同樣也可以用來作預測。建模過程中,即樹的生長過程是不斷的把數據進行切分,采用“自頂向下,分而治之”的方法將問題的搜索空間劃分為若干個互不交叉的子集,通常用來形成分類器和預測模型。如圖1所示,為決策樹的示意圖。
決策樹一種類似流程圖的樹形結構,是一種知識的表現形式。為了對未知樣本進行分類,生成具體的分類規則,信息樣本的各個屬性值要在決策樹上進行測試。主要分為兩個階段:在第一階段中生成樹。決策樹最上面的節點為根節點,是整個決策樹的開始,然后遞歸的進行數據分區,每次切分對應一個問題,也對應著一個節點;在第二階段中對樹進行修剪,此過程中去掉一些可能是噪音或異常的數據,防止決策樹的過匹配,進而保證生成決策樹的有效性和合理性。當一個節點中的所有數據都屬于同一類別,或者沒有屬性可以再用于數據進行分割時,分割工作停止。具體的工作流程如圖2所示。
2.2 C4.5算法
1986年Ross Quinlan首次提出了ID3決策樹算法,它是最早的決策樹算法之一。ID3算法運用信息熵理論,選擇當前樣本中具有信息增益值的屬性作為測試屬性,對樣本的劃分則依據測試屬性的取值[6]。C4.5算法是在ID3算法基礎上發展起來的,它繼承了ID3算法的全部優點,并增加了新的功能改進了ID3算法中的不足,可以進行連續值屬性處理并處理未知值的訓練樣本。在應用單機的決策樹算法中,C4.5算法不僅分類準確而且執行速度快。
C4.5通過兩個步驟來建立決策樹:第一階段樹的生成,第二階段樹的剪枝。C4.5算法采用信息增益率來記錄字段不同取值的選擇,首先計算各個屬性的信息增益率,尋找到規則信息的優劣,選出信息增益率最大的屬性作為結點,自頂向下生成決策樹。C4.5算法構造決策樹的基本策略如下:
首先計算出給定樣本所需的期望信息,設S為一個包含s個數據樣本的集合,對于類別屬性,可以取m個不同取值,分別對應于m個不同的類別[Ci(i∈1,2,...,m)]。假設類別[Ci]中的樣本個數為[si],期望信息為:
其中,[Pi]是任意樣本屬于[Ci]的概率,并用[sis]估計。
接著,計算當前樣本集合所需用的信息熵,設一個屬性A具有n個不同的值[(a1,a2,...an)],利用屬性A可以將集合S劃分為n個子集[S1,S2,...Sn],其中[Sj]包含了S集合中屬性A取[aj]值的樣本數據。如果屬性A被選作測試屬性,設[Sij]為[Sj]中屬于[Ci]類別的樣本集,根據A劃分計算的熵為:
然后利用屬性A對當前分支結點進行相應樣本集合劃分計算信息增益:
最后,求信息增益率,表達式為:
C4.5算法的偽代碼如下:
輸入:訓練樣本Samples;目標屬性Target—attribute;候選屬性的集合Attributes
輸出:一棵決策樹
1)創建根節點root;
2)If Samples都在同一類C Then;
3)返回label=類C的單結點樹root;
4)If Attributes為空Then;
5)返回單結點樹root,[label=Samples]中最普遍的Target-Atribute值;
6)Else;
7)For each測試屬性列表Attributes中的屬性;
8)IF測試屬性是連續的Then;
9)對測試屬性進行離散化處理,找出使其信息增益比率最大的分割閾值;
10)Else;
11)計算測試屬性的信息增益比率;
20)添加子樹Generate Tree C4.5;
21)對已建立的決策樹計算每個結點的分類錯誤,進行剪枝,并返回根結點Root。
3 畢業論文成績管理系統的設計和實現
利用數據挖掘技術對學生的成績數據進行提煉,所產生的結果和信息會對以后的教學管理工作提供有用的信息,進而獲得更好的管理效益。解決問題的重點在于怎樣對學生的畢業論文成績進行全面且深度的分析,從而挖掘出成績與其他因素之間隱藏的內在聯系。本文采用決策樹技術挖掘信息時,主要操作步驟如下:
1)確定挖掘來源:清晰地定義挖掘對象,明確挖掘目標是數據挖掘所有工作中重要的一步。本文中應用于挖掘的數據信息是畢業生的畢業論文成績,旨在通過對大量成績數據進行各層次的挖掘,全面了解具體影響學生畢業論文成績的各方面因素,正確的針對問題擬定分析過程。
2)獲取相關知識:數據是挖掘知識最原始的資料,根據確定的數據分析對象,抽象出數據分析中所需要的特征信息模型。領域問題的數據收集完成之后,與目標信息相關的屬性也隨之確定。這些數據有些是可以直接獲得的,有些則需要對學生進行調查才能的得到。
3)數據預處理:此過程中是對已收集的大量數據進行整合與檢查。因為存放在數據庫中的數據一般是不完整的、不一致的,通常還含有噪聲的存在。因此就需要對數據庫中數據進行清理、整理和歸并,以提高挖掘過程的精度和性能。
4)數據轉換:對預處理后的數據建立分析模型,對于特定的任務,需要選擇合適的算法來建立一個準確的適合挖掘算法的分析模型。本文采用決策樹技術進行分類建模來解決相應的問題。
5)分類挖掘知識和信息:此階段的工作目的是根據系統最終要實現的功能和任務來確定挖掘的分類模型。選擇合適的數據挖掘技術及算法,并采用恰當的程序設計語言來實現該算法,對凈化和轉換過得數據訓練集進行挖掘,獲得有價值的分析信息。
6)知識表示:將數據挖掘得到的分析信息進一步的解釋和評價,生成可用的、正確的、可理解的分類規則呈現給管理者,應用于實踐。
7)知識應用:將分析得到的規則應用到教學管理中,教師可以利用所得到的知識針對性的開展畢業設計的教學活動,進一步指導教學工作,提高教學水平和學生的畢業論文質量。
4 結論
最終發現影響學生畢業論文成績主要的因素不是指導教師的職稱,學生的基礎及感興趣程度,而是指導教師的學歷高低。根據具體分類規則的結論,學校教學管理工作應加重對教師的素質及能力培養,合理的分配每個教師的畢業論文指導工作,不僅能夠有效的完成畢業課題指導工作,更有助于學生整體論文質量的提高。
在高校教學數字化的時代趨勢下,利用數據挖掘技術來挖掘提取教學工作中的全面而有價值信息,可以為教育管理者的教學工作提供有效的參考信息,改進教學管理方法,提高教學質量和學生的綜合素質,是高校保持良好的可持續發展的有力工具。
參考文獻:
[1] 劉玉文.數據挖掘在高校招生中的研究與應用[D].上海:上海師范大學,2008.
[2] 魏萍萍,王翠茹,王保義,張振興.數據挖掘技術及其在高校教學系統中的應用[J].計算機工程,2003.29(11):87-89.
[3] 劉林東. Web挖掘在考試系統中的應用[J].計算機應用研究,2005(2):150-154.
[4] Tom M Mitchell.(美)卡內基梅隆大學.機器學習[D].曾華軍,張銀奎,譯,北京:機械工業出版社,2003.
1.1結果優化中遺傳算法的應用遺傳算法由達爾文進化論與孟德爾遺傳變異論進行模擬后得到,該算法所采用的算法因子具有隨機性,故設備故障的出現往往不會受到常規故障規則的限制,但是遺傳算法在實際應用過程中,其對故障的整合分析,并不是盲目式的,而是針對機械設備狀態運行情況,以設備最優化為基本原則進行不斷完善計算進行的。若設備狀態監測和故障診斷當中,直接采用了與設備情況相應的參數進行適值計算,但又不需要對優化參數進行明確計算,在針對部分無法明確計算得到的設備參數時,即可采用遺傳算法對結果進行優化。遺傳算法的智能性與并行性較強,利用該方法,可以對設備故障當中還未得到有效解決的部分復雜問題進行妥善處理。目前,遺傳算法在設備運行函數的優化、設備模式的識別以及設備運行信號的整合處理等相關工作當中有著較為全面的應用,在將復雜的運行數據進行優化時,遺傳算法具有較為良好的性能。綜合其相關特點,在建立設備狀態監測和故障診斷的模型時,可采用該技術使得模型更為合理化,使得設備狀態監測與故障診斷的結果更為準確。以滾動軸承的狀態監測與故障診斷為例。在實際工作當中,運用各類運算符集,對滾動軸承的原始性特征向量進行測量后,采取最優的組合方式獲得新型向量,配合采用遺傳算法得到最終的滾動軸承參數,并利用分類法,對各項間距進行了調整,使得滾動軸承的診斷參數更為準確。此外,利用該方法,還有效區分了滾動軸承的不同工作狀態,測量結果較為全面,效果顯著。
1.2模糊集理論的應用要點該方法通過模糊集合與模糊推理兩種方法,其研究測試的對象是各類不確定性因素,屬于傳統集合理論的創新。模糊集理論在設備狀態監測和故障診斷中的應用,主要包含了兩個方面。一方面,是在相關數據概念的形成時,采用不準確和較為模糊的語言變量,根據人們習慣,對設備狀態的變化及變量變化狀態進行描述。具有較強的直觀性,且相關人員在接受該類概念時,也可以更方便的理解接受;另一方面,該方法通過提煉模糊性規則,在建模時模糊化,使得機械設備的控制、預測以及故障診斷等過程擁有更為廣闊的空間。
1.3基于實例分析的方案優化及調整該種方法擁有較為簡單的思路,在對設備未來運行情況進行預測時,系統會匹配與設備目前情況相似的實際案例,并從以往的解決方法中選出最佳的解決方案,再結合設備實際情況進行相應調整。此類方法的應用范圍較廣,且得到的計算結果也相對準確,但同時也具有一定缺陷,即無法全面整合以往設備數據及解決規律,缺乏充足的繼承性。該方法進行故障診斷的基本理念是,在選紅棗解決方法的過程中,利用歷史診斷方法成功案例為奠基,進行全面的推理工作,并采用類比和聯想法,較為全面的對故障進行診斷。
1.4多種數據挖掘法的聯合應用除上述幾種數據挖掘技術外,實際工作中還涵蓋了以傳統數據統計為基礎的統計分析方法、人工神經網絡元技術、等多種方法,考慮到每一種方法或多或少具有局限性,故為了有效提高各類方法的應用效果,可以將各類方法進行配合使用,代表性的算法組合類型如表1所示。
以遺傳算法和模糊集理論的配合采用為例。由于模糊算法,主要是利用了最大隸屬原理和閥值原理,故可以按照不同故障的發生原因以及故障征兆的相互聯系,在綜合考慮的基礎上對機械設備故障的可能原因進行全面分析。而該方法在運用的過程中,會對各類故障征兆進行約簡化從而得到較為普遍的規律,但是所得到的規律也可能存在不可靠問題。故在實際應用模糊集理論的同時,配合采用遺傳算法,通過對模糊集理論所得到的結論及規則進行全面優化,使得診斷的結果更為準確與高效。上述案例方法在渦輪機故障診斷過程中進行應用時,可先建立完善的渦輪機故障集,在此基礎上采用模糊集理論對渦輪機故障進行診斷,配合遺傳算法對渦輪機故障規律進行優化,使得最終故障診斷結果更為準確。除遺傳算法與模糊集理論課進行配合使用外,其他各類方法也可以根據設備實際情況進行搭配,使得最終診斷結果更為準確有效。
2結束語
近年來,我國的部隊管理體系已經逐漸向著自動化方向發展,部隊中各個部門都建立了一定的管理體系,也逐漸脫離了人工管理模式,實現信息現代化模式,很大程度提高了部隊工作的效率,但是由于外界因素與經濟發展的多樣化以及人們的思維模式也在不斷改變,從而出現了一些新問題,使得部隊管理體系存在著一定問題:第一、關聯性小、系統比較獨立。現階段,部隊采購食品系統的作用以及目的比較簡單,思維面也比較窄,也就是說按照清單進行食品采購時,不能充分考慮到采購人員的健康、效率等問題,不能達到最優化采購方式,因此就變得比較獨立;第二,數據功能簡單,可靠性不高。現階段,部隊食品采購數據只是對采購的種類與過程進行簡單記錄,時間一久,就會被損壞或者丟失;第三,數據分散不集中。現階段與部隊人員健康、起居飲食、訓練相關的數據分散在不同系統中,使得數據變得不一致、不完整,僅僅只能進行簡單查詢、匯總、統計等工作,不能對數據進行多角度分析、關聯等,不能為采購食品提供很好的政策支持。針對部隊采購存在的問題,可以利用數據倉庫以及數據挖掘技術建立多為數據庫,利用數據挖掘進技術對食品采購數據進行挖掘。依據現階段部隊的實際發展情況,建立一套新數據庫的成本代價比較高,因此,選用了目前社會上通用方法,對已經存在的數據進行一定改革與拓展,合理優化系統數據,成為新的數據庫。并且選取對數據挖掘影響比較大的系統性分析,包括訓練系統,食品采購系統、人員管理系統以及醫療衛生系統。針對食品采購采購系統建立數據模型。
二、在部隊食品采購系統中的應用以及其價值評價
在部隊食品采購系統實際應用工程中,其實可以運用MicrosoftSQLServerAnalysisServices來對數據進行分析,并且在數據挖掘過程中對多維數據進行描述與查找起到一定作用。因為多維數據比較復雜,增長的也比較快,因此,進行手動查找是很困難的,數據挖掘技術提供的計算模式可以很好的對數據進行分析與查找。在建設部隊食品采購倉庫數據的時候,數據內容主要包括了人員的健康、兵員的飲食以及訓練等,進行數據挖掘主要包括以下內容:第一,把每個主題信息數據進行收集、匯總、分析等,對人員情況、健康、飲食、訓練等進行合理分析;第二,多維分析數據信息。根據部隊的實際情況,利用數據挖掘技術對部隊人員健康、飲食、訓練等數據信息進行多維分析,其中包含上鉆、切片、下鉆等;第三,挖掘健康與飲食之間的內在關系。根據數據庫中許多面向主題的歷史數據,采用數據挖掘技術進行分析與演算得到部隊人員的訓練和健康情況與部隊飲食之間內在關系,以便于為部隊食品采購提供合理的、有效的保障,從而提高部隊整體人員的健康水平、身體素質以及訓練質量,對提高我國部隊戰斗力有著深遠的意義。
三、結束語
檔案管理對象的數量隨著社會的發展而不斷增加,僅僅通過傳統的管理方式已不能高效管理檔案,這就需要充分利用計算機網絡技術。在檔案管理系統中應用計算機數據挖掘技術可以確保檔案信息的安全性,提高管理檔案的效率,還能優化檔案數據的檢索。總之,基于大數據的計算機數據挖掘技術對完善檔案管理系統發揮著十分重要的作用。
2基于大數據的計算機數據挖掘技術概述
基于大數據的計算機數據挖掘技術是當代新開發的一種數據處理技術,它可以從大數據中挑選出人們需要的數據。計算機數據挖掘是一個循環往復的過程,如果沒有取得預期的效果,計算機數據挖掘信息處理系統就會返回上一層重新工作,直到完成目標任務為止,這種對目標的細化過程可以滿足檔案數據檢索的需要。
3基于大數據的計算機挖掘技術在檔案管理系統中的作用
3.1提高檔案信息的安全性。無論是文字檔案、圖片檔案還是其他形式的檔案,都是一種寶貴的資料。越是意義重大的檔案,檔案管理人員就越要想方設法將其保存起來。檔案的價值隨著其保存時間的不斷推移而增加,價值越高的檔案,被使用的頻率就越高,但是如果使用過于頻繁的話,就會縮短檔案資料的壽命,加大保存難度。除此之外,有的檔案信息是保密的,在應用時如果監管不力就會導致機密泄露。由以上可見,檔案的保存與使用儼然已互為對立面了。將計算機挖掘技術應用到檔案管理中則對檔案資料的完整性毫無影響,并且還可以提高檔案信息的安全性。3.2提高檔案信息管理的效率。在檔案管理工作中應用計算機數據挖掘技術,可以極大改變傳統檔案管理模式低效率的弊端。使用計算機數據挖掘技術,大大提高了工作人員處理檔案信息的速度,同樣的工作使用的時間極大減少。鑒定檔案是檔案管理工作中的重要組成部分,傳統的鑒定方式是由管理人員根據自己的經驗進行主觀鑒定,有時會存在有價值的檔案丟失的現象。應用計算機數據挖掘技術,檔案管理人員就可以利用計算機系統分析檔案使用和保存的情況,促進了檔案鑒定工作的發展。3.3提高了檔案信息的使用效率。大部分檔案信息具有一定的機密性,所以檔案的借閱并不是向全社會公開的,而是有范圍限制的,但是由于檔案管理人員和借閱者對檔案信息不熟悉,導致雙方的溝通存在一定的問題,在借閱者提出申請之后,檔案管理人員會將檔案資料調出來,有時調出來的資料不是借閱者所需要的,還得重新調閱,類似的過程就嚴重浪費了雙方的時間。應用計算機數據挖掘技術可以促進檔案管理人員和借閱者之間的交流,讓檔案管理者明確借閱者需要的具體檔案信息,從而形成專門的檔案提供渠道,這就大大提高了檔案信息的使用效率。3.4增強檔案信息的服務性。加密檔案信息會嚴重縮小它的適用范圍,受當代信息化的影響,很多檔案信息自身會出現一些問題,并且只能為一小部分人服務。將計算機數據挖掘技術應用到檔案信息管理中,可以具體分析檔案的使用情況,通過研究發現未來使用檔案信息的人群,在此基礎上提高檔案信息的服務性。
4基于大數據的計算機數據挖掘技術在檔案管理中的實際應用
4.1在檔案分類管理中的應用。檔案管理的基礎工作就是將檔案進行分類。傳統的分類方法既費時又費力,工作效率極低。計算機數據挖掘技術中有一種決策樹算法,它可以在最短的時間內按照一定的規則將不同屬性的檔案信息進行分類和整理,大大提高了檔案分類工作的效率。計算機數據挖掘技術在檔案分類工作中的具體流程是:從大量不同種類的數據集中選擇一些數據組合成訓練集,然后應用到沒有進行分類的檔案管理中,這樣可以幫助管理者根據借閱者對檔案信息的需求來對檔案進行分類,同時還可以根據借閱者的需求為其推薦其他檔案信息。通過這些針對性強的數據分析,可以極大縮短借閱者獲取檔案信息的時間,檔案數據的利用價值就能充分發揮出來。4.2在檔案收集管理中的應用。計算機數據挖掘技術可以根據數據庫內部的數據信息描述來構建一個相應的數據模型,然后比較計算機數據樣本和數據模型之間的差異,如果這二者互相吻合,就需要檔案管理人員使用測試樣本模型來對檔案信息進行分類處理。計算機數據挖掘技術需要全面分析檔案數據信息庫中的數據,建立一個對已知數據有詳細描述的概念模型,并與測試樣本進行對比,如果一個模型測試通過,就證明這個模型可以應用在檔案收集管理中。
5結語
綜上所述,在科技技術不斷進步的時代背景下,在檔案信息管理中應用基于大數據的計算機數據挖掘技術已成為一種必然趨勢,它可以極大提高檔案信息管理的工作效率,促進檔案管理的高效發展。除了在檔案信息存儲和利用上確保基本的信息查詢服務外,還需要應用計算機數據挖掘技術整合檔案信息,建立眾多檔案管理服務數據之間的關聯,這樣才能為檔案信息管理提供更好的服務。
作者:陳皓穎 單位:昆明理工大學津橋學院
參考文獻
[1]高燕飛,陳俊杰.試析計算機數據挖掘技術在檔案信息管理系統中的運用[J].內蒙古師范大學學報:哲學社會科學版,2012(4):44-46.
[2]曾雪峰.計算機數據挖掘技術開發及其在檔案信息管理中的運用研究[J].科技創新與應用,2016(9):285.
[3]李國強,曹巧蓮,辛正宇,等.淺談數據處理的新技術———數據挖掘[J].科技創新與生產力,2010(6).
[4]周碧珍.淺析計算機數據挖掘技術在檔案信息管理系統中的應用[J].黑龍江科技信息,2009(1).
1分類。分類技術可解決事件的歸類問題,在應用時,不僅可以完成數據分析的任務,還能對未來的數據類型進行必要的預測,比如,充分運用分類技術對客戶的具體傾向進行預測,確定客戶是否對相關研究感興趣,該技術方法也可應用在醫療領域,針對患者的病情,通過分類技術選取適宜的藥物。
2回歸。回歸技術的核心為已知變量的數值,在此基礎上,對其他種類的變量實施必要的預測。在一般條件下,回歸技術充分發揮了線性回歸的實際效果,但從現實的角度講,并不是所有問題都能用基本的線性回歸進行分析和解決的,為了更好的適應這些實際的問題,相關人員對此也正在著手研究全新的方法,并已取得了顯著的效果,許多新型分析方法應運而生,比如邏輯回歸以及神經網絡等。
3時間序列。時間序列技術實際上就是以過去的變量為基礎,分析和預測下一階段變量的方法。與回歸技術相同,同樣都是運用現有的組員完成預測任務的,但資源的時間序列是存在一定差異的。時間序列技術通常是在完整的時間流中截選一個時間區間,對應數據形成一整套單元,最后將此單元在時間流上進行滑動,從而獲取訓練集。
4描述型。圖形與可視化工具是十分重要的,是相關人員完成快速分析任務的重要手段之一,改善了傳統數據的枯燥與乏味,不僅實現了數據整體的分析,還能對其中的每一個細節實施細致的觀察與分析,在圖形模式的支持下,人們可以更容易的了解到數據信息中潛在的相互關系和模式。
5關聯分析。關聯分析技術是指在數據庫中快速獲取數據的相關性。較為常用的技術方法主要有兩種,分別為關聯規則與序列模式,其中關聯規則是在相同時間中存在的不同項之間的相關性,而序列模式的研究對象主要為具體的事件。
6聚類。聚類技術實質上就是數據庫的分類,組間差別盡可能的明顯,而同一組內的數據要盡可能的相似或相同。聚類技術與分類技術存在很大的區別,在實施聚類以前,并不了解數據組的具體數量,分組的方法和依據也不知曉,所以在聚類完成以后,需要得到專業人士的分析和解釋。
二、經濟普查的根本目的與重要意義
1.根本目的。經濟普查是為了充分了解我國產業現階段發展的具體規模和實際效益,并創建完善的基本單位數據庫和對應的管理系統,為社會可持續發展方針的落實奠定堅實的基礎,同時也為國民經濟的快速發展獻計獻策。經濟普查的基本目標是了解情況,建立相應數據庫則是必要的手段,最終目的是促進我國國民經濟的快速發展與壯大。
2.重要意義。經濟普查數據信息屬公共產品范疇,既是黨和政府認識我國基本國情的重要依據,也是判斷各行業發展與走向的有效方法。經濟普查的全面開展與落實,可以為廣大人民群眾開創更多的就業渠道,改善人們的生活質量,使國民經濟的改革與建設更加完善與全面。
三、經濟普查數據挖掘方法的應用
1.注冊服務器。在經濟普查中運用書庫挖掘方法,首先應注冊服務器。分析服務器是數據分析的主體,有著不可取代的作用,因此分析服務器一般為首要的注冊對象,其他種類的注冊對象都是它的一部分。通常情況下,分析服務器名稱要與對應網絡名稱保持一致。
2.創建數據倉庫。在分析服務器注冊完成以后,即可在該服務器的基礎上建立各類數據庫,由于數據庫中還缺乏具體的對象,因此可認定該數據庫為空。為了使其發揮出更好的挖掘效果,還需充分考慮實際情況,創建適宜的研究對象。在計算機硬盤中尋找對應的安裝目錄,并在下分的子文件找到并觀察經濟普查工作的數據庫,確定文件的實際大小,在文件中存在數據庫操作方面所需的文件,這些文件主要以事件日志及數據的方式存在,且初始物理大小均為1M,在運行時一般以10%的速度增長。
3.建立索引。在上述操作完成以后,即可建立經濟普查相關的數據庫,但數據庫本身只是一種數據信息的存儲單元,想要使其發揮出最佳的效果,還需在數據庫的基礎上建立數據表,并建立與SQL操作所對應數據源,實際情況中滿足選取條件的數據源有很多種,由于該操作事先已經完成了數據表的建立,所以該數據庫中的數據類型僅有SQL這一種形式。
4.連接數據源。一般而言,數據庫創建完成以后的首要建立目標為數據源,數據源在數據庫中具有指定源數據的作用,數據庫的基本數據類型有很多種形式,為了滿足數據庫使用的基本需求,可在同一種數據庫中設置多種數據源。連接數據源是為了讓數據挖掘更好的進行,在數據源連接完成以后,可在相關軟件的支持下,完成數據挖掘的各項操作。
四、結語