時間:2023-03-30 11:36:32
引言:易發表網憑借豐富的文秘實踐,為您精心挑選了九篇聚類分析論文范例。如需獲取更多原創內容,可隨時聯系我們的客服老師。
對于股票投資來說,一定要關注股票上市公司的基本盈利狀況以及該公司未來的發展狀況。在投資時,這兩大因素必須進行思考衡量,因為這兩大因素是衡量一個上市公司有沒有投資價值最基本的條件。因此,要在投資前計算出該股票每股的收益、該公司凈資產收益率以及主營收入增長率。
1.盈利能力指標。總資產利潤率=凈利潤/平均資產總額,這體現出公司整體的獲利能力。凈資產利潤率=凈利潤/平均凈資產,這個關系可以直接體現出股東投資的回報。主營業務收益率=主營業務利潤/主營業務收入,主營業務是上市公司利潤的來源,主營業務的收益越大,公司在市場中的競爭優勢就越明顯。每股收益=凈利潤/期末總股本,每股的收益越高,反應出每股獲利的能力越強。
2.成長能力指標。主營業務收益增長率=本期主營業務收入/上期主營業務收入-1,這體現出上市公司重點項目的成長力。凈資產利潤率=本期凈利潤/上期凈利潤-1,上市公司給員工的薪酬都是根據凈利潤決定的。
二、聚類分析的投資方法應用實例
聚類分析方法隸屬多元統計分析方法之中,與多元統計分析法和回歸分析法并稱為三大應用方法。聚類分析法一定要建立在某個優化意義基礎之上,如果將聚類分析方和常規的分析法相比較的話,會發現聚類分析法有很大的優勢,第一是使用聚類分析法可以對數據中的多個變量進行樣本分析,然后將其分類整理;第二是通過使用聚類分析法所得出的數據非常直觀明了,通過觀察聚類譜系圖投資者就能夠清楚地分析出數據顯示的結果;第三是如果將聚類統計法所得出來的數據結果與普通方法計算出來的結果進行對比,不難發現聚類分析法的對比結果更加細致、科學、全面,接下來通過兩個應用的實例進行說明。
1.原始數據標準化。為了解決原始數據量綱和數量級差異帶來的影響,更好的對聚類分析和判別進行分析,可以采用指標標準化的處理方法。
2.逆指標正向化處理。流通股本是逆指標,對其絕對值取倒數可以得出。
三、將聚類分析法應用到金融投資上的意義
將聚類分析法應用于金融投資上,不但可以顯示出有效、科學、全面的數據更能幫助彌補金融投資投資時所出現的不足。
第一,聚類分析法建立在基礎分析之上,對投資股票從一些基本層面進行量化分析,進而對股票價格影響因素定性進行補充并完善了原有的基礎分析。聚類分析法作為長期的理性投資參考依據,是為了發掘股票投資的真實價值,避免由于市場過熱導致資產估值不公允。
第二,在建立投資評價模型的時候,可以運用聚類分析法對公司和股票投資價值之間的聯系進行分析。公司的成長是一個在哥登模型中,在一個變化的趨勢內進行。不變的股息增長率對實際情況并不符合,在采用多階增長模型的時候,想要得到不同階段的股息增長率是很困難的。所以,對股票的成長進行分析得時候,可以選取凈利潤率等客觀的數據做參考,這樣可以估算出股票的發展潛力。
第三,通過對聚類分析法和現資組合理論的比較可以得出,聚類分析法比現資組合理論更具有直觀性和實用性,并且在實際生活中的局限小。該方法主要著眼于實際數據的相似性和其延生的規律性,較投資學中一些以預測和假定前提較多的模型而言更具有現實意義,也更加貼近當前市場情況的現實。另外,聚類分析法的操作性強,在實際應用過程中有一定的優越性,更加適合投資者使用。
第四,聚類分析法作為長期投資的理念,隨著我國金融行業的不斷發展,逐漸被更多的投資人采用。理性的運用聚類分析法這種投資方法,不但可以使投資者的投資風險降到最低,還可以規范其他投行的投資行為,促使發行股票的企業可以本著經營業績和長期的成長模式進行投資,在一定程度上可以有效規避道德風險和投機行為,保證金融市場的穩定性和規范性,保護散戶和弱勢群體的經濟利益,進而繁榮整個股票、證劵市場,使我國的經濟更繁榮。
四、結論
系統主要實現軟件的模塊話設計,包括反射率數據分析模塊、速度分析模塊、天線運行穩定性分析模塊以及雷達組網數據分析模塊。
1.1反射率分析模塊
反射率的大小體現了氣象目標的降水粒子的密度分布及體積大小,在實際氣象技術中長期用于表示氣象目標的強度,在工作上采用dBZ單位表示。對于空管氣象雷達圖,數據顯示采用PPI(PlanPositionImage)顯示方式。該方式決定了一張氣象雷達圖由圓錐俯視平面上分析空間的回波構成。在設計上簡單介紹其設計流程,首先必須讀取原始數據,并判斷是否首次讀取,若為首次讀取則對其進行預處理,否則進行坐標轉換;其次進行圖像繪制并判斷是否需要改變仰角。此處需要關注的關鍵是如何進行數據的預處理。在實現上,對接收的數據進行反射率信息結構體賦值。當然該結構體包括了記錄實際仰角角度、數據文件路徑存儲、雷達波段判斷以及相關數據的偏移。通過掃描上述結構體可以實現對雷達數據的預處理。
1.2速度分析模塊
多普勒雷達采用了速度退化模糊技術以擴大其對徑向風速測量不模糊的區間。結構設計主要考慮數據顯示的徑向方式,流程設計則與反射模塊類似。當然在界面設計上,系統將提供對顏色配置的定義,使其人機交互更為快捷。
1.3天線穩定性分析模塊
天線是雷達數據采集的關鍵部位,長期以來是影響雷達運行的主要關鍵點之一。其依賴于底下的電機進行旋轉,目前大多數進口電機可以保證24小時安全運行。而運行時仰角提升和轉速的平穩性直接影響雷達數據的采集。為此,我們通過在徑向數據上采用方位角及仰角進行掃描實現曲線圖監控。通過選擇基數據再進行預處理后繪制相關曲線實現對天線運行狀態的評估。其中,曲線圖的繪制需要的參數為:縱坐標為氣象雷達實際運行的每層仰角均值;橫坐標為范圍角:0-360°。
1.4雷達組網分析模塊
按照民航局的總體規劃,未來空管將實現多氣象雷達覆蓋,在這過程,多個氣象雷達的組網將成為氣象雷達數據的主要來源。這種模式將使得數據覆蓋面更大、數據安全性更高、數據準確性更強。而與此同時帶來了雷達數據融合組網的技術難點。設計上,首先模塊將定義雷達站點配置信息,并與此同時提供組網雷達可選數據;其次對選擇雷達數據進行數據預處理;再之則對雷達數據進行統計平均并做坐標轉換;最后進行拼圖處理。在這過程中,需要對雷達數據的強度進行自適應調整、顯示范圍自適應調整。與上述同理,系統核心在于預處理。在C#中定義List數據列表,并在定義其結構為[站點標示][距離][方位角],對于數據讀取時,需要進行插值算法處理,此時的單時數據拼接分析可以實現不同仰角和方位角的篩選。為了控制系統數據的準確性可以在前端定義雷達數據方位角表,根據表進行映射處理。通常如若出現非連續數據可以在預處理上對其進行差值補償。在C#上可以采用反差圓補償方法。
2.結束語
[關鍵詞]學術期刊 評價指標分類 因子分析 聚類分析
[分類號]G304
1 引 言
學術期刊是國家科技發展水平的重要窗口,是知識創新、科技成果轉化為生產力的重要橋梁,在推動社會科技進步方面發揮著不可替代的作用。期刊評價是文獻計量學研究的重要組成部分,它通過對學術期刊的發展規律和增長趨勢進行量化分析,揭示學科文獻數量在期刊中的分布規律,為優化學術期刊的使用提供重要參考,同時可以提高學術期刊的內在質量,促進學術期刊的健康成長和發展。對期刊評價指標進行分類是期刊評價的基礎和前提,目前期刊評價方法有幾十種,有些評價方法不需要對期刊評價指標進行分類,如主成分分析、灰色關聯、TOPSIS等方法,但是有些評價方法必須建立在期刊評價指標分類的基礎上,包括層次分析法、專家打分法、突變理論等。層次分析法是根據子指標對父指標的重要性程度進行兩兩判斷,指標分類尤為重要。專家打分賦權類評價方法是在指標眾多的情況下進行的,更需要分類。
Weiping Yue、Concepcion s.Wilson(2004)利用結構方程的原理建立了一個期刊影響力的分析框架,并對期刊評價指標進行了系統的分類。蘇新寧(2008)在構建人文社會科學期刊評價指標體系時,將一級指標分為期刊學術含量(篇均引文、基金論文比、機構標注、地區分布數)、被引數量(總被引頻次、學科論文引用數量、他引率)、被引速率(總被引速率、學科引用速率、它刊引用速率)、影響因子(總影響因子、學科影響因子、他引影響因子)、被引廣度等。蓋紅波(2006)將期刊評價指標分為定量評價指標(被引量、被索量、載文量、被摘量、影響因子)、定性評價指標(雙高、雙效、雙獎、雙百)、質量考核指標(政治、學術、編輯出版、效益)、同行評議指標。趙惠祥、張弘等(2008)將科技期刊評價一級指標分為影響力指標(總被引頻次、影響因子、5年影響因子、相對影響因子、即年指標、他引率、引用刊數、擴散因子、學科影響指標、學科擴散指標、被引半衰期、h指數)、文獻指標(載文量、參考文獻量、平均引文量、平均作者數、地區分布數、機構分布數、基金論文比、海外論文比等)、載體指標(文獻書目信息完整率、編排規范化、差錯率、裝幀質量、印刷質量、網絡通暢率、平均發表周期、平均出版時限等)、管理指標(期刊社體制、編委會狀況、管理規章完備性、版權制度、發行體制、信息平臺、人員狀況、營業總額、資產總額、利潤總額)。邱均平、張榮等(2004)將期刊評價指標分為技術性指標(影響因子、總被引頻次、即年指標)、效益指標(直接效益、間接效益、社會效益)、標準規范化指標(編校質量、裝印質量、現代化建設)。黃河勝(2000)將期刊內涵指標分為引文參數(影響因子、總被引頻次、自引率、被引半衰期、外文引文率、SCI文獻引用率)、稿件特征參數(基金論文比、學位稿)、稿流特征參數(平均時滯量、平均載文量)。潘云濤(2007)”將期刊一級指標分為學術質量指標、國際競爭力力指標、可持續發展潛力指標。龐景安、張玉華等(2000)將科技期刊評價指標分為經營管理水平指標、學術水平、編輯水平三大類。
由于評價目的不同,期刊評價的指標選取不同,當然分類也不一樣。對于大多數評價指標而言,不同學者的分類基本相同,但由于學術期刊評價指標的特點,對于少數指標,不同學者分類截然不同,如基金論文比指標有的作為學術質量指標,而有的作為文獻特征指標;即年指標有的被作為時效性指標,有的被作為影響力指標。這些難以分類的指標主要有基金論文比、地區分布數、海外論文比、即年指標等。此外,目前學者主要采用主觀分類法進行分類,沒有采用客觀分類法。
本文以中國科學技術信息研究所的醫學期刊評價為例,采用聚類分析與因子分析等客觀分類法進行分類和比較,試圖確定學術期刊評價指標的分類方法,從而為進一步的期刊評價打下基礎。
2 方法
2.1 聚類分析(Cluster Analysis)
聚類分析是多元統計分析的一種,它把一個沒有類別標記的樣本集按某種標準分成若干個子集(類),使相似的樣本盡可能歸為一類,而不相似的樣本盡量劃分到不同的類中。聚類分析被廣泛地應用于模式識別、數據挖掘和知識發現的許多領域。聚類的目的是要使各類之間的距離盡可能地遠,而類中點的距離盡可能地近。并且分類結果還要有令人信服的解釋。在聚類分析中,人們一般事先并不知道應該分成幾類及哪幾類,全根據數據確定。
對一組數據,既可以對變量(指標)進行分類,也可以對觀測值(事件,樣品)來分類,對變量的聚類稱為R型聚類,而對觀測值聚類稱為Q型聚類,它們在數學上是無區別的。在學術期刊評價中,可以應用R型聚類分析來進行學術期刊評價指標的分類。
2.2 因子分析(Factor Analysis)
因子分析是從多個變量指標中選擇出少數幾個綜合變量指標的一種降維的多元統計方法。該方法的基本思想是通過變量的相關系數矩陣或協方差矩陣內部結構的研究,找出能控制所有變量的少數幾個隨機變量去描述多個變量之間的相關關系。然后根據相關性大小把變量分組,使得同組內的變量之間相關性較高,不同組的變量之間相關性較低。每組變量代表一個基本結構,這個基本結構稱為公共因子。對于所研究的問題就可試圖用最少個數的不可測的所謂公共因子的線性函數與特殊因子之和來描述原來觀測的每一分量。
建立因子分析模型的目的是找出主因子,解釋每個主因子的實際意義,以便對實際問題進行分析。由因子模型矩陣得到的初始因子載荷矩陣,如果因子負荷的大小相差不大,對因子的解釋可能有困難,因此,為得出較明確的分析結果,往往要對因子載荷矩陣進行正交旋轉或斜交旋轉。通過旋轉坐標軸,使每個因子負荷在新的坐標系中能按列向0或1兩極分化,同時也包含按行向兩極分化。如果不對因子載荷矩陣進行旋轉,就是主成分分析,因此,主成分分析實際上是因子分析的一種特殊情況。主成分分析只要求所提取出的主成分能包含主要信息即可,不需對其含義作準確解釋;因子分析要求所提取出的因子有實際含義,因此采用因子分析進行變量的分類較好。
因子分析是根據現有的指標尋找公共因子,因此,可以借用因子分析進行指標的分類,與主觀分類不同的是,由于因子分析是完全根據數據進行的客觀分析,
因此不能首先確定一級指標的名稱,而應該根據因子分析的結果對公共因子進行命名。
3 數據
本文數據來自于中國科學技術信息研究所CSTPC數據庫,以醫學類期刊為例進行分析。中國科學技術信息研究所從1987年開始對中國科技人員在國內外數量和被引情況進行統計分析,并利用統計數據建立了中國科技論文與引文數據庫,同時出版《中國學術期刊引證報告》。本文數據是2006年的醫學學術期刊數據,共518種醫學期刊,如表1所示:
由于要對期刊進行評價,所以必須對數據進行標準化處理,每項指標最大值設為100,然后按比例進行調整。此外,被引半衰期和引用半衰期是兩個反向指標,必須進行適當處理,方法是用100減去其標準化后的結果后再做標準化,這種處理方式是線性處理方式,比反向指標取倒數的非線性處理方式要科學一些。
4 指標分類結果
4.1 聚類分析
采用層次(hierarchical method)R聚類,第一步把最近的兩個指標合并成一類;度量剩余的指標和小類間的親疏程度,并將當前最接近的指標或小類再聚成一類;再度量剩余的指標和小類間的親疏程度,并將當前最接近的指標或小類再聚成一類,如此循環,每次都少一類,直到最后只有一大類為止。越是后來合并的類,距離就越遠。采用SPSS 15.0進行數據處理,選擇組內聯系最大法(within-groups linkage),結果見圖1。總被引頻次(x1)與學科擴散因子(X5)被劃為一類,都是期刊影響力的指標;影響因子(x7)與即年指標(X8)被劃為一類,還是期刊影響力的指標。在此基礎上將以上4個指標劃為一類,是可以解釋的。然后以此為基礎,依次增加平均引文數(X11)、海外論文比(X14)、基金論文比(X9)、學科影響指標(X4),關聯性相對較弱,如平均引文數與期刊的影響力關系并不是很大,海外論文比和基金論文比與期刊影響力有一定關系,但基于聚類分析的角度,似乎又比較遠。
平均作者數(10)和引用半衰期(12)被分為一類,幾乎無法從理論上找到這種關系,在此基礎上又和擴散因子()(3)聚類,更是無法解釋。
被引半衰期(x6)和地區分布數(X13)被分為一類,從理論上也無法解釋,在此基礎上和他引率(x2)聚類,也無法解釋。
由于期刊評價指標的特殊性,如果采用聚類分析對指標進行分類,結果可能是不能令人信服的,本文是基于大量數據分析得出的結論,應該是比較可靠的。
4.2 因子分析分類
同樣采用SPSS 15.0進行因子分析,首先進行KMO與Bartlett檢驗。KMO是對樣本充分度進行檢驗的指標,一般要大于0.5。本文采用SPSS進行數據處理,KMO值為0.680,也就是說,符合因子分析的條件;Bartlett值為3319.828,P
第一因子是總被引頻次(x1)、學科影響指標(x4)、學科擴散因子(x5)、影響因子(x7)、地區分布數(X13),前4個指標都是與被引相關的指標,可以用影響力加以概括,地區分布數也是影響力的一種體現,影響力越大,論文地區分布越廣。
第二因子包括基金論文比(X9)、平均作者數(XIO)、平均引文數(X11)、海外論文比(X14)、即年指標(x8)、前4個指標都是期刊特征指標,即年指標比較特殊,在第一因子中的系數為0.34,說明它也是影響力指標;在第四因子中的系數為0.424,第四因子包括引用半衰期和被引半衰期,也與引用相關,但第二因子系數最大,為0.531,所以認為其是期刊特征指標。
第三因子包括他引率(x2)和擴散因子(x3),也與被引相關,是影響力的體現,因此可以將第三因子和第一因子合并。
第四因子包括被引半衰期(x6)和引用半衰期(X12),它其實主要反映的是期刊的時效性情況,因為引用半衰期較短的論文,一般比較新,其參考文獻也相對較新
因此,根據以上分析,可以將學術期刊指標分類如下:①影響力指標:總被引頻次(x1)、他引率(x2)、擴散因子(x3)、學科影響指標(X4)、學科擴散因子(x5)、影響因子(x7)、地區分布數(X13);②期刊特征指標:即年指標(x8)、基金論文比(x9)、平均作者數(XIO)、平均引文數(x11)、海外論文比(X14);③時效性指懷:被引半哀期(x6)和引用半衰期(X12)。
關鍵詞:聚類分析算法 應用研究 算法描述
中圖分類號:TP311.13 文獻標識碼:A 文章編號:1007-9416(2016)10-0143-01
聚類分析(Cluster Analysis)就是將一組物理事物或抽象對象按照某種聚類規則或檢驗度量函數標準劃分不同聚集組別的過程,其中被劃分的若干相對獨立的組為一個類,是一種無監督的學習方法。聚類分析方法是數據挖掘技術中的數據分析普遍運用方法之一,其功能最終實現被研究數據按照相關聚類分析算法進行聚類,對聚類的事物對象,最終要達到相似度大的對象在同一個聚類群組中,相似度小的對象在不同的聚類群組中,從而歸納出聚類數據對象的特征性。聚類分析中的“類(Cluster)”就是一組相似度較高的數據集合。聚類分析能夠將一組事物或數據按照聚類算法規則進行聚類處理,根據聚類算法規則的不同而實現各自側重的聚類分析結果。
1 聚類分析算法
根據聚類對象數據類型的不同,聚類分析分為R型聚類和Q型聚類,R型聚類是對變量型數據的聚類分析,Q型聚類是對具體觀測值數據的聚類分析。對數據對象的聚類分析要借助于聚類分析算法來實現完成,聚類分析算法的基本定義為:
目標數據集合,對于數據集合中的任一數據元素,具有個特征屬性,任一數據元素的屬性特征向量集表示為。通過特定的數據分析處理準則對目標數據集進行聚類處理后,目標數據集被劃分成具有個子集的數據類集合,,聚類結果數據集必須滿足:
根據聚類分析所采取分析方法的不同,聚類分析算法分為基于劃分的聚類分析算法、基于層次的聚類分析算法、基于密度的聚類分析算法、基于網格的聚類分析算法、基于模型的聚類分析算法。
2 K―means聚類分析算法描述
對于給定包含個數據對象的數據集,按照標準偏移量的目標函數進行劃分,形成K個聚類。具體操作過程為:
第一步:數據規范化處理。對數據對象進行規范化預處理,消除非法值及極值影響。
第二步:數據準備。計算各科標準差:
第三步:計算各初始聚類中心。
第四步:計算與聚類中心最近鄰的數據對象,并合并成新類。
第五步:重新計算聚類中心值。
第六步:驗證聚類收斂性。
if 聚類中心值o新變化
結束聚類 else 轉入第四步 endif
第七步:進行各個類數據分析。
3 結語
總之,聚類分析算法是數據挖掘中一種常用算法,在數據挖掘過程中有很多算法,每種算法都有自己的優缺點,數據挖掘是一項極其復雜過程,一般情況我們都是多種算法結合起來一起應用,目的提高工作效率,提高數據挖掘的準確性,數據挖掘技術在我國應用領域比較廣,并且取得一定成績,在當今大數據時代,研究數據挖掘具有一定的現實意義,具有深遠的研究價值。
參考文獻
[1]吳多智.基于語義的手機類產品用戶評論維度挖掘研究[J].安徽電子信息職業技術學院學報,2016(03).
[2]孫永輝.聚類分析在學生成績分析中的應用[J].中國管理信息化,2016(06).
[3]巨曉璇,鄒小斌,屈直,劉春敏.層次聚類算法在氣象客戶細分中的應用[J].河南科技,2015(11).
[4]許進文.數據挖掘中聚類分析算法及應用研究[J].計算機光盤軟件與應用,2013(06).
摘 要 對北京體育大學2003-2012年體操方向碩士學位論文的關鍵詞詞頻統計與分析,研究高頻詞之間的結構關系,探究北京體育大學體操方向碩士學位論文的選題方向、研究內容及其不同的特點,分析熱點的形成原因與未來發展趨勢。
關鍵詞 北京體育大學 碩士學位論文 研究熱點
一、研究方法與對象
研究方法主要采用詞頻統計法與共詞聚類分析法。詞頻統計法能夠揭示或表達文獻核心內容的關鍵詞或主題詞在某一研究領域中出現的頻次高低來確定該領域研究熱點和發展動向的文獻計量法。共詞聚類分析法是一種內容分析方法,通過對一組詞兩兩統計它們在同一片文獻中出現的頻率,以此為基礎對這些詞進行聚類分析,從而反映出詞與詞之間的親疏關系,進而分析這些詞所代表的學科和主題的研究結構。
二、研究生學位論文的共詞聚類分析
(一)關鍵詞詞頻統計與分析
本文利用《CNKI中國優秀碩士學位論文全文數據庫》,搜索出2003―2012年北京體育大學體操方向碩士學位論文共73篇,以73篇學位論文中的關鍵詞為調研對象,通過共詞分析法中的聚類分析探索各高頻關鍵詞之間的內在關系,歸納出北京體育大學體操碩士學位論文研究的熱點,以及各個不同研究方向的親疏性。本研究利用Excel對前期檢索出的學位論文進行關鍵詞統計,共得到碩士學位論文關鍵詞283個,平均每篇碩士學位論文含關鍵詞3.9個。然后對統計結果進行以下處理:去除對反應主題沒有積極意義的詞,如“展望”、“問題”等,對表達同一個意思的關鍵詞進行標準化處理,如“高職院校”、“職業技術院校”、“職技高校”等標準化為“高職院校”,“高等院校”、“高等學校”、“高校”、“大學”等標準化為“高校”。
經過多次比較,最終選擇詞頻大于的關鍵詞作為高頻關鍵詞,從而確定個體操方向碩士學位論文的高頻關鍵詞(表1)。這個關鍵詞總的出現頻次為65次,占關鍵詞總頻次的36.3%。從高頻關鍵詞分布可以看出,北京體育大學體操方向碩士研究生重點關注的研究對象集中在“體育教育專業”、“分析”、“普通高校”、“競技體操”、“北京市”、“教學理念”、“現狀”、“發展對策”等。
表1 碩士學位論文高頻關鍵詞表
序號 關鍵詞 詞頻
1 體育教育專業 12
2 分析 10
3 普通高校 8
4 競技體操 8
5 北京市 7
6 教學理念 7
7 現狀 7
8 發展對策 6
(二)構造詞篇矩陣、相似矩陣
對于高頻關鍵詞共現頻次的統計,本研究利用SPSS17.0,以每篇學位論文為一條記錄,記錄的內容為高頻關鍵詞是否在學位論文的關鍵詞出現(出現為1,否則為0),構造出詞篇矩陣。以詞篇矩陣為基礎,在SPSS軟件中進行相關分析,數據類型選擇“binary”二元變量,相似系數選擇“Ochiai”系數,構造出高頻關鍵詞的相似矩陣(見表2)。相似矩陣中的數字為相似數據,數字的大小則表明詞與詞之間的距離遠近,數值越大則表明詞與詞之間的距離越近,相似度越好;反之,數值越小,表明詞與詞之間的距離越遠,相似度越差。相似矩陣對角線的數據為1,表明某高頻關鍵詞自身相關度。
表2 碩士學位論文高頻關鍵詞的相似矩陣(部分)
體育教育專業 分析 普通高校 競技體操 北京市 教學理念 現狀 發展對策
體育教育專業 1.000 0.060 0.286 0.004 0.192 0.321 0.334 0.215
分析 0.060 1.000 0.030 0.121 0.018 0.006 0.076 0.023
普通高校 0.028 0.030 1.000 0.150 0.030 0.068 0.119 0.029
競技體操 0.004 0.121 0.150 1.000 0.008 0.192 0.043 0.020
北京市 0.192 0.018 0.030 0.008 1.000 0.192 0.035 0.078
教學理念 0.321 0.006 0.068 0.192 0.192 1.000 0.087 0.186
現狀 0.334 0.076 0.119 0.043 0.035 0.087 1.000 0.100
發展對策 0.215 0.023 0.029 0.020 0.078 0.186 0.100 1.000
(三)北京體育大學體操方向碩士學位論文的研究熱點可以概括為以下幾類:
1.競技體操的發展對策。包括關鍵詞:競技體操、發展對策、后備人才。
2.北京市普通高校體育教育專業教學理念。包括關鍵詞:北京市、普通高校、體育教育專業、教學理念。
3.體育教育專業與教學能力。包括關鍵詞:體育教育專業、教學能力。
三、研究熱點的特點分析
(一)北京體育大學體操方向碩士學位論文的研究熱點比較寬泛,選取對象比較廣泛,包括普通高校、體育院校、競技體操、體操普修課、教學理念等。
(二)碩士學位論文注重對教學理念及競技體操發展狀況的研究,旨在通過現狀研究,探尋發展的脈絡與經驗。
(三)碩士學位論文注重對基本理論研究,研究內容寬泛。在理論分析上顯得薄弱、創新能力欠缺。
參考文獻:
[1] 高寶立,劉小強.高等教育研究熱點分析:兩個維度、四項指標――以現代大學制度研究為例[J].教育研究.2008(09).
[2] 遲景明,吳琳.近十年我國高等教育學學科研究熱點和趨勢――基于研究生學位論文的共詞聚類分析[J].中國高教研究.2011(9):20-24.
[3] 馬費成,張勤.國內外知識管理研究熱點――基于詞頻的統計分析[J].情報學報,2006.25(02).
關鍵詞:聚類分析 空氣質量 集中治理污染源
Based on clustering analysis of air quality analysis
Wang Shuai
(College of mechanical Engineering, South East University, Nanjing, 211189)
Abstract: this paper make use of cluster analysis method to study the district shenzhen city air quality problem, the main pollutant SO2, NO2 and PM10 readings - which were taken, CO and O3 undertake an analysis, get the relationship between the content of each pollutant, and the correlation degree, find the main area is polluted, combined with its geographical position to judge the main pollution sources, to the same kind of area with the same method for centralized management.
Keywords: clustering analysis; air quality; centralized management; pollution sources;
中圖分類號:Q938.1+4文獻標識碼: A 文章編號:
由于空氣的擴散作用,導致對空氣環境的治理有一定的盲目性,不能做到對癥下藥,導致效果不佳。將空氣檢測數據進行聚類分析找出污染問題相近的區域進行其中治理,使方案更加有針對性。
1 數據來源
本文所有的數據都收集自深圳市環境空氣質量時報.空氣質量時報對深圳各區的空氣主要污染物的濃度進行檢測,進行評級。
2 聚類分析
聚類分析方法聚類分析方法聚類分析方法聚類分析方法聚類分析關注于根據一些不同種類的度量構造一些相似的對象組成的群體。關鍵的思想去確定對分析目標有利的對象分類方法。在聚類分析前,首先把數據標準化為Z-分數,采用系統聚類(Hierachical Cluster) 方法,用音差平方和法(Ward法)計算歐幾里得(Eudlidean)距離。聚類分析依據的基本原則是:直接比較樣本中各事物之間的性質,,將性質相近的歸為一類,而將性質差別比較大的分在不同類。也就是說,同類事物之間的性質差異小,類與類之間的事物性質相差較大。其中歐式距離在聚類分析中用得最廣,它的表達式如下:其中Xik表示第i個樣品的第k個指標的觀測值,Xjk表示第j個樣品的第k個指標的觀測值,dij為第i個樣品與第j個樣品之間的歐氏距離。若dij越小,那么第i與j兩個樣品之間的性質就越接近。性質接近的樣品就可以劃為一類。 當確定了樣品之間的距離之后,就要對樣品進行分類。分類的方法很多,本節只介紹系統聚類法,它是聚類分析中應用最廣泛的一種方法。首先將n個樣品每個自成一類,然后每次將具有最小距離的兩類合并成一類,合并后重新計算類與類之間的距離,這個過程一直持續到所有樣品歸為一類為止。分類結果可以畫成一張直觀的聚類譜系圖。
3. 問題分析
3.1分析方法
本調查所采用的是聚類分析法,通過SPSS軟件進行統計分析。對問卷進行統計處理得到原始數據表(見表1)。利用SPSS軟件得到聚類成員(見表2)和聚類中心(見表3)。同時進行R型聚類即對變量進行分類(見表4)。
表1 原始數據
表2 聚類成員
表3 聚類中心
表4 聚類表
圖1樹狀圖
3.2結果分析
由聚類分析的計算結果可以看出,原變量之間的差異不大 ,根據表2所示可知,污染區域可以分為兩類,第一類包含16個區域,第二類有兩個區域即鹽山和葵涌,由聚類中心(表3)可以看出,第一類是以SO2、NO2、PM10為主要污染物的區域,而第二類則以O3為主要污染物。從表4可以看出各類中各區域之間的相近程度。從圖1中可以更為直觀的看出福永、光明、橫崗、觀瀾和沙井,相近程度更大,而寶安、龍華和華僑程度相近。南油、荔園和荔香相近。圖中線條長度表示相近程度。
4 結論
聚類分析法表明,可以將全市分為兩個大的空氣質量區,一區中的十六個區域,主要治理SO2、NO2、PM10為主,而二區以O3的治理為主。由于空氣的擴散作用可知,某一區域的作用會影響到周圍一大片區域的空氣環境,所以可以結合所屬于同一類的區域之間的地理位置關系和該區的主要污染物,對區域內的主要污染源進行排查,從而準確找到相關問題的根源,避免了盲目性。
參考文獻(Reference)
[1]汪應洛.系統工程[M].北京:機械工業出版社.2009.54-60.
[2]方開泰.實用多元統計分析[M].上海:華東師范大出版社.1989.291-302.
[3]王學仁,王松桂.實用多元統計分析[M].上海:上海科技出版社.1990.270-272.
[4]方開泰.實用多元統計分析[M].上海:華東師范大學出版社.1989.291-302.
[5]李冬梅,陳軍霞.聚類分析法在公交網絡評價中的應用[J].河北科技大學學報.2012(3)
【關鍵詞】高壓;聚類分析;特點;研究
1.引言
高壓電纜是電力系統中重要的設備,由于其適合于地下走線方式在城市電網中得到了大量的應用,節約了大量的空間資源,然而由于地下潮濕等因素以及布線過程中人為的損壞都可能造成電纜絕緣層的損壞,在運行電壓的長期作用下,可能造成局部放電的發生,如果得不到及時的處理,最終會導致電纜短路,從而引發停電事故,造成經濟損失,所以,對電纜進行局部放電檢測是必要的,基于此,文章分析了電纜局部放電的特點,然后根據聚類分析對放電進行了分析。
2.電纜局部放電信號傳播特性仿真
在對電纜進行局部放電檢測之前,需要對影響其局部放電信號傳播特性的參數進行分析。為了得到其原理,我們假設其長度很長,同時由于電纜局部放電信號含有豐富的信息[7],其波長與線路長度相比非常短,因此在研究局部放電信號傳播規律時,需要利用電纜的分布參數模型來分析[8],圖1所示為電纜的分布簡化模型。
圖1 電力電纜的分布參數模型
圖1中,R0、L0、C0、G0分別為電纜單位長度的電阻、電感、對地電容和對地電導,上這些基本參數決定了電纜中的相應特性[9-11]。結合上圖,可以得到一個新的二次參數特性阻抗Zc,Zc表示均勻傳輸線上任一點的電壓和電流之間的關系。
(1)
可見,這個公式就決定了相應的參數之間的關系。由于阻抗是一個復數,電壓和電流的絕對值之比決定了其相對值;電壓和電流的相位差決定了其幅值的大小,這個參數就可以反映出相應的特性參數。Zc重新表述為:
(2)
那么,|Zc|和就是其中所含有的信息。Zc反映了電纜上一點的特性[12]。對于脈沖信號來說,可以用傳輸常數來描述。在傳輸常數中,包含兩個常數:固有衰耗常數和固有相移常數。固有衰耗常數反映了處于匹配連接的線路上[13],能量損耗方面的傳輸規律,固有相移常數則反映了信號傳播過程中相位的變化。因此線路的傳輸規律可用式(3)表示,其中l是電纜的長度。
(3)
根據上述的分析,我們得到了如下的結論:
(1)由電纜的一次參數所決定,越大,就說明了信號的衰減會越大。
(2)小于1,那么,局部放電信號將會呈指數規律衰減,并且其衰減程度取決于電纜的長度,線路越長,衰減情況越嚴重。
式(3)中的反映的則是信號傳輸的相移,它影響的是局部放電信號的相位,并且隨著信號頻率的升高,、均隨之增大。經過上述分析,可以看出:電纜長度越長,局部放電信號在傳播過程中的衰減越嚴重。局放信號的頻率越高,則與之對應的、也越大,即信號的幅度衰減及相位移動也越嚴重。
3.聚類分析
聚類是根據放電的性質不同,將具有相同性質的特征量進行聚合的算法。由于其具有直觀的特點在許多領域得到大量的使用。基于聚類分析的工具已經被加入到許多統計分析軟件包或系統中,如S-Plus、SPSS,以及SAS。總體說來,包括如下幾個方面的內容:
(1)分化方法。假設一個數據集含有n個對象或數據行,相應的分化就是將數據集劃分為k個子集(劃分)。其中每個子集均代表一個聚類(k[n])。
(2)層次方法。該方法就是通過分解所給定的數據對象集來創建一個層次。它存在的缺陷就是在進行(組)分解或合并之后無法回溯。將循環再定位與層次方法結合起來使用常常是有效的,如BIRCH和CURE,就是基于這種組合方法設計的。
(3)基于密度的方法。只要臨近區域的密度(對象或數據點的數目)超過某個閾值,就繼續聚類。DBSCAN是一個有代表性的基于密度的方法。它根據一個密度閾值來控制簇的增長。
(4)基于網格的方法。基于網格方法將對象空間劃分為有限數目的單元以形成網格結構。其主要優點是它的處理速度很快,其處理時間獨立于數據對象的數目,只與量化空間中每一維的單元數目有關。STING就是一個典型的基于網格的方法。
(5)基于模型的方法。該方法就是為每個聚類假設一個模型,然后再去發現符合相應模型的數據對象。它根據標準統計方法并考慮到噪聲或異常數據,可以自動確定聚類個數;因而它可以產生很魯棒的聚類方法。數據挖掘在不同領域對聚類算法提出了各自特殊的要求。
定義:數據對象i與j的相異度為。其中,dijk2是第k個值距離的平方,對每個變量根據其重要性賦予一個權重,運用加權的歐幾里得距它決定第k個值的重要性。根據局部放電的特點,可以得到相應的聚類效果。聚類分析也可以進行孤立點的分析。經常存在一些數據對象,它們不符合數據的一般模型,這些數據對象被稱為孤立點。
結合實地的電纜局部放電特性,根據聚類方法,得到了如下的結果:
表1 最終的判斷結果
故障類型 訓練樣本 測試樣本 正確率(%)
1 50 100 81.13
82.31
83.61
84.15
2 50 100
3 50 100
4 50 100
圖2 電纜局部放電聚類分析流程圖
圖3 聚類分析結果
4.結論
電纜是電力系統中重要的電氣設施,文章根據電纜局部放電的相關特點,結合聚類分析法對其放電進行了分析,取得了一定的成果,對現場具有一定的指導意義。
參考文獻
[1]談克雄,呂喬青.交聯聚乙烯電纜絕緣的在線診斷技術[J].高電壓技術,1993,19(3):71-75.
[2]馬麗嬋,鄭曉泉,謝安生.交聯聚乙烯電纜中電樹枝的研究現狀[J].絕緣材料,2007,40(5):49-52.
[3]Yang J J,Brilasekaran S.Characteristic features of electrical treeing in XLPE and PE[C].The 7th International Power Engineering Conference,IPEC,2005:1-34.
[4]Yang J J,Zhang D M.Partial discharge phenomena due to electrical treeing in XLPE[C].1st IEEE Conference on Industrial Electronics and Applications,2006:1-6.
[5]李偉新.交聯聚乙烯電纜在線監測系統在廈門的應用[J].福建電力電工,2001,21(2):49-51.
[6]韋斌.110kV高壓XLPE電纜附件局部放電在線監測與故障特性的研究[D].北京:華北電力大學碩士學位論文,2004.
[7]劉兵.基于行波電力電纜故障單端在線測距研究[D].武漢:武漢大學碩士學位論文,2002.
[8]楊建國.小波分析及其工程應用[M].北京:機械工業出版社,2005.
[9]張國華,張文娟.小波分析與應用基礎[M].西安:西北工業大學出版社,2006.
[10]劉貴忠,邸雙亮.小波分析及其應用[M].西安:西安電子科技大學出版社,1992.
[11]黃子俊,陳允平.基于小波變換模極大值的輸電線路單端故障定位[J].電力自動化設備,2005,25(2):101-102.
[12]華欣.電氣設備絕緣在線監測芻議[J].四川電力技術,2001,2:49-52.
論文關鍵詞:聚類分系,網絡營銷,策略,客戶關系
0前言
現代科學技術的迅猛發展,特別是在互聯網的應用和開發上更加的迅速,企業必須通過網絡對自己的產品加強宣傳以增強自己的競爭力。客戶是一個非常重要的、有價值的重要資源,現在如何更好地從數據庫中挖掘出客戶中有價值的信息,更好的培植和經營與有價值客戶的關系,拋棄那些無利可圖沒有發展前景而且營銷費用高的客戶,并且可以針對不同價值的客戶給與不同的政策同時制定出個性化的營銷策略,這些才能夠保證企業的生存發展。對于這一切數據挖掘無疑是行之有效的好方法之一。本文以一個網絡營銷公司為例,提出了一套可操作性的對客戶價值評價方法,然后使用數據挖掘技術中比較常見和常用的聚類分析算法對客戶信息進行聚類從而達到非常重要的信息并為企業在網絡營銷中提供決策依據。
1聚類分析
聚類(clustering)是對于數據挖掘技術是非常重要的一部分,現在也是數據挖掘技術中關鍵的一種。聚類的意義就是針對物理或邏輯上的數據對象的進行自動分類,最后將數據對象分為多個類或簇的過程。對于聚類結果要使得數據對象在同一個分類中具有最大的相似度,而在不同的類中具有最小相似度。聚類的現實意義就是在于可以將數據按照一定得關系進行自動的分類,事先不知道所有的數據對象共有多少類,通過算法的處理最后得到一個分類結果進行應用。譬如在市場研究領域中,特別是針對網絡營銷的企業或網站,從大量的網絡數據進行分析聚類,可以講客戶分成不同的類別,針對這些類別不同的購買力和興趣愛好來進行個性化的營銷手段,提高企業的經濟效益。目前研究人員大多針對于聚類分析算法的改進和完善進行研究,進而提高聚類分析的工作效率。著名的算法有:CLARANS,BRICH,DBSCAN,CURE,STING,CLIGUE和WaveCluster等。
2聚類分析應用于企業客戶資源管理
現針對某電子商務公司進行分析,該電子商務公司的客戶分布在全國各地以及國外一些地區,現僅列出具有代表性的10個大客戶:吉林,黑龍江,山東,江蘇,浙江,安徽,湖南,緬甸,印度,南非等。在數據挖掘的目的就是從客戶中找到一些共同點,在對這些客戶數據進行處理前要使用聚類分析的方法進行研究看看這10個客戶能否有一些共同之處以便企業針對不同類型的客戶給與不同的對策,首先對該公司采用專家打分的方法,而且還有通過網上問卷調查和訪談的方式,收集各地銷售專員的意見等方式,然后對數據加以綜合,最后聚類分析法確定各項指標的權重。
那么在具體實施聚類分析法的時候可分為5個步驟進行:
第1步:首先對各項指數構建層次結構,其中被評定的10個大客戶作為方案層,客戶價值放在目標層中進行處理,各項指標是準則層,按照這樣的分層結構來構造客戶關系評價系統中個指數的結構圖,見圖2-1所示;
表2-1指標權重值表
指標
V
V
V
V
V
V
V
V
V
權重
0.0378
0.0401
0.0135
0.0161
0.0251
0.0060
0.0038
0.0091
0.0192
指標
V
V
V
V
V
V
V
V
V
權重
0.0381
0.1498
0.1721
0.0021
0.0201
0.0085
0.0053
0.0231
0.0701
指標
E
E
E
E
E
E
E
E
權重
0.0212
0.0312
0.0754
0.1841
0.0145
0.0510
0.0078
0.0684
從數據可以看出有兩種情形:一是緬甸和南非,從數據中可看出這類客戶的當前價值很小,但是具有很大的隱含價值,勢必會有一天他們的成長給企業會帶來豐厚的物質利益,這樣具有發展潛能的客戶應該采取措施激發潛能;二是安徽和印度這類客戶,雖然從數據中看出這類客戶當前價值很小,但是就這兩個省份的地理位置和經濟狀況來分析他們隱含著較大的價值。對于這一類的客戶,企業就應該采取靈活的措施,激發他們的購買能力促使該類型的客戶不斷地向前發展;
第2類是“維持型”客戶,他們會源源不斷的為企業提供利潤,如黑龍江和江蘇,他們這類客戶根據以往的交易記錄分析到得結果就是目前價值大,不過沒什么發展的潛能,或者說在某種情況下它的時常還會萎縮,當前這類客戶會給企業帶肋比較豐厚的利潤但是就長期發展而言卻不是利潤的主要來源,他們在某種情況下會流失掉,會被其他的企業競爭對手的介入而流失,為此對于企業一方面要維持與這類客戶的良好關系,保持穩定的客戶關系,另一方面還要采取一些營銷手段來刺激該類客戶的消費,提供一些個性化的服務和策略;
第3類“淘汰型”客戶,這類用戶就如同雞肋了,對于企業的現在和將來都意義不大,目前的銷售份額較小,企業對他們營銷的成本還很高,年利潤率很低,根據分析這類客戶包括浙江、湖南和吉林,他們沒有長期的發展的趨勢,所以企業采取的策略就是應充分挖掘他們給企業帶來的當前價值后逐漸地放棄他們;
第4類是“貴賓型”客戶,這類用戶是企業的主要經濟利潤的來源,在某種程度上可以說是企業生存的保證,他對企業是關系到生死存亡的重要客戶,從數據中看山東就是該企業的這類貴賓型的客戶,他的當前價值和潛在價值都很大,企業必須認真對待,細心呵護與這類客戶的關系,以及該客戶企業的關鍵性人物的關系,加強與這類客戶的溝通和關系的培養,同時還要提高警惕,防止競爭對手搶走這些貴賓型客戶。針對貴賓型客戶企業就應該對其進行一對一的營銷策略,進行良好的客戶需求溝通,盡最大可能滿足他們的需求,適當給與一些特殊政策來加強和他們的關系。從不同角度來加強客戶對企業的忠誠度、滿意度等。企業根據這些重要的信息就可以針對不同的客戶采取合適的銷售策略。
【關鍵詞】聚類分析;K-均值算法;特征加權
K-均值聚類算法因結構簡單、快速高效且適用于處理大數據集,在眾多科研領域得到廣泛應用。但它同時存在一些缺陷和不足,要求預先給定聚類個數;容易陷入局部極小值而得不到全局最優解等。針對以上問題研究人員提出了各種各樣的有效改進措施。文獻[1]的作者通過 DBI 聚類指標和最大最小距離方法來自動確定最佳聚類數目,較好地解決了 K-均值聚類算法中聚類數目 K 值的確定問題。文獻[2]提出一種有效的混合聚類算法,在一定程度上克服了 K-均值聚類算法和層次聚類算法各自的缺陷。文獻[3]提出一種基于變長編碼的改進遺傳算法,有效地解決了 K-均值聚類算法對初始中心選取敏感的問題。文獻[4]提出了一種基于密度及最近鄰相似度的初始聚類中心選取方法,大大提高聚類結果的穩定性。文獻[5]提出了一種基于數據對象在空間分布規律的新的初始聚類中心選取方法,有效解決由于初始中心選取的隨機性而導致的聚類結果不穩定的問題。本文利用分類領域中的特征選擇及特征加權方法,提出了一種改進的特征加權 K-均值聚類算法。實驗結果證明,所提出的算法能產生質量較高的聚類結果。
2.K-均值算法的改進
3.實驗結果
為了驗證本文所提出算法的有效性和可行性,選用 UCI 提供的機器學習公共數據庫中的5 個數據集對本文改進的聚類算法的聚類性能進行聚類實驗。(見表1)
從表 2 中不難看出,隨機選取初始聚類中心的傳統 K-均值算法得到的聚類結果準確率低且不穩定,而且對于有大值屬性存在的 Wine數據集,錯分數大大增加;而使用本文所設計的改進聚類算法所得到的聚類結果不僅準確率高,而且相對穩定。
4.結束語
本文針對傳統K-均值算法由于隨機選取初始聚類中心而導致聚類結果不穩定、準確率低的缺點,提出了一種改進的特征加權K-均值聚類算法。實驗結果表明,本文算法可以有效得到準確率高、較為穩定的聚類結果。
參考文獻:
[1] 馮超.K-means聚類算法的研究:[大連理工大學碩士學位論文].大連:大連理工大學,2007
[2] 曾志雄.一種有效的基于劃分和層次的混合聚類算法.計算機應用,2007
[3] 范光平.一種基于變長編碼的遺傳K均值算法研究:[浙江大學碩士學位論文].杭州:浙江大學,2007
[4] 孫可,劉杰,王學穎.K均值聚類算法初始質心選擇的改進.沈陽師范大學學報,2009
[5] 徐義峰,陸春明,徐云青.一種改進的K-均值聚類算法. 計算機應用與軟件,2008