聚类分析论文实用13篇

聚类分析论文
聚类分析论文篇1

1.3数据来源与处理文中的数据资料,来自于2011年《中国统计年鉴》、2011年《中国城市统计年鉴》、2011年《中国城市竞争力年鉴》、2011年《中国城市能源统计年鉴》等,部分数据是整理计算后得出的结果。

1.4评价方法文中首先采用因子分析法,对我国31省级行政区域的环境友好型社会水平进行综合评价。因子分析在SPSS17.0软件环境下进行。其次,在因子分析的结果基础上,对各省市区域的环境友好型社会发展状况进行聚类分析。采用HierarchicalCluster的聚类方法,运用离差平方和法(Ward'smethod)计算类与类之间距离,选择欧式距离的平方(SquaredEuclideanDistance)进行聚类,最终得出聚类分析结果,并用Arc-GIS9.2软件呈现空间差异。

2结果与分析

2.1因子分析通过对评价对象的3个二级指标下的23个三级指标进行环境友好型社会程度综合评价。

2.2聚类分析与空间分异在因子分析基础上,进行样本聚类分析,并利用ArcGIS9.2软件显示量化分类结果的空间分异特征。聚类方法选择Ward法,距离测试采用欧氏距离平方法,利用SPSS的系统聚类法进行聚类分析。根据聚类结果,可以将31个省市区域划分为3-8类如果划分太少的类别(如分为3类或4类),则无法考察类别之间的具体差异,如果选择较细的类别划分(如分为7类或8类),则某一类别中含有的省份过少,更多地表达了特殊性。为了体现类型之间的差异性,又保证不同类型包含省份的均匀性,本课题将31个省份分为5类,并用ArcGIS9.2软件分析得出空间差异

3讨论

(1)为了解决环境友好型评价指标体系缺乏针对性的问题,文中在环境友好型社会概念基础上,从环境影响总量、环境影响发展和环境保护潜力等三个方面,提出了由23个既相互联系又相互独立并能进行量化的指标构成的环境友好型社会综合测度指标体系。通过采用2011年度中国统计年鉴和各行业和能源产业统计年鉴数据基础上,对中国31个省级行政区的环境友好型社会发展状况进行了综合评价和聚类分析,研究结果与当前中国环境生态质量的现状有较好的一致性,这也说明了该指标体系具有一定科学性和完备性。

(2)尽管文中的研究为我们客观评价环境友好型社会提供了一种思路并具有一定的可操作性,但在选择环境影响总量、环境影响发展和环境潜力等具体指标时,大多是建立在数据的可获得性和以往的研究文献基础上,仍存在一定的主观性。并且所选用的统计分析方法也可以是多种多样的,也不仅仅是文中所提到的主成分因子分析法,还可以是诸如物元法、模糊评价法、神经网络法和层次分析法等,不同的分析方法势必会有不同的优点和不足之处,这需要后续学者做进一步探索。另外,从评价对象上看,文中选用的是省级空间分布尺度,这种尺度分类仍较为粗略,未来的研究可以进一步深化,比如县域等。

(3)从研究结果看,中国31个省级行政区的环境友好型社会发展状况可以划分为五类;在空间分布上,环境友好型社会程度相对较高的省份大多位于东部沿海地区和西部国界线附近的不发达地区,而环境友好型社会程度相对较弱的省份大多位于京津唐冀和晋等省份和地区,这一研究结果与张墨宁的调查结果相一致。造成这种现象的原因,或许与中国所处的发展阶段、区域主导产业结构和在很大程度上继续沿用以往粗放型经济发展模式有关,并值得相关政府决策部门的重视。

聚类分析论文篇2

摘 要:基于因子分析和聚类分析法,对重庆市40个区、县的经济发展状况进行了定量化综合评价。在分析重庆市经济发展不平衡的特点和原因的基础上,探讨了经济全面协调发展的对策和思路。 论文关键词:重庆市;因子分析;聚类分析;经济发展状况 重庆是典型的大城市、大农村,其经济发展仍然处于非均衡发展的历史进程,各区县经济发展水平具有明显的地域差异。随着城乡综合配套改革试验区这一重大战略决策的实施,重庆的发展迎来了千载难逢的机遇。重庆各区、县只有对当前的经济发展状况有一个客观、全面的了解,才能更好地实现有效的区域整合。 近年来,社会统计分析软件在社会经济统计、工程技术以及教学科研等领域的研究已取得广泛应用。本文以重庆市内40个区县为研究对象,结合重庆市地域特点,综合运用多元统计中的因子分析和聚类分析,较大限度地避免人为因素所产生的偏差,对全市经济发展状况进行了定量化综合评价。在分析重庆市经济发展不平衡的特点和原因的基础上,探讨了经济发展的对策和思路,以期对未来经济发展状况的改善起参考作用。 1 经济发展状况评价指标体系的构建 国内外学者对城市经济发展状况的评价指标体系进行了不少研究,但由于城市经济系统本身的复杂性,以及城市经济发展状况评价指标体系的理论尚有待深入,所以目前还没有一种公认的、可靠的评价方法。本文在遵循科学性、全面性、可操作性原则的基础上,参阅相关文献并结合重庆市现状,构建了以下影响城市经济发展状况的8项指标作为评价指标体系:地区生产总值(万元),工业总产值(万元)、公路货运量(万吨)、建设与改造投资(万元)、社会消费品零售总额指数(上年=100)、城乡居民储蓄(万元)、城镇居民最低生活保障人数(人)、专业教师数(人)作为分析样本,数据来源——重庆统计年鉴[2006]。所采用的分析软件是SPSS13.0。 2 模型方法概述 2.1 因子分析 因子分析属于多元分析中处理降维的一种统计方法,它是主成分分析的推广和发展,它也是将错综复杂关系的变量(或样品)综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,同时根据不同因子还可以对变量进行分类。 Z因子分析的数学模型。 通常针对变量作因子分析,称为R型因子分析,另一种对样品作因子分析,称为Q型因子分析。R型因子分析写成数学的形式,就是下面的模型:假定随机向量X满足: X=A•F+ε 其中A是p×m的常数矩阵,称为因子载荷矩阵;F=(F1,…,Fm)是不可观测的向量,F称为X的公共因子;ε称为X的特殊因子,通常理论上要求ε的协方差阵是对角阵,ε中包括了随机误差,且 ⅱ)Cov(F,s)=0 即F和ε是不相关的; ⅲ)D(F)=Im即不相关且方差皆为1。 因子分析的目的就是通过模型X=AF+ε以F代替X,由于m 2.2 聚类分析 聚类分析是统计学中研究“物以类聚”问题的多元统计分析方法,在统计分析的应用领域已经得到了极为广泛的应用。 聚类分析至今,有许多种不同的聚类方法,其中应用得最多、最成熟的方法为系统聚类法,也是本文将采用的方法。其思路为:首先将每个数据对象各视为一类,根据类与类之间的距离或相似程度将最相似的类加以合并,再计算新类与其它类之间的相似程度,并选择最相似的类加以合并,这样每合并一次就减少一类,不断继续这一过程,直到所有数据对象合并为一类为止。 3 实证分析 3.1 因子分析结果 运用因子分析法,借助SPSS对以上数据进行分析处理,在处理过程中采取以下步骤:(1)遵循系统性、科学性、可操作性的原则,对所有指标的原始数据进行标准化,消除量纲的影响。由标准化后的数据求协方差矩阵,即原始数据的相关矩阵,判断能否进行因子分析;(2)根据公共因子在变量总方差中所占的累计百分比例,一般为大于85%规则,确定描述数据所需要的公共因子数;(3)公共因子的命名和意义解释。运行结果如下: 在表2中,按照提取原则即特征值大于1,选入3个主成分,其方差累计贡献率达 88.08%,即反映了原始信息的88.08%,这三个因子就可以解释原始数据的大部分信息了。我们将这3个主成分作为评价重庆市40个区、县经济发展状况的综合参量。 从表3可以看出,地区生产总值、工业总产值、城乡居民储蓄、公路货运量等四个指标与第一主成分的相关系数较高,主要反映了经济总量状况及其环境状况;专任教师数在第二主成分上的载荷较大,即与第二主成分相关程度较高;消费总额指数在第三主成分上的载荷较大,即相关系数较高。因此我们可将主成分命名如下: 第一主成分:产出主成分; 第二主成分:教育主成分; 第三主成分:消费主成分。 把我市40个区、县的经过标准化的数据(X1,X2,…,X8)代入对应的线性模型,可以得到各地区的主成分值,并以各主成分的方差贡献率为权重进行加权汇总,得到综合得分F(其中F=0.0113×F1+0.1412×F2+0.7821×F3)。 3.2 聚类分析结果 运用SPSS的系统聚类法,根据各个地区的综合得分值进行分类,共将重庆市40个区、县划分为三类:第一类渝中、九龙坡、江北、双桥、沙坪坝、大渡口、南岸、渝北、万盛、长寿;第二类巴南、北碚、梁平、永川、黔江、大足、铜梁、合川、荣昌、南川、潼南、江津、酉阳、武隆;第三类壁山、万州、巫溪、巫山、忠县、丰都、开县、秀山、綦江、石柱、涪陵、奉节、彭水、云阳、垫江、城口。 4 结论和对策 通过上述分析,不难看出: (1)重庆市40个地区社会经济发展存在着明显的差异:第一类区县大部分分布在都市发达经济圈,第二、三类区县几乎均处于渝西经济走廊与三峡库区生态经济区。 (2)渝中区综合经济实力得分远远高于其他9个,这说明渝中区已成为整个重庆经济的发展极。其中江北、沙坪坝、九龙坡、南岸、渝北五区在地理位置上和渝中区相临,受经济辐射作用应影响,经济综合实力较强;巴南区、北碚区虽然位于都市发达经济圈,有着特殊的区位优势,但是由于受周边江北、沙坪坝等五区的经济回波效应影响,抵消了经济的辐射作用,所以综合实力得分较第一类地区低;壁山、万州等l6个区县大多为边远山区和少数民族地区,由于这些地区的交通不发达,这些地区的专业优秀人才大多流向一、二类地区,因此使得这些地区与第一、二类地区间经济发展差距有扩大的趋势。 (3)基于较大地区间经济发展的差距,重庆市要对以往三大经济圈的发展战略加以完善、发展和提升,切实贯彻并实施“一圈两翼”的新战略。努力增强一小时经济圈的带动辐射能力,加快以交通和水利为重点的基础设施建设,增加区域发展潜力。积极发展特色产业,加快区域经济社会发展,逐步缩小市域的城乡差距和区域差距,形成大城市带大农村的整体推进格局。 参考文献 [1]陈道平,刘伟.基于微小型汽车市场的影响消费者购买行为的消费者特性分析[J].消费经济,2005,(6). [2]唐敏,陈道平.上证A股与B股协整关系的实证研究[J].当代经济,2008,(2). [3]赵喜仓,吴梦云.江苏城市社会经济发展状况实证分析[J].统计研究,2003,(3)

聚类分析论文篇3

2农村环境污染物排放的核算

2.1农村环境污染物具体排放量的计算研究得知,各污染源污染实物的排放量多少是和流失系数、产污系数等密切相关的。而农村环境污染具有极其明显的地域性,所以我们计算中需要的参数值必须通过对某一地区内各种相关联的因素进行测定和综合分析才能得出。目前,得出这些参数的方法一般有两种,一是通过特定地区的污染发生学实验研究来得出,二是通过相关的文献进行筛选、调研。

2.2农村环境污染敏感性的调研这里提到的敏感性主要是指调研区域地表水环境对农村各种社会经济活动的反应的敏感程度。可以反映产生地表水水体富营养化的概率的大小,敏感性分为5级,即不敏感、轻度敏感、中度敏感、高度敏感、极敏感。根据相关的调查,对农村环境污染的敏感性评价可以采用污染物(COD、TN、TP)的排放浓度结合水质评价模型进行评定。具体可有以下3种方法。①单向水质指数法。在确定各基本单元的基本指数后,用污染物(COD、TN、TP)的水质指数作为变量,进行全面的聚类分析,然后根据分析结果,划分敏感级别。②加权指数法。运用加权指数法可以反映出污染物(COD、TN、TP)在不同地区对环境污染的影响。首先要确定影响农村环境污染敏感性发热污染物(COD、TN、TP)的排放浓度,然后再依据加权指数法计算出各基本敏感单元的敏感性数值。③内梅罗综合指数法。如果单项水质指数的数值变化很大,为了更加有效的突出各个高值的影响,就可以采用内梅罗平均值法。同样,在确定了各基本单元的内梅罗指数后,以其指数为变量。进行综合的聚类分析,然后根据分析结果划分敏感性等级。

3污染程度的区分

首先确定环境污染中的主要污染物、总污染负荷,然后与区域相结合确定重点污染区域,进而确定其污染程度。

3.1水质系数和排放浓度要想全面的反映出区域污染的状况,要从排污总量和排污浓度两方面上来进行考虑,水质系数反映评价标准和污染物浓度之间的关系,其中:污染物水质指数=该污染物排放浓度/该地环境质量标准

3.2聚类分析进行聚类分析要运用SPSS软件,采用Q型聚类,通过对农村环境污染源等标污染的负荷率进行综合的聚类分析,然后来区分不同区域的主要污染类型,比如种植污染型、养殖污染型、综合污染型、生活污染型等。

聚类分析论文篇4

聚类分析(Cluster Analysis)就是将一组物理事物或抽象对象按照某种聚类规则或检验度量函数标准划分不同聚集组别的过程,其中被划分的若干相对独立的组为一个类,是一种无监督的学习方法。聚类分析方法是数据挖掘技术中的数据分析普遍运用方法之一,其功能最终实现被研究数据按照相关聚类分析算法进行聚类,对聚类的事物对象,最终要达到相似度大的对象在同一个聚类群组中,相似度小的对象在不同的聚类群组中,从而归纳出聚类数据对象的特征性。聚类分析中的“类(Cluster)”就是一组相似度较高的数据集合。聚类分析能够将一组事物或数据按照聚类算法规则进行聚类处理,根据聚类算法规则的不同而实现各自侧重的聚类分析结果。

1 聚类分析算法

根据聚类对象数据类型的不同,聚类分析分为R型聚类和Q型聚类,R型聚类是对变量型数据的聚类分析,Q型聚类是对具体观测值数据的聚类分析。对数据对象的聚类分析要借助于聚类分析算法来实现完成,聚类分析算法的基本定义为:

目标数据集合,对于数据集合中的任一数据元素,具有个特征属性,任一数据元素的属性特征向量集表示为。通过特定的数据分析处理准则对目标数据集进行聚类处理后,目标数据集被划分成具有个子集的数据类集合,,聚类结果数据集必须满足:

根据聚类分析所采取分析方法的不同,聚类分析算法分为基于划分的聚类分析算法、基于层次的聚类分析算法、基于密度的聚类分析算法、基于网格的聚类分析算法、基于模型的聚类分析算法。

2 K―means聚类分析算法描述

对于给定包含个数据对象的数据集,按照标准偏移量的目标函数进行划分,形成K个聚类。具体操作过程为:

第一步:数据规范化处理。对数据对象进行规范化预处理,消除非法值及极值影响。

第二步:数据准备。计算各科标准差:

第三步:计算各初始聚类中心。

第四步:计算与聚类中心最近邻的数据对象,并合并成新类。

第五步:重新计算聚类中心值。

第六步:验证聚类收敛性。

if 聚类中心值o新变化

结束聚类 else 转入第四步 endif

第七步:进行各个类数据分析。

3 结语

总之,聚类分析算法是数据挖掘中一种常用算法,在数据挖掘过程中有很多算法,每种算法都有自己的优缺点,数据挖掘是一项极其复杂过程,一般情况我们都是多种算法结合起来一起应用,目的提高工作效率,提高数据挖掘的准确性,数据挖掘技术在我国应用领域比较广,并且取得一定成绩,在当今大数据时代,研究数据挖掘具有一定的现实意义,具有深远的研究价值。

参考文献

[1]吴多智.基于语义的手机类产品用户评论维度挖掘研究[J].安徽电子信息职业技术学院学报,2016(03).

[2]孙永辉.聚类分析在学生成绩分析中的应用[J].中国管理信息化,2016(06).

[3]巨晓璇,邹小斌,屈直,刘春敏.层次聚类算法在气象客户细分中的应用[J].河南科技,2015(11).

聚类分析论文篇5

1 引 言

学术期刊是国家科技发展水平的重要窗口,是知识创新、科技成果转化为生产力的重要桥梁,在推动社会科技进步方面发挥着不可替代的作用。期刊评价是文献计量学研究的重要组成部分,它通过对学术期刊的发展规律和增长趋势进行量化分析,揭示学科文献数量在期刊中的分布规律,为优化学术期刊的使用提供重要参考,同时可以提高学术期刊的内在质量,促进学术期刊的健康成长和发展。对期刊评价指标进行分类是期刊评价的基础和前提,目前期刊评价方法有几十种,有些评价方法不需要对期刊评价指标进行分类,如主成分分析、灰色关联、TOPSIS等方法,但是有些评价方法必须建立在期刊评价指标分类的基础上,包括层次分析法、专家打分法、突变理论等。层次分析法是根据子指标对父指标的重要性程度进行两两判断,指标分类尤为重要。专家打分赋权类评价方法是在指标众多的情况下进行的,更需要分类。

Weiping Yue、Concepcion s.Wilson(2004)利用结构方程的原理建立了一个期刊影响力的分析框架,并对期刊评价指标进行了系统的分类。苏新宁(2008)在构建人文社会科学期刊评价指标体系时,将一级指标分为期刊学术含量(篇均引文、基金论文比、机构标注、地区分布数)、被引数量(总被引频次、学科论文引用数量、他引率)、被引速率(总被引速率、学科引用速率、它刊引用速率)、影响因子(总影响因子、学科影响因子、他引影响因子)、被引广度等。盖红波(2006)将期刊评价指标分为定量评价指标(被引量、被索量、载文量、被摘量、影响因子)、定性评价指标(双高、双效、双奖、双百)、质量考核指标(政治、学术、编辑出版、效益)、同行评议指标。赵惠祥、张弘等(2008)将科技期刊评价一级指标分为影响力指标(总被引频次、影响因子、5年影响因子、相对影响因子、即年指标、他引率、引用刊数、扩散因子、学科影响指标、学科扩散指标、被引半衰期、h指数)、文献指标(载文量、参考文献量、平均引文量、平均作者数、地区分布数、机构分布数、基金论文比、海外论文比等)、载体指标(文献书目信息完整率、编排规范化、差错率、装帧质量、印刷质量、网络通畅率、平均发表周期、平均出版时限等)、管理指标(期刊社体制、编委会状况、管理规章完备性、版权制度、发行体制、信息平台、人员状况、营业总额、资产总额、利润总额)。邱均平、张荣等(2004)将期刊评价指标分为技术性指标(影响因子、总被引频次、即年指标)、效益指标(直接效益、间接效益、社会效益)、标准规范化指标(编校质量、装印质量、现代化建设)。黄河胜(2000)将期刊内涵指标分为引文参数(影响因子、总被引频次、自引率、被引半衰期、外文引文率、SCI文献引用率)、稿件特征参数(基金论文比、学位稿)、稿流特征参数(平均时滞量、平均载文量)。潘云涛(2007)”将期刊一级指标分为学术质量指标、国际竞争力力指标、可持续发展潜力指标。庞景安、张玉华等(2000)将科技期刊评价指标分为经营管理水平指标、学术水平、编辑水平三大类。

由于评价目的不同,期刊评价的指标选取不同,当然分类也不一样。对于大多数评价指标而言,不同学者的分类基本相同,但由于学术期刊评价指标的特点,对于少数指标,不同学者分类截然不同,如基金论文比指标有的作为学术质量指标,而有的作为文献特征指标;即年指标有的被作为时效性指标,有的被作为影响力指标。这些难以分类的指标主要有基金论文比、地区分布数、海外论文比、即年指标等。此外,目前学者主要采用主观分类法进行分类,没有采用客观分类法。

本文以中国科学技术信息研究所的医学期刊评价为例,采用聚类分析与因子分析等客观分类法进行分类和比较,试图确定学术期刊评价指标的分类方法,从而为进一步的期刊评价打下基础。

2 方法

2.1 聚类分析(Cluster Analysis)

聚类分析是多元统计分析的一种,它把一个没有类别标记的样本集按某种标准分成若干个子集(类),使相似的样本尽可能归为一类,而不相似的样本尽量划分到不同的类中。聚类分析被广泛地应用于模式识别、数据挖掘和知识发现的许多领域。聚类的目的是要使各类之间的距离尽可能地远,而类中点的距离尽可能地近。并且分类结果还要有令人信服的解释。在聚类分析中,人们一般事先并不知道应该分成几类及哪几类,全根据数据确定。

对一组数据,既可以对变量(指标)进行分类,也可以对观测值(事件,样品)来分类,对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类,它们在数学上是无区别的。在学术期刊评价中,可以应用R型聚类分析来进行学术期刊评价指标的分类。

2.2 因子分析(Factor Analysis)

因子分析是从多个变量指标中选择出少数几个综合变量指标的一种降维的多元统计方法。该方法的基本思想是通过变量的相关系数矩阵或协方差矩阵内部结构的研究,找出能控制所有变量的少数几个随机变量去描述多个变量之间的相关关系。然后根据相关性大小把变量分组,使得同组内的变量之间相关性较高,不同组的变量之间相关性较低。每组变量代表一个基本结构,这个基本结构称为公共因子。对于所研究的问题就可试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。

建立因子分析模型的目的是找出主因子,解释每个主因子的实际意义,以便对实际问题进行分析。由因子模型矩阵得到的初始因子载荷矩阵,如果因子负荷的大小相差不大,对因子的解释可能有困难,因此,为得出较明确的分析结果,往往要对因子载荷矩阵进行正交旋转或斜交旋转。通过旋转坐标轴,使每个因子负荷在新的坐标系中能按列向0或1两极分化,同时也包含按行向两极分化。如果不对因子载荷矩阵进行旋转,就是主成分分析,因此,主成分分析实际上是因子分析的一种特殊情况。主成分分析只要求所提取出的主成分能包含主要信息即可,不需对其含义作准确解释;因子分析要求所提取出的因子有实际含义,因此采用因子分析进行变量的分类较好。

因子分析是根据现有的指标寻找公共因子,因此,可以借用因子分析进行指标的分类,与主观分类不同的是,由于因子分析是完全根据数据进行的客观分析,

因此不能首先确定一级指标的名称,而应该根据因子分析的结果对公共因子进行命名。

3 数据

本文数据来自于中国科学技术信息研究所CSTPC数据库,以医学类期刊为例进行分析。中国科学技术信息研究所从1987年开始对中国科技人员在国内外数量和被引情况进行统计分析,并利用统计数据建立了中国科技论文与引文数据库,同时出版《中国学术期刊引证报告》。本文数据是2006年的医学学术期刊数据,共518种医学期刊,如表1所示:

由于要对期刊进行评价,所以必须对数据进行标准化处理,每项指标最大值设为100,然后按比例进行调整。此外,被引半衰期和引用半衰期是两个反向指标,必须进行适当处理,方法是用100减去其标准化后的结果后再做标准化,这种处理方式是线性处理方式,比反向指标取倒数的非线性处理方式要科学一些。

4 指标分类结果

4.1 聚类分析

采用层次(hierarchical method)R聚类,第一步把最近的两个指标合并成一类;度量剩余的指标和小类间的亲疏程度,并将当前最接近的指标或小类再聚成一类;再度量剩余的指标和小类间的亲疏程度,并将当前最接近的指标或小类再聚成一类,如此循环,每次都少一类,直到最后只有一大类为止。越是后来合并的类,距离就越远。采用SPSS 15.0进行数据处理,选择组内联系最大法(within-groups linkage),结果见图1。总被引频次(x1)与学科扩散因子(X5)被划为一类,都是期刊影响力的指标;影响因子(x7)与即年指标(X8)被划为一类,还是期刊影响力的指标。在此基础上将以上4个指标划为一类,是可以解释的。然后以此为基础,依次增加平均引文数(X11)、海外论文比(X14)、基金论文比(X9)、学科影响指标(X4),关联性相对较弱,如平均引文数与期刊的影响力关系并不是很大,海外论文比和基金论文比与期刊影响力有一定关系,但基于聚类分析的角度,似乎又比较远。

平均作者数(10)和引用半衰期(12)被分为一类,几乎无法从理论上找到这种关系,在此基础上又和扩散因子()(3)聚类,更是无法解释。

被引半衰期(x6)和地区分布数(X13)被分为一类,从理论上也无法解释,在此基础上和他引率(x2)聚类,也无法解释。

由于期刊评价指标的特殊性,如果采用聚类分析对指标进行分类,结果可能是不能令人信服的,本文是基于大量数据分析得出的结论,应该是比较可靠的。

4.2 因子分析分类

同样采用SPSS 15.0进行因子分析,首先进行KMO与Bartlett检验。KMO是对样本充分度进行检验的指标,一般要大于0.5。本文采用SPSS进行数据处理,KMO值为0.680,也就是说,符合因子分析的条件;Bartlett值为3319.828,P

第一因子是总被引频次(x1)、学科影响指标(x4)、学科扩散因子(x5)、影响因子(x7)、地区分布数(X13),前4个指标都是与被引相关的指标,可以用影响力加以概括,地区分布数也是影响力的一种体现,影响力越大,论文地区分布越广。

第二因子包括基金论文比(X9)、平均作者数(XIO)、平均引文数(X11)、海外论文比(X14)、即年指标(x8)、前4个指标都是期刊特征指标,即年指标比较特殊,在第一因子中的系数为0.34,说明它也是影响力指标;在第四因子中的系数为0.424,第四因子包括引用半衰期和被引半衰期,也与引用相关,但第二因子系数最大,为0.531,所以认为其是期刊特征指标。

第三因子包括他引率(x2)和扩散因子(x3),也与被引相关,是影响力的体现,因此可以将第三因子和第一因子合并。

第四因子包括被引半衰期(x6)和引用半衰期(X12),它其实主要反映的是期刊的时效性情况,因为引用半衰期较短的论文,一般比较新,其参考文献也相对较新

聚类分析论文篇6

文献标识码:A 文章编号:1672-7800(2015)005-0068-02

作者简介:刘芳(1979-),女,辽宁沈阳人,硕士,沈阳理工大学理学院讲师,研究方向为应用数学与计算机辅助几何设计。

0 引言

近年来,随着人们对生命科学的深入研究,开发出许多用于基因分析的工具[2]。利用这些工具,在不同的试验条件下,人们能够对成千上万个基因进行实时监控,以研究由于环境变化引起的基因变化。因此,首先对大量的基因表示数据进行分类,有效地鉴别基因表示数据的模式是研究DNA序列的重要基础。

聚类分析是统计学的一个分支,聚类算法能从空间数据库中直接发现一些有意义的聚类结构。聚类分析以相似性为基础,在一个聚类中的模式比不在同一聚类中的模式之间具有更多相似性。聚类分析算法有划分法、层次法、基于密度的方法、基于网格的方法和基于模型的方法等。但传统的聚类分析把每个待辨识的对象严格地划分到某个类中,这种硬划分的界线是分明的。而客观世界中存在大量界限不分明的聚类问题,它们的类属和性态存在着中介性,适合软划分。Zadeh提出的模糊集理论[3]为这种软划分提供了有力的分析工具,人们开始用模糊方法处理聚类问题,并称之为模糊聚类分析。常用的模糊聚类方法有传递闭包法、动态直接聚类法、最大树法[2]、基于摄动的模糊聚类方法FCMBP、系统聚类法、模糊C-均值法和模糊ISODATA算法。

本文把最大生成树法用于模糊聚类分析,最大生成树可以将数据聚类转换成树分割问题,通过删除最大生成树中某些具有最短距离的边,将最大生成树分为若干子树。本文讨论数据集的最大生成树表示,以及相应的聚类分析方法,并将其用于基因分类。

1 用生成树表示数据

2 最大生成树聚类算法

杨国惠[4]等人提出改进的中心聚类算法,本文在此基础上又提出最大生成树的基因聚类算法,同时通过实例验证了此算法可以得到较好结果。算法描述如下:具有较长边的两个点应属于同一个簇,具有较短边的两个点应属于不同的簇,并将被分割。由推论1,通过清除最大生成树中具有最小距离的k-1条边可得到k个簇,只要不同簇之间点的边距离小于簇内点的边距离,这k个簇则是全局最优解。但是,当不同簇没有用短距离边而是一系列长距离边连接,或者当存在“噪声”和孤立点数据时,该方法可能得不到最好的聚类结果。为了自动决定应该进行多少次有效分割,可在分割算法中检测新产生的子树是否为孤立点,通过消除孤立点并增加有效分割次数,最终获得正确的k个簇。

2.1 算法程序实现

开始

输入:数据集data和聚类数目K

begin

weightcompute_weight(data);{计算距离矩阵}

t{1,2,3,…,data_number};

m=0;

查找weight中的最大值所在的行列值(x,y);

while(m~= data_number-cluster_number)

begin

if(t(x)~=t(y))

begin

m=m+1;

tree(1,m)=x(1);

tree(2,m)=y(1);

tmin=min(t(x(1)),t(y(1)));

tmax=max(t(x(1)),t(y(1)));

for j=1:datanumber

if(t(j)==tmax)

t(j)=tmin;

end

weight(x,y) ∞;

查找weight中的最大值所在的行列值(x,y);

end

由tree得到聚类结果cluster;

计算聚类误差平方和cluster_err;

计算q值;

end

输出:聚类cluster、误差平方和cluster_err,q值;

结束

3 实验结果与评价

现选择酵母数据集[5],此数据集中每个基因有79个属性(或79维),选择4个聚类共68个基因,这4个聚类分别为protein degradation(聚类C)、glycolysis(聚类E)、protein synthesis(聚类F)、 protein chromatin(聚类H)。

这个实验的目的是将最大生成树基因聚类算法应用到基因聚类中,同时说明该算法是可行、有效的。为了评价计算结果,使用以下定义。

误差平方和J(k)的定义如下:

J(k)=∑ki=1∑d∈Tid-center(Ti)2(5)

对于用户选择的目标函数和一个整数值K,计算最优k聚类k∈[1,K],然后比较这些值。设J(k)代表选择的目标函数最佳k聚类的值,里面的k∈[2,K-1],q(k)的最大值作为最自然的聚类数:

q(k)=J(k-1)-J(k)J(k)-J(k+1)(6)

距离测度采用公式(2)。

从图像中可以看到最大生成树基因聚类算法的最佳聚类数是4,分类的结果完全一致(见图1)[1]。

4 结语

本文在已有最大树聚类理论基础上,引入模糊聚类思想,提出了最大树基因聚类算法,对基因数据的聚类分析有重要的实践价值。特别对于生物学DNA序列信息、蛋白质结构信息的分类更具有意义。

参考文献:

[1] YING XU, VICTOR OLMAN, DONG XU.Clustering gene expression data using a graph-theoretic approach: an application of minimum spanning trees[J]. Bioinformatics, 2002, 18(4):526-545.

[2] HATHAWAY R J,BEZDEK J C.Optimization of clustering criteria by reformulation[J].IEEE Transactions Fuzzy Systems,1995,3(2):241-245.

聚类分析论文篇7

第一、针对聚类算法的研究问题:

1、如何提高算法的可扩展性

许多聚类算法在小于200个数据对象的小数据集上是高效率的,但是无法处理一个大规模数据库里的海量对象。现有的聚类算法只有极少数适合处理大数据集,而且只能处理数值型数据对象,无法分析具有类属性的数据对象。

2、如何处理离群点

在实际应用中,估计数据集中的离群点可能是非常困难的,很多算法通常丢弃增长缓慢的簇,这样的簇趋向于代表离群点。然而在某些应用中,用户可能对相对较小的簇比较感兴趣,比如入侵检测中,这些小的簇可能代表异常行为,那么我们需要考虑在对算法影响更小的前提下,如何更好的处理这些离群点。

3、研究适合具有类属性数据的聚类算法的有效性

对聚类分析而言,有效性问题通常可以转换为最佳类别数K的决策。而目前有关聚类算法的有效性分析,大都集中在对数值数据的聚类方式分析上。对于具有类属性的数据聚类,还没有行之有效的分析方法。

第二、针对聚类算法在IDS应用中的研究问题:

1、如何结合聚类技术和入侵检测技术取得更好的效果

很多的聚类算法都已经和IDS应用环境结合起来了,很多研究者对前人提出的算法作出改进后,应用到IDS系统中去,或者提出一个全新的算法来适应IDS的要求。随着聚类技术的不断发展,聚类技术在入侵检测中的应用将是一个很有前景的工作。我们需要把更好的聚类技术成果应用到入侵检测中。

2、利用聚类技术处理入侵检测中的频繁误警

虽然入侵检测是重要的安全措施,然而它常常触发大量的误警,使得安全管理员不堪重负,事实上,大量的误警是重复发生并且频繁发生的,可以利用聚类技术来寻找导致IDS产生大量误警的本质原因。

二、学位论文研究依据

学位论文的选题依据和研究意义,以及国内外研究现状和发展趋势

聚类分析研究已经有很长的历史,其重要性及其与其他研究方向的交叉特性已经得到了研究者的充分肯定。对聚类算法的研究必将推动相关学科向前发展。另外,聚类技术已经活跃在广泛的应用领域。作为与信息安全专业的交叉学科,近年来,聚类算法在入侵检测方面也得到大量的应用。然而,聚类算法虽取得了长足的发展,但仍有一些未解决的问题。同时,聚类算法在某些应用领域还没有充分的发挥作用,聚类技术和入侵检测技术结合得还不够完善。在这种背景下,我们认为,论文的选题是非常有意义的。

本论文研究的内容主要包括两个方面:聚类算法的研究以及聚类算法在入侵检测中的应用。下面从两个方面阐述国内外这两个方面的发展现状和趋势:

前人已经提出很多聚类算法,然而没有任何一种聚类算法可以普遍适用于揭示各种多维数据集所呈现出来的多种多样的结构,根据数据在聚类中的积聚规则以及应用这些规则的方法,可以将聚类算法分为以下几种:

1.划分聚类算法

划分聚类算法需要预先指定聚类数目或聚类中心,通过反复迭代运算,逐步降低目标函数的误差值,当目标函数收敛时,得到最终的聚类结果,划分聚类算法典型代表是k-means算法[1]和k-modoids算法。这些算法处理过程简单,运行效率好,但是存在对聚类数目的依赖性和退化性。迄今为止,许多聚类任务都选择这两个经典算法,针对k-means及k-modoids的固有弱点,也出现了的不少改进版本。

2.层次聚类算法

又称树聚类算法,它使用数据的联接规则,透过一种层次的架构方式,反复将数据进行分裂和聚合,以形成一个层次序列的聚类问题解。由于层次聚类算法的计算复杂性比较高,所以适合于小型数据集的聚类。20xx年,Gelbard等人有提出一种新的层次聚合算法,称为正二进制方法。该方法把待分类数据以正的二进制形式存储在二维矩阵中,他们认为,将原始数据转换成正二进制会改善聚类结果的正确率和聚类的鲁棒性,对于层次聚类算法尤其如此。Kumar等人[9]面向连续数据提出一种新的基于不可分辨粗聚合的层次聚类算法,既考虑了项的出现次序又考虑了集合内容,该算法能有效挖掘连续数据,并刻画类簇的主要特性。

3.基于密度-网格的聚类算法

与传统的聚类方法不同:基于密度的聚类算法,通过数据密度来发现任意形状的类簇;基于网格的聚类算法,使用一个网格结构,围绕模式组织由矩形块划分的值空间,基于块的分布信息实现模式聚类,基于网格的聚类算法常常与其他方法相结合,特别是与基于密度的聚类方法相结合。基于网格和密度的聚类方法在以空间信息处理为代表的众多领域有着广泛的应用。特别是伴随着近来处理大规模数据集、可伸缩的聚类方法的开发,它在空间数据挖掘研究子域日趋活跃。

开题报告研究方法大全

实证研究法

实证研究法是科学实践研究的一种特殊形式。其依据现有的科学理论和实践的需要,提出设计,利用科学仪器和设备,在自然条件下,通过有目的有步骤地操纵,根据观察、记录、测定与此相伴随的现象的变化来确定条件与现象之间的因果关系的活动。主要目的在于说明各种自变量与某一个因变量的关系。

定量分析法

在科学研究中,通过定量分析法可以使人们对研究对象的认识进一步精确化,以便更加科学地揭示规律,把握本质,理清关系,预测事物的发展趋势。

定性分析法

聚类分析论文篇8

1 引言

近年来电信事业蓬勃发展,随着市场竞争的充分展开和电信资费的不断下降,对于客户的消费行为分析显得越来越重要。对用户呼叫行为进行有效分析和辨识,是对客户分群及市场细分的必要手段。本研究希望能应用模糊数学理论和数据挖掘领域中的聚类技术,对客户呼叫行为进行分析,为电信市场细分和营销策略计划的制订提供有效工具。

要分析电信用户的呼叫行为,需要从用户通话记录中找出使用电话多和少,或是电信消费高和低的用户分群。本研究采用模糊集理论[4]作为技术基础,只关心如何能够从用户的通话记录中剖析出有意义的信息,尚有其他许多种分类方法不在我们讨论范围之内。某些通话行为特别怪异的电信用户,需要在后续研究中加以调整改进其分类。

2 相关研究

在本章节中,我们将针对本论文研究范围的相关领域进行探讨,第一部分为聚类技术介绍;第二部分为本文采用的模糊C均值(FCM)聚类算法的原理介绍。

2.1 模糊聚类技术(Fuzzy Clustering)

2.1.1 聚类分析的基本概念

聚类就是将数据对象分组成多个类或簇,使得在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大[1] 。聚类与分类不同,前者是一种无指导的学习,而后者是一种有指导的学习。在分类时对于目标数据中存在哪些类,事先已知,只需将每个数据点属于哪一个类识别出来;而聚类事先未知有多少类,以某种度量为标准,将具有相似特征的数据对象划分为一类,同时分离具有不同特征的数据对象。聚类需要考察所有的个体才能决定类的划分,并由算法自动确定。

大多数对象没有严格的属性,他们在性态和类属方面存在着中介性,具有亦此亦彼的性质,因此适合进行软化分。模糊集理论的提出为这种软划分提供了有力的分析工具,即模糊聚类分析。

2.1.2 聚类分析的分类

从实现方法上分,模糊聚类分析方法可大致分为四种类型:谱系聚类法、基于等价关系的聚类方法、图论聚类法和基于目标函数的聚类方法等。前三种方法不适用于大数据量的情况,难以满足实时性要求较高的场合,因此在实际中应用并不广泛。受到普遍欢迎的是第四种方法――基于目标函数的聚类方法,该方法把聚类分析归结成一个带约束的非线性规划问题,通过优化求解获得数据集的最有模糊划分和聚类。设计简单、解决问题的范围广,还可以转化为优化问题而借助经典数学的非线性规划理论求解,易于计算机实现。因此,基于目标函数的模糊聚类算法成为新的研究热点。

2.2 模糊C均值(Fuzzy C-Means,FCM)聚类算法

模糊C均值(FCM)聚类算法首先由Dunn于1974年提出,并由Bezdek于1981年改进。这种算法能自动对数据对象进行分类并求出聚类中心和每个数据点的隶属度,使得非相似性指标的目标函数达到最小,从而决定每个数据点的归属。

初始化:给定聚类类别数c,2≤c≤n,n是数据个数,设定迭代停止阈值ε,指定加权指数m;用值在[0,1]区间的随机数初始化隶属矩阵U,使其满足约束条件式(1);

步骤一:计算c个聚类中心ci,i=1,…,c;

步骤二:计算目标函数式(2)。如果J小于ε,或相对于上一次J值的改变量小于ε,则停止;

步骤三:重新计算隶属矩阵U,返回步骤一。

整个计算过程就是反复修改聚类中心和分类矩阵的过程。该算法的收敛性已经得以证明[3]:FCM算法能从任意给定初始点开始沿一个迭代子序列收敛到其目标函数Jm(U,P)的局部极小点或鞍点。

2.2.2 聚类有效性控制

利用Matlab 2006a提供的模糊逻辑工具箱(Fuzzy Logic Toolbox)中的fcm函数对通话记录进行聚类,只需要输入一个初始变量,即分类数c,就可以很快得出结果。但是,关于初始变量c的给定,不同的c值,会产生不同的聚类结果;即使是同一c值,有时也会产生不同聚类结果。这是由于算法结果一般地依赖于初始值,而初始值的给定在计算过程中是随机的,有时候会不可避免地陷入局部最优而非达到全局最优,关于这方面的研究,可以参考文献[2]。聚类有效性问题一般通过建立有效性函数来解决。这种函数用于衡量聚类的紧密度和分离度,以此来判定聚类的有效性。

其中,n为样本数,中的下标表示FCM算法中的加权指数为2,dij表示样本i与第j类聚类中心的距离。XIE-BENI指标可以解释为(U,V)的总方差与V的分离性指标的比值。分类效果好时,各类中心间的距离应该最大,即分离性指标比较大。由此当对应最佳类数n*时,应该最小。

根据函数确定最佳类数n*的步骤如下:

(1) 给定c的范围是。这是根据很多研究者的使用经验和一些理论依据给出的;

(2) 计算当2≤c≤时每个整数c所对应的V值;

(3) 比较各V的值,取V最小时所对应的c值即为所求。

3 研究设计

3.1 分析数据构成

对电信用户通话行为进行分析,可以利用大量的通话清单记录经过整理出分析特征维度,采用FCM聚类进行分析。分析特征的选择确定工作可以由专家凭经验完成,也可以由散布矩阵迹、J-M(Jeffries-Matusita)距离和变换散度等参量为类别可分性准则的最佳特征子集的选取方法[2]。一般情况下特征数目多了会产生维数灾难,但太少的特征将反映不出分析模式的总体信息。为便于实施,本研究采用专家选定的方式确定分析特征。

本文采用的聚类数据是随机选择了某地电信2006年6月至8月三个月共120个电话的通话特征数据,考虑到客户的隐私权,将客户的姓名及电话号码略去,赋以识别号ID代之。

这是一个六维的高维度数据空间(客户识别号ID非分析特征,不列为分析维度),特征属性分别为长途呼叫总次数、长途呼叫不同被叫号码个数、长途平均单次呼叫时长、市话呼叫总次数、市话被叫次数以及市话被叫不同主叫号码数,如表1所示:

3.2 程序及结果

本文使用Matlab 2006a版中的矩阵运算判定聚类有效性,并用FCM函数对以上数据进行聚类,部分源代码如下:

load analysisdata.dat

[center,U,obj_fcn] = fcm(analysisdata,4);

maxU = max(U);

index1 = find(U(1,:)==maxU);

……

line(analysisdata(index1, 1), analysisdata(index1, 2), 'linestyle','none','marker', 'o','color','g');

……

plot(center(1,1),center(1,2),'ko','markersize',15,'LineWidth',2)

plot(center(2,1),center(2,2),'kx','markersize',15,'LineWidth',2)

……

运算后得到以下结果:

对聚类有效性函数式(3),确定类数c。

一般地,取m=2,分母权值均为1,当类数2≤c≤10时,有效性函数V取得如下结果:c=4,V=3765.7414。

可以确定,当c=4时V取得最小值,因此可分为4类,聚类中心矩阵为:

聚类结果投影在维度“市话呼叫总次数”、“市话被叫总次数”上 的示意图如图1。

聚类中心点在各维的取值表征了该类的特征,因此客户分类如表2所示。

3.3 简单的模式识别

聚类完成后,可以用以下方法进行模式识别验证:

(1) 按与中心距离的识别

算出聚类中心center后,新样本可根据距离判定属于哪一类,对于一个新样本xk,如果,则xk属于cj类。

(2) 按最大隶属度原则来识别

如果,则xk属于cj类。

由前面程序输出可以得到隶属度矩阵U,U为一个4×120的矩阵,表示120个样本的在四类的隶属度。

由于样本数较多,截取一段结果图示如图2:

可以看到,矩阵U每一列之和为1,即是每一样本的各类隶属度之和为1。取每一列的最大值,最大值在第几行,该样本就属于第几种类型。

在此简单抽取两个样本查看确认分类是否正确,如样本:

样本16属于第一类“主叫活跃,被叫少”,而样本89属于第二类“主叫不活跃,被叫活跃”。经过查核某地电信IBSS系统及计费帐务系统,样本16登记的属性为“个体商铺”;样本89登记的属性为“住宅”。客户属性的使用习惯与聚类结果相符。

4 结束语

电信用户呼叫行为分析中聚类分析是一个新的研究领域,与之相似的研究可以追溯到市场营销中的市场细分,市场细分与客户聚类功能相同,都是将产品或服务的销售对象进行分类。但两者是有区别的,市场细分的分析数据来自企业外部,比如消费者的人口特征、区域特征、行业性质等等,用的只是一种“普遍适用”的策略,很难真正做到个性化服务。而客户通话行为聚类分析的数据源自于企业内部掌握的通话记录,根据客户本身的使用行为、消费倾向,保证每个客户的消费行为的连续性与一致性,有利于对现有客户进行管理,如发现优质客户,对不良客户进行预警等。因此,对企业有很重要的意义。

应用模糊C均值聚类算法得到比较满意的客户聚类结果,主要体现在:区分出了优质客户和普通客户;找到了每一类客户的特征。本文提出用FCM算法作为客户通话行为(消费行为)聚类的方法,为企业提供分析的量化依据。

参考文献:

[1] HSU T H. An application of fuzzy clustering in group-positioning analysis[J]. Proc Natl Sci, Counc ROC(C),2000,10(2):157-167.

[2] 高新波. 模糊聚类分析及其应用. 西安:西安电子科技大学出版社,2004,1:37-54.

[3] Bezdek J C. A convergence theorem for the fuzzy ISODATA clustering algorithm. IEEE Trans. PAMI, 1980, 1(2):1-8.

聚类分析论文篇9

随着互联网技术的发展和计算机处理能力的不断提升,处理海量数据成了目前计算机的主要任务之一。如何把海量数据很好地进行归类以发现知识也成了很多学科领域的研究重点。

聚类就是按照事物的某些属性将事物聚成类,使类间的相似性尽量小,类内的相似性尽量大。在这个过程中,事先并不清楚每个数据的类别,是一种无监督的分类过程。其目的是要获得一个划分,这些划分将一组数据集合分成几个子集,每个子集为一类,划分的标准是同类的数据在某种意义下相似性较高,不同类的数据在相同意义下相似性较低。

而现实世界中数据的归类有时并没有如此严格的界限,数据在性态和类属方面存在着过渡态,单一的类别并不能全面反映数据属性,需要做一种软划分以表达数据的类别性质。Zadeh提出的模糊集理论为解决这一问题提供了有力的分析工具,用模糊理论的思想来处理聚类问题,可以建立起样本对于类别的不确定性的描述,能更客观地反映现实世界。模糊聚类方法就是在此基础上发展起来的。这种类型的聚类方法,是从模糊集的观点来探讨事物的数量分类的一类方法

1 模糊集定义

模糊集理论最早是1965年美国计算机和控制论专家Zadeh提出的。他提出了用隶属程度来描述事物差异的中间过度,是一种用精确的数学语言对模糊性进行描述的方法。这种隶属程度,称谓隶属函数。

定义:论域U上的模糊集合A通过一个隶属函数刻画

μA (x):U[0,1],x∈U

记住A={(x,μA (x))|x∈U}

对任意x∈U,都指定一个数μA (x) ∈[0,1]与之对应,称为x对A的隶属度,μA(x)称为A的隶属函数。

若μA (x)=0,则x完全不属于A;若μA (x)=1,则x完全属于A;若0

隶属函数是模糊集理论的基本概念,它以0~1区间的一个实数反映一个元素隶属于集合的程度来描述模糊现象。常用的隶属函数有三角形隶属函数,S隶属函数,正态隶属函数,梯形隶属函数等。而隶属函数的正确选择在模糊集的研究与应用中起着十分关键的作用。当然,也可以个人偏好主观设定隶属函数。

2 模糊聚类算法描述

类的类别界限是分明的。然而,客观事物之间的界限往往是不分明的,这就提出了模糊划分的概念。模糊聚类是采用模糊数学方法,依据客观事物间的特征、亲疏程度和相似性,通过建立模糊相似关系对客观事物进行分类的一门多元技术。

设X=(x1,x2,…,xn)为被分类对象全体,每一对象xi由一组数据(xi1,xi2,…,xim)表征,建立X上的模糊关系(模糊相似矩阵)R=(rij)n×m,这里表示xi与xj的相似度。其模糊关系的确定方法具体有距离法,如切比雪夫距离、海明距离、欧氏距离,以及相似系数法、贴近度法等。

基于模糊划分概念的模糊聚类方法主要有传递闭包法、最大树法,模糊C2均值方法等。模糊聚类反映了对象属于不同类别的不确定程度,可以更客观地反映现实世界。目前,模糊聚类分析已经广泛地应用于经济学,生物学,气象学,信息科学,工程技术科学等许多领域。

2.1 传递闭包法

传递闭包法聚类首先需要通过标定的模糊相似矩阵R,然后求出包含矩阵R的最小模糊传递矩阵,即R的传递闭包t(R),最后依据t(R)进行聚类。

(1)根据建立的相似矩阵求其传递闭包,即利用平方法,依次计算RR2R4。...。 R2k...,直至首次出现R2k=R2k+1,此时的R2k=t(R)为模糊等价矩阵。

模糊相似关系的建立关于各分类对象之间相似性统计量rij的计算,除了采用夹角余弦公式和相似系数法等方法确定相似系数,建立模糊相似矩阵,还可以采用如下几个计算公式。

①数积法:

(2)再按模糊等价矩阵t(R)里的元素数值从1到0,依次截得等价关系进行分类就能得到一个聚类图整个计算量为n3~n3log2n。

2.2 最大树法

最大树法根据模糊相似矩阵画出最大树再进行聚类,可按如下步骤进行。

第一步:建立分类对象集上的模糊相似关系,构造模糊图。这一步骤的工作可按如下作法进行:

(1)计算各个分类对象之间的相似性统计量rij(i,j=1,2,…,m),

建立分类对象U上的模糊相似关系R(rij)n×m

(2)将R表示成一个有m个结点所构成的模糊图G

第二步:构造最大模糊支撑树。构造模糊图G上的最大支撑树的算法,可按下述作法进行:

(1)找出G中最大权值的边rij;

(2)将rij存放在集合C中,将rij边上的新结点放入集合T中,若T中已含有所有m个结点时,转(4);

(3)检查T中每一个结点与T外的结点组成的边的权值,找出其中最大者rij,转至(2);

(4)结束,此时G中的边就构成了G的最大模糊支撑树Tmax。

第三步:由最大模糊支撑树进行聚类分析。其具体作法是:选择某一个λ值作截集,将Tmax中小于λ的边断开,使相连的各结点构成一类,当λ由1下降到0时,所得的分类由细变粗,各结点所代表的分类对象逐渐归并,从而形成一个动态聚类谱系图。

最大树的画法有Prim法和Kruskal法,用Prim法至多进行n3次运算,用Kruskal法至多进行n3~n3log2n次运算。

2.3模糊C均值聚类算法(FuzzyC-means,FCM)

该算法是由Bezdek和Dunn提出的,用隶属度确定每个样本属于某个聚类程度的聚类算法。FCM算法如下:将特征空间X={x1,x2,...,xn}划分为c个模糊组,可用模糊隶属矩阵U=(uij)∈Rcn表示,U中的数据uij表示第j(j=1,2,。。。,n)个样本属于第i(i=1,2,...,c)个类的隶属度,uij应满足式(7):

(7)

Bezdek将Dunn定义的目标函数J(U,C1,…,Ce)算法推广到更一般的情况:

(8)

式(8)中ci∈Rn为模糊组的聚类中心,dij=xj-ci为第个聚类中心与第个样本的欧几里德距离,dij2(xj,ci)=(xj-ci)TA(xj-ci),目标函数Jm(U,c1,...,ci)为某个样本到相应的聚类中心的加权距离平均和;m∈[1,∞]是一个模糊加权指数,用来控制隶属矩阵的模糊程度。

3 模糊聚类分析的应用研究

3.1 模糊聚类分析在数据挖掘中的应用

随着近年来数据挖掘技术的发展,聚类分析越来越多地用于大量的未知类别数据的分类,通过聚类可以从客户基本数据库中发现不同的客户群,刻画不同客户群的特征;作为数据挖掘的功能,聚类分析不仅可以作为一个独立的工具来获得数据分布的情况,观察每个簇的特点,集中对特定的某些簇做进一步的分析研究,而且聚类分析还可以作为其它算法(如特征和分类等)的预处理步骤,能够发现具有相似记录的数据空间领域,往往可以获得较好的样本数据。由于现实的分类过程往往伴随着模糊性所以用模糊数学的方法来进行聚类分析会显得更自然、更符合客观实际。模糊聚类分析是依据客观事务间的特征、亲疏程度和相似性,通过建立模糊相似关系对客观事务进行分类的方法。 本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文

模糊集理论是一种处理不确定性问题的数学工具,是数据挖掘技术的重要方面。它正与粗糙集理论相集合,成为数据挖掘技术中一个新型领域,其发展空间极为广阔。

3.2 模糊聚类分析在金融业中的应用

数据挖掘在金融领域应用广泛,包括金融市场分析和预测、客户分类、银行担保和信用评估等。这些金融业务都需要收集和处理大量数据,很难通过人工或使用一两个小型软件就能进行分析预测,而数据挖掘则可以通过对已有数据的处理,找到数据对象的特征及彼此之间的关系,利用模糊聚类分析法对客户进行分类,阻止产生坏账,防范金融欺诈,挖掘优质客户,让金融业更了解客户,为各种客户量身定做,设计更好的金融品种来满足客户需要,运用估计和预测的方法进行市场动向分析,可以从历史数据中分析市场走向,并预测观察到金融市场的变化趋势。

3.3 模糊聚类分析在模式识别中的应用

特征提取是模式识别中的一个重要问题,模糊聚类能从原始数据中直接提取特征,还能对已经得到的特征进行优选和降维操作;提取完特征后就需要分类器设计,模糊聚类算法既可以提供最近邻原型分类器,还可以用来进行特征空间划分和模糊规则提取,以构造基于模糊IF-THEN规则的分类器;在线条检测或物体识别中,模糊聚类既可以直接用于原始数据上,也可以用于变换域中,比如Hough变换中峰值检测问题一直困绕着其推广应用,基于模糊聚类的峰值检测方法解决了这一问题,使得Hough变换可以自动执行。在一些模式识别的具体应用中,模糊聚类取得了较好的效果,比如语音识别中的分类和匹配;雷达目标识别中目标库的建立和新到目标的归类;汉字字符识别中的字符预分类等。

3.4 模糊聚类分析在图像处理中的应用

图像处理是计算机视觉的重要组成部分,由于人眼视觉的主观性使图像比较适合用模糊手段处理,同时训练样本图像的匮乏又需要无监督分析,而模糊聚类正好满足这两方面的要求,因此模糊聚类成为图像处理中一个重要的研究分析工具。图像分割是模糊聚类在图像处理中最为广泛的应用,图像分割本质上就是象素的无监督分类问题,Coleman和Andrews在1979年就提出用聚类算法进行图像分割,此后基于二维直方图、塔型结构和小波分析等一系列新技术,人们相继提出了多种基于模糊聚类的灰度图像分割新方法,该方法在纹理图像分割、彩色图像分割、序列图像分割、遥感图像分割等方面获得了很大的进展。基于模糊聚类的方法在图像压缩、曲线拟合、边缘检测、图像增强等方面的研究同样取得了丰硕的成果。

4 结束语

模糊聚类是一门采用模糊数学方法进行分类的多元技术,其中动态直接聚类法计算量最少,在聚类分析、模式识别等领域应用中简便、实用。在实际应用中,其步骤是先经过数据预处理,再选取合适的模糊关系建立模糊相似矩阵,最后进行分类和识别。

参考文献:

聚类分析论文篇10

一、引言

在学校教育中,考试与教学不可分割,考试成绩扮演着检验学生学习情况和状态的重要角色。因此,成绩评价对于检测和监控教育质量、引导教师的教学行为,督促学生积极努力地学习是非常有必要的。现在,学校里拥有各种系统和各类数据库,积累了大量的学生成绩数据,但是由于工作人员缺乏相关挖掘知识和技术,只能通过Excel工具的简单统计获得少量信息,隐藏在这些大量数据中的信息不能得到应用。因此,如何利用学生前期的考试成绩数据进行统计分析对提高学生的知识水平有着至关重要的意义。面对这一挑战,数据挖掘技术应运而生,并逐渐显示出了强大的生命力,[1]作为数据挖掘的重要算法,k-means算法是一种硬聚类方法,即在n维的欧几里得空间把n个样本数据分成k类。[2]由于k-means聚类算法对噪声和孤立点敏感以及对处理大数据集非常有效的特点,[3]本文将k-means算法应用于成绩分析,从而全面地分析学生考试结果。

本文所引用的文献一阐述了成绩管理的作用、现状以及现有成绩管理的不足,并说明了决策树算法及粗糙集理论在成绩管理中的作用;文献二介绍了k-means聚类算法,并在此基础上提出了一种改进的遗传k-means聚类算法;文献三在分析k-means聚类算法优缺点的基础上进行改进,并通过实验比较了改进算法与原算法的优劣;文献四介绍了典型的数据预处理技术,实现了一种基于日志请求的参考文件的启发式会话识别算法。

论文利用k-means聚类算法对学生的成绩进行评价、统计和分析,从而确定学生的学业成绩在一个群体中所处的相对位置,为提高学生的成绩做准备,为教学工作提供反馈信息,并采取针对性的补救措施,从而进一步提高学校的教学质量。

二、基于聚类算法的成绩评价方案

1.总体设计方案

本论文将按图1所示,设计总体方案。同时论文将选用所在学院的成绩数据库,成绩数据库中包括了学生所有课程的考试成绩。

第一步,数据采集,为了保证数据的完整性和准确性,首先必须做好原始数据的选择和整理工作,本文选取学院某个年级的学生在某一学期的课程成绩。

第二步,数据预处理,数据预处理是一个逐步深入、由表及里的过程,经过数据审查、数据清理、数据转换和数据验证四大步骤对数据进行预处理,解决数据冲突和数据不一致等问题,最终形成一份学生成绩表。[4]

第三步,执行聚类算法在确定挖掘任务后,通过编写k-means聚类算法在matlab程序代码,实现k-means在学生成绩分析上的处理。

第四步,聚类结果评价,对聚类结果所发现的信息进行解释和评价。采用k-means聚类算法后,在学生成绩评价中,每一个类就是一个成绩群,不同的类相应地对各个成绩群进行了划分,也相应地给出了不同成绩群的中心成绩,这些中心成绩就是学生成绩划分参考标准之一。

第五步,提出针对策略,将挖掘出来的信息提供给教学决策者,调整教学策略,进一步指导教学工作,提高学生成绩。

2.基于k-means的算法设计原理

图2给出了K-means算法研究学生成绩的流程,在整个设计流程中,存在两个关键问题,分别是成绩的表示和成绩的距离计算,对于第一个问题,论文将每个学生各科目的考试成绩看做q维向量,记作xi=(x1i,x2i,…,xqi),(i=1,2,…,n),其中xki表示学生编号为i的第k门科目的成绩,成绩采用百分制,并根据不同的科目赋予不同的权重。对于第二个问题,论文采用欧式加权距离来定义学生成绩之间的距离,将聚类组数设为P,cj(j=1,2,…,p)为聚类中心,则成绩到聚类中心的距离可以用公式表示为:

xi-cj=■,(1≤j≤p)(1)

其中,q为粒子的属性组成的维数,?k为各属性的权值;

对所有学生的各科成绩进行分组聚类的K-means聚类算法的具体步骤如下:

Step1:设学生成绩集为Q=(x1,x2,…xn-1,xn),其中xi=(x1i,x2i,…,xqi);

Step2:随机选取每个类里的一个粒子作为初始聚类中心c1,c2,…,cP;

Step3:根据公式(2)将学生成绩集Q中的对象xi(i=1,2,…,n)依次按欧式平均距离分配给距离最近的中心cj(j=1,2,…,p)。

xi-cj=min(■),(1≤j≤p)(2)

其中,q为粒子的属性组成的维数,?k为各属性的权值;

Step4:按公式(3)计算P个聚类新的中心cj(j=1,2,…,P)。

cj=■■xi,j=1,2,…,P(3)

其中,Nj为第j个聚类Sj中所包含的粒子个数;

Step5:如果各个聚类中心cj(j=1,2,…,p)不再变化,否则结束,否则返回Step3。

3.基于成绩评价的学生管理策略

在论文设计方案中,将学生(其中不包含不及格需要补考的学生)分为四类,分别是优秀、良好、中等、偏差,并从自我发展和教学管理两方面向不同类别的学生提出了建议性策略。(见表1)

三、实证分析

1.实例描述与成绩评价过程

第一步:数据采集

通过学院提供的数据库,选取某个年级的学生在某一学期的课程成绩。学生该学期均有8门功课,分别是信息资源管理、概率论、会计学、口语、工程力学、毛概、体育、数学实验,依次对应的加权是0.2、0.2、0.2、0.1、0.1、0.1、0.05、0.05,学生成绩均为百分制,随机选择200名学生的成绩形成一张原始成绩单。

第二步:数据预处理

论文将200名学生原始成绩单集成为一张成绩单。通过数据处理,使表中的每一个数据都是唯一和没有疑义的,同时对空白数据进行填补或者删除。首先考虑到数据库中存在“0分”异常数据会对k-means算法造成很大的影响,因此本论文不将其考虑在研究范围内。同时,通过Excel工具将成绩小于60分的选出,所对应的该学生成绩也不采取k-means算法进行处理,因为成绩一旦低于60分,该学生要进行补考,相应分数也会做更改处理。本论文数据采集的200名学生中一共有10人出现挂科情况,接下来会对剩下的190名学生的考试成绩做k-means算法处理。

第三步:k-means算法对学生成绩进行分析处理

确定聚类个数k值,聚类个数要接近于所用的聚类变量的个数,本次实验选取k=4。通过数据初始中心分析,随机选择几个学生的学习成绩作为初始聚类中心,通过matlab算法实现。

实验结果可视化:(见图3-图7)

2.实证结果分析

(1)由图3可知,第二类学生成绩为优秀,第一类学生成绩为良好,第三类学生成绩为中等,第四类学生成绩为偏差。通过计算,优秀和良好的人数占总人数的47%,中等和偏差的人数占总人数的48%,其余为存在挂科学生的比例,说明本文随机选取的这个专业整体的学习状态有待进步,相关教职人员和教师应该采取必要的措施提高学生学习的积极性。同时,通过分析研究还可以发现,每一科学生成绩随中心的变化都会影响整体成绩的分布情况,特别是像会计学、概率论、信息资源管理等加权比较重的科目。

(2)如图4、5、6、7所示,距离第二个聚类中心更近的21名学生聚成一类;距离第三个聚类中心更近的52名学生聚成一类;距离第四个聚类中心更近的44名学生聚成一类;距离第一个聚类中心更近的73名学生聚成一类。从中可以看出相近的成绩都被划分到了同一类,从而弥补了传统划分方法“在学生成绩差别不大的情况下,经过划分后结果可能相差很大”的缺陷。

(3)聚类分析技术的应用不仅可以使190名学生清楚自己相对于整体成绩的位置,还可以体现某类学生某些学科的不足,从而提醒教学人员针对性地采取相应的措施,实验结果可以为教学人员制定出有针对性的解决办法提供依据,从而提高学生后期的学习成绩。

四、结论

本文研究k-means聚类算法在学生成绩评价分析中的应用。通过对数据的预处理,采用k-means算法,利用matlab工具对数据进行处理分析,弥补了传统统计方法的缺陷。并针对不同类型的学生,给出了学生自我发展策略和教学管理策略,从而为后期提高学生成绩和教学质量做准备。

参考文献:

[1]谭庆.基于k-means聚类算法的试卷成绩分析研究[J].河南大学学报(自然科学版),2009,39(4): 412-415.

聚类分析论文篇11

1.1数据来源

《CNKI中国优秀硕士学位论文全文数据库》是目前国内相关资源最完备、高质量、连续动态更新的中国硕士学位论文全文数据库收录了1999年至今全国652家硕士培养单位的优秀硕士学位论文。本文选择中国知网的《CNKI中国优秀硕士学位论文全文数据库》的免费题录数据库于2007年6月8日以“学科专业名称”作为检索途径,输入“图书馆学”作为检索词,时间选择2002年到2006年共检索到316篇学位论文。对检索结果用Excel进行数据统计,得到934个关键词。选择词频数不小于7的关键词作为高频关键词进行分析,同时去除对反映主题意义不大的“比较研究”(词频为7)得到15个高频关键词,如表1所示。

1.2数据分析

1.2 1构造共词矩阵

对表1中的高频关键词两两配对,统计它们在316篇文献题名中共同出现的频次,形成15X15的矩阵,如表2所示,对角线上的数字即为各高频关键词的词频。

1.2.2构造相异矩阵

为了消除频次悬殊造成的影响,用Ochiia系数将共词矩阵转换成相关矩阵,即将共词矩阵中的每个数字都除以与之相关的两个词总频次开方的乘积,其计算公式是:

对角线上的数据表示某词自身的相关程度,经上式计算均为1。为方便进一步处理,用“1”与全部矩阵相减,得到表示两词间相异程度的相异矩阵由于篇幅限制,此处仅列举部分相异矩阵如表3所示。

1.2.3利用SPSS进行聚类分析将表3所示相异矩阵导入SPSS进行层次聚类分析,选择“组间平均链锁(Between—grouplink-age)距离”,即个体与小类中每个个体距离的平均值。此种方法利用了个体与小类的所有距离的信息,克服了极端值造成的影响得到的凝聚状态表如表4所示。

凝聚状态表中,第一列表示聚类分析的第几步;第二、三列表示本步聚类中哪两个样本或小类聚成一类;第四列是个体距离或小类距离;第五、六列表示本步聚类中参与聚类的是个体还是小类,0表示样本非0表示由第几步聚类生成的小类参与本步聚类;第七列表示本步聚类的结果将在以下第几步中用到。例如,第一步中,1号关键词(数字图书馆)与9号关键词(元数据)聚成一类,它们的个体距离是0.985,这个小类将在第10步中用到。同理可得其它聚类。这个聚类过程可以从图1所示聚类树状图中直观地展现出来。树状图以躺倒树的形式展现了聚类分析中的每一次类合并的情况。SPSS自动将各类间的距离映射到0—25之间,并将凝聚过程近似地表现在图上。例如,1号关键词(数字图书馆)与9号关键词(元数据)距离最近,首先合并成一类,其次是2号关键词(图书馆)和5号关键词(网络环境),以此类推。可见,该聚类过程与表4所示的凝聚状态表是一致的。

    1.3 聚类结果分析结合高频关键词的共词矩阵和上述聚类过程,可以将图书馆学硕士学位论文的研究热点归纳为如下几个方面。

(1)元数据在数字图书馆中的应用,包括关键词1(数字图书馆)、9(元数据)。全球数字图书馆建设的实践证明:元数据在各类数字化资源的收集、整理'存取和服务中起着至关重要的作用口。在我国数字图书馆的建设中,应切实重视和加强元数据的研究和应用,尽快研究、开发出专门针对中文数字文献和网络信息兼容的元数据。

(2)网络环境下图书馆事业的发展及图书馆信息服务、知识管理和信息资源的开发、利用、建设等问题,包括关键词2(图书馆)、5(网络环境)、4(信息资源)、3(信息服务)、8(知识管理)。网络环境为图书馆事业的发展带来了前所未有的机遇。图书馆的信息交流突破时空障碍伸向世界的各个角落,图书馆界长期以来追求的资源共享目标在很大的范围内得以实现,信息技术在图书馆中的应用渗透于图书馆的各个微观和宏观工作中,使图书馆工作发生了巨大的变化。在把握网络环境所提供机遇的同时,更重要的是迎接挑战,及时发现和解决由此而带来的各种问题,才能使图书馆事业的发展进入健康、持续发展的轨道。

(3)本体在知识组织中的应用,包括关键词7(知识组织)、14(本体)本体作为一种能在语义和知识层次上描述信息系统的知识组织工具,自提出以来就引起了国内外众多科研人员的关注,并在许多领域得到了广泛应用。数字信息资源的特殊性为知识组织增加了难度,需要不断创新知识组织工具,提高获取知识的效能。本体的应用研究必然改善这一特定领域的知识组织水平。

(4)高校图书馆的知识服务,包括关键词6(高校图书馆)、15(知识服务)。高校图书馆在各个历史时期都为满足用户的知识需求而探索和进行着用户服务工作的实践。面对知识经济的到来和现代信息技术的飞速发展,高校图书馆原有的信息服細不能满足用户日益增加的知识需求,因此,最能与用户知识需求相匹配的知识服务成为高校图书馆用户服务发展的主流趋势。

(5)网络信息资源的知识产权问题,包括关键词10(网络信息资源)、11(知识产权)在网络信息迅猛发展的今天,既要保护好权利人的合法权力又要兼顾社会公众利益,仅以目前的知识产权保护策略是远远不够的。这就需要建立和健全网络信息知识产权的保护体系,增强网络的可信赖度,在信息所有者和使用者以及传播者之间形成一个真正公平、公开、安全、友好、互动与互信的网络信息交流平台。

(6)信息组织理论下的搜索引擎技术,包括关键词12(信息组织)、13(搜索引擎)Internet的迅速发展使得网络空间成为重要的信息源。在信息组织理论的基础上网络信息组织技术有了飞速发展,其中搜索引擎就是对网络资源管理和检索技术的一个重要发展,而且网络信息搜索引擎的开发与利用已经取得显著成绩并且成为一个新兴产业。

2.情报学硕士学位论文的研究热点分析

情报学硕士学位论文的分析过程与图书馆学硕士学位论文的分析过程相同。笔者曾于2007年4月9日用相同的检索方式,检索到624篇情报学硕士学位论文,选取20个高频关键词进行分析。高频关键词如表5所示。

相应的共词矩阵、相异矩阵和凝聚状态表,可参见“情报学硕士学位论文的共词聚类分析一文,此处只引用了最终的树状图及相关结论。层次聚类分析的树状图如图2所示。

情报学硕士学位论文的研究热点可以概括为以下几条。

(1)图书馆的信息服务,包括关键词(信息服务)'(图书馆)、(信息)。网络环境下图磁究生的关注。

书馆的信息服务更加体现出其个性化特点。主要围绕信息服务实现的技术、系统、对策及信息服务能力的评价展开。同时也有涉及专业图书馆的信息服务研究,像医学图书馆和军事图书馆等。

(2)企业竞争情报和企业信息化,包括关键词(企业)、(竞争情报)、(信息化)关于企业竞争情报的研究主要集中在竞争情报系统的构建及应用、企业竞争情报需求分析、人才培养及反竞争情报等方面。企业信息化的研究主要是关于企业信息化的经济效益评价、项目风险评估和控制、信息化对策等的研究。

(3)网络信息的组织和检索,包括关键词(网络)、(信息资源)、(信息组织)、(信息检索)(信息)以信息构建、Web、本体、XML、统计语言学模型等各种理论为基础的信息组织和检索是研究的热点。还涉及一些企业、医学等专业方面的信息组织和检索,以及检索系统的设计。

(4)数据挖掘在客户关系管理及电子政务中的应用,包括关键词5(数据挖掘)(客户关系)、(电子政务)数据挖掘技术是实施客户关系管理的关键技术之一。企业在收集大量的客户基本资料和详细交易数据的基础上,利用数据挖掘发现客户特征、购买模式等有价值的知识,从而有效指导客户关系管理的实践。将这种思维运用到电子政务中,同样具有重要的意义.

(5) 人力资源与信息系统,包括关键词(人力资源)、(信息资源)。企业、高校、银行等领域的人力资源管理系统的设计及实施是其研究重点。

(6) 本体与数字图书馆,包括关键词(数字图书馆)、(本体)。本体是近几年的研究热点,主要用于知识检索、信息系统建模、领域本体建模和信息服务系统等方面。而这些问题又是数字图书馆建设和运作过程中所不可忽视的。

(7) 电子商务、知识管理及信息技术的关系,包括关键词1(电子商务)、(信息技术)、(知识管理)。电子商务和知识管理是出现最多的两个关键词,它们涉及的范围比较广泛。知识管理主要是针对企业和图书馆,大多研究知识管理系统的设计与实现;电子商务的模式选择、税收问题、消费者信任度以及信息流、信息安全等问题是研究热点。当今网络环境下,知识管理和电子商务的实现都与信息技术有着不可分割的联系。

3.图书馆学与情报学硕士学位论文研究热点的比较分析

从层次聚类分析的树状图中可以看出,情报学高频关键词类间距离较小,聚类过程相对集中,在距离0—10以内,就完成了绝大多数的聚类。而图书馆学高频关键词的类间距离大多相距较远,聚类过程比较分散,一直到接近20的地方才完成聚类。因此,情报学高频关键词的共词聚类效果比图书馆学高频关键词的共词聚类效果要好,这说明情报学高频关键词形成的研究热点的类间关系更为密切。比较两个专业学位论文的研究热点,可以发现以下特点。

(1)图书馆仍是图书馆学和情报学硕士研究生的研究重点,随着信息技术的发展,加强了对数字图书馆,以及建设数字图书馆所需技术一本体、元数据等的研究。图书馆传统的信息服务、信息组织,以及知识经济发展所产生知识管理等关键词,也频繁地出现在近几年的图书馆学情报学硕士学位论文中。但是图书馆学的知识管理大多只是针对图书馆进行研究,而情报学研究的知识管理除面向图书馆外,还有对企业知识管理相关理论与实践的研究。同时,两者都较为关注信息资源,特别是网络信息资源的开发、组织、检索、利用等方面的发展,

聚类分析论文篇12

一、引言

随着信息技术的不断发展,信息资源和物质、能量等资源一样,已成为企业发展的重要资源。对于钢铁企业来说,钢铁企业的信息资源管理是整个钢铁行业信息化的重要组成部分。如何衡量钢铁企业信息资源发展的程度和水平,就必须对企业信息资源管理水平进行测度和评价。本文首先建立了钢铁企业信息资源管理水平指标体系,然后利用模糊聚类分析法对河北省6家钢铁企业的信息资源管理水平进行了聚类分析和实证研究。

二、钢铁企业信息资源管理水平评价的指标体系

建立钢铁企业信息资源管理水平评价指标体系时,主要考虑人员素质、基础设施建设、经费投入等方面的因素。经过与钢铁行业的专家探讨,同时结合钢铁企业的实际情况,形成了能系统地描述钢铁企业信息资源管理水平的指标体系。其中一级指标包括:信息资源管理的应用状况、基础设施、人员素质、效益指数、信息安全的投入等因素。二级指标结合钢铁企业的实际情况,主要包括:信息化投入占固定资产比率、每百人计算机拥有量、计算机联网率、ERP系统的普及程度、企业门户网站建设水平、信息化人才指数、信息化技能普及程度、信息安全的投入占全部信息化投入的比例、信息化安全措施应用率、资金运转效率、利润增长比率等因素。钢铁企业信息资源管理水平评价的指标体系如下图所示。

图1 铁企业信息资源管理水平评价的指标体系

三、钢铁企业信息资源管理水平评价方法

1.聚类分析法

聚类分析法是多元统计分析的一种方法。它的基本思想就是在样品之间定义距离,在变量之间定义相似系数,距离或相似系数代表样品或变量之间的相似程度。按相似程度的大小,将样品(或变量)逐一归类,关系密切的类聚集到一个小的分类单位,然后逐步扩大,使得关系疏远的聚合到一个大的分类单位,直到所有的样品(或变量)都聚集完毕,形成一个表示亲属关系的谱系图,依次按照某些要求对样品(或变量)进行分类。本文采用模糊聚类分析法,把模糊理论和聚类分析理论结合起来进行分析。模糊聚类分析法的步骤如下:

(1)选择被评价的对象,构成论域U= ,其中ui表示样本数据,Xij表示各指标的数据。

(2)原始数据标准化。要构造模糊关系矩阵,必须对样本数据进行处理,使样本数据压缩到[0,1]范围内,首先求出n个样本的第j个指标的平均值和标准差。

n个样本的第j个指标的平均值为:;n个样本的第j个指标的标准差为:;原始数据标准化值为:;运用极值标准化公式,将标准化数据压缩到[0,1]区间内,,其中与分别表示中的最大值和最小值。

(3)采用绝对值减数法建立相似矩阵。

其中c为适当选取数,使得 。

(4)确定模糊等价关系矩阵。即自乘得,再自乘,直到为止,则便是一个模糊等价关系矩阵。

(5)求并进行聚类,其中。

(6)根据实际需求确定值,得出论域的分类情况。

2.实证分析

本文对河北省多家钢铁企业的信息资源管理情况进行调查,选择了其中具有代表性的6家企业作为评价对象。这6家企业分别为河北敬业钢铁有限公司(A),河北省首钢迁安钢铁有限责任公司(B),河北钢铁集团宣钢公司(C),河北钢铁集团邯钢公司(D),唐山国丰钢铁有限公司(E),唐山钢铁集团有限责任公司(F)。

(1)确定论域。选择6家企业作为评价对象,构成论域U,即。根据实际调查情况得到各企业的指标体系的数据,如下表所示:

原始数据标准化处理,如下表所示:

运用极值标准化公式,将标准化数据压缩在[0,1]区间内。

(2)建立模糊相似矩阵。采用绝对值减数法,建立其模糊相似矩阵R,其中c=0.1;

(3)建立模糊等价矩阵。这里采用平方法计算传递闭包,将模糊相似矩阵自乘可得如下结果:

,即为模糊等价矩阵。

(4)聚类分析。得到模糊等价矩阵后,通过分析,这里选取截取水平

,对样本进行模糊聚类。

根据模糊统计的结果,把6家企业分为四类:Ⅰ类,Ⅱ类,Ⅲ类,Ⅳ类,Ⅰ类企业的信息资源管理水平最高;Ⅱ类企业的信息资源管理水平较高;Ⅲ类企业的信息资源管理水平较一般,Ⅳ类企业的信息资源管理水平较差,需要进一步改进,分析结果与实际情况相一致。

四、结论

当前对钢铁企业信息资源管理水平综合评价研究的论文较少,本文采用定量和定性的分析方法对钢铁企业信息资源管理水平进行了探讨。首先提出了钢铁企业信息资源管理水平综合评价的指标体系,然后采用模糊聚类分析方法对河北省6家钢铁企业的信息资源管理水平进行了聚类分析。研究结果不仅对河北省钢铁企业的信息资源管理有重要意义,而且对我国钢铁企业的信息资源管理水平也有一定的指导作用。

参考文献:

[1]孟广均.信息资源管理导论[M](第2版).北京:科学出版社,2003:80-90.

[2]李金云.基于模糊聚类分析法的读者满意度测评研究[J].情报探索,2009(05):7-10.

[3]高新波.模糊聚类分析及其应用[M].西安:西安电子科技大学出版社,2004:60-70.

[4]齐莉丽.企业信息资源管理水平评价研究[J].科技进步与对策,2005(01):50-5l.

[5]张贵荣.企业信息化与信息资源管理[J].情报科学,2004(06):687-689.

聚类分析论文篇13

一、 引言

目前上市公司并没有专门的供应链管理信息的披露,有关上市公司信息披露的法规对供应链信息披露没有任何具体规定。无论是定性信息还是定量指标,供应链相关信息都没有在上市公司的定期报告中直接披露。此外,无论是针对上市公司的分析报告,还是专门的供应链研究成果,都难以找到关于上市公司供应链管理的相关信息。很显然,针对上市公司的供应链管理研究是一个新的领域。即便如此,我们仍然可以从浩瀚的公开信息中进行找到一些间接的数据进行分析,本文根据目前可以得到的上市公司报告信息,对上市公司的供应链紧密关系进行识别和分类,以获得上市公司供应链管理的基本状况。

二、供应链集成度分析的理论依据

1.供应链是企业经营环境的客观存在

任何企业都存在一定的供应链环境中。供应链是围绕一定的核心企业,通过对信息流、物流、资金流的控制,从采购原材料开始,制成中间产品以及最终产品,最后由一定的销售网络把产品送到消费者手中的由供应商、制造商、分销商、零售商、直到最终用户构成的一个网链结构。处于供应链上的任何一个节点企业,既是上游企业产品或服务的需求者,又是下游企业或最终客户产品与服务的提供者。这种供应链关系可能是紧密地,也可能是松散的;可能是低集成度,也可能是高集成度的。这取决于所在的行业特点和供应链管理水平的高低。

2.供应链集成度是可测度的

供应链管理就是基于供应链进行的某种程度的一体化经营和管理。其中的各个企业都会在一定程度上整合或者被整合,这种整合的程度就反映了供应链集成度。上市公司定期公开了大量的经营和财务信息,这对我们认识和分析上市公司供应链集成度指标提供了可能的依据。根据前述分析,在目前的上市公司定期报告中,主要客户交易额比例、主要供应商交易额比例可以间接反映上市公司供应链集成度。这两项指标是根据证券监管机构有关规定统一编制的。大部分公司的定期报告中均披露了这两项指标,因此我们可以根据这2项指标构造供应链集成度的统计变量。

三、聚类分析

1.聚类变量和数据样本

由于销售额和采购额绝对数指标与公司所在行业、经营规模有关,各公司之间无法直接比较。因此我们选用主要客户和主要供应商交易额百分比做分析变量,并与股票代码、名称构成,在对样本进行聚类分析时,用股票代码作为标识,对前五名销售比例和前五名采购比例进行聚类。此外,由于上市公司数量繁多,需要对样本进行筛选。我们采集了05年两市全部公司年报,首先对根据是否明确报告了上述四项指标进行了筛选,然后采取方便抽样和随机抽样的方法来进行样本筛选,取得含59个公司数据的样本集。

2.系统聚类

选择系统聚类法的组间连接法,计算距离选择欧氏距离平方。由于公司的销售供应链和采购供应链并非同步发展,有的公司专注于销售渠道的建设,而有的公司可能更关注采购供应链的建设,当然也有上下游供应链全面发展的案例。因此,本文按三种依据进行聚类分析,即分别按照主要销售比例、主要采购比例以及同时按两者综合进行聚类分析,均在SPSS v13统计平台进行。三种聚类分析的分析过程略过,系统聚类分析结果见表-1。

结果分析:从图中可以看出,如果以2大类进行系统聚类,按主要客户和主要供应商交易额聚类分析,属于高集成度的有6家公司;仅按主要客户交易额聚类分析,则属于高集成度的有13家公司;按主要供应商交易额聚类分析,属于高集成度的有24家公司。如果以4大类进行聚类分析,按主要客户和主要供应商交易额聚类分析属于高集成度的有一家公司,按主要客户交易额聚类分析属于高集成度的有4家公司,按主要供应商交易额聚类分析属于高集成度的有21家公司。由此可以推断,上市公司的采购供应链集成度要高于销售供应链集成度,而同时具有较高采购供应链和销售供应链集成度的公司较少。

3. K-Mean聚类

为对比和验证系统聚类的结果,我们再次按照K-Mean聚类法进行聚类分析,计算距离选择欧氏距离平方,最大迭代次数为15次。为节约篇幅,我们按照主要客户交易额比例和主要供应商交易额比例两者综合进行快速聚类,目标类别数分为4类,依然用SPSS v13进行分析计算。聚类结果及其统计如表-2。

根据快速聚类分析最后的类别中心可以看出,第四类属于主要客户和主要供应商交易额比例两者都较高的公司,而第一类是主要供应商交易额比例较高而主要客户交易额比例相对较低的公司,第二类属于主要客户交易额比例较高而主要供应商交易额比例较低的公司,第三类是两者都较低的公司。从结果可以看出,第四类即综合供应链集成度高的公司有6家,占10%,第一类即采购供应链集成度高的公司有12家占20%,第二类即销售供应链集成度高的公司有7家,占12%,而供应链集成度较低的公司则达34家,占58%(表-3)。我们可以把第四、二、三类公司归为具有供应链管理特征的公司。

四、结论

比较两种聚类分析的结果,虽然聚类后的每类个案数有所差异,但比例基本趋同,每类排列顺序相同,其结果相互映证相符,并得出相同结论,即:上市公司对供应链管理的关注程度不足,综合供应链管理水平偏低;虽然供应链集成度总体水平较低,但在部分供应链环节上,相当多的公司已经具有较高的供应链聚合度,少数公司已具较高供应链集成度,并能自发在年报中披露供应链关系及其交易情况。

作者单位:李春友中南林业科技大学

苏红丹 中南林业科技大学 湖南工业大学

参考文献

在线咨询