欢迎来到杂志之家!发表咨询:400-888-7501 订阅咨询:400-888-7502 股权代码 102064

数据分析的方法实用13篇

数据分析的方法
数据分析的方法篇1

文献标识码:A

文章编号:1002―2848―2007(01)-0108―06

一、前 言

在经济数据的传统定量分析中,所分析的数据对象具有这样的特征,即数据要么是时间序列数据,要么是横截面数据。而实际中获得的许多经济数据,往往是在时间序列上取多个截面,再在这些截面上同时选取样本观测值所构成的样本数据。计量经济学中称这样的数据为“平行数据”(Panel Da―ta),也被翻译成“面板数据”,或“纵向数据”(longitudinal data)。20多年来,许多学者研究分析了面板数据。事实上,关于面板数据的研究是计量经济学理论方法的重要发展之一,它在解决数据样本容量不足、估计难以度量的因素对经济指标的影响,以及区分经济变量的作用等方面,具有突出优点。但是,研究面板数据的计量模型,以线性结构描述变量之间的因果关系,且模型太过于依赖诸多的假设条件,使得方法的应用具有一定的局限性。为了弥补面板数据的计量模型分析方法及其它统计分析方法的缺陷,本文基于经济数据的函数性特征,介绍一种从函数视角对经济数据进行分析的全新方法一函数性数据分析(Functional Data Analysis,FDA)。

函数性数据分析的概念,始见于加拿大统计学家J.O.Ramsay和C.J.Dalzell于1991年发表的论文《函数性数据分析的一些工具》。6年后,J.O.Ramsay和B.w.Silverman(1997)将对函数性数据进行统计分析的已有理论和方法,总结在《函数性数据分析》一书中。但这本书偏重方法的理论介绍和数学推导,不利于统计基础薄弱者使用。经过5年的努力,J.O.Ramsay和B.w.Silverman研究了一些函数性数据案例,并将其具体的分析过程编入他们于2002年出版的专著中。虽然国外在这方面已经做了许多研究,也取得了许多有价值的结果,但是有关函数性数据的研究依然处于起步阶段,还有很多问题需要研究或进一步完善。另外,从方法应用的具体领域来看,很少涉及对经济函数性数据的分析。就目前研究文献来看,我国在此方面的研究尚是一片空白。

为填补我国在这方面研究的空白,本文从思想、方法等方面,对函数性数据分析进行系统介绍,并通过编写计算机程序,率先利用该方法分析实际的经济函数性数据。本文共分六部分,以下内容的安排为:数据的函数性特征及经济函数性数据实例、从数据的函数性视角研究数据的意义、函数性数据分析的目标和步骤、函数性数据分析方法的经济应用,最后一部分是本文的结论。

二、数据的函数性特征及经济函数性数据实例

一般地说,多元数据分析(Multivariate Data A-nalysis,MDA)处理的对象,是刻画所研究问题的多个统计指标(变量)在多次观察中呈现出的数据,样本数据具有离散且有限的特征。但是,现代的数据收集技术所收集的信息,不但包括传统统计方法所处理的数据,还包括具有函数形式的过程所产生的数据,例如,数据自动收集系统等,称具有这种特征的数据为函数性数据。

函数性数据的表现形式多种多样,但就其本质来说,它们由函数构成。这些函数的几何图形可能是光滑的曲线(如人体在成年前的身体高度变化等),也可能是不光滑的曲线(如股票综合指数等)。许多研究领域的样本资料往往表现为函数形式,如考古学家挖掘的骨块的形状、按时间记录的经济数据、手写时笔尖的运动轨迹、温度的变化等。函数性数据分析(Functional Data Analysis,FDA)的基本原理是把观测到的数据函数看作一个整体,而不仅仅是一串数字。函数指的是数据的内在结构,而不是它们直观的外在表现形式。

实际中,之所以要从函数的视角对数据进行分析,是因为:(1)实际中,获得数据的方式和技术日新月异、多种多样,例如,越来越多的研究者可以通过数据的自动收集系统获得大量的数据信息。更重要的是,原本用于工程技术分析的修匀(smoothing)和插值(interpolation)技术,可以由有限组的观测数据产生出相应的函数表示。(2)尽管只有有限次的观测数据可供利用,但有一些建模问题,将其纳入到函数版本下进行考虑,会使分析更加全面、深刻。(3)在有些情况下,如果想利用有限组的数据估计函数或其导数,则分析从本质上来看就具有函数性的特征。(4)将平滑性引入到一个函数过程所产生的多元数据的处理中,对分析具有重要的意义。

在经济分析中,融合时间序列和横截面两者的数据很常见,例如,多个国家、地区、行业或企业的多年的年度经济总量、多家商业银行历年的资本结构、能源(如电力、煤炭、石油等)多年按月的消耗量、不同时间上多个省市的失业数据等。这些经济数据往往呈现函数性特征,即每个个体对应着一个函数或曲线。在对经济函数性数据进行分析时,将观测到的数据(函数)看作一个整体,而不是个体观测值的顺序排列,这是函数性数据分析不同于传统统计分析之根本所在。例如,表1是工商银行、农业银行、中国银行、建设银行1995年到2004年期间的资产收益率(ROA)数据。

利用基于MATLAB编写的程序,对数据进行平滑处理(smoothing),并绘出四家国有银行的资产收益率(ROA)的修匀曲线(见图1)。由曲线图可以看出,每个个体(银行)对应着一条曲线(其数学表达式为函数),这是将多家银行的历年ROA数据记录看作函数的根本理由,也是函数性数据分析的出发点。

三、从数据的函数性视角研究数据的意义

从函数的视角,对具有函数特征的经济数据进行研究,会挖掘出更多的信息。例如,对函数性数据的平滑曲线展示,不但能够诊断出拟合数据的可能数学模型,还能够通过对光滑曲线求一阶、或更高阶的导数,来进一步探索数据的个体(横截面)差异和动态变化规律。

图2是四家银行资产收益率的速度(一阶导数)曲线,观察发现:在1995年至2004年期间,农业

银行、中国银行及建设银行的资产收益率的变化率,呈现出较强的周期性,其中尤以建设银行的表现最为突出。加速度曲线图显示,四家银行资产收益率的变化率的波动状况不相同,转折变化的时间差异也较大。这些情况一定程度表明,各家银行的内部管理与经营机制,对市场信息的反应快慢程度各不相同。

四、函数性数据分析的目标和步骤

函数性数据分析的目标与传统统计学分析的目标基本一样,具体情况如下:

(一)以对进一步分析有利的方法来描述数据;

(二)为突出不同特征而对数据进行展示;

(三)研究数据类型的重要来源和数据之间的变化;

(四)利用输入(自变量信息)来解释输出(因变量)的变化情况;

(五)对两组或更多的某种类型的变量数据进行比较分析。

典型的FDA主要包括以下步骤:

第一步,原始数据的收集、整理和组织。假设我们考虑的自变量是一维的,记为t,一个的函数仅在离散抽样值 处被观测,而且这些ti可能等间隔分布,也可能不是。在函数性数据分析中,将这些离散的观测值看作一个整体。

第二步,将离散数据转换为函数形式。这是利用各次观察的原始数据定义出一个函数x(t),它在某一区间上所有t处的值都被估算了出来。解决这个问题的基本方法是选定一组基函数 (t),k=O,…,K,并用基函数的线性组合给出函数x(t)的估计

第三步,多种形式的初步展示与概括统计量。概括统计量包括均值和方差函数、协方差与相关函数、交叉协方差(cross―covafiance)与交叉相关(cross―correlation)函数等。

第四步,为了使每一条曲线的显著特征都在大体相同的自变量处(如月份、年份等)显现出来,可能需要对函数进行排齐(regigtration),其目的是能够区别对待垂直方向的振幅变化与水平方向的相变化。

第五步,对排齐后的函数数据进行探索性分析,如函数性主成份分析(FPCA)、函数性典型相关份析(FCCA)等。

第六步,建立模型。建立的模型可能是函数性线性模型,也可能是微分方程。

第七步,模型估计。

五、函数性数据分析方法的经济应用

为了说明函数性数据分析方法的具体应用,同时出于使所绘图形简单明了,本文再次利用四家国有银行的数据,对资产收益率进行更深入的分析。虽然此实例中个体数少,但并不妨碍对方法应用的系统描述与理解。

在对实际问题的经济数据进行分析时,通常需要依照研究的目标编写计算机程序。就目前的研究现状来看,基于MATLAB或SPLUS等编写的程序,如绘图或综合计算函数等,完全可以满足分析的需要。本文首先基于MATLAB编写程序,然后对四家国有银行的资产收益率数据进行分析。

关于四家银行资产收益率数据的函数(曲线)展示与初步分析,本文在前面已进行了描述,具体结果见图1和图2。概括资产收益率特征的统计量(均值函数和标准差函数)的曲线见图3。

为了进一步探讨典型函数所呈现的特征,本文利用函数性主成份分析,对四家银行的资产收益率数据进行分析。一般来说,在函数性数据分析中,与多元统计中的某个主成份的权向量相对应的是主成份权函数(principal component weight function),记为 ,其中t在一个区间 中变化。第i个样品(个体) 的主成份得分值为 ,第一主成份就是在 的约束条件下,寻求使主成份得分 的方差达到最大的权函数 ,即它是下面数学模型的最优解: 类似地,可以求得第j个主成份,其权函数毛(t)是下面数学模型的解:

为了得到光滑的主成份,一种方法是对由上述方法求出的主成份进行修匀,另一种方法是将修匀处理过程,融入到主成份的求解过程中。具体作法是将描述主成份曲线波动程度的粗糙因子纳入到约柬条件中,形成带惩罚的约束条件。利用粗糙惩罚法求第j个主成份的数学模型是其中 称为修匀参数,用它可对粗糙惩罚项进行调整。

利用上述方法和基于MATLAB编写的程序,对四家银行进行函数性主成份分析(FPCA)。具体结果见图4。第一个主成份(PCI)的解释能力为85.5%,第二个主成份(Pc2)的解释能力为13.1%,前两个主成份的综合解释能力为98.6%。

为了清晰地显示主成份,并进行有意义的解释,在同一图中绘出三条曲线,一条是整体均值曲线,另两条是对均值曲线分别加上和减去主成份的一个适当倍数而形成的曲线,具体结果见图5(本文所选的倍数是0.12)。以上所述的三条曲线分别对应着图5中的实心曲线、‘+’曲线和‘*’曲线。第一个主成份反映了资产收益率(ROA)的一般变化,尤其反映了资产收益率的“两头”变化情况(1999年以前和2003年以后)。第二个主成份反映了资产收益率(ROA)的中段变化。

六、结论

在经济实践中,越来越多的领域所得到的样本观察资料是曲线或图像,即函数性数据。因此,对这种类型的经济数据进行统计分析和描述,具有重要的现实意义。因篇幅所限,还有一些函数性数据的分析方法未予以介绍,如函数性方差分析、函数线性模型、函数性典型相关分析以及描述动态性的微分方程等。由于本文的主要目的,是通过对函数性数据分析方法和具体应用的介绍,传述对数据进行分析的新思想,而不只是方法技术本身。因此,缺少的方法并不影响对思想的阐述。

数据分析的方法篇2

在计量经济学中,我们一般应用的最多的数据分析是截面数据回归分析和时间序列分析,但截面数据分析和时间序列分析都有着一定的局限性。在实际经济研究当中,截面数据回归分析会遗漏掉数据的时间序列特征,例如在分析某年中国各省的GDP增长数据时,单纯的截面数据回归分析无法找出各省GDP随时间变化的特征,使得分析结果没有深度。而如果只用时间序列分析,则会遗漏掉不同截面间的联系与区别,例如在分析中国单个省市的GDP随时间增长的数据时,无法找出各个省市之间经济增长的联系与区别,因而同样无法满足我们的需要。而面板数据,是一种既包括了时间序列数据,也包括了相关截面数据的复合数据,是近年来用得较多的一种数据类型。

下面我们将基于2000-2009年中国各省GDP和财政收入的面板数据的实例来详细阐述面板数据的分析方法。

一、GDP与财政收入关系的经济学模型

财政收入是保证国家有效运转的经济基础,在一国经济建设中发挥着重要作用。随着中国经济发展速度的日益加快,财政收入不断扩大,而扩大的财政收入又以政府支出来调节和推动国民经济发展。正确认识财政收入与经济增长之间的长期关系,把握财政收入与经济增长之间的相互影响,发挥财政收入对经济发展的调节和促进功能,对于完善财税政策,深化财税体制改革,实现财政与经济之间的良性互动,具有重要的现实意义。文章就将从中国各省的面板数据出发研究,中国不同地域间财政收入和GDP之间的关系。

二、实证分析

(一)单位根检验

Eviews有两种单位根检验方法,一种在相同根的假设下的检验,包括LLC、Breintung、Hadri。另一种则是在不同根下的假设前提下,包括IPS,ADF-Fisher和PP-Fisher5。检验结果表明所有检验都拒绝原假设,因此序列GDP和CZSR均为一个2阶单整序列。

(二)协整检验

如果基于单位根检验的结果发现变量之间是同阶单整的,那么我们可以进行协整检验。协整检验是考察变量间长期均衡关系的方法。所谓的协整是指若两个或多个非平稳的变量序列,其某个线性组合后的序列呈平稳性。此时我们称这些变量序列间有协整关系存在。

在最终的结果中,Pedroni方法中除了rho-Statistic、PP-Statistic项目外都拒绝GDP和CZSR不存在协整关系的原假设,同样Kao和Johansen检验方法也都拒绝原假设,因此,上述检验结果表明,我国各省2000-20009年的GDP和财政收入面板数据间存在着协整关系。既然通过了协整检验,说明变量之间存在着长期稳定的均衡关系,其方程回归残差是平稳的,因此可以在此基础上直接对进行回归分析,此时假设方程的回归结果是较精确的。

三、建立模型

混合模型:如果从时间上看,不同个体之间不存在显著性差异;从截面上看,不同截面之间也不存在显著性差异,那么就可以直接把面板数据混合在一起用普通最小二乘法(OLS)估计参数。

我们根据混合模型的回归结果,得到财政收入和GDP之间的回归方程为:

CZSR=227.3123+0.103224*GDP

(26.47637)(0.002839)

R2=0.810995 F=1321.587

显然从模型的回归结构来看,R2的值达到了0.81,有了比较好的回归解释力,同时,GDP的回归系数为0.103224,表明各省的财政收入平均占到了国民收入的10.3%左右。

变系数模型:显然,在中国各省之间由于处在不同的地区,因而拥有不同的区位优势,那么各省的发展水平显然就不一样。正是由于这种不同的地方政策、管理水平、文化差异等会导致经济变量间出现一些关联性的变化,此时在进行模型回归的时候,我们就有必要考虑变系数模型。

在回归结果中,R2的值达到了0.97,比混合模型拥有更好的回归解释力,而在变系数模型回归结果中,GDP的回归系数大于0.5的只有、青海、宁夏三个省份,也就是说这三个省份的财政收入占到了GDP的50%以上,他们同处于经济并不是很发达的西部地区,由此可以看出,处在经济发达地区的财政收入占GDP的比重要低,而不发达地区则要高。

四、结论

通过以上的分析检验,我们发现针对于中国财政收入和GDP的面板数据,我们应建立起变系数模型,并通过模型分析,我们可以得出这样的结论,中国各省间由于存在着地域经济发展水平不同、管理水平不同以及国家的相关政策等诸多不同,造成了各省之间在财政收入以及国民收入上面存在着一定的差异。而回归结果也告诉我们,我国西部地区的财政收入占GDP的比例要明显高于东部地区,地区发展落后地区的财政收入占GDP的比例也要明显高于东部地区。因此,这为我们改善我国落后地区的经济发展提供了一定的新思路,就是对一地区的税收征收可以适当放缓,而将GDP中以前政府占用的部分归还于民众和企业,因为,按照发达地区的经验表明,财政收入所占比重过高,经济发展的活力或者就不会很高,对于进一步刺激财政收入的增加也没有任何帮助。因此,我们应该适度降低财政收入占GDP的比重,从而增加经济活力,使西部地区以及落后地区及早的跟上东部发达地区的发展步伐,从而消除我国经济发展的地域不平衡。

参考文献:

[1]谢识予,朱洪鑫.高级计量经济学[M].复旦大学出版社,2005.

数据分析的方法篇3

社会调查是了解各方面信息的重要途径之一,社会调查数据主要是通过调查问卷的方法得到的。由于社会调查数据的维数较高,加上人为主观因素,数据类型主要为二元变量、离散变量、序数变量等为主,所以对于社会调查数据的分析和处理大都基于统计学,只对单一题目进行统计学分析,其分析方法主要是基于题型进行处理的,对于题目和题目之间的关系很少关心[1]。许多数据挖掘算法因为种种限制无法在社会调查的数据分析中得到应用。因为方法的限制,所以现在很多社会调查只能验证事先想好的内容和假设,很少可以对高维数据进行相对复杂的回归分析处理。

根据以上存在的问题,该文建立了基于三维矩阵的数学模型,将单选题、多选题和排序题用向量形式进行表示,每一题定义为空间中的一个维度,从而所有的题目就可以构成一个N维空间。每份问卷的信息用一个M×N矩阵表示。这样表示可以将所有问卷内容当作一个整体,作为后续算法的基础。

1 社会调查数据的特点

通常情况下,社会调查数据特点如下。

(1)相关性。对于一个样本个体而言,它具有本身的多个特征,这些特征之间就具有一定的相关性。对于多个样本而言,个体与个体的特征之间具有相关性。如果样本随时间而变化,那么该样本在不同时刻的特征之间又具有相关性。因此,由于上述多个原因使得社会调查数据具有了复杂的相关性,传统的统计学调查难以解决这样的问题。

(2)离散性。因为社会调查数据是通过自填式问卷、网络调查数据库等方法得到,所以社会调查数据一般以离散变量为主,且这些数据之间只有标示作用,并没有严格的逻辑关系。

(3)模糊性。社会调查数据当中不可避免的会接触到各种表达方式和概念,因此,它具有模糊性。

因为由自填式问卷或结构式访问的方法得到的社会调查数据具有以上特点,所以在实际应用中基于统计学的处理方法只能笼统的显示数据的部分特性,如频数、离散程度等[2]。对于数据之间的关系只能分析出维数极少的大致的关系。

而且利用软件进行数据挖掘时,因为现有的软件中的数据挖掘算法对于数据类型和格式要求较高,所以能应用到的数据挖掘算法很少。就算是数据要求较低的关联分析,其结果也存在大量的冗余。因此,我们需要建立一个合适的社会调查数据的数学模型来完善原先的方法并使跟多的数据挖掘方法可以运用到其中,使得结果更准确。

2 社会调查数据的建模

研究中我们发现,三维矩阵可适用于社会调查数据的建模。

2.1 三维矩阵的定义

三维矩阵的定义:由n个p×q阶的矩阵组成的n×p×q阶的矩阵A称为三维矩阵,又称立体阵。Ak,i,j表示三维矩阵A的第k层,第i行,第j列上的元素。其中n,p,q分别表示三维矩阵的高度,厚度和宽度。

2.2 三维矩阵模型的建立

调查问卷的题目一般有三种类型:单选题、多选题和排序题。这三类题目都可以表示成向量的形式,其中每一道单选题、多选题可以表示成一个向量,排序题可以表示成多个向量组成的矩阵。对于单选题和多选题,可以按选项的顺序可以表示成一个向量,其中选中的项用“1”表示,未选中的项用“0”表示。对于排序题,可以表示成一个n×n的方阵,其中n表示该排序题的选项个数,。这样,每一题就可以定义为空间中的一个维度,从而所有的题目就可以构成一个N维空间。每份调查问卷的信息用一个M×N矩阵表示(M为题目的最大选项数),其在每一维上的选择称之为一个元素,这样每份问卷的信息就包括了N个元素。以第1,2,3题数据为例,其中第1题为单选题选择“B”,用向量表示为一个元素,第2题为多选题选择“ACE”,用向量表示为一个元素,第3题为排序题顺序为CBADEFIHG,用矩阵表示,每一个列向量是一个元素,如图1所示。

那么,假设有一问卷信息用一个大小为M×N的矩阵表示。K份的问卷信息就可以用K个大小为M×N的矩阵表示。将这K个矩阵叠加,形成一个三维矩阵。这个三维矩阵就是我们建立的三维矩阵数学模型,如图2所示。

在图2中我们看到,该三维矩阵数学模型有三个坐标轴,它们分别是题目,人数,选项。题目轴以每一道题为一个单位;人数轴以每一份问卷为一个单位;选项轴的刻度为A,B,C,D,E,F等题目选项,其个数为该调查问卷中选项最多的题目的选项个数。

在此基础之上,这样的三维矩阵具有以下性质。

(1)在题目轴中选取对应的题目,将三维矩阵面向竖切得到截面1(如图2中01所示),截面2表示每一道题所有人选择的信息。

(2)在人数轴中选取对应的人,将三维矩阵横切得到横截面1(如图2中02所示),横截面1表示对应的人选择所有题目的信息。

在得到三维矩阵后,可对它进行像素化处理,置1的元素用黑点代替,置0元素的则空白,在得到像素化三维矩阵后我们可以将三维矩阵沿着人数维度上向下投影,这样就可以得到一个具有浓黑不一的点的平面。通过这些点的浓度,可以知道每一选项选择的人数。接下来我们可用灰度级表示点的浓度,筛选出浓度大于一定程度的点,在此基础上进行后续算法处理。

上述三维矩阵数学模型具有数学三维矩阵的所有性质,可依据调查问卷的需求进行转置,加权、相乘、筛选等数学处理,另外在数学处理的基础上,采用超图理论可以大大丰富了调查问卷的处理方法。

3 基于超图算法的调查问卷分析技术

超图是离散数学中重要的内容,是对图论的推广[3]。超图是有限集合的子系统,它是一个由顶点的集合V和超边集合E组成的二元对,超图的一条边可以有多个顶点的特性,这与一般的图有很大不同。超图分为有向超图与无向超图两类,在无向超图的每条超边上添加方向后得到的有向二元对就是有向超图。超图在许多领域有广泛的应用。

大家可以利用无向超图表示每一道题的选择情况,先将这每一题的每一个选项设成一个节点,然后将三维矩阵从上向下投影,如果某一题的若干个选项同时被一个人选择,就用一条超边包围这些节点,那么选这些选项的人越多,投影得到的超边就越浓。这样就用超图表示了问卷中每道题的信息,可以进行聚类处理。

利用有向超图,可以将关联规则表示成有向超图的形式,在得到了关联规则后,设实际中得到的关联规则的形式为:,前项和后项都是由多个项组成的集合。该文定义一条关联规则由一条有向超边表示,有向超边的头节点表示关联规则的前项,有向超边的尾节点表示关联规则的后项。每条有向超边的头节点和尾节点均可以为多个,如此便成功表示了复合规则,从而可以使用相关算法进行冗余规则检测。

通过基于有向超图的冗余规则检测就可以将关联规则之间存在着的大量冗余检测出,减少挖掘资源的浪费,从而增加了挖掘结果的有效性。

传统的聚类方法都对原始数据计算它们之间的距离来得到相似度,然后通过相似度进行聚类,这样的方法对于低维数据有良好的效果,但是对于高维数据却不能产生很好的聚类效果,因为高维数据的分布有其特殊性。通过超图模型的分割实现对高维数据的聚类却能产生较好的效果。它先将原始数据之间关系转化成超图,数据点表示成超图的节点,数据点间的关系用超边的权重来表示。然后对超图进行分割,除去相应的超边使得权重大的超边中的点聚于一个类中,同时使被除去的超边权重之和最小。这样就通过对超图的分割实现了对数据的聚类。具体的算法流程如下。

首先,将数据点之间的关系转化为超图,数据点表示为超图节点。如果某几个数据点的支持度大于一定阈值,则它们能构成一个频繁集,就将它们用一条超边连接,超边的权重就是这一频繁集的置信度,重复同样的方法就可以得超边和权重。

然后,在基础此上,通过超图分割实现数据的聚类。若设将数据分成k类,则就是对超图的k类分割,不断除去相应的超边,直到将数据分为k类,且每个分割中数据都密切相关为止,同时保持每次被除去的超边权重和最小,最终得到的分割就是聚类的结果。

数据分析的方法篇4

使用一些工具来帮助大家更好的理解数据分析在挖掘数据价值方面的重要性,是十分有必要的。其中的一个工具,叫做四维分析法。

简单地来说,分析可被划分为4种关键方法。

下面会详细介绍这四种方法。

1.描述型分析:发生了什么?

这是最常见的分析方法。在业务中,这种方法向数据分析师提供了重要指标和业务的衡量方法。

例如,每月的营收和损失账单。数据分析师可以通过这些账单,获取大量的客户数据。了解客户的地理信息,就是“描述型分析”方法之一。利用可视化工具,能够有效的增强描述型分析所提供的信息。

2.诊断型分析:为什么会发生?

描述性数据分析的下一步就是诊断型数据分析。通过评估描述型数据,诊断分析工具能够让数据分析师深入地分析数据,钻取到数据的核心。

良好设计的BI dashboard能够整合:按照时间序列进行数据读入、特征过滤和钻取数据等功能,以便更好的分析数据。

3.预测型分析:可能发生什么?

预测型分析主要用于进行预测。事件未来发生的可能性、预测一个可量化的值,或者是预估事情发生的时间点,这些都可以通过预测模型来完成。

预测模型通常会使用各种可变数据来实现预测。数据成员的多样化与预测结果密切相关。

在充满不确定性的环境下,预测能够帮助做出更好的决定。预测模型也是很多领域正在使用的重要方法。

4.指令型分析:需要做什么?

数据价值和复杂度分析的下一步就是指令型分析。指令模型基于对“发生了什么”、“为什么会发生”和“可能发生什么”的分析,来帮助用户决定应该采取什么措施。通常情况下,指令型分析不是单独使用的方法,而是前面的所有方法都完成之后,最后需要完成的分析方法。

数据分析的方法篇5

一、大数据统计分析方法在经济管理领域运用的意义

为响应市场环境和公司治理内容的变化而促进使用公司治理统计数据的需求主要体现在两个方面:

(一)宏观经济方面发展有若干规律。为了寻找有关经济发展的规律,强大的数据分析技术在宏观经济学中的应用非常重要。一方面,大数据分析统计数据用于从宏观经济发展行业收集数据,对相关行业信息进行实证分析,并调查行业发展和行业问题。使用SPS,Stata和其他数据分析软件,中国拥有最重要的发展法;同时,发现工业发展规律,规范工业发展,开辟新的经济发展方式也很重要[1]。

(二)企业经营管理方面1.提升企业竞争力的必然要求当前,业务发展的竞争越来越激烈。竞争压力主要归因于国内市场经济带来的经济化以及国内市场竞争激烈加入的外国公司的影响。公司必须面对激烈的市场竞争。大众市场信息的统计分析将调整生产和管理策略,并为业务发展的战略调整作出有效的决策。2.提升企业管理水平的必然要求一方面,诸如运营管理、财务管理、风险管理和企业资源管理等相关任务变得越来越复杂。需要统计分析方法来对丰富的业务操作信息进行分类和汇总,为业务管理决策提供有效的信息。同时,企业需要不断满足产品和服务生产方向的政治要求。由于需要与相关部门合作,例如运营财务管理、规避财务风险,因此需要建立相关部门的统计数据,以提高决策效率[2]。

二、大数据统计分析方法在经济管理领域的运用

利用大数据的统计数据分析技术研究宏观经济发展政策,对促进行业发展至关重要。另一方面,如何获取有关复杂数据管理的重要信息,在业务流程和管理方面为公司制定有效的决策是重中之重。关键在于掌握财务管理的大数据分析方法,并使用大数据统计分析技术来分类和提供业务流程管理,隐藏的规则以及来自异常数据点的大量信息。为了应对突发情况,管理人员需要制订正确的决策计划。本文主要讨论宏观经济应用管理领域的统计数据分析方法,以及业务管理、财务管理、风险管理和管理的六个方面。如:

(一)宏观经济方面关于宏观经济产业的运作和发展有若干规律。为了找到宏观经济发展方法,统计分析技术对于稳定经济增长和调查潜在的经济危机很重要。当前,不仅学者,业务经理也开始了解计算机技术的使用,并开始通过统计分析来发现工业发展中的若干问题,学习工业发展的原理。为了找出答案,我们选择了相关的影响因素并采取了相应的行动,采取措施提高工业发展效率。

(二)企业运营管理方面通常,在日常工作程序和工作相关领域中存在某些特定的业务管理和操作规则。另一方面,通过将统计信息应用于业务的运营和管理,公司可以通过分析大数据的统计信息来获得规律。这将帮助公司节省一些资源,避免重复的任务并节省公司的业务资源。如果该政策是从科学的统计评估阶段得出的,则情况与正常情况不同的企业高管应仔细考虑潜在的风险。

(三)企业营销管理方面企业需要建立大型数据管理系统来收集有关企业提供的产品或服务的市场交易信息。因此,消费者的热点必须与受管理的信息系统对齐,以使其隐藏在协同交易信息中。确定消费者对需求的偏好并确定消费者需求。公司的主要产品和服务根据消费者的喜好运作,可以满足消费者的需求,替代市场上的非反应性产品和服务。同时,开发新产品和服务企业领导者可以提供有效的决策信息,并为消费者创建新的热点[3]。

(四)企业财务管理方面应用管理统计信息。它通过审查有关生产过程和运营的统计数据(尤其是财务数据),进行定性和定量分析,帮助评估相关活动,例如商业投资。财务管理是开展业务必不可少的部分,这对于减轻公司的财务风险和提高公司资源分配的效率至关重要。通过统计分析对商业经济数据进行分类和分析,可以为高管、投资者和其他相关利益相关者提供有效的决策信息。

(五)企业人力资源管理方面将统计应用于公司的人力资源管理,并使用统计分析技术结合公司业务管理部门的特征,选择适当的方法来提高效率。人力资源管理很重要,人才基本上是企业的无形资产,在部门保留相关的人力资源是业务发展的关键。回归站评估法用于预测企业发展的人力资源需求,动态分析法用于根据状态预测人力资源的变化。将这两个方面结合起来可以大大提高业务资源的效率。

(六)企业风险管理方面使用统计分析技术对业务流程中的大量业务信息进行分类和分析,发现隐藏的规则和数据差异。重要的是,业务主管需要进行预测,做出正确的决定,解决事件并发现潜在危险。意思是如果统计数据分析有些奇怪,则需要找出业务流程中具有的某些规则,因此业务主管需要寻找更多异常条件,尤其是财务管理,要注意关注状态的变化。另一方面,对公司财务信息进行统计分析是公司规避财务风险的有效手段之一。

三、完善大数据统计分析方法在经济

管理领域运用的措施在本文中,我们将了解如何从六个方面分析大数据的统计数据:宏观经济活动、业务管理、风险管理、财务管理、资源管理和财务管理人员。这被认为是财务管理数据大规模统计方法的一种改进。必须在三个方面进行现场应用:

(一)社会宏观经济层面尽管存在宏观经济法则,但根据过去的经验,由于缺乏安全可靠的数据和分析方法,宏观经济法则的分析则一直被认为是伪科学。大数据分析技术提供了探索宏观经济法则的机会,大数据技术使用数据创建系统,而使用许多信息技术的科学分析是宏观经济法研究中的重要一步。特别是,某些行业使用行业信息和对经济趋势预测的全面分析来帮助识别和克服复杂的工业发展挑战,可以提高宏观经济发展效率。

(二)企业经营管理层面在公司上载和数据受限的情况下,企业很难优化管理功能以提高性能[2]。由于业务经理的管理理念和管理水平受到限制,因此很难断定业务开发操作和管理流程是否存在问题。统计分析技术可用于计算和评估每个关键决策或业务战略适合性的有效性。如果由于大数据分析技术而导致预期的数据销量存在矛盾,该公司可以调整其总体战略并进行业务变更以优化管理理念。

(三)行业与行业之间存在着一定的鸿沟无论是快速消费品行业、食品行业还是大型公司,其经营理念和经济结构在公司治理方面都存在根本差异。统计数据分析技术使公司能够了解整个行业的消费者需求的性质,分析社会经济状况,能够了解共同的业务条件和业务发展情况,并优化或区分劣质产品。在某些情况下,此更改是提高产品价格的高级更改,如果消耗量和消耗品减少,则可以降低产品价格。产品必须能够升级以满足顾客需求。产品行业、食品行业或大型行业具有不同的经营理念和财务结构,还在进行公司管理。但是,各个行业的业务方向取决于消费者的需求。换句话说,公司开发了产品的功能并使产品的功能适应消费者的需求。对于公司而言,通过优化生产结构并提供更多定价和功能来说服更多消费者也很重要。

(四)企业财务管理层面财务管理贯穿公司治理的整个过程。公司财务管理非常有效,但是存在诸如财务管理的巨大风险之类的问题。对公司财务信息进行统计分析是防范财务风险的有效手段之一。公司需要管理其日常收入和支出,并进行大规模会计处理。企业可以使用大数据分析技术来监测财务管理功能并确保标准化业务的财务安全。利用统计分析技术和大数据,公司可以预测潜在的市场和行业风险,以提供最佳解决方案,还可以提供分析大数据的方法,可以跟踪异常并快速发现异常。

数据分析的方法篇6

Key words: environmental monitoring; mass concentration; data analysis; method;

中图分类号:X83文献标识码:A 文章编号:2095-2104(2012)

一、监测数据综合分析的目的和作用

环境监测是科学性很强的工作,它的直接产品就是监测数据。监测质量好坏集中反映在数据上,准确、可靠、可比的环境监测数据是环境科学研究工作的基础,是环境管理的依据。一个环境监测站每年可提供成千上万的监测数据,但这些数据本身是孤立的、离散的,必须从不同的目的和作用出发,把环境监测所获得的资料、数据,通过不同的途径和方法分类、统计、转化、汇总,找出其本质的东西,获取环境管理所要求的各种综合数据。环境监测数据综合分析的目的是完成监测数据、信息资料向环境质量定性和定量结论的转变,通过监测数据、信息资料的深加工与自然环境、社会经济发展等诸因素的综合分析,实现为污染防治决策和环境建设决策的转变。环境监测数据综合分析是环境监测过程中环节的重要环节,也是最终环节。一般来说,环境监测综合分析技术的水平高低,代表着监测站技术水平的高低,也决定着监测站在环境管理中的地位和作用。

二、监测数据综合分析的方法

在对环境质量进行综合评价或对区域环境污染状况进行评价时,都是以一定数量的监测数据和资料为依据的。这些数据和资料包括环境要素的监测数据、环境条件数据、污染源调查监测数据、现场调查数据和实测数据等等。环境监测综合分析采用的方法很多,并在不断完善和发展,通常采用的分析方法有统计规律分析、合理性分析、效益分析等。

2.1 统计规律分析

统计规律分析中包括了对环境要素进行质量评价的各种数学模式评价方法,也就是应用数理统计方法,模糊数学方法和适用于不同环境要素的数学、物理方程等方法,对监测数据资料进行剖析,解释,做出规律性的分析和评价。该分析方法主要应用于环境调查、环境规划或课题、环评等比较大的工作中。

2.2 合理性分析

由于影响环境要素变化的因素十分复杂,而用于综合分析的监测数据资料有限,所以需要结合环境要素的各项条件和污染源参数,理论结合实际分析其合理性。应考虑到环境要素之间的相互影响,监测项目之间的相关和对比关系,全面分析其合理性,这样才能提供准确、可靠、合理的监测数据。如何合理的分析数据,可以从以下几个方面判断:

2.2.1 通过项目之间的相关性来分析

监测项目多种多样,有机的、无机的都有,但是物质本身具有相互关系,两个或两个以上的项目监测数据往往存在一种固定关系,这就为我们分析单个已实行质量控制措施的监测数据正确与否提供了依据,对一些例行监测数据,可做出直观的判定。例如,氟含量与硬度之间的关系。F与Ca、Mg形成沉淀物容积度较小,因此,在中性、弱碱性水溶液中,如氟含量在(mg/L)级,则其氟含量与Ca、Mg含量呈明显负相关,即与硬度值呈负相关,所以高氟区内的水质监测结果中硬度监测值一般较低。如果氟含量较高,同样硬度监测值也很高,数据就要重新分析。再如CO、BOD5和高锰酸盐指数之间的关系。根据COD、BOD5和高锰酸盐指数的概念,COD是指用强氧化剂,在酸性条件下,将有机物氧化成CO2 与H2O所消耗的氧量平;BOD5是指在水温为20℃的条件下,微生物氧化有机物所消耗的氧量;高锰酸盐指数是在一定条件下,用高锰酸钾氧化水样中的某些有机物及无机物还原性物质,由消耗的高锰酸钾量计算相当的氧量;结合其实际的测定过程,对于同一份水样三者的监测结果,应存在以下规律:COD>BOD5,COD>CODMn。三氮与溶解氧也存在一定的关系。环境中氮的存在形式根据环境条件的变化而发生变化,尤其受水体中溶解氧的质量浓度影响,一般溶解氧高的水体硝酸盐氮的质量浓度高于氨氮质量浓度,反之氨氮质量浓度高于硝酸盐氮质量浓度,亚硝酸盐氮质量浓度与之无明显关系。二氧化硫与氮氧化物之间的关系:对于以煤为主要燃料的煤烟型污染区域,其大气环境中二氧化硫体积质量大于氮氧化物,一般为氮氧化物的2~6倍。在以汽油、柴油为燃料的区域内,如马路边,交通繁忙而居民少的区域,氮氧化物体积质量则大于二氧化硫。综上所述,物质之间存在的相互关联性对综合分析监测数据的合理性起着至关重要的作用,它直观的体现出数据在分析过程是否存在分析误差,可以在第一时间分析出数据是否合理,为进一步综合分析数据提供了准确依据。

2.2.2 通过掌握的资料对监测值进行判定

对现有的数据进行综合分析,首先要了解采样地点的本底值范围,特别是例行监测或者是年度监测计划。这种工作一般情况下都是连续性的,一年或是几年,数据可比性比较好,对同一点位的数据,如个别项目变化较大,可以先将该值列为可疑数值,然后进行合理性分析。进行合理性分析,首先要了解是否有新的污染源介入,其次是采样全过程有无异常,包括水质的颜色,气味、流量的大小等。与以往数据进行比对,采样是否规范,采样的容器是否达到可用标准等。再次是实验室分析,如查找显示剂保存时间是否过期,标准曲线是否及时绘制,分光光度计是否调零等等。对于气体来说,还要考虑采样时的风向,采样仪器是否校准等。对于可疑值,在分析过程中已经知道数据是可疑的应将可疑值舍去;对复查结果时已经找出出现可疑值原因的,也应将可疑值舍去;对找不出可疑值出现原因的,不应随意舍去或保留,要对留样重新进行实验室分析或根据数理统计原则来处理。

2.2.3 通过监测项目的性质对监测值判定

在同一水样中有许多项目根据其性质可以判定相关的监测值是否正确。如总氮,是指可溶性及悬浮颗粒中的含氮量,如果同一水样监测结果出现总氮与氨氮、亚硝酸盐氮、硝酸盐氮数据倒挂,就表明监测结果是不正确的,需要重新分析找出原因;同样,还有总磷与可溶性磷以及无机磷之间数据的倒挂;大气中,氮氧化物与一氧化氮、二氧化氮,总悬浮颗粒物与可吸入颗粒物之间数据的倒挂等,都是不合理现象。同样,在噪声监测中,理论上监测数据L10 一定大于L50、L90、Leq,在实际监测中如果出现Leq 大于L10,如果不是监测数据或仪器出现问题,就是由于瞬时之间噪音值的突然增大,应当修正数据使用。以上只是列出部分项目之间的关系,还有许多项目关系需要我们在日常生活中不断总结和发现,运用到日常的环境监测综合分析中,更好地服务于环境管理。

2.2.4 通过了解污染源对监测值进行判定

监测数据是多种多样的,不仅仅包括环境空气、地表水、地下水等等,也包括点源,如我们常说的工业污染源。工业污染源多种多样,不同的行业有不同的污染物产生,多数行业都有自己的特殊污染物产生,化学需氧量和氨氮只是多数工业污染源的共性污染物。因此,要在日常工作中对辖区内的污染源或者是重点污染源有所了解,根据行业的不同,选择有针对性的监测项目来监督污染企业。如国家最新颁布执行的制药行业六项标准,就是根据制药行业不同工业生产工艺和污染治理技术的特点,分别制定了《发酵类制药工业水污染物排放标准》、《提取类制药工业水污染物排放标准》、《化学合成类制药工业水污染物排放标准》、《中药类制药工业水污染物排放标准》、《生物工程类制药工业水污染物排放标准》、《混装制剂类制药工业水污染物排放标准》。国家对这些行业制定了最多25项污染物监测分析排放标准,最少11项污染物监测分析排放标准,其中有共性的污染物,也有特殊的污染物,根据特殊的污染物是否存在,就可以判定是哪类制药行业。又如对化工行业来说,有机物含量种类较多,重金属比较少;对于重金属行业来说,有机物含量较少;造纸行业主要是有机污染等。如果在一个生产有机化工的企业,废水监测出高质量浓度的重金属,则监测数据应重新考虑,需按照综合分析方法分析其原因。

2.3 效益分析

数据分析的方法篇7

前言

环境监测的数据不仅是我国对于生态研究和环境质量现状最主要的工作,也是我国治理生态环境和环境污染的根本。因此,要加强对于环境监测数据的研究工作。

一、 监测数据综合分析的目的和作用

环境监测是科学性很强的工作,它的直接产品就是监测数据。监测工作质量好坏直接反映在数据的质量,准确、可靠、有效、可比的环境监测数据是环境科学研究工作的基础,是环境管理的依据。一个环境监测站每年可提供成千上万的监测数据,但这些数据本身是孤立的、离散的,必须从不同的目的和作用出发,把环境监测所获得的资料、数据,通过不同的途径和方法分类、统计、转化、汇总,找出其本质的东西,获取环境管理所要求的各种综合数据。

环境监测数据综合分析的目的是完成监测数据、信息资料向环境质量定性化和定量化结论的转变,通过监测数据、信息资料的深加工与自然环境、社会经济发展等诸因素的综合分析,实现为污染防治决策和环境建设决策提供科学依据。环境监测数据综合分析是环境监测过程中重要工作环节,也是最终环节。一般来说,环境监测综合分析技术的水平高低,代表着监测站技术水平的高低,也决定着监测站在环境管理中的地位和作用。

二、目前我国大部分地区的空气质量检测数据

备注:部分城市环境空气质量指数(AQI)数据来源:中国环境监测总站网站,全国城市空气质量实时平台2013年1月12日21时―22时更新数据。

三、 监测数据综合分析的方法

在对环境质量进行综合评价或对区域环境污染状况进行评价时,都是以一定数量的监测数据和资料为依据的。这些数据和资料包括环境要素的监测数据、环境条件数据、污染源调查监测数据、现场调查数据和实测数据等等。环境监测综合分析采用的方法很多,并在不断完善和发展,通常采用的分析方法有统计规律分析、合理性分析、效益分析等。

(一)统计规律分析

统计规律分析中包括了对环境要素进行质量评价的各种数学模式评价方法,也就是应用数理统计方法,模糊数学方法和适用于不同环境要素的数学、物理方程等方法,对监测数据资料进行剖析,解释,做出规律性的分析和评价。该分析方法主要应用于环境调查、环境规划或课题、环评等比较大的工作中。

(二)合理性分析

由于影响环境要素变化的因素十分复杂,而用于综合分析的监测数据资料有限,所以需要结合环境要素的各项条件和污染源参数,理论结合实际分析其合理性。应考虑到环境要素之间的相互影响,监测项目之间的相关和对比关系,全面分析其合理性,这样才能提供准确、可靠、合理的监测数据。如何合理的分析数据,可以从以下几个方面判断:

1、 通过项目之间的相关性来分析

监测项目多种多样,有机的、无机的都有,但是物质本身具有相互关系,两个或两个以上的项目监测数据往往存在一种固定关系,这就为我们分析单个已实行质量控制措施的监测数据正确与否提供了依据,对一些例行监测数据,可做出直观的判定。例如,氟含量与硬度之间的关系。F与Ca、Mg形成沉淀物容积度较小,因此,在中性、弱碱性水溶液中,如氟含量在(mg/L)级,则其氟含量与Ca、Mg含量呈明显负相关,即与硬度值呈负相关,所以高氟区内的水质监测结果中硬度监测值一般较低。如果氟含量较高,同样硬度监测值也很高,数据就要重新分析。再如COD、BOD5和高锰酸盐指数之间的关系。根据COD、BOD5和高锰酸盐指数的概念,COD是指用强氧化剂,在酸性条件下,将有机物氧化成CO2与H2O所消耗的氧量;BOD5是指在水温为20e的条件下,微生物氧化有机物所消耗的氧量;高锰酸盐指数是在一定条件下,用高锰酸钾氧化水样中的某些有机物及无机物还原性物质,由消耗的高锰酸钾量计算相当的氧量;结合其实际的测定过程,对于同一份水样三者的监测结果,应存在以下规律: COD > BOD5, COD>CODMn。

三氮与溶解氧也存在一定的关系。环境中氮的存在形式根据环境条件的变化而发生变化,尤其受水体中溶解氧的质量浓度影响,一般溶解氧高的水体硝酸盐氮的质量浓度高于氨氮质量浓度,反之氨氮质量浓度高于硝酸盐氮质量浓度,亚硝酸盐氮质量浓度与之无明显关系。

二氧化硫与氮氧化物之间的关系:对于以煤为主要燃料的煤烟型污染区域,其大气环境中二氧化硫体积质量大于氮氧化物,一般为氮氧化物的2~6倍。在以汽油、柴油为燃料的区域内,如马路边,交通繁忙而居民少的区域,氮氧化物体积质量则大于二氧化硫。

综上所述,物质之间存在的相互关联性对综合分析监测数据的合理性起着至关重要的作用,它直观的体现出数据在分析过程是否存在分析误差,可以在第一时间分析出数据是否合理,为进一步综合分析数据提供了准确依据。

2、 通过掌握的资料对监测值进行判定

对现有的数据进行综合分析,首先要了解采样地点的本底值范围,特别是例行监测或者是年度监测计划。这种工作一般情况下都是连续性的,一年或是几年,数据可比性比较好,对同一点位的数据,如个别项目变化较大,可以先将该值列为可疑数值,然后进行合理性分析。

进行合理性分析,首先要了解是否有新的污染源介入,其次是采样全过程有无异常,包括水质的颜色,气味、流量的大小等。与以往数据进行比对,采样是否规范,采样的容器是否达到可用标准等。再次是实验室分析,如查找显示剂保存时间是否过期,标准曲线是否及时绘制,分光光度计是否调零等等。对于气体来说,还要考虑采样时的风向,采样仪器是否校准等。对于可疑值,在分析过程中已经知道数据是可疑的应将可疑值舍去;对复查结果时已经找出出现可疑值原因的,也应将可疑值舍去;对找不出可疑值出现原因的,不应随意舍去或保留,要对留样重新进行实验室分析或根据数理统计原则来处理。

3、 通过监测项目的性质对监测值判定

在同一水样中有许多项目根据其性质可以判定相关的监测值是否正确。如总氮,是指可溶性

及悬浮颗粒中的含氮量,如果同一水样监测结果出现总氮与氨氮、亚硝酸盐氮、硝酸盐氮数据倒挂,就表明监测结果是不正确的,需要重新分析找出原因;同样,还有总磷与可溶性磷以及无机磷之间数据的倒挂;大气中,氮氧化物与一氧化氮、二氧化氮,总悬浮颗粒物与可吸入颗粒物之间数据的倒挂等,都是不合理现象。同样,在噪声监测中,理论上监测数据L10一定大于L50、L90、Leq,在实际监测中如果出现Leq大于L10,如果不是监测数据或仪器出现问题,就是由于瞬时之间噪音值的突然增大,应当修正数据使用。以上只是列出部分项目之间的关系,还有许多项目关系需要我们在日常生活中不断总结和发现,运用到日常的环境监测综合分析中,更好地服务于环境管理。

(三) 对于数据的效益分析

对于环境监测的数据类型分为例行监测,环评监测和验收监测以及监督监测等等。对于监督数据的监测来说,当分析数据相对较少的时候,数据合理性比较好判断;而对于数据较多的例行监测、环评监测来说,在较短时间内判断数据是否准确、合理、可靠,上述综合分析方法提供了简单、明了的依据,在实际工作中能够及时为环境管理提供准确的监测信息,减少企业不必要的重复工作,在有效的时间内提供更优质的服务。

结论

综上所述,我国对于环境监测数据的研究还需要更加科学有效的方法。环境监测数据的测量是系统而又复杂的,要从多方面进行分析,找出环境中所存在的问题,并且进行相应的科学治理措施。实现我国生态环境的可持续发展。

参考文献:

数据分析的方法篇8

数据缺失的程度、机制均影响处理方法的选择。方法不适当也会带来有偏的参数估计M1、方差估计与统计检验,甚至影响数据分析效用。

(一)数据缺失的程度

借助某一变量上数据缺失的比率X描述数据缺失的程度。缺失比率X如何应用方面,当X<10%时应当保留这些贼并对其哳搬的舰曾建议,当X>15%时可以考虑删除采用删除法;MRaymond与Roberts则认为X>40%时才考虑删除这些数据。

(二)缺失机制

缺失数据与诸多变量等相关,处理方法的性质依赖这些相依关系的特征。为论述方便,记全部变量Y观测值中那些完整的变量为Yobs、不完整的为Ymis。如果缺失值与Y相互独立无关,则缺失数据为完全随机缺失(MACR,missingcompletelyatrandom)的,是特殊情形。此时缺失值是总体的一个简单随机抽样。如果缺失值仅与Yobs相关联、与Ymis相互独立,则是随机缺失(MAR,missingatrandom)。如果Yobs与Ymis之间存在着依赖关系,则称非随机缺失(NMAR,notmissingatrandom),是不可忽略的。

二、单一借补

单一借补用一个借补值替代全部缺失值,后用完全数据方法分析数据。单一借补是缺失数据处理中最通用方法之一,有多种方法。

(一)推理借补与最近邻借补

根据已有信息推断缺失数值,该方法简单易行,可提供准确借补值,或者近似准确借补值,同等情况下可优先进行推理借补。例,信息收集时已提供有姐弟信息的某被试“独生子女”一项空着,可推断为“否”。最近邻借补选用与缺失数据提供者相类似的被试数据替代该缺失值。按照匹配变量找到一个以缺失数据提供者类似的被试时,可还用例如欧式距离等来度量类似程度。

(二)均值借法

均值借补用已得数据的均值替代全部缺失值。借补值易均值形成尖峰,严重扭曲数据分布。当数 据缺失非MACR时,将低估统计量方差,导致参数估计偏差,且不适用需方差的复杂分析。

(三)回归借补

回归借补可分为线性回归借补,非参数回归借补等。本文主要关注线性回归借补,用Yk关于数据完全的变量回归模型,回归值替代缺失值。建立回归方程时有一次或多次迭代之分。多次迭代中,预测变量以逐步进人模型,获得预测力最佳、最精简的变量组合;回归值替代缺失值,后建立新模型;如此,至回归系数变化不显著。是类别变量时,则考虑进行变换,进行线性回归。同时,我们还应注意到利用严格的回归方程进行预测,易人为增大变量之间的关系。多数情况下,教育学、心理学讨论的变量大多都不是相互独立的。选择该方法时,须考虑当预测变量与变量Y是否存在高度的相关关系。其构造借补值的逻辑清晰,相对客观。该方法能得到合乎逻辑的结果,尤其满足正态分布时。数据模拟实验表明,方法加精确。

三、多重借补

多重借补(multipleimputation,MI)基于缺失值的预测分布或统计模型的方法:提供多个借补值依次替代各个缺失值、构造个“完全数据”,121,191211后运用完全数据统计方法分别分析多个数据集;分别得到数个分析结果,拟合这多个结果,获得对缺失值的估计等,甚至是置信区间、P值。MI具备例如连续性的优良统计性质。

(一)回归预测法与倾向得分法

回归借补基于已有数据建立回归模型、嵌入借补值。先确定观察协变量,倾向得分法赋予一个条件概率。即对各Y产生一个观测值缺失概率,并以倾向得分表示。依据倾向得分对数据分组,组内进行近似贝叶斯Bootstrap(ABB)借补。

(二)似然的方法

1.极大似然估计

从理论上来看,极大似然法(MaximumLikelihood,ML)至今仍是参数点估计中的重要方法。既定模型下缺失值的诸多估计均可基于似然函数进行。ML利用总体数量特征的分布函数等,建立未知参数的估计量。将Y作为未知变量0,构造关于e的似然函数,后求的参数的极大似然估计量,甚至在参数空间内的置信区间,或者置信区域。

参数极大似然估计量(MLE)具有不变性,推广至多元变量时该优良性质亦成立。这恰能满足实际研究需要。基于其渐进最优性质等,ML成为参数估计的常用方法,诸如SPSS10.0、LISREL8.7等软件包均收人该方法。

2.期望极大化算法

期望极大化算法(Expectation-Maximizationalgorithm,EM)是ML有效方法,主要用来计算基于不完全数据的MLE15。当由于观测过程局限带来数据部分缺失时,或似然估计因似然函数不是解析函数而无效时可选用该方法。EM是一种迭代算法,每次迭代似然函数值都将有所增加,进而保证参数估计值收敛到一个局部极大值。此外,EM可自动实现参数约束。基于软件数据模拟表明X<30%时EM算法可得到比较好的结果。

3.MCMC方法

当缺失值分散在多个变量时,回归法基于对回归系数的估计获得借补值。复杂缺失模型中,回归系数的估算又依赖于借补值。这里似乎存在某种循环论证痕迹。此时,可考虑迭代法中马尔科夫蒙特卡洛方法(MarkovChainMonteCarloAlgorithm,MCMC)。MCMC利用马尔可夫链进行蒙特卡洛积分,可基于无后效性随机过程探讨数量关系、预测变量,还可有包括0出1?抽样等多种具体算法。基于多元抽样MCMC有诸多优点,足够长的时间使得雅过程驗时,MCMC可得卿常麵的结果。171MCMC是与具体的模型结合的,自身有不少扩展方法,且不同MCMC方法对缺失数据的参数估计之间存在差异。不过,X<30%时MCMC方法得到结果与完全数据时拟和较好。这些研究支持MCMC是处理缺失数据的有效方法,软件包SPSS17.0等均收人该方法。

四、不处理

借补值是缺失数据的主观估计值。引人的主观值可能改变原信息系统,甚至带进新噪音、导致分析错误。不处理确保了原有信息不变,并进行分析,其主要包含贝叶斯网与人工神经网络。不过,后者的具体应用仍有限、待进一步探索与实证。研究开始关注神经网络在心理学中的具体应用。

(一)贝叶斯网

贝叶斯网络(BayesianNetworks)是一个有向无圈图,W能描述不确定性因果关联的模型。该有向无圈图带有概率注解,能够表示随机变量的因果关系与概率关系,网络的拓扑结构能够表明如何从局部的概率分布获得完全的联合概率分布。分析缺失数据时,贝叶斯网将结合先验知识与样本数据对数值计算进行推理,得到最佳值。其最大程度利用数据蕴含的信息,是具有鲁棒性的方法。

缺失数据下学习贝叶斯网有各类算法,不少算法是通过对含缺失数据的信息系统完备化得到所需统计因子,最终将问题转化为完全数据下学习贝叶斯的网的问题。例如,结构EM(StructureEMAlgorithm)通过EM算法获得期望统计因子。数据非随机缺失可以通过引人隐藏变量转化为随机缺失问题,m似乎可以仅讨论随机缺失情况下算法。随着研究的推进,新的、优良的算法相继涌现,并得到模拟实验的支持。例如,数据缺失下贝叶斯网络增量学习算法IBN-M。甚至稳健的贝叶斯方法能够适用于含缺失数据的结构方程分析中,此时的结构方程模型选择固定方差。

建构贝叶斯网可由专家人工建构。其中,因果关系、网络结构是不可或缺的。这需对分析领域有相应了解,至少对变量间关系较清楚。在心理学等领域中应用尚待深入研究,该方法运用前景令人期待。

(二)贝叶斯网适用软件能够实现贝叶斯网的软件包不少。Netica是最重要软件之一,可免费下载功能有限的版本。专门进行数值计算的语言Matlab,其编程量较少、调试程序方便、呈现学习所得结构也不繁琐,国内文献也更多地涉及Matlab。BNTtolkit是基于Matlab开发的,提供不少基础函数库,能够进行参数学习与结构学习,且完全免费。缺乏图形用户界面、无法将基本函数集成相应系统是其“硬伤”。

五、结论与讨论

实际应用中,删法“浪费”不少数据,统计力低下,尽量选用其它方法。当满足MAR缺失机制且人在10%时,对删法可运用对有多个项目的量表的数据处理。当满足MAR、变量相关联,可考虑均值借补。当变量之间高相关且X>20%Ht,可考虑回归借补。

数据分析的方法篇9

数据挖掘(Data Mining,DM),又称为数据库中的知识发现(Knowledge Discovery in Database,KDD),是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。它融合数据库系统、人工智能、统计学、机器学习、信息科学等,是一个新兴的多学科交叉应用领域[1]。简单地说,数据挖掘就是把存放在数据库、数据仓库或其他信息库中的大量的数据中“挖掘”或“找到”有趣知识的过程。近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括行业监管、商务管理、生产控制、市场分析、工程设计和科学探索等。

有一个“尿布与啤酒”的故事,可以用来说明数据挖掘的作用。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。沃尔玛在这些原始交易数据的基础上,利用数据挖掘技术方法对这些数据进行分析和挖掘。一个意外的发现是:跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析,发现美国的太太们常叮嘱她们的丈夫下班后到超市为小孩买尿布,而丈夫们中有30%~40%的人在买尿布的同时也为自己买一些啤酒。于是沃尔玛干脆将尿布与啤酒摆在同一个货架上,从而更方便了顾客,促进了销售。按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术方法对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。那么,怎么样来挖掘数据呢?

二、常用的数据挖掘方法和应用举例

挖掘数据,简单来说就是要通过读活数据(传统方法)、知识运用(推理方法)、大海捞针(筛选方法)、专业软件(技术方法)等方法或手段,挖掘出有用数据。

(一)读活数据――传统方法

通过阅读政策、理论和报表数据,运用政策传导和理论根据,去挖掘数据背后的真实状况。在阅读的基础上,进一步计算比较基础数据的增加值、增长率和标准值等变化规律,及时发现各指标在运行过程中发生的突变情况。在阅读、比较的基础上进一步分析。

分析实例一,利率对银行的影响:2007年12月21日到2008年12月23日,央行连续4次下调基准利率,假设在银行存贷款总额不变的情况下,存、贷款余额和银行的利息收支变化情况如表一:

表一 利率对银行的影响

从银行的角度来看,当基准利率下调时,支付的存款利息和收到的贷款利息都会减少,而且在存贷比保持某个比例时,利差会增大,而不是通常人们认为的那样利差会减少。从消费者的角度来看,存款人少收的利息大于贷款人少付的利息,结果银行增加的收入来自存款人减少的收入。

(二)知识运用――推理方法

通过经济理论知识来实证当前社会经济的情况或预测世界经济可能会出现的情况。

分析实例二,用奥肯定律来分析我国的GDP和失业率之间的关系:萨缪尔森和诺德豪斯合著的《经济学》第16版456页确切表述,“按奥肯定律,GDP增长比潜在GDP增长每快2%,失业率上升1个百分点,公式表示为:失业率的变动=-(实际GDP的增长率-潜在GDP的增长率)/2”[2]。2008年,全年国内生产总值同比增长9.6%。2009年GDP增长8.7%,则实际下降0.9个百分点,根据奥肯定律来推测,失业率应上升0.45个百分点,达到4.65%。

分析实例三,GDP与固定资产投资的关系:通过用加速模型对中国1978~1997年数据进行检验,从而推断出那些以有效需求不足为假设前提的模型不能解释中国的现实。其次,以供不应求为特征的存量调整模型能较好地解释中国固定资产投资的决定因素。在正常年份,实际国内生产总值增长1%,合理的实际固定资产投资应增长1.85%[3]。即GDP增长一个点,约需要投资增长2个点。因此,用GDP与投资总量之间的这种理论关系,可以推算出非信贷投资总额。比如:2008年保山市GDP增长率为13.1%(G),从GDP增速倒推,与其相适应的投资增速应在26.2%左右,但本地银行贷款实际增长22.27亿元,增速仅为16.84%,少增9.36%,表明可能有其他资金投放在本地;年初贷款余额N=131.79亿元,S=N×G×2-M=131.79×13.1%×2-22.27=12.37亿元。表明外地资金在本地当年投放12.37亿元左右。

分析实例四,金融危机与菜农的关系:美国金融危机后?圯中国涉外企业十分困难,大多处于关停状态?圯大量农民工返乡?圯返乡后自己种蔬菜(再说也无法买到原来吃的蔬菜)?圯以往这些农民工日常消费的蔬菜没有人消费,形成消费链断裂?圯河南菜农的蔬菜卖不出去?圯河南菜农生产过剩。事实上,根据国新办于2009年2月2日上午10时举行新闻背景吹风会,离开本乡镇外出就业的农民工的总量大概是1.3亿人,大约有15.3%的农民工因全球金融危机而失去了工作,或者没找到工作。据此推算,全国大约有2000万农民工失去工作,或者还没有找到工作而返乡了。假设每个农民工日均消费1市斤蔬菜,返乡农民工有2000万,就意味着菜农每天有2000万斤蔬菜卖不出去。

(三)大海捞针――筛选方法

可以通过Excel的筛选命令,从众多的数据中筛选出需要的信息。

分析实例五,异地贷款统计:在《银行业非现场监管信息系统》中,没有对异地贷款信息专门统计,给异地贷款风险监管带来难度,可是,银行业《风险预警系统》给我们提供了丰富的客户信息资源。《风险预警系统》中包含了哪个银行在什么地方对哪个企业授信多少、发放贷款多少,以及现在贷款的质量怎么样等48项信息。当银行与企业不在同一个地方时,贷款就衍变为异地贷款,考察全省汇总数据,我们很快发现,可以用筛选方法,将异地贷款统计出来。方法是:分别用筛选命令,筛选出注册地在本地各县区的所有客户,并将其汇总在同一张Excel表中,再删除本地银行机构的客户信息,剩下的就是外地银行在本地客户的贷款信息。反之,也可以筛选出本地银行在外地客户的贷款信息。

(四)专业软件――技术方法

通过《银行业非现场监管信息系统》的查询方法和分析模型,进行“时间序列分析”和“同质同类比较分析”,可以挖掘出更多有用的监管信息;通过Excel中强大的函数库,可以获得更多的统计分析结果;通过《马克威分析系统》等专业分析软件,可以从海量信息和数据中寻找规律和知识,建立起概念模型,为决策者提供科学的决策依据。

分析实例六,2009年全国贷款总额预测:根据2002年至2009年一季度贷款余额和全年贷款总量,以及2010年一季度的贷款余额,可以用回归分析预测出2010年贷款总量。如表二所示:

表二 金融机构人民币信贷收支表(单位:亿元)

表中用回归分析预测函数FORECAST预测了2010年的全年贷款总量将达到47.9万亿元,FORECAST(x,known_y's,known_x's)中的x是2010年一季度贷款余额;known_y's是2003至2009年的贷款总量,是因变量;known_x's是2003至2009年一季度贷款余额,是对应的自变量。在本例中,函数表达式是FORECAST(B11,C3:C10,B3:B10)。

在表中,如果计算同比增加量,2010年全年同比增加贷款7.96万亿元左右。如果以时间作为自变量,全年各项贷款余额作为因变量,画出全年贷款余额折线图和三阶趋势线,我们发现,决定系统R2=0.997,接近于1,表示线性拟合程度较高。

考虑到出口减少,外汇储备下降,货币生成机制发生变化,企业更加依赖银行贷款等因素,贷款余额将远不止45万亿元,事实上,2010末贷款余额达到了50.9万亿元,这说明这个回归分析预测函数准确率还是很高的。

参考文献

[1]刘明亮.数据挖掘技术标准综述.计算机科学[J].2008年,(06):5.

数据分析的方法篇10

SNA从嵌入社会情境的个体之间的关系出发,分析群体结构及其与心理行为的相互作用,更能反映人际交往的社会性特点。如,运用SNA方法系统研究中学生班级的学习关系、友谊关系、咨询关系、信息交流关系等,运用SNA方法研究中学生的支持网络对中学生学业和心理健康等方面的影响。这不仅有利于从社会关系的视角理解学生人际关系的形成、特征和影响因素,还能及时掌握学生的心理动态,维护学生的心理健康(唐文清等, 2014)。但是,由于SNA的应用涉及到更多的人事物,数据的缺失是必然现象。研究者在SNA中常常会遇到数据应答率在65%至90%的情况(Albrecht, 1984; Dean & Brass, 1985; Moch, 1980; Monge, Edwards, & Kirste, 1983; Roberts & O′Reilly, 1978, 1979)。此外,由于数据结构的依赖性,如果网络中的行动者或者关系存在缺失,就难以全面地描述缺失行动者及其邻近行动者的网络环境(Robins, Pattison, & Woolcock, 2004)。已有研究发现,缺失数据不仅对网络结构描述产生消极影响,还会低估关系强弱和聚类系数,并使得中心性和度数的测量出现不稳定的情况(Burt, 1987; Borgatti & Molina, 2003; Costenbader & Valente, 2003; Kossinet, 2006; Huisman, 2009)。这说明,网络结构描述和网络数据分析的结果会因为缺失数据而产生偏差。

心理技术与应用4卷

8期黄菲菲张敏强: 社会网络分析中缺失数据的处理方法

要使SNA方法得到更好的应用及认可,既要介绍理论及应用方法,同时还要解决方法使用中可能出现的各种问题。例如,在数据收集和研究结论的推广方面,如何在实际的应用分析中,完善相关的统计模型和参数估计方法的发展,如何提高数据收集的信效度,如何处理缺失值等问题(马绍奇, 焦璨, 张敏强, 2011; 焦璨, 吴换杰, 黄?h娜, 黄菲菲, 张敏强, 2014)。由于社会网络数据的相互依赖性,对缺失数据的处理不能采用常规的缺失处理方法。本文就SNA中缺失数据的原因及缺失机制,比较分析了常用的四种缺失数据处理方法在实际应用中的优缺点,并就SNA中如何处理缺失数据提出建议。

2缺失数据的原因

21边界规范问题

边界规范问题指的是在网络研究中指定行动者或者关系之间包含的规则(Laumann, Marsden, & Prensky, 1983)。例如,学者在研究青少年的冒险行为过程中,想了解他们在学校里的人际关系情况。图1中的A、B、C、D是四位青少年在学校里的人际关系网络,E、F、G三位青少年虽然和A、B、C、D四位青少年的交往密切,但是学校外的人际关系与研究目的无关,因此,E、F、G三者和研究中的青少年的人际关系就容易被忽视(Valente, Fujimoto, Unger, Soto, & Meeker, 2013)。总体而言,边界规范是由研究者自行决定的。在实际包含网络的例子中,组织成员或者由位置界定的正式定义大部分取决于一个正式组织团队中成员占据的排列位置,例如一个学校最受欢迎的前10名老师或者一个班级成绩最好的前五名同学(Kossinets, 2006)。

社会网络是由行动者及行动者之间的关系组成的,因此研究者在规范网络边界时,除了需要考虑通过一组行动者来界定网络边界外,还要决定哪些关系应该纳入研究范围里。对于如何有效地规范网络边界,学者们提出了一个准则,即根据可测量行动者的交互作用确定。因此,研究中的网络边界被定义为该边界记录了在特定情境中行动者间的交互作用(Laumann, Marsden, & Prensky, 1983)。但是,无论是情景还是交互作用的设置,研究者首先需要根据研究目的给出操作性定义,然后再确定在这个情境中包含哪些存在交互作用的行动者。随着电子科技时代的发展与进步,这个准则不再仅限于小网络,因为大规模的社会网络交互作用数据可以通过邮件传递或者虚拟社区的记录得到(Newman, 2002; Ebel, Mielsch, & Bornholdt, 2002; Guimera, Danon, DiazGuilera, Giralt, & Arenas, 2003; Holme, Edling, & Lijeros, 2004)。

22固定选择的研究设计

固定选择的研究设计指的是网络中行动者和关系的缺失依赖于研究设计中提名选择的限定(Holland & Leinhard, 1973),即网络数据的偏差是由于研究设计造成的。假设图2中的行动者A属于Z团体,在这个团体中,他和其他5个行动者有关系,现研究者要求行动者A提名y个和他关系最好的行动者。如果y≤5,则行动者A和其他5个行动者之间的所有关系都包含在数据集中;如果y>5,则行动者会失去5-y个关系。例如,学者想研究班级的学业咨询网络对学生学业拖延的影响,要求学生提名2个在学习上遇到困难或疑问时会请教的同学。如果学生平时向同学请教问题的人数普遍都是3个,那么学者得到的学业咨询网络数据是有偏差的。因为在该网络中,大部分行动者(学生)都失去了1个关系。

在固定选择的研究设计中,会出现互惠提名(有关系的双方相互提名),非互惠提名(有关系的双方只有一方提名)和无提名(有关系的双方均不提名)三种情况。从本质上而言,非互惠提名和其他两种提名的情况不一样(例如:好朋友和普通朋友的区别),因此,研究者需要考虑是否将其纳入到研究范围内。固定选择的研究设计还容易使数据呈现非随机缺失的模式,如受欢迎的个体更有可能被其他行动者提名(Feld, 1991)。但是,在不同结构的网络中,这种影响会不一致(Newman, 2002; Vázquez & Moreno, 2003)。例如,在非相称混合性(即受欢迎的行动者倾向于和不受欢迎的行动者相联系)的网络中,互惠提名将会导致更多关系缺失的情况出现。

23网络调查中的无应答

网络调查中的无应答包括应答者完全缺失和特定项目的数据缺失(Stork & Richands, 1992; Rumsey, 1993)。应答者完全缺失指的是行动者没有参与到调查研究中,因此行动者的发出关系对于分析而言是无效的(如图3所示,N表示缺失数据)。特殊项目的数据缺失指的是行动者参与了调查研究,但是在特定项目上的数据缺失,因此只有行动者的部分关系对于分析而言是无效的(如图4所示,N表示缺失数据)。例如,在一个关于学生情感咨询网络对学业成绩影响的调查中,要求学生提名3个班上的好朋友。图3中的A和D两位学生因事由请假没有参与此次研究,但图3应答者完全缺失是其余的学生在提名中提及到了A和D,所以A和D的无应答属于应答者完全缺失。如果A和D参与了调查研究(如图4),但是在提名中他们忽略了被提及的学生,即B提名了A,A没有提名B,则A和D的无应答属于特殊项目的数据缺失。对于1-模网络而言,即由一个行动者集合内部各个行动者之间的关系构成的网络(刘军, 2009),无应答对网络结构及统计指标的影响不大,但是对于存在多元交互作用情景的网络(例如,二元网络)而言,无应答可能会造成特定的影响(Robins, Pattison, & Woolcock, 2004)。例如,在一个隶属网络的调查研究中,假设研究者没有其他途径可以了解团队的任何信息,只能要求行动者报告他们隶属于哪个团队。如果任何一个行动者出现无应答的情况,那么可能会出现这个无应答行动者所隶属的团队缺失的情况。Huisman(2009)通过模拟研究发现,忽视网络调查中的无应答数据对社会网络的描述分析会造成消极的影响。进一步比较分析行动者无应答和特殊项目无应答的结果发现,特殊项目的无应答可能会造成更大的统计偏差。

网络调查中的无应答易导致行动者或者关系的缺失,但是网络环境中除无应答行动者以外的不完整观察行动者的部分信息仍然是有用的,如可利用这个信息来估计缺失状态的效果和分析不完整网络(Costenbader & Valente, 2003; Robins, Pattison, & Woolcock, 2004; Gile & Handcock, 2006; Handcock & Gile, 2007)。此外,不完整观察行动者的部分信息还可用来估计行动者和网络的结构性能,并能给缺失数据机制提供参考。

和前两种缺失数据原因相比,无应答是社会网络调查中最经常出现的缺失情况。因此,有不少学者开始关注社会网络调查中无应答的缺失问题(Daniel, 1975; Stork & Richards, 1992; Butts, 2003; Kossinets, 2006; Huisman & Steglich, 2008; nidaricˇ, Ferligoj, & Doreian, 2012)。

3缺失机制

不同的缺失数据来源,还涉及一个重要的问题,数据是否系统缺失。如果数据是系统缺失,那么缺失概率是否和观察变量(性质或属性)有关。已有研究表明,在社会网络中处理不同来源的缺失数据时,应考虑缺失机制以提高处理方法的有效性(Huisman, 2009; nidaricˇ, Ferligoj, & Doreian, 2012)。

缺失机制指的是数据的缺失概率和研究变量之间的关系(Schafer & Graham, 2002)。Rubin在1976年根据缺失引起的偏差程度定义了三种类型的缺失数据:完全随机缺失(Missing Complete At Random, MCAR),随机缺失(Missing At Random, MAR)和非随机缺失(Missing Not At Random, MNAR)。假设所有变量观测值Y中,完整的变量记为Yobs,缺失的变量记为Ymis。如果缺失概率和Yobs及Ymis相互独立无关,此类缺失称为MCAR。如果缺失概率和Yobs相关,和Ymis独立无关,则为MAR。MNAR是指缺失概率依赖于Yobs和Ymis。因为Ymis的未知性,研究者常常难以判断缺失数据属于哪种类型的缺失机制。叶素静,唐文清,张敏强和曹魏聪(2014)在对追踪研究中缺失数据处理方法及应用现状的分析中综述了三种类型缺失机制的粗略判断方法。

对于社会网络数据而言,完全随机缺失是指缺失概率和缺失关系的数值及观察数据(例如,行动者的属性)无关。在这种情况下,观察数据是原始观察值的一个随机样本,因此不存在系统偏差。随机缺失是指缺失概率和观察数据有关,但是和缺失关系的数值无关。尽管在这种情况下缺失数据会呈现出系统模式,但是这些模式是可控的,因为它们和样本中的观察数据有关。非随机缺失是指缺失概率不仅和观察数据有关,还和缺失关系的数值有关,这种类型的缺失数据会对统计分析的偏差程度造成很大的影响。因为在非随机缺失的情况下,应答者和无应答者之间的差异是由系统误差造成的,关于网络结构性质的统计指标将会受到影响(Costenbader & Valente, 2003)。

4缺失数据处理方法

41完整个案法

完整个案法,即删除部分已有的数据以保证所研究对象信息的完整性。完整个案法相当于行动者的列删除法,它不仅移除不完整观察行动者的列数据且一并移除该行动者的行数据,而移除行意味着在分析中移除不完整观察行动者和完整观察行动者之间的所有关系(Huisman & Steglich, 2008)。因此,使用完整个案法后用于分析的数据集是完整的,即每一个行动者既有接收的关系也有发出的关系。例如,图5(a)是一个班级情感关系网络的例子,其中有A、D、F三个无应答行动者,每一个无应答者都没有指向外部的情感关系,在观察网络的矩阵表达式中就会有几行缺失关系数据N,对数据进行完整个案法处理后,结果就会出现如图5(b)呈现的小网络。因此,完整个案法是在可完全观察行动者的小网络基础上进行分析处理的。nidaricˇ, Ferligoj和Doreian(2012)用完整个案法等多种缺失数据处理方法对社会网络区组模型中的无应答情况进行分析,结果发现,在小规模网络中,完整个案法对区组模型结构的稳定性影响最小。Robins, Pattison和Woolcock(2004)的研究结果则表明,完整个案法重新定义了网络边界:移除无应答行动者之后相当于生成了一个更小的网络。

完整个案法是一种加权方法,它丢弃了不完整个案的数据,对完整个案和缺失个案赋予了同样的权重。在分析的统计软件包里,完整个案法通常是默认处理缺失数据的方法。它最大的一个优点就是简便,缺点则是因为忽视不完整个案而丢失了大部分信息,很可能出现模型和数据无法拟合的情况。因此,只能在缺失概率较小的网络中使用完整个案法。Schafer和Graham(2002)认为,当无应答者是完全随机缺失时,完整个案法可能是有效的。然而,如果这个前提假设不成立,统计分析结果就会有偏差,因为剩余的行动者样本可能是不具有代表性的。也有学者认为,完全个案法从系统水平而言,严重损害了所有分析(Stork & Richards, 1992),且可能会暗中破坏社会网络模型的假设(Snijders, Bunt, & Steglich, 2010)。

42有效个案法

有效个案法是指忽略缺失的数据,只使用观测到的关系变量。有效个案法是直接对不完整数据进行分析,即根据SNA需要计算的统计值选择行动者的有效数据。例如,在一元统计分析中,在计算网络的平均数和标准差时,可以选择所有变量都完整观察的个体行动者的有效数据,而在计算网络的协方差或者相关系数时,则需要选择所有变量都完整观察的配对行动者的有效数据。

Littile和Rubin(1989)在探讨社会科学领域关于缺失数据处理的分析方法时,比较了完整个案法和有效个案法对网络的均值、方差、协方差及相关系数四个统计量的参数估计影响及二者的差异。研究结果表明,和完整个案法相比,使用有效个案法后,网络的均值参数估计值是无偏的。但是,其余三个统计量的参数估计值的偏差较大。随后,Little和Su(1989)进一步对两种方法的差异进行了详细的讨论,也得出了相同的结果。

有效个案法简单易行,和完整个案法相比,它的参数估计值较为精准。但是有效个案法具有较低的统计功效,且和没有缺失数据的网络参数估计值相比,存在很大的偏差。因此,研究者较少使用有效个案法对社会网络中的缺失数据进行处理。

43重建法

重建法指的是通过互惠关系来推断缺失连接的存在与否。重建法和插补法不一样,重建法在分析的过程中没有增加新的关系,它只是通过观察到的应答者的入度关系(即行动者接收的关系)来重建网络中无应答者的出度关系(即行动者发出的关系)。从本质上而言,即用已经报告的一个关系进行测量,且重建法仅允许两个人之间的关系。重建之后的网络中应答者和无应答者之间的关系是对称的。使用重建法对SNA中的缺失数据进行处理时,必须满足两个原则: (1)相似性,即应答行动者与无应答行动者之间的作答模式应具有相似性。因为重建法是通过应答行动者所描述的关系去构建无应答行动者的关系,所以两个行动者之间的应答模式不能存在系统的偏差;(2)可靠性,即应答行动者所描述的和无应答行动者之间的关系要确认是有效、可靠的(Stork & Richards, 1992)。自重建法提出以来,不少学者将其作为社会网络缺失数据常用的处理方法。Gabbay和Zuckerman(1998)在有向网络中,通过应答行动者报告的和无应答行动者之间的关系重建了网络中行动者之间的关系。Huisman和Steglich(2008)则用重建法研究了网络面板数据中的无应答缺失数据情况,结果表明重建法在构建完整的网络数据时几乎不会出现不收敛的问题。

一般而言,针对不同类型的网络,重建法的程序如下所示:

(1)在无向网络中,通过观察到的应答者之间的关系以及部分应答者和无应答者之间的关系对网络进行重构(Stork & Richards, 1992)。

(2)在有向网络中,通过对立关系来推断缺失关系。例如,对于应答行动者i和无应答行动者j,重建法假设行动者i描述的和行动者j之间的所有关系和行动者j所描述的关系是完全一致的,即研究者可以通过应答行动者i来插补对立关系的观察值,即ximpij=xji(Huisman, 2009)。

重建法最大的优点就是允许研究者最大化地利用有效信息去构建社会网络。有研究表明,当社会网络中存在缺失数据时,仅有437%的关系能够被解释,而使用重建法后,则能够解释缺失数据网络中897%的关系数据(Neal, 2008)。但是,重建法无法构建两个无应答行动者之间的关系。如果两个无应答行动者之间存在重要关系,研究者就无法使用重建法去正确地定义网络的结构。因此,需要用其它的插补方法来重建整个网络。例如,对于无应答行动者之间的所有关系,随机插补一个和观察密度成比例的关系,使重建网络中缺失关系的比例等于网络的观察密度。

44基于指数随机图模型的多重插补法

指数随机图模型(Exponential Random Graph Model, ERGM)又称为p

瘙 ?? 模型,是用来描述x分布情况的概率质量函数,其表达式为:

其中,q是网络的实值函数,常以θTz(x)的形式出现,z是网络的向量值函数,其取值为网络统计值。这些统计值也被称为结构统计值,用来描述网络中的结构,如连接、三方关系等的数量。θ是一个维度为p×1的向量参数(θ∈Θ),ψ(θ)是一个常数,用于将函数值标准化(Koskinen, Robins, Wang, & Pattison, 2013)。

ERGM的原理是在综合了实测网络中的多种局部结构特征情况下来计算这些网络出现的可能性。具体过程为,首先使用马尔科夫链蒙特卡洛最大似然估计法(Markov Chain Mont Carlo Maximum Likelihood Estimation, MCMCMLE)模拟出一个随机网络,然后将这个随机网络的参数与实测网络的参数进行对比,最后通过对比指标判断是否采纳结果。Robins(2009)用ERGM方法对有向社会网络数据进行分析时指出,如果模拟的随机网络不能很好地代表实测网络,那么参数将被调整并运用到下一次模拟中,且这样的循环可能至少要进行8000次,直到模拟网络能够很好地代表实测网络为止。

基于ERGM的多重插补法,指的是通过ERGM产生的多个插补值的向量代替每一个缺失数据的过程。例如,当网络数据中存在无应答的缺失数据时,基于ERGM的多重插补法则会将应答行动者和无应答行动者看作是两种不同类型的节点,然后区分应答者之间的关系以及应答者和无应答者之间的关系。最后,根据研究者的调查目的,对缺失数据进行相应的处理。如果无应答者是随机缺失,则在网络特定结构间同质性的前提下利用ERGM对缺失数据进行多重插补。如果无应答者是非随机缺失,且研究重点关注应答者的网络结构,则可以将包含无应答者相关关系的信息看作是外源变量,并使用标准的马尔科夫图模型进行分析(Koskinen, Robins, Wang, & Pattison, 2013)。

基于ERGM的多重插补法最大的优点是,不仅能有效地辨别应答者和无应答者之间的差异是由系统误差还是随机误差造成的,还可以在缺失数据是随机缺失的情况下,最大化地利用观察到的数据信息。基于ERGM的多重插补法从本质上而言是通过网络的局部结构去推断整体结构。因此,即使数据有较大的缺失概率,只要网络有足够数量的局部网络子结构,就能够通过观察到的数据进行有理的推断。Koskinen,Robins和Pattison(2010)用基于ERGM的多重插补法对一个合作关系社会网络中的缺失数据进行处理,实证及模拟研究结果表明,这种基于模型的多重插补法能够正确地解释网络中80%的关系数据及允许有三分之一数据缺失的情况。但是,这种方法最大的缺点是运算过程较复杂,耗时较长。

5问题与展望

缺失数据对社会网络数据分析造成的消极影响主要体现在以下两个方面:(1)减少的样本量大小、行动者及关系的信息易导致模型和数据出现不拟合的情况;(2)缺失数据容易造成参数估计的偏差。例如,Kossinet(2006)和Huisman(2009)的研究发现,缺失数据会使社会网络数据分析的结果产生偏差,因为缺失数据不仅对网络结构描述产生消极影响,还会低估行动者之间的关系强弱和网络的聚类系数,容易造成中心性和度数测量不稳定的情况。因此,缺失数据是SNA广泛应用面临的严峻问题。

从表1的四种缺失处理方法的适用条件比较中可看到,缺失数据处理方法的选择和缺失概率、缺失机制存在较大的关联。进一步比较四种方法的优缺点可以发现,当缺失数据是完全随机缺失时,四种方法的参数估计是无偏的。当缺失数据是非随机缺失时,完整个案法和有效个案法虽简单易行,但容易导致信息的大量流失及具有较低的统计功效和较大的参数估计偏差。其中,和完整个案法相比,有效个案法在参数分布估计方面的偏差要略小,因为有效个案法分析的是全体有效样本的数据。但在其它参数估计方面,两种方法都出现了较大的偏差(Little & Rubin, 1989)。重建法和基于ERGM的多重插补法在非随机缺失的情况下,可以忽略缺失机制的影响而直接在缺失概率较小(20~30%)的网络中应用,两种方法在参数估计方面没有表现出太大的偏差,但是如果网络中的缺失概率较大时,两种方法会受到缺失机制的影响。

当数据是随机缺失时,重建法具有较好的统计功效,对社会网络进行描述性分析时,如计算网络的平均度数、互惠性和传递性等网络统计特征值,即使缺失概率达到50%,重建法仍然能够表现良好(Huisman, 2009)。但重建法只能用于特定网络的数据缺失处理,且在某些情况下会高估连接的数量。虽然,在社会网络中的数据缺失概率不大时,重建法和基于ERGM的多重插补法均没有太大的差异,但是后者能够利用插补值间的差异来衡量估计结果中不确定性的大量信息。和重建法一样,当社会网络中的缺失数据样本量在中等范围以下时,基于ERGM的多重插补法具有较小的参数估计偏差且不会低估标准误,但这种方法唯一的缺点就是运算过程复杂,需要做大量的工作来构建插补集以便于进行结果分析,且当缺失数据样本量大时,模拟网络和实测网络可能会出现不拟合的情况。

就应用现状而言,国内目前还没有关于SNA中缺失数据的处理方法这方面的研究,而国外的应用从2003年至今稳定增长(Butts, 2003; Robins et al., 2004; Kossinets, 2006; Gile & Handcock, 2006; Handcock & Gile, 2007; Koskinen, 2007; Smith & Moody, 2013)。

数据分析的方法篇11

1 遥测复杂数据帧的描述

遥测数据是二进制数据流,主要通过帧结构形式将多路数据进行记录,固定字节长度的文件信息是文件头。子帧中有专门的一路用于副帧和数字量,子帧参数字节和副帧有着相同的数据类型,但是有着不同的数字量参数字节,有着繁多的参数种类。如果数字量结构中相对导弹每个特征飞行时段都需要有一个分帧记录数据,一般分帧有四个,每个分帧可以分为A、B区,在A区不同分帧有着相同的记录参数,在B区记录参数各不相同,这种数字量则为遥测复杂数据帧。

2 大数据量处理

2.1 基于网络数据库的数据处理模式

遥测数据综合处理系统有多个设备组成,包括专用数据导入计算机、数据存储阵列、高性能客户机、交换机、高性能服务器。其中服务器需要配备两台,一台用于中心处理服务器,一台用于做数据存储服务器。中心服务器同时为多个用户提供计算服务,可以充分利用服务器硬件资源提高数据的处理速度。

遥测数据综合处理系统通过将C/S与B/S结合的方式方实现。C/S主要用于处理日常试验任务的数据、数据档案的归档和记录、数据的查询等工作;B/S架构主要用于管理任务、查询统计历史数据、上传下载打包的数据。

按照变化频率,可以将遥测参数分为速变参数和缓变参数。缓变参数有着复杂的记录格式,包括子帧、副帧、数字量等帧结构中都有所分布,如果导弹的型号不同,那么其参数信息表单也存在差异,所以更改频繁、使用单一是其主要的特点。所以,可以采用客户端软件对数据的质量进行检查和分录,由中心处理服务器实现分录数据的对接、平滑滤波和剔除野值。缓变参数处理操作步骤一般如下:

(1)用户通过客户端提供的数据下载功能将项目试验任务遥测数据下载到本地。

(2)对项目任务参数信息进行审核,如果该参数信息表单已经存在那么需要重新配置参数信息表单。

(3)在缓变参数处理软件中输入遥测数据及参数信息表单路径,然后上传到中心处理服务器,完成数据的对接,剔除野值,生成参数数据文件。

(4)上传生成的参数数据文件和参数信息表单,由数据存储中心进行保存。

(5)生成处理结果

用户通过客户端软件对测量数据质量检验报告进行预览,合格后可以打印。

在测量数据的子帧结构中,速变参数记录数据有着相对固定的格式,型号不同的导弹任务参数信息表单基本没有太大的差别,所以可以采用客户端软件实现数据的验证和截取。速变参数记录数据的处理步骤如下:

(1)上传参数信息表单,将数据分路指令发送给速变参数处理软件服务器。

(2)下载遥测数据文件,根据要求执行遥测数据文件质量检查等操作,并且保存到存储中心,将执行完毕的指令发送给客户端软件。

(3)用户通过客户端软件查看测量数据质量检查情况,如果不符合质量评定要求,发送数据对接信令,将不同测量数据的分路数据进行对接,生成参数数据文件并上传存储中心。

(4)用户通过客户端软件从存储中心下载相应的参数数据文件,进行选段采样、谱分析,生成谱图。

(5)用户通过客户端软件将最终参数数据文件保存到存储中心,发送报告生成指令,报告生成服务软件自动生成数据处理结果报告和测量数据质量检查报告,用户审阅通过后即可打印。

2.2 数据选取

随着遥测测量数据量的不断增加,数据的冗余性也逐渐加大。因此,将数据压缩技术应用于遥测数据处理中,在保持参数波形不失真的情况下降低数据处理量,从而达到提高数据处理效率的目的。目前,数据压缩方法很多,常用的主要有相对插值法、二次采样法、抛物线法和一阶扇形内插法,但从压缩比和参数波形保持两方面综合来看,一阶扇形内插法更具优势,具体内容在此不详细叙述,可参考《靶场遥测数据选取方法的比较分析》。

3 结束语

通过改变数据处理模式以及降低数据冗余性,掌握遥测数据记录特点和变化规律,将遥测大数据量处理问题予以解决,这对于靶场遥测数据处理上有着重要的意义。未来应当构建遥测综合处理系统,尽量满足大数据量处理的要求。希望本文提出的观点具有一定的参考价值。

数据分析的方法篇12

(二)以谷歌图书和百度指数为基础的大数据

谷歌图书(Google Books)的创立和互联网搜索引擎的发展,为在社会科学领域内有效克服“大数据”所存在的资料获取难度大、以及学界对其与社会科学研究之间适用性、样本代表性、测量方法的信度和效度等争议提供了有力支持。自2004年年底以来,谷歌公司与哈佛大学、剑桥大学等40多所国际知名大学及相关出版社合作,对馆藏图书及出版社赠书进行了数字化的建设,截止到2013年,谷歌图书最新版语料库中被扫描和识别的图书已经超过3000多万种,目前可供进行全文检索和数据分析的书籍高达8116746种,词汇量为8613亿。其中,汉语(简体)书籍和词汇数量分别为30万种和269亿。表1展示了谷歌图书语料库2012年第2版的主要构成,其数据资源规模的超大体量性和极佳的时空代表性为从事中国社会问题的历史性组群对象和现实社会问题的研究提供了技术可行性支持。

此外,由于近年互联网的迅速崛起已经深刻改变人类社会信息资源聚合方式,加之谷歌图书书籍词频检索时间存在的限制(截至到2008年),并且基于中国大陆网络用户对于搜索引擎使用习惯的考虑,我们认为有必要结合中国国情引入在中文世界中占据核心地位的百度搜索引擎来更加精确、全面地反映处于中国大陆范围内各大城市在本土的受关注度情况,以进一步提高样本的规模性和代表性。我们采用2011-2016年百度指数的“用户关注度’,大数据来分析苏南城市及其他中国主要大城市国内知名度在此期间的变动情况。

这一分析方法的意义还有,对于相关城市地名出现的频率和范围可以从一般意义上佐证知名度的程度和价值,虽然个别大事件,特别是负面意义的大事件,对城市知名度的影响度有较大的影响。但是,在一个较长的时间段内,人们主要关注的是某一城市的整体文化意义,如人们对某城市的历史领域、建筑领域、文化艺术领域等所进行的学术研究和传统文献的表述。因为城市本身的历史与现实的价值而对某城市本身的关注较多,其知名度自然以正面取向和积极意义为主。不言而喻,知名度本身选词的海量意义来说,知名高与经济社会发展的正向、城市优良的环境、城市创新性及向上的积极意义呈正相关。

 (三)城市国内知名度的概念操作化及测量

应该明确,本文所研究的城市知名度是指公众对某城市综合意象的正向性认知,并且依托在全社会诸领域内的综合影响力而提升关注度,而非藉由恶意炒作而“吸引眼球”,以及因重大安全事件和集体性事件而增加关注度。因此,如何寻找更具科学性的测量工具以便从海量无结构的数据中提炼出同时具有时空结构性和研究匹配性的数据就显得尤为重要。笔者认为,语言学中的语料库词频分析的方法可以对某一关键词在特定时段内其所蕴含的文化影响力进行有效测量。在社会科学领域应用“词频比例”方法具有充分的逻辑严密性与系统科学性。一方面,从语言学角度来看,社会历史进程中的多数事件和现象都是依靠书籍语言得以记录,其在承载知识、思维和观念等抽象事物上最具有正式性和权威性。而且,书籍语言不仅蕴含了笔者的观点和意图,而且更能反映当时公众思维倾向和社会整体风尚。超过半个世纪的汉语印刷书籍在某种意义上汇聚了建国以来整个中国社会的知识、观念与经验。由于谷歌图书语料库具有充分的规模性、跨度性和代表性,我们可以逻辑性地假定某一词汇出现在其中的相对频次能够近似地反映这个词汇本身及其蕴含的“文化影响力”,即知名度、公众关注度等,甚至折射出某种社会趋势、风尚或思潮。目前,基于谷歌图书的词频统计研究已经在国际语言学和历史学界得到广泛应用。比如Jean-Baptiste  Michel等人率先利用谷歌图书语料库展开的文化史定量分析,阿瑟比等人对其中的情感用词变迁和英语地区差异进行的研究,以及宾利等人在书籍词汇与经济发展周期之间进行的关联性分析等[l0],都给我们带来很好的研究经验与证明。

在本研究中,我们利用谷歌图书的所有汉语(简体)书籍(1949-2008年)和百度指数(2011-2016年)的全部搜索记录作为语料库(Corpus ),并将提及有关苏南地区和其他城市的词汇频次,作为衡量城市国内知名度的测度,从而在超越以往相关研究的时空跨度上对区域性城市乃至全国范围的城市国内知名度的历史变迁轨迹进行全景探索和深度分析。在具体算法上,由于谷歌图书内汉语书籍中的词汇在数量上不尽相同,为增强数据的时间可比性,

我们用关键词出现频数除以当年的词汇总量。具体的计算公式为:

其中,F表示在公元Y年城市i的出现次数,F为在公元y年中出版书籍的全部词汇量、为在公元y年城市i的同频比例,即国内知名度。

百度指数中用户关注度的计算公式是根据在所选定时段内百度网页或百度新闻的用户搜索量的周平均值得出,其如下:

数据分析的方法篇13

随着计算机应用的深入,计算机技术的成熟,各种应用软件的普及,应用数据也随着日常工作而迅速增长,作为数据仓库的数据库的重要性也日益显著。

数据库系统作为管理信息系统的核心,各种基于数据库的联机事务处理以及联机分析处理正慢慢的转变成为计算机应用的最为重要的部分,根据以往大量的应用实例来看,在数据库的各种操作中,查询操作所占的比重最大,而在查询操作中基于select语句在sql语句中又是代价最大的语句。如果在使用中采用了优秀的查询策略,往往可以降低查询的时间,提高查询的效率,由此可见查询优化在数据库中的重要性。本文就数据库查询优化中的策略进行介绍及探索。

1 基于索引的优化

数据库的优化方法多种多样,不同的方法对提高数据库查询效率也不相同。

索引作为数据库中的重要数据结构,它的根本目的就是为了提高查询的效率。而优化查询的重要方法就是建立索引,建立适合关系数据库系统的索引,这样就可以避免表扫描,并减少了因为查询而造成的输入输出开销,有效提高数据库数据的查询速度,优化了数据库性能。然而在创建索引时也增加了系统时间和空间的开销。所以创建索引时应该与实际查询需求相结合,这样才能实现真正的优化查询。

1.1 判断并建立必要的索引 对所要创建的索引进行正确的判断,使所创建的索引对数据库的工作效率提高有所帮助。为了实现这一点,我们应做到以下要求:在熟记数据库程序中的相关sql语句的前提下,统计出常用且对性能有影响的语句;判断数据库系统中哪些表的哪些字段要建立索引。其次,对数据库中操作频繁的表,数据流量较大的表,经常需要与其他表进行连接的表等,要进行重 点关注。这些表上的索引将对sql语句的性能产生重要的影响。

1.2 对索引使用的一些规则 索引的使用在一些大型数据库系统中会经常使用到,这样可以有效的提高数据库性能,使数据库的访问速度得到提高。但索引的使用要恰倒好处,所以我们在使用索引时应遵守使用原则:建立索引可以提高数据库的查询速度,但索引过多,不但不能实现优化查询,反而会影响到数据库的整体性能。索引作为数据库中实际存在的对象,每个索引都要占用一定的物理空间。所以对于索引的建立要考虑到物理空间容量,以及所建立索引的必要性和实用性。

1.3 合理的索引对sql语句的意义 索引建立之后,还要确保其得到了真正的使用,发挥了其应有的作用。首先,可以通过sql语句查询来确定所建立的索引是否得到了使用,找出没有使用到的索引。分析索引建立但没有使用的原因,使其真正发挥作用。其次,索引得到使用以后,是否得到了预期的效果,对数据库的性能是否实现了真正意义上的提高,只有合理的索引才能真正提高数据库的性能。

2 优化sql语句

在使用索引时可以有效的提高查询速度,但如果sql语句使用不恰当的话,所建立的索引就不能发挥其作用。所以我们应该做到不但会写sql,还要写出性能优良的sql语句。下面,就如何优化引用例子进行说明。

首先,在进行查询时,返回的值应该是查询所需要的。在查询中应该尽量减少对数据库中的表的访问行数,使查询的结果范围最小,这就意味着在查询时,不能过多的使用通配符,如:select*from table1语句,而应该做到最小化查询范围,要查询几行几列就选择几行几列,如:select col1 from table1;多数情况下,用户并不需要查询到的所有数据,而只是部分或靠前的数据时,我们也可以通过sql语句来进行限制查询的结果,如:select top 50 col1 from table1。

其次,对于一些特殊的sql语句,在使用时应正确选择。我们用一组例子来说明,如:exists,not exists。

语句一:select sum(t1.c1) from t1 where((select count(*)from t2 where t2.c2=t1.c2)>0)

语句二:select sum(t1.c1) from t1 where exists(select*from t2 where t2.c2=t1.c1)

两个语句所得到的结果相同,但,语句二的效率要远高于语句一,因为语句一在查询中产生了大量的索引扫描。

在对数据库查询时,所使用的语句多种多样,但选择恰当的的字句能够有效的提高查询效率。

最后,where子句在使用时应该注意的问题。

在where子句中可以使用exist 和not exist代替in和not in。应该尽量避免使用in,not in,or 或者having。可以使用表链接代替 exist。having可以用where代替,如果无法代替可以分两步处理。

3 其他优化方法

数据库的查询优化方法不仅仅是索引和sql语句的优化,其他方法的合理使用同样也能很好的对数据库查询功能起到优化作用。我们就来列举几种简单实用的方法。

3.1 避免或简化排序 应当简化或避免对大型表进行重复的排序。当能够利用索引自动以适当的次序产生输出时,优化器就避免了排序的步骤。

3.2 避免相关子查询 如果在主查询和where子句中的查询中同时出现了一个列的标签,这样就会使主查询的列值改变后,子查询也必须重新进行一次查询。因为查询的嵌套层次越多,查询的效率就会降低,所以我们应当避免子查询。如果无法避免,就要在查询的过程中过滤掉尽可能多的。

3.3 创建使用临时表 在表的一个子集进行排序并创建临时表,也能实现加速查询。在一些情况下这样可以避免多重排序操作。但所创建的临时表的行要比主表的行少,其物理顺序就是所要求的顺序,这样就减少了输入和输出,降低了查询的工作量,提高了效率,而且临时表的创建并不会反映主表的修改。

3.4 用排序来取代非顺序存取 磁盘存取臂的来回移动使得非顺序磁盘存取变成了最慢的操作。但是在sql语句中这个现象被隐藏了,这样就使得查询中进行了大量的非顺序页查询,降低了查询速度,对于这个现象还没有很好的解决方法,只能依赖于数据库的排序能力来替代非顺序的存取。

4 结论

对于数据库的优化,我们要抓住关键问题,提出改善查询效率,这样才能真正使数据库服务得到根本提高。本文在对数据库查询优化的方法上,进行了分析,提出了部分见解,有效的提高数据库查询效率。

参考文献:

在线咨询
了解我们
获奖信息
挂牌上市
版权说明
在线咨询
杂志之家服务支持
发表咨询:400-888-7501
订阅咨询:400-888-7502
期刊咨询服务
服务流程
网站特色
常见问题
工作日 8:00-24:00
7x16小时支持
经营许可
出版物经营许可证
企业营业执照
银行开户许可证
增值电信业务经营许可证
其它
公文范文
期刊知识
期刊咨询
杂志订阅
支付方式
手机阅读