数据分析论文实用13篇

数据分析论文篇1

一、数据挖掘的定义

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程，这些信息的表现形式为：规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据，并从中发现隐藏的关系和模式，进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。

二、数据挖掘的方法

1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法，常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具，处理数据挖掘中的分类问题，回归分析用来找到一个输入变量和输出变量关系的最佳模型，在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归，还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响，是许多挖掘应用中有力的工具之一。

2.关联规则。关联规则是一种简单，实用的分析规则，它描述了一个事物中某些属性同时出现的规律和模式，是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系，原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系，但是，并不是所有通过关联得到的属性之间的关系都有实际应用价值，要对这些规则要进行有效的评价，筛选有意义的关联规则。

3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组，同组内的样本具有较高的相似度，不同组的则相异，常用的技术有分裂算法，凝聚算法，划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系，从而对样本结构做出合理的评价，此外，聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效，在运用某一个算法之前，一般要先对数据的聚类趋势进行检验。

4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法，通过把实例从根结点排列到某个叶子结点来分类实例，叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试，该结点的每一个后继分支对应于该属性的一个可能值，分类实例的方法是从这棵树的根结点开始，测试这个结点指定的属性，然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。

5.神经网络。神经网络建立在自学习的数学模型基础之上，能够对大量复杂的数据进行分析，并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析，神经网络既可以表现为有指导的学习也可以是无指导聚类，无论哪种，输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构，建立三大类多种神经元网络，具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。

6.遗传算法。遗传算法是一种受生物进化启发的学习方法，通过变异和重组当前己知的最好假设来生成后续的假设。每一步，通过使用目前适应性最高的假设的后代替代群体的某个部分，来更新当前群体的一组假设，来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体，产生新种群(后代)的过程；交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换，形成新个体的过程；变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中，可以被用作评估其他算法的适合度。

7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下，只以考察数据的分类能力为基础，解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性，对数据库中的元组根据各个属性不同的属性值分成相应的子集，然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合，形成知识的基本成分。任何初等集合的并集称为精确集，否则，一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素，也就是那些既不能确定为集合元素，也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。

8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的，尽量提高学习机的泛化能力，具有良好的推广性能和较好的分类精确性，能有效的解决过学习问题，现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外，支持向量机算法是一个凸优化问题，局部最优解一定是全局最优解，这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。

事实上，任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法，很难说哪种方法好，那种方法劣，而是视具体问题而定。

三、结束语

数据分析论文篇2

目前发展大数据产业已经上升为国家战略，大数据的价值也得到了社会的广泛认可。众多研究[1-5]表明，大数据不仅为政府治理开辟了新思路，还是企业创新的重要源泉和高校科研的重要支撑。大数据交易平台是整个大数据产业的基础与核心，它使得数据资源可以在不同组织之间流动，从而让单个组织能够获得更多、更全面的数据。这样不仅提高了数据资源的利用效率，更重要的是，当一个组织拥有的数据资源不断丰富和立体化，有助于其通过数据分析发现更多的潜在规律，从而对内提高自身的效率，对外促进整个社会的不断进步。

在现有的大数据交易平台上，数据供应方和需求方各自供需信息，交易双方浏览这些信息，如果发现合适的交易对象，则进行大数据资源的买卖，交易平台只作为信息中介存在。这类大数据交易的本质，其实是单独的大数据资源交易，现有平台可以统称为第一代大数据交易平台。第一代大数据交易平台在供需平衡、数据定价和时效性三个方面都存在较大的不足。本文针对这些不足进行改进，设计了一种全新的第二代大数据交易平台，命名为：融合数据分析服务的大数据交易平台，该平台将数据资源交易与数据分析服务进行深度融合，实现了数据与服务的一体化交易。本研究不仅为当下正在建设的各类大数据交易平台提供有益的借鉴，也丰富了大数据交易的基础理论体系。

2.相关研究

目前大数据交易的相关研究中，比较有代表性的有：

（1）大数据的财产属性和所有权。王玉林等[6]对大数据的财产属性展开研究，认为大数据的法律属性会直接影响大数据产业的发展，而大数据交易实践本身就反映出大数据具有财产属性。但大数据与传统的财产权客体存在较大不同，它符合信息财产的特征，是信息财产权的客体，应受到相关法律的保护。齐爱民等[7]从宏观的角度分析了国家对于其主权范围内数据的所有权，剖析了个人拥有的数据权以及数据的财产权。

（2）大数据的定价问题。刘朝阳[8]对大数据的定价问题展开研究，首先分析了大数据的基本特征、价值特征等定价基础。接着讨论了效用价格论、成本价格论等定价模式。最后分析了大数据的定价策略，并对大数据定价的双向不确定问题进行了详细论述。刘洪玉等[9]认为在大数据交易过程中，由于缺乏足够的历史参考，其数据资源的交易价格很难确定，因此提出一种基于竞标机制的鲁宾斯坦模型，用于大数据交易双方进行讨价还价，以求达成一个交易的均衡价格。翟丽丽等[10]从资产的期权价值角度来评估大数据资源的价值，并指出数据在不断变化和更新，加上数据的非独占性等情况的出现，数据资产的价值可能会下降，最后综合这些因素构建了一个评估模型来计算数据资产的价值。

（3）大数据交易的安全与隐私保护。史宇航[11]认为非法的数据交易会对个人数据等高价值信息的安全造成影响，对非法数据交易的购买方和协助方都应进行处罚。提出应先明确数据的法律属性，再以数据交易所为平台进行交易，并对数据交易所的法律地位进行了分析。殷建立等[12]为应对大数据时代数据采集、交易等过程中的安全问题，综合考虑技术、政策和管理平台等方面的因素，构建了一种个人数据溯源管理体系，该体系可在数据应用时实现个人数据的追踪溯源，从而保护其个人隐私。王忠[13]认为大数据环境下强大的数据需求会导致个人数据的非法交易，为应对这种情况，应该建立个人数据交易许可机制，通过发放交易许可证、拍卖授予等措施实现隐私保护。

（4）大数据交易的发展现状与问题。杨琪等[14]认为我国的大数据交易还处于行业发展的早期，大量数据源未被激活，原因是大数据产业价值链的各个专业环节发展滞后，并且对数据交易中的安全问题和隐私泄露等有较大的担忧。应该对数据产品进行改造，使其更商品化，并且通过政府开放公共数据等措施逐渐消除数据流通中的安全顾虑。唐斯斯等[15]首先分析了我国大数据交易的发展特点、交易类型等现状，接着指出目前大数据交易存在法律法规相对滞后、行业标准不完善、交易平台定位不明确、数据质量不高等问题，最后提出应加快相关法律和标准建设，并推动数据开放，加强交易方式的创新。

除了上述四个主要研究方向以外，李国杰等[16]从理论的角度分析了大数据研究在行业应用和科学研究方面的重要作用，这从客观上反映了大数据流通的必要性。涂永前等[17]认为大数据时代企业管理和运用数据资源的相关成本会成为企业的主要交易成本，这会改变企业的组织结构，并导致企业边界的变化，企业会进行多方向的扩张，这为促进大数据产业发展的相关法律的制定提供了理论支持。总的来看，由于大数据交易本身属于较新的领域，因此相关研究总体上较少，已有研究也大多集中在上述几个研究方向上。实际上，大数据交易平台是实现大数据交易的重要载体，是大数据资源流通转换的主要节点，交易平台本身需要随着整个大数据产业的发展，不断的改进和升级，而现有研究中恰恰缺少对大数据交易平台本身进行创新的研究。由此，本文针对现有大数据交易平台的不足，结合实际设计了一种全新的融合数据分析服务的大数据交易平台，为实践和科研提供借鉴和参考。

3.现有大数据交易平台的不足

大数据本身作为一种新兴事物，当把它作为一种商品进行交易时，其交易平台的设计很自然会参照传统的商品交易模式，即：交易双方先供求信息，再经过讨价还价，达到一个均衡的价格则成交，卖方将大数据资源经过脱敏处理后，交付给买方。目前无论是政府主导的大数据交易所，还是企业或者高校创建的大数据交易平台，都是采用类似的交易模式，这也是第一代大数据交易平台的突出特点。实际上大数据与传统商品有很大的区别，照搬传统商品的交易模式会出现很多问题。本文将从供需平衡、数据定价和时效性三个方面分析现有大数据交易平台的不足。

3.1 数据供需的错配

现有大数据交易平台的第一点不足就是数据供需的错配，即：供应方提供的数据资源往往不是需求方所需要的，而需求方需要的数据在交易平台上找不到，即使有相近的数据资源，也存在很大的数据缺失或冗余，买回去也无法使用。对数据供应方来说，由于无法准确预知数据买方多样性的需求，它只能从自身角度出发，将可以公开的、并且自认为有价值的数据资源放到平台上待售。对需求各异的买方来说，供应方提供的标准数据很难与自己的应用方向精准匹配，这也是目前大数据交易还不够活跃的原因。当然，当供需双方建立初步联系以后，供应方甚至可以为需求方个性化定制大数据资源，但即使这样，供需错配的问题仍然无法解决，原因就在于单个的数据供应方无法提供多维的数据资源，只有多维的数据资源才具有较高的分析价值。

3.2 大数据资源定价困难

大数据资源定价困难是现有大数据交易平台的第二点不足。大数据资源和普通商品不同，普通商品可以直接消费或者作为再加工的原材料，其价值都可以通过最终的消费品价格得到体现。而大数据本身的价值无法直接衡量，需求方购买它的目的是作为数据分析的信息源，但是否能发现潜在的规律还未可知。因此无法在购买前，准确判断出待售数据资源的价值大小。此外，需求方在不确定某大数据资源是否能真正能给组织带来收益情况下，很难给出一个较高的价格，这在客观上会影响数据供应方的交易积极性，加大了供需双方达成交易的难度。

3.3 数据的时效性不强

现有大数据交易平台的第三点不足，就是数据资源的时效性不强。目前很多大数据交易平台上待售的数据资源都以历史数据为主，这是因为数据资源在交易前需要经历脱敏处理，将涉及政府信息安全、企业商业机密和个人隐私等敏感信息进行变换和替代。此外，供应方还需要对原始数据进行初步的清洗，整理成一定的数据格式集中存贮和交付，方便需求方进行数据分析。由于一般的数据供应方并不具备对大数据进行实时脱敏和清洗的能力，只能将采集到的数据资源，经过一段时间的离线处理后，再放到交易平台上，所以只能供应历史数据。随着社会节奏的不断加快，历史数据很可能并不能反映当下的真实情况，越来越多的数据分析都需要用到实时数据作为信息源，这是未来大数据交易必须克服的一个短板。

4.融合数据分析服务的大数据交易平台设计

本文提出将数据分析服务融合到目前的大数据交易中，以此来克服现有交易平台的不足，本节将首先对数据分析服务进行概念界定，再依次介绍平台设计的总体思路和核心模块的设计，具体如下。

4.1 数据分析服务的概念界定

数据分析是指运用各类数据处理模型和信息技术手段，对数据资源进行深度的挖掘，从而发现其中蕴含的规律，作为管理决策的依据。数据分析本身是一种能力，如果一个组织将其数据分析能力提供给其他组织或个人，并收取一定的费用，这就是数据分析服务。在大数据环境下，数据资源不仅体量巨大而且种类多，对数据分析能力的要求不断提高。在这种情况下，只有少数组织具备独立处理大数据的能力，其他的组织比如大量的中小企业，都需要从组织外部寻求专业的数据分析服务，来满足自身的需要。因此，数据分析服务和大数据资源一样存在巨大的市场需求。

4.2 平台设计的总体思路

本文将提出的融合数据分析服务的大数据交易平台，定位为第二代大数据交易平台，它将大数据资源交易与数据分析服务两者进行深度融合，在交易平台上实现数据与服务的一体化交易。大数据交易平台的角色也从原来的数据资源买卖的信息中介，转变为大数据综合服务商。在融合后的大数据交易平台上，数据需求方不再提交数据资源的需求信息，而是直接提出自己的应用方向和想要得到的结果，交易平台再根据需求方的应用方向，反向匹配数据资源和数据分析服务。这个匹配的过程不是单一的数据集或服务的查找，而是对全平台的数据资源进行有效整合，形成高价值的多维数据，再结合复合型的数据分析技术，得到最终的分析结果，最后将分析结果与基础数据一同交付给需求方。交付基础数据的目的，一是方便需求方进行分析结果的对照，为决策提供更精准的参考。二是需求方可以根据基础数据进行衍生挖掘，进一步提高数据的利用效率。平台设计的总体思路绘制成图1。

图1 平台设计的总体思路

4.3 核心模块的设计

融合数据分析服务的大数据交易平台共划分为四大模块，具体如图2所示。

图2 融合数据分析服务的大数据交易平台的主要模块

系统管理模块具体又分为用户管理、系统维护和安全管理。安全管理是系统管理模块的重点，主要包含三个方面的功能：第一，负责整个交易平台的系统安全，通过对交易平台进行实时监控，阻止外部的非法入侵行为，保障平台的正常运行。第二，对数据供应方提交的数据资源进行审核，如果发现是非法数据，则阻止其交易，并及时将有关情况反馈给相关的政府监管部门，由它们进行调查处理。第三，检查所有数据是否经过脱敏处理。如果发现部分数据存在未脱敏或者脱敏不合格的情况，交易平台将负责对该数据资源进行脱敏处理，从而保护数据中的隐私不被泄露。

大数据资源池模块、数据分析服务模块和协同模块是交易平台的三大核心模块，是数据与服务两者融合并实现一体化交易的关键，本文接下来将对这三个核心模块的功能进行详细设计。

4.3.1 大数据资源池模块

大数据资源池模块主要包含三个方面的功能：数据资源格式的整理、数据的多维度整合、大数据资源的云存贮。具体如下。

（1）数据资源格式的整理。由于大数据交易平台上的数据资源来自不同的数据供应方，因此其数据资源的格式会有较大的差异。如果不经过格式整理就直接进行数据分析，很可能会因部分数据无法准确读取，而影响数据处理的效率，严重者还会导致数据分析中断。数据资源格式整理的主要任务是将同一类型数据的格式进行统一，对部分缺失的数据属性进行补充，对错误的数据格式进行修正。

（2）数据的多维度整合。在上文3.1中提到供需错配的一个重要原因，就是单个数据供应方无法提供高价值的多维数据。所谓多维数据是包含用户或者行业多个背景和情境的大数据资源，这些多维数据使用户或行业多个侧面的信息产生了关联，有利于发现深层次的潜在规律。融合数据分析服务的大数据交易平台应该作为数据整合的主体，将单个数据供应方提供的零散的数据资源，进行多维度的整合，当缺少某一个维度的数据时，再向相应的数据供应方进行定向的采集，最后得到相对完整的多维数据，具有很高的分析价值。

（3）大数据资源的云存贮。大数据资源经过格式整理和多维度整合以后，已经可以作为数据分析服务的信息源。下一步就是将这些数据资源进行统一的云存贮，以便数据分析服务调用。以往部分大数据资源由于体量巨大或实时更新的需要，无法上传到交易平台上，或者只提供部分调用接口。融合数据分析服务的大数据交易平台通过建立云存贮中心，将整合后的多维数据进行统一存放和调用，有助于提高数据资源的存取效率。

4.3.2 数据分析服务模块

数据分析服务模块首先根据数据需求方的应用方向，匹配出合适的多维数据资源，再选择相应的数据分析模型分配所需的计算能力，最后将得到的分析结果反馈给需求方。本文将数据分析服务划分为三个大类：基础性分析服务、高级分析服务、深度定制的分析服务。具体如下。

（1）基础性分析服务。基础性分析服务是指那些常规的数据统计，比如：总体中不同对象的占比分析，基于不同属性的关联分析或相关性分析等。这些分析服务耗时较短，分析技术较为简单，只要数据资源本身完备，就可以迅速得到结果。基础性分析服务由大数据交易平台本身来提供，可以面对不同的需求方，实现快速交付。

（2）高级分析服务。高级分析服务是指那些较为复杂的数据分析服务，比如：精准的趋势预测、全面的用户兴趣画像、非结构化的信息挖掘等。这些分析服务需要大量专业的数据处理技术，比如：兴趣建模、视频分析，音频分析、深度语义分析等，必须由大数据交易平台对接第三方的数据分析服务商，由它们来提供高级分析服务。大数据交易平台在同一数据分析领域，应引入多家数据分析服务商，通过动态的竞争，来保证服务的质量。

（3）深度定制的分析服务。大数据分析目前还处在快速发展阶段，很多前瞻性的技术还在试验当中，应该说数据分析技术的发展相对于旺盛的现实需求来说是滞后的。当需要用的某一数据分析技术，在目前的市场上还找不到现成的提供方时，就需要大数据交易平台为其进行深度的定制，交易平台通过多方位的研发能力评估，寻找合适的技术主体来进行专门的技术攻关。

4.3.3 协同模块

协同模块主要包含两个方面的功能：数据分析服务之间的技术协同、交易各方的管理协同。具体如下。

（1）数据分析服务之间的技术协同。在面临较为复杂的数据分析任务时，可能需要用到多个领域的数据分析技术，这时单个的数据分析服务商可能无法独立完成。因为不同的行业领域，都有其行业技术的独特性，需要长时间的专业积累。在这种情况下，就需要多个数据分析服务商相互合作才能完成。数据分析服务之间的技术协同，就是通过一定的技术标准和操作规范，让多个数据分析技术提供方，能够在完成同一任务时，在技术上不冲突，能够相互并行的完成对数据资源的处理，按时按质的交付最终的分析结果。

（2）交易各方的管理协同。在融合数据分析服务的大数据交易平台上，交易的参与者一共有四类，分别是数据资源的供应方、数据分析服务商、需求方和交易平台自身。数据需求方在提交自己的应用方向和预期结果的同时，提交自己的交易预算。交易平台根据需求方提交的应用方向和预期结果，对数据资源和数据分析服务进行反向的选择。如果数据分析任务中只用到了基础性分析服务，则整个交易为平台方、需求方、数据资源供应方的三方交易。如果某数据分析任务，平台自身无法完成，需要用到第三方的数据分析服务商，则整个交易包含了全部四类参与者，是一个四方交易。交易的基本原则是实现参与各方的利益共享。交易各方的具体利益分配如图3所示。

图3 交易各方的利益分配

需求方希望在获得预期结果的同时，其支付的成本在可接受的范围内。交易平台在对数据和服务进行反向匹配后，会出现两种不同的情况：第一种情况是在原交易预算下，可以达到需求方预期的结果，则可成交。第二种情况是，原交易预算较低，在该预算下无法达到需求方要求的结果，这时交易平台会和需求方沟通，提出新的报价，需求方经过考虑后，与平台进行讨价还价，它们在价格上达成一致时才能完成交易。由于交易数据是整合后的多维数据，因此原始数据资源供应方的收益，由平台从总交易价中支付，具体的支付方式可分为平台一次性买断或按次数支付。同一数据资源对于不同的需求者来说，其价值是不一样的，融合数据分析服务的大数据交易平台根据最终的一体化交易成交价，反向对数据资源进行定价，相对于现有的大数据交易平台来说，是一种进步。交易平台的深度参与，会使数据交易的频率加快，原始数据资源供应方会获得更多的收益。数据分析服务商根据具体的数据分析任务，直接参与由平台发起的竞价，达成交易后由平台支付。交易平台本身的收益则是需求方支付额减去其他各方收益的差价。

5.融合数据分析服务的大数据交易平台的优势

本文3.1到3.3中指出现有大数据交易平台存在数据供需错配、大数据资源定价困难、数据的时效性不强三大不足。融合数据分析服务的大数据交易平台作为改进后的第二代大数据交易平台，可以很好地克服上述三点不足。除了这三个方面的优势以外，由于融合后可实现数据与服务的一体化交易，这将扩大交易对象的覆盖范围，提升交易的活力，具体如下。

5.1 直接面向应用，从根本上避免了数据供需的错配

在融合数据分析服务的大数据交易平台上，需求方对交易平台直接提出应用方向和预期结果。交易平台对全平台的数据进行多维度整合，如果缺失某个维度的数据，可以进行定向的采集和补充，最后形成高价值的多维数据。这些多维数据才是真正具有分析价值的数据资源，这是单个数据供应方无法提供的。在得到多维数据后，结合平台自身和第三方数据服务商的分析能力，得到最终的分析结果。交易平台最后交付给需求方的是数据分析结果和基础数据，这种直接面向最终应用的大数据交易方式，从根本上避免了数据供需的错配。

5.2 融合后定价更有根据

在现有的大数据平台上，数据需求方是将数据资源买回去以后自己分析，而在购买数据资源之前，不能预知数据分析效果的好坏，因此无法进行有效的价值判断，这是定价困难的关键点。在融合数据分析服务的大数据交易平台上，需求方不再直接对数据资源付费，而是对最终的数据分析结果付费，并且数据分析结果是根据需求方的要求反向定制的，是符合需求方利益的。需求方可以通过评估预期结果对自身的重要性或收益的改进程度，给出适当的交易预算。交易平台以该预算为参照，对数据和服务进行选择，若出现原预算约束下无法实现预期结果的情况，交易平台再与需求方进行沟通，双方讨价还价后达成交易。这样相对于现有的大数据交易平台来说，融合后定价更有依据。

5.3 融合后可提供实时数据

在融合数据分析服务的大数据交易平台上，数据资源采用云存贮的模式，由平台进行统一管理，这提高了数据资源的安全性。在数据安全有保障的前提下，由交易平台出面和数据资源供应方进行实时数据的对接，将实时数据纳入大数据资源池中。对于单个的数据资源供应方来说，实时的数据脱敏难度太大。但大数据交易平台不一样，它可以利用规模优势，组建强大的计算能力，对大数据资源进行实时的脱敏和清洗，极大地提高了数据资源的时效性。

5.4 融合后将扩大交易对象的覆盖范围，提升交易的活力

融合后可实现数据和服务的一体化交易，让很多自身不具备数据分析能力的组织和个人，也能方便地利用大数据，特别是大量的中小企业，这将大大增加交易对象的覆盖范围。

交易对象的增多会促进交易频率的增长，从而为数据资源供应方带来更多的收益，这样会提升它们参与交易的积极性，鼓励它们供应更多的数据资源，从而提升交易的活力，整个大数据交易行业就形成了正向循环的良好发展态势。

6结语

本文对大数据交易平台本身进行了改进与创新，设计了一种全新的第二代大数据交易平台，即：融合数据分析服务的大数据交易平台。该交易平台可以直接面向需求方的应用方向，实现数据和服务的一体化交易，不仅从根本上避免了数据供需的错配，还使大数据交易的定价更有依据，平台的深度参也让提供实时数据成为可能，这些将从整体上提升大数据交易的效率。融合后数据和服务的一体化交易降低了大数据应用的技术门槛，鼓励更多组织和个人参与，增加了交易活力。未来笔者将继续关注大数据交易平台的创新研究，为实际应用和学术科研提供更多有益的参考。

参考文献

[1]赵强，单炜.大数据政府创新：基于数据流的公共价值创造[J].中国科技论坛，2014（12）：23-27.

[2]徐继华，冯启娜，陈贞汝.智慧政府：大数据治国时代的来临[M].北京：中信出版社，2014.

[3]李文莲，夏健明.基于“大数据”的商业模式创新[J].中国工业经济，2013（5）：83-95.

[4]侯锡林，李天柱，马佳，等.大数据环境下企业创新机会研究[J].科技进步与对策，2014，31（24）：82-86.

[5]张峰，张迪.论大数据时代科研方法新特征及其影响[J].科学学研究，2016，34（2）：166-170，202.

[6]王玉林，高富平.大数据的财产属性研究[J]。图书与情报，2016（1）：29-35，43.

[7]齐爱民，盘佳.数据权、数据主权的确立与大数据保护的基本原则[J].苏州大学学报：哲学社会科学版，2015（1）：64-70.

[8]刘朝阳.大数据定价问题分析[J].图书情报知识，2016（1）：57-64.

[9]刘洪玉，张晓玉，侯锡林.基于讨价还价博弈模型的大数据交易价格研究[J].中国冶金教育，2015（6）：86-91.

[10]翟丽丽，王佳妮，何晓燕.移动云计算联盟企业数据资产评估方法研究[J].价格理论与实践，2016（2）：153-156.

[11]史宇航.个人数据交易的法律规制[J].情报理论与实践，2016，39（5）：34-39.

[12]殷建立，王忠.大数据环境下个人数据溯源管理体系研究[J].情报科学，2016，34（2）：139-143.

[13]王忠.大数据时代个人数据交易许可机制研究[J].理论月刊，2015（6）：131-135.

数据分析论文篇3

1978年底开始的农村家庭承包制改革，使农户成为其边际劳动努力的剩余索取者，从而解决了制度下因平均分配原则而长期解决不了的激励问题（meng，2000）。与此同时，政府开始对价格进行改革，诱导农民提高农业生产率。在农业剩余劳动力被释放出来后，非农产业活动更高的报酬吸引劳动力转移（cook，1999），从而推动农村生产要素市场的发育，原来主要集中在农业的劳动力开始向农村非农产业、小城镇甚至大中城市流动。

由于各种阻碍劳动力流动的障碍尚未拆除，以及政府鼓励农村劳动力就地转移的政策引导，20世纪80年代前期的劳动力转移以从农业向农村非农产业转移为主，主要是在乡镇企业中就业，即所谓的“离土不离乡”。但随着乡镇企业遇到来自国有企业、“三资”企业和私人企业越来越强劲的竞争，必须提高技术水平和产品质量，因而乡镇企业资本增加的速度逐渐加快，吸纳劳动力的速度相应减缓。农村劳动力面临着越来越强烈的跨地区转移的压力。与此同时，外商投资企业、中外合资企业、私营企业和股份公司等其他非国有部门在东部地区发展较快，扩大了对劳动力需求，并成为消除制约劳动力流动体制障碍的一支重要力量。

随着农村劳动力就地转移渠道日益狭窄，1983年政府开始允许农民从事农产品的长途贩运和自销，第一次给予农民异地经营以合法性。1984年进一步放松对劳动力流动的控制，甚至鼓励劳动力到临近小城镇打工。1988年中央政府则开了先例，允许农民自带口粮进入城市务工经商。到20世纪90年代，中央政府和地方政府分别采取一系列措施，适当放宽对迁移的政策限制，也就意味着对户籍制度进行了一定程度的改革。例如，许多各种规模的城市很早就实行了所谓的“蓝印户口”制度，把绝对的户籍控制变为选择性地接受。此外，1998年公安部对若干种人群开了进入城市的绿灯，如子女可以随父母任何一方进行户籍登记，长期两地分居的夫妻可以调动到一起并得以户籍转换，老人可以随子女而获得城市户口，等等。虽然执行时在一些大城市遇到阻力，但至少在中央政府的层次上为户籍制度的进一步改革提供了合法性依据。城市福利制度的改革也为农村劳动力向城市流动创造了制度环境。80年代后期开始逐步进行的城市经济改革，如非国有经济的发展，粮食定量供给制度的改革，以及住房分配制度、医疗制度及就业制度的改革，降低了农民向城市流动并居住下来和寻找工作的成本。

与其他方面的政策改革相比，户籍制度改革在很长时间里没有实质性的突破，成为劳动力流动的最大障碍。所有在就业政策、保障体制和社会服务供给方面对外地人的歧视性对待，都根源于户籍制度。随着时间推移，两方面的因素变化推动政府对迁移政策进行改革。一是城市户籍制度不再拥有外部或隐含的福利，也就是地方政府不再根据个人的户籍来提供就业、社会福利等各方面保障。这样，城市人口规模扩张不会给地方政府增添额外财政负担。二是地方政府意识到，劳动力流动不仅带来资源重新配置，而且也是城市融资的一个重要来源。这样，市场化发育水平相异的城市根据各自目标来推进城市户籍制度改革。

可见，通过户籍制度及一系列其他阻碍人口迁移的制度因素的改革而推动的劳动力流动，不仅是经济发展的一个重要内容，也是整个经济体制向市场机制转变的重要进程，并且以其他领域改革的进展为前提。这个转变或改革的结果便是劳动力市场的形成与发育，劳动力资源越来越多地由市场来配置。而在整个经济不断市场化的过程中，人口迁移也表现出转轨时期的特点。这是中国转轨时期人口迁移的特殊性所在。本文旨在利用2000年人口普查资料来分析人口流动与市场化之间的关系。

一、转轨时期人口迁移理论

人口和劳动力在地区间的流动，是劳动力市场在空间上从不均衡向均衡转变的过程。发展中国家在其经济发展过程中，伴随着工业化和城市化发展，大量农村人口和劳动力从农村流向城市，从低生产率的农业部门流向生产率较高的工业部门。刘易斯（lewis，1954）认为，发展中国家存在着典型的二元经济结构，农村存在着大量剩余劳动力和隐蔽性失业，农业中劳动力的边际生产力几乎等于零或为负值，农村劳动力从农业部门流出不会对农业产出带来负面影响，反而使留在农业部门劳动力的边际产出不断提高；随着城市中劳动力数量不断增加，城市工资水平开始下降，直至城市部门的工资水平与农业部门的工资水平相等，农村劳动力向城市流动才会停止。在刘易斯的模型中，劳动力在城乡之间可以自由流动，不存在显著的制度。城市现代部门的较高工资水平和传统农业部门的低工资水平，是劳动力在城乡之间流动的驱动力量。在托达罗（todaro，1969；harris和todaro，1970）两部门模型分析中，农村人口和劳动力的迁移取决于城市的工资水平和就业概率，当城市的预期收入水平和农村的工资水平相等时，劳动力在城乡之间分配和迁移都达到均衡。

由于城市经济存在着现代正规部门和非正规部门之分，农村劳动力向城市迁移首先进入非正规部门，然后才有可能进入正规部门就业。城市正规部门就业创造率越大，越有利于将更多的非正规部门劳动力转入正规部门；城乡收入差距越大，从农村流向城市非正规部门劳动力数量越多，城市非正规部门劳动力规模也越大。由于城市正规部门的就业创造率取决于工业产出增长率及该部门的劳动生产率增长率，城市工业的快速增长将有利于提高正规部门的就业创造率，从而减少城市非正规部门的劳动力规模。但是，这个效应有可能被城市工资增长所诱发的大量新增农村劳动力流入所抵消。因此，城市正规部门的就业创造结果带来了城市失业率的上升。

费尔茨（fields，1974）认为，托达罗模型中没有考虑农村劳动力在城市正规部门寻找工作的概率问题。由于非正规部门劳动力获得正规部门就业机会的相对概率较低，流入城市的农村劳动力大多数只能滞留于非正规部门。他们之所以能够接受较低的工资水平，主要是在于他们预期能够从得到的城市正规部门工作机会中获得补偿。在托达罗模型基础上，费尔茨引入了搜寻工作机会的观点，一方面强调了城市制度工资和相对就业概率对迁移过程的影响，另一方面也指出，非正式部门大量不充分就业的劳动力保证了劳动力市场实现均衡时的失业率低于托达罗模型得出的估计。非正式部门大量不充分就业的劳动力存在，在一定程度上缓解了城市的失业问题。

随着劳动力流动，城乡劳动力市场开始相互作用。但是，根据托达罗理论，城市失业率上升将起到减缓人口继续向城市迁移。如果依据费尔茨的观点，城市劳动力市场似乎对农村劳动力流动的影响不大。相比之下，在成熟的市场经济中，城市的失业率是影响劳动力流动的重要因素。托普尔（topel，1986）利用美国人口普查资料研究发现，1970～1980年，美国东部、中部和北部各州的平均失业率相对于全国水平上升了23%，同时西部和西南部各州的失业率却显著下降。同期，人口迁移的空间流向恰好与此相反，人口净流入地区为西部和西南部地区，东部、中部和北部均为人口净流出地区。

中国的人口迁移不仅具有发展中国家的一般特征，而且还有经济体制转型的独特之处。如前所述，中国特有的户籍制度及其改革过程，为人口和劳动力自由流动和择业提供了制度基础，这也是研究其他国家人口迁移的理论没有遇到过的问题。随着时间的推移，包括户籍制度在内的各项市场化改革措施必然对人口与劳动力迁移产生显著影响。同时，城市就业环境变化也为我们观察城乡劳动力市场的相互作用提供了条件。

首先，不仅是城乡之间、地区之间的收入差距驱动人口的迁移，市场化水平在城乡和地区间的差异也直接影响农村劳动力迁移决策，从而形成特定的迁移流向。在经济发展的初期，资本相对稀缺而劳动力相对丰富。因此，中国经济的比较优势在劳动密集型产业。在20世纪80年代以前的经济增长模式下，由于政府采取人为扭曲资金价格的方式，在资金密集型产业上投资过多，抑制了具有比较优势的劳动密集型产业的发展，导致产业结构的扭曲，资源配置效率的损失。经济改革以来，通过一系列制度变革，资源配置逐渐转向劳动力较为密集的产业，较好地发挥了中国劳动力资源丰富的比较优势。产品和生产要素市场的发育带来了资源重新配置效率的改善，对经济增长做出了重要的贡献（cai等，2002）。由于生产要素市场发育上在地区之间不平衡，这种资源重新配置的效果主要体现在沿海地区。2000年，92.1%进出口贸易集中在东部地区，中西部地区分别为4.3%和3.6%.同年，86.5%的外商直接投资集中在东部地区，中西部地区分别为8.9%和4.6%.因此，劳动力迁移在东部地区更为活跃，迁移的流向也以从中西部地区向东部地区为特征。

其次，正如在其他国家观察到的那样，较大的迁移距离增加了交通成本、弱化了社会网络关系和目的地的就业信息，减少了迁移者的收益预期，因此，迁移距离上升降低了迁移发生概率。工作的不稳定性和信息获得的不确定性，不仅造成了迁移流向是一个从县内流向县外，从省内向省外的渐进过程，而且使得亲友等社会网络成为迁移者获得非正规部门就业信息的主要方式。格林伍得（greenwood，1969）认为，迁移存量对人口在地区之间迁移扮演着社会网络的作用。先前的迁移可以为后来者提供信息和其他方面的帮助，减少迁移风险，从而对后期的迁移产生影响。蔡fǎng＠①（cai，1999）研究发现，75.8%的省内迁移者、82.4%的跨省迁移者的就业信息获得是通过住在城里或在城里找到工作的亲戚、老乡、朋友获得的。因此，农村劳动力向城市流动通常受到距离所反映出的社会网络强弱的限制，形成分阶段迁移。

第三，尽管户籍制度继续阻隔着农村劳动力向城市迁移，但市场化改革使得城乡劳动力市场开始融合，城市就业环境变化必然对农村劳动力向城市流动带来影响。随着国有企业亏损和非国有部门扩大，越来越多的原国有企业职工开始和迁移者在非正式部门展开就业竞争。在这种情况下，农村劳动力“是走还是留”，取决于正式部门和非正式部门的就业状况，而且其决策通常是暂时的，而不是长期的。这与harris和todaro（1970）模型中所讨论的情况（迁移者在非正式部门临时就业、等待得到正式部门就业机会），以及sethuraman（1981）观察到其他发展中国家的情况（大多数迁移者将他们在非正式部门就业视为永久性的）都有显著差异。一个普遍观察到的现象是，中国农村劳动力向城市和发达地区流动，通常具有季节性特点，最多以年为单位在原住地和迁入地之间往返，呈现出“钟摆式”的流动模式。正如solinger（1999）指出的那样，城市对农村劳动力的大量需求是推进户籍制度改革的必要条件。在非国有经济、特别是外商投资较快的地区，市场力量日益显现，迁移受到鼓励。

二、空间分布特征变化

1990年以来，中国地区收入差距进一步扩大，吸引了中西部地区劳动力向东部地区流动。同时，要素市场发育及资源配置市场化程度，对地区经济增长越来越起着主导性的作用。东部地区不仅对外开放时间早，而且市场发育迅速，较高的市场化水平不断消除了劳动力等要素跨地区间流动的制度，以至成为劳动力流动的主要吸纳地区。而劳动力向东部地区流动反过来也推动了该地区的经济增长，改善了劳动力资源配置效率（cai等，2002）。表1显示了人口迁移空间分布状况的长期变化。1987～2000年，人口迁移的空间分布特征是：地区内部迁移（其中主要是省内迁移）比例始终高于地区间的迁移比例。但地区内部和地区之间的迁移比例则随着时间不断发生变化。东部地区内部迁移比例提高，东部地区流向中西部地区的比例下降。而中西部正好与此相反，中部和西部地区内部迁移比例趋于下降，中部向西部、西部向中部的迁移比例也在下降，而中西部向东部地区流入比例不断上升。

注：（1）从统计口径上看，1987年迁移数量包括迁入时间在半年以上的市、镇和县之间的迁移人口；1990年迁移数量包括迁入时间在1年以上的市、县之间的迁移人口；1995年迁移数量包括迁入时间在半年以上的市，区、县之间的迁移人口；2000年迁移数量包括迁入时间在半年以上的乡、镇、街道之间的迁移人口。（2）全部迁移人口包括地区内部和地区之间的人口迁移，不同年份在迁移时间规定和迁移范围上的差别对地区之间分布会带来一定影响。尽管如此，我们仍可以比较不同年份之间迁移流向的变化。

资料来源：《1987年全国1%人口抽样调查资料》、《1995年全国1%人口抽样调查资料》、《中国1990年人口普查资料》、《中国2000年人口普查资料》。

根据2000年第五次人口普查的10%资料显示，全部迁移人口数量为1246万，占总人口的10.6%，其中省内迁移为7.7%、跨省迁移为2.9%.在总迁移人口中，省内迁移的比重始终很高，为73.4%.当我们描述跨省迁移的流向时，其主要以东部地区为迁移目的地的倾向更加明显。表2给出了三类地区跨省迁移比例的空间交叉分布。2000年，东部地区跨省迁移近65%集中在东部其他各省（市），中部地区跨省迁移超过84%集中在东部地区，西部地区跨省迁移超过68%集中在东部地区。从时间趋势上看，1987～2000年，东部地区内部跨省迁移比例上升了近15%，而中西部地区向东部地区迁移比例上升将近24%，后者比前者高出9个百分点。

从流动的出发地和目的地看，迁移可以被划分为城市到城市的迁移、城市到农村的迁移、农村到农村的迁移和农村到城市的迁移四种主要类型。从这种类型划分来观察地区间迁移的流向，也有助于我们理解转轨时期中国人口迁移的特点。从全国来看，城市到城市的迁移和农村到城市的迁移是目前迁移的主要形式。2000年，两者合计占总迁移人口的77.9%，而且农村到城市迁移的比重（40.7%）大于城市到城市的迁移（37.2%）。农村到农村的迁移比重较低，仅占全部迁移的18.2%.而城市到农村的迁移比例最低，不到总迁移人口的1/25.从时间趋势看，城市到城市的迁移所占比重，在东部、中部和西部三类地区都呈现上升趋势，而农村到城市的迁移比重略呈下降趋势。

三、迁移的决定因素：计量分析

在迁移决定因素的实证分析中，早期的迁移模型将重力迁移模型和就业为目的的迁移模型合二为一，假定迁移数量不仅与迁入地和迁出地的人口和迁移距离有关，而且取决于两个地区之间的工资和失业率的比较。通常，采用下列双对数模型来分析这些因素对迁移流向的影响（lowry，1966；greenwood，1969；fields，1979）。即：。式中，m为迁移率，x为影响迁移流向的各种因素，d为迁移距离，i，j分别为迁出地和迁入地。

舒尔茨（schultz，1982）认为，人口变量反映的是其他影响迁移而没有在模型出现的社会经济变量的作用，它没有行为学上的意义。由于迁移是人口增长的一部分，在迁移实证模型中引入人口规模会带来计量上的共同偏差（fields，1979）。而且，由于迁移存量实际上是人口规模的一部分，如果在实证模型中同时引入这两个变量，将带来严重的多重共线问题，大大降低回归参数估计的效率。因此，通常做法是在实证模型中不引入人口变量。

在回归方程的函数形式选择上，费尔茨（fields，1979）认为，迁移决策本质上是在相互排斥的替代方案之间的一种选择，非对称模型比对称模型对人口迁移具有更强的解释能力。此外，双对数线性回归方程还能够消除奇异值和异方差对估计效率的影响，满足理论上就业机会与工资之间的乘积要求，以及提高回归方程的拟合程度等。他选择了滞后解释变量办法来消除解释变量的内生性问题。我们也采用了所有解释变量数据均为1995年数据的办法来解决迁移模型的内生性问题。

本文数据来自2000年第五次全国人口普查长表资料（10%样本）和微观数据（长表1%样本），1995年全国1%人口抽样调查资料及国家统计局《中国统计年鉴（1996）》。在数据处理上，正式出版的第五次人口普查长表资料没有农村向城市跨省迁移劳动力数量及其失业率数据，我们利用第五次全国人口普查的微观数据计算了这些数据。用于回归分析变量的统计值见表3.

表3用于回归分析变量的统计值

注：*根据微观数据计算。

迁移率的计算，我们采用格林伍得（greenwood，1969）的定义，用1995年11月1日至2000年10月30日从省迁到省的人口数，除以1995年11月1日以前住在省的人口数。根据长表计算得到的迁移率，包括了所有年龄段跨省农村到城市、城市到城市、农村到农村、城市到农村的四种类型迁移人口；用微观数据计算15～64岁农村劳动力向城市的迁移率。按照这种方法计算得到的两个迁移率的平均值都不高（见表3）。

迁移距离为省会之间铁路公里数。中国地域辽阔，铁路是中国跨省迁移的主要交通方式。这点可以从每年春节农民工返乡造成的铁路拥挤状况中得到印证。迁移距离不仅反应了用于直接交通费用的高低，而且在一定程度上代表了迁移所带来的心理成本大小。随着迁移距离增加，迁移带来的不确定性和迁移风险也会上升，迁移成本随之增加（schultz，1982；greenwood，1975）。这在劳动力市场不发达的情况下尤其如此。

直接用城市工工资收入和农村人均纯收入来作为工资率的变量显然不合适。随着收入多元化，相当于实际收入的部分并没有反映到名义收入之中，城乡收入在可比性上也存在一定问题（solinger，1995；jefferson，1992）。奥尼尔（o''''neill，1970）建议采用消费指标来克服收入指标作为工资率变量上的不足。我们利用各省城乡人口作为权重，对城乡居民人均消费支出进行加权平均，作为各省的工资率变量，预期工资率对迁移流向存在两种不同的效应。其中，迁入地为正向效应，而迁出地为负向效应。

1995年全国1%抽样调查和第五次人口普查都对城乡劳动力的就业状况进行了统计。1995年调查问卷中有三项指标用来测度劳动力在调查前一周是否处于失业状态：第一项是从未工作正在找工作，第二项是失去工作正在找工作，第三项是企业停产等待安置的劳动力。2000年人口普查只包括前两项。据此可以计算得到1995年和2000年城乡劳动力的失业率，分别为2.2%和3.6%.由于城乡劳动力的失业率包括了农村劳动力，这低估了城市劳动力市场的就业状况。《中国2000年人口普查资料》公布了分城市、镇和农村的经济活动人口资料，据此计算的城市、镇和农村的失业率分别为9.4%、6.2%、1.2%.利用2000年微观数据计算的城市本地劳动力、城市向城市迁移劳动力、农村向城市迁移劳动力的失业率，分别为9.1%、7.9%和3.6%.如果在迁移模型中忽略了迁移存量，将导致高估其他解释变量对迁移的影响（greenwood，1969）。按照格林伍得的方法，迁移存量应该是以1995年为时点，计算出生在省且居住在省的所有人口。由于中国人口普查资料只提供了出生后一直住在本地和1995年11月1日之前迁入本地等资料，因此，我们采用1995年11月1日之前迁入本地人口指标作为迁移存量的变量。本文中长表的迁移存量包括所有人口，微观数据的迁移存量只包括15～64岁的人口。我们预期迁移存量对人口迁移有正向效应。

在分析地区人均收入差异和经济增长中，贸易开放程度通常被看做是影响地区收入增长的重要因素（barro和sala-i-martin，1995；cai等，2002）。贸易开放程度越高，参与国际市场一体化程度也越高。但是，扭曲的贸易和发展战略也同样起到扩大出口，提高gdp中的贸易份额比重。相比之下，外商直接投资是国外投资者的选择。从长期来看，为了获得最大利润和规避风险，国外企业在其投资过程中要对各地的产品和要素市场发育情况、体制与政策的透明度等因素进行综合考虑，并最终做出投资选择。外资企业进入之后，它利用劳动力市场来解决用人需求，这与国有企业的人事制度形成鲜明对比。因此，我们选择了外商直接投资作为市场化程度的变量，来分析它们对人口迁移的影响。改革以来，虽然所有省份的外商直接投资数量都在增加，但东部地区与中西部地区之间的差异在不断扩大。中国人口迁移流向分布主要集中在东部地区，这与东部地区对市场化改革程度较高是分不开的。四、回归结果与讨论

方程1～3是利用第五次人口普查长表资料得到的回归结果，方程4、5是利用第五次全国人口普查微观数据得到的回归结果。由于海南、重庆、与其他省会之间距离未能得到，在回归中剔除了这3个地区，长表资料中实际用于回归的样本数量为756个。在微观数据中，由于有些省份的迁移率或农村向城市迁移劳动力数量为零，取对数后，这些数据变成缺省值，所以用于回归的样本数量为506个。

从表4回归结果看，利用长表资料得到的回归方程，解释了大约60%的所有人口跨省迁移的行为；用微观数据得到的回归方程，解释了大约30%的跨省农村劳动力向城市迁移的行为。表4的非对称双对数迁移模型估计结果也表明，迁入地社会经济变量对人口迁移的影响大于迁出地这些变量所发挥的作用。

回归方程1～5中大多数解释变量的回归系数t值，如迁移距离、人均消费水平、失业率、迁移存量等，都达到了1%或5%的显著性水平，并且作用方向上与前面的理论预期结果也基本一致。

表4中回归方程1和2的区别是采用了不同的失业率数据，前者是1995年的失业率，后者是2000年的失业率。使用1995年失业率数据虽然有助于克服内生性问题，但方程1中迁出地失业率回归系数的绝对值大于迁入地失业率回归系数的绝对值，这个结果可能与现实情况并不吻合。

1995～2000年，中国城市就业环境发生了急剧变化。伴随着国有企业改革和城市社会福利体制改革，企业大量富余人员被释放出来，城市失业率迅速上升。为了解决本地城市职工就业问题，不少地方政府采取了城市就业保护政策，这势必对以就业为目的的劳动力流动产生较大影响。迁移者是理性的，如果目的地的就业机会较小，迁移者将选择不流动，以减少迁移风险和成本。这样，迁入地的就业机会就显得更为重要。

表4迁移决定因素回归结果

注：（1）采用异方差检验方法（breusch-pagan/cook-weisberg）发现，表中回归方程的依次为：7.85、1.54、1.38、2.80、4.85.我们对回归方程1、5采用robust估计来消除异方差的影响。（2）方程1和5的括号内为robustt值，方程2～4括号内为t值，*代表5%显著性水平，**代表1%显著性水平。

考虑到2000年失业率真实地反映了就业环境的变化，我们以回归方程2为基准，分析不同因素对迁移的影响，并进行比较。在其他条件不变的情况下，迁移距离上升1%，迁移率下降1.08%.受迁移距离的影响，2000年跨省迁移人口比例不到30%，绝大多数迁移人口选择了省内流动。迁移距离在空间位置上是固定的，但改善交通运输条件和制定合理的交通价格有利于减少迁移者的迁移成本，促进劳动力流动。

在做迁移决策时，潜在的迁移者不仅要考虑两地之间直接的收入差距，而且还要考虑到就业机会大小。在回归方程2中，迁入地人均消费水平回归系数在绝对值上是迁出地的近4倍，但迁入地失业率回归系数在绝对值上是迁出地的3倍以上。迁入地失业率对迁移决策较大的边际影响与迁移者面临的选择有关。本地劳动力市场状况是既定的，迁移者对它别无选择。相反，迁移者对迁入地劳动力市场是可以进行选择的，失业率越高的地区，迁入数量就会下降。

目的地的就业信息提供和帮助，对迁移决策有重要作用。迁移存量的回归系数也证实了这一点。社会网络等非正规信息渠道虽然在迁移中发挥着重要作用，但随着人口流动规模扩大，加快劳动力市场信息体系建设就显得非常重要。

将外商直接投资变量引入回归方程2，就得到回归方程3.引入这个变量之后，迁移距离和失业率等解释变量的回归系数及其显著性变化不大，而人均消费水平的回归系数及其显著性发生较大改变。从绝对值来看，方程3中的人均消费水平回归系数小于回归方程2中的回归系数估计值，迁出地人均消费水平的回归系数显著性有所下降，主要是人均消费水平与外商直接投资之间存在较高相关关系导致的结果（注：人均消费水平与外商直接投资的相关系数为0.56.）。跨省人口迁移比例主要分布在东部地区，它与外商直接投资之间存在较强的相关关系（注：外商直接投资与迁移存量之间的相关系数为0.76.），引入外商直接投资变量之后，迁移存量的回归系数数值下降约50%.为了观察城市劳动力市场对农村劳动力迁移决策的影响，我们利用微观数据做进一步分析。回归方程4引入了农村迁移劳动力的失业率，回归结果进一步支持上述发现，即迁入地的就业机会对迁移者来说更为重要。回归方程5引入了城市劳动力失业率。结果表明，城市失业率对于农村劳动力跨省迁移率有显著性影响，其回归系数在绝对值上不仅大于回归方程4中失业率的回归系数，而且大于回归方程2中的回归系数，这说明城市劳动力市场就业形势确实对农村劳动力的迁移决策有重要作用。改善城市就业环境将有利于促进农村劳动力流向城市，起到加速城市化的作用。

五、结论

20世纪80年代以来在中国出现的大规模人口迁移现象，不仅具有发展中国家从落后的农业经济向工业经济转变的一般特征，还具有从计划经济向市场经济转变的特殊性。将二者结合在一起，既有助于考察中国独特的制度特征对人口迁移的影响，又能够通过对中国案例研究来拓展迁移理论。

经济发展水平和市场发育程度在地区之间的不平衡，决定了人口迁移的基本方向不仅是从农村向城市的迁移，而且是从中西部地区向东部地区的迁移。既然中国经济的进一步增长仍然有赖于从生产要素市场发育从而劳动力流动中获得资源重新配置效率（注：约翰森（johnson，1999）认为，在今后30年，如果迁移障碍被逐渐拆除，同时城乡收入水平在人力资本可比的条件下达到几乎相等的话，劳动力部门间转移可以对年经济增长率贡献2～3个百分点。），加快中西部地区市场制度的建设，特别是清除阻碍劳动力市场发育的各种制度，可以引导和规范人口迁移，使其不仅具有微观理性，而且具有更加理性的宏观后果。市场化改革措施（如扩大外商直接投资和对外贸易等）所带来的经济发展将有助于获得“一石二鸟”的功效，也就是讲，它为劳动力流动不断营造同样的发展环境，并在创造就业机会的同时，推进城乡户籍制度改革。

「作者简介蔡昉中国社会科学院人口与劳动经济研究所所长、研究员；王德文中国社会科学院人口与劳动经济研究所，副研究员。

「参考文献

1.中国社会科学院人口研究所（1988）：《中国74城镇迁移抽样调查（1986）》，《中国人口科学》编辑部。

2.国家统计局（1988）：《1987年全国1%人口抽样调查资料》，中国统计出版社。

3.国家统计局（1997）：《1995年全国1%人口抽样调查资料》，中国统计出版社。

4.国务院人口普查办公室（1993）：《中国1990年人口普查资料》，中国统计出版社。

5.国务院人口普查办公室（2002）：《中国2000年人口普查资料》，中国统计出版社。

6.barro，r.&x.sala-i-martin（1995），economicgrowth.newyork：mcgrawhi，inc.

7.cai，fang（1999），spatialpatternsofmigrationunderchina''''sreformperiod，asianandpacificmigrationjournal，vol.8，no.3.

8.cai，fanganddewenwang（1999），sustainabilityofeconomicgrowthandlabourcontributioninchina，journalofeconomicresearch，no.10.

9.cai，fang，dewenwangandyangdu（2002），regionaldisparityandeconomicgrowthinchina：theimpactoflabormarketdistortions，chinaeconomicreview，13，197-212.

10.cook，sarah（1999），surpluslaborandproductivityinchineseagriculture：evidencefromhouseholdsurveydata，thejournalofdevelopmentstudies，vol.35，no.3：16-44.

11.fields，g.s.（1974），rural-urbanmigration，urbanunemploymentandunderemployment，andjob-searchactivityinldcs，journalofdevelopmenteconomics2，165-187.

12.fields，g.s.（1979），placetoplacemigration：somenewevidence，reviewofeconomicsandstatistics，vol.61，issue1，21-32.

13.greenwood，j.michael（1969），ananalysisofthedeterminantsofgeographiclabormobilityintheunitedstates，reviewofeconomicsandstatistics，vol.51，issue2，189-194.

14.greenwoodj.michad（1975），researchoninternalmigrationintheunitedstates：asurvey，journalofeconomicliterature，vol.13，issue2，397-433.

15.harris，j.，andm.todaro（1970），migration，unemploymentanddevelopment：atwosectoranalysis，americaeconomicreview40，126-142.

16.jefferson，g.h.andt.g.rawski（1992），unemployment，underemploymentandemploymentpolicyinchina''''scities，modernchina，18（1），42-71.

17.johnson，d.gale（1999），agriculturaladjustmentinchina：thetaiwanexperienceanditsimplications，officeofagriculturaleconomicsresearch，theuniversityofchicago.

18.leweis，w.a.（1954），economicdevelopmentwithunlimitedsuppliesoflabor，themanchesterschoolofeconomicandsocialstudies22，139-191，reprintedina.n.agarwalaands.p.singh（eds.），theeconomicsofunderdevelopment.bombay：oxforduniversitypress，1958.

19.lin，j.yifu，fangcai，andzhouli（1996），thechinamiracle：developmentstrategyandeconomicreform，hongkong：chineseuniversitypress.

20.lowry，i.s.（1966），migrationandmetropolitangrowth：twoanalyticalmodels.sanfrancisco：chandlerpublishing.

21.meng，xin（2000），labormarketreforminchina，cambridge，uk：cambridgeuniversitypress.

22.o''''neill，j.a.（1970），theeffectofincomeandeducationoninter-regionalmigration，unpublishedph.d.dissertation，columbiauniversity.

23.schultz，t.paul（1982），lifeiimemigrationwithineducationalstratainvenezuela：estimatesofalogisticmodel，economicdevelopmentandculturalchange，30（3），559-594.

24.solinger，d.（1995），thechineseworkunitandtransientlaborinthetransitionfromsocialism，modernchina，21（2），155-183.

25.solinger，d.（1999），citizenshipissuesinchina''''sinternalmigration：comparisonswithgermanyandjapan，politicalsciencequarterly，vol.114，no.3，455-478.

数据分析论文篇4

目前数据网络在电力系统中的应用日益广泛，已经成为不可或缺的基础设施。国家电力数据网一级网从1992年2月一期工程开始规划建设，到1997年7月二期工程开通运行，迄今已有近十年的发展历史。目前国家电力数据网同时承载着实时准实时控制业务及管理信息业务，虽然网络利用率较高，但安全级别较低、实时性要求较低的业务与安全级别较高、实时性要求高的业务在一起混用，级别较低的业务严重影响级别较高的业务，并且存在较多的安全隐患。随着信息与网络技术的发展，计算机违法犯罪在不断增加，信息安全问题已经引起了政府部门和企业的高度重视。因此根据调度自动化系统中各种应用的不同特点，优化电力调度数据网，建立调度系统的安全防护体系具有十分重要的意义。

2．电力系统中各类网络应用的特点

电力系统中网络应用的分类方法有许多种，根据业务类型、实时等级、安全等级等因素，电力系统的网络应用主要可分为生产数据传输和管理信息传输两大类，另外其他的应用还包括话音视频传输和对外服务等。不同的应用系统对安全有不同的要求，如图1所示。

图1基于数据网络的应用系统对安全性的要求

生产控制类中的基于TCP/IP的数据业务，速率要求不高，数据流基本恒定，但业务实时性较强，其中遥控遥调更与电网安全直接相关，可靠性要求较高；与计费相关的电力市场业务对安全性有特殊要求，不仅要求可靠，原始数据还要求保密。从应用范围来看，生产控制类业务分布在各网省调及大量发电厂和变电站，属于较特殊的一类窄带业务。

管理信息类业务突发性很强，速率要求较高，实时性不强，保密性要求较高，覆盖除生产控制类以外的所有数据业务，其网络布局集中于行政办公中心，一般要求为宽带网络。

话音视频类业务是指建立在IP平台上的电话及会议电视，对实时性要求高，安全可靠性无特殊要求，目前其质量还有待提高。对外服务类业务则是指根据市场的需要而建立的数据网络。

3．调度自动化系统的安全防护

3．1制定调度自动化系统安全防护策略的重要性

近年来调度自动化系统的内涵有了较快的延伸，由原来单一的EMS系统扩展为EMS、DMS、TMS、厂站自动化、水调自动化、雷电监视、故障录波远传、功角遥测、电力市场技术支持系统和调度生产管理系统等。数据网络是支持调度自动化系统的重要技术平台，一般要求数据网络安全可靠，实时性要求在秒级或数秒级，其中发电报价系统、市场信息等电力市场信息系统由于需要与公网连接，因而还要求做加密及隔离处理。

建立调度自动化系统的安全防护体系，首先要制定安全防护策略。应用系统的安全策略位于安全防范的最高一级，是决定系统的安全要素。从大的方面讲，安全策略决定了一个系统要达到的安全级别及可以付出的代价；从小的方面讲，安全策略的具体规则用于说明哪些行为是允许的，哪些行为是禁止的。系统是否安全，很大程度上依赖于最初设计时制定的安全策略，因为今后的安全措施，都围绕这一策略来选择和使用，如果在安全策略上出了问题，将会给今后的应用系统带来安全隐患，从而使将来的安全建设处于十分被动的局面。因此考虑调度自动化系统的安全，应首先根据系统对安全性、可靠性、实时性、保密性等方面的不同特殊要求，按照国家有关部门的规定，从应用系统的各个层面出发，制定完善的安全防护策略。

3．2信息系统的安全分层理论

一个信息系统的安全主要包含五个层面，即物理安全、网络安全、系统安全、应用安全、人员管理。调度自动化系统的安全防护体系应包含上述五个层面的所有内容。

物理安全主要包含主机硬件和物理线路的安全问题，如自然灾害、硬件故障、盗用、偷窃等，由于此类隐患而导致重要数据、口令及帐号丢失，称为物理安全。

网络安全是指网络层面的安全。由于联网计算机能被网上任何一台主机攻击，而网络安全措施不到位导致的安全问题。

系统安全是指主机操作系统层面的安全。包括系统存取授权设置、帐号口令设置、安全管理设置等安全问题，如未授权存取、越权使用、泄密、用户拒绝系统管理、损害系统的完整性等。

应用安全是指主机系统上应用软件层面的安全。如Web服务器、Proxy服务器、数据库等的安全问题。

人员管理是指如何防止内部人员对网络和系统的攻击及误用等。

3．3国家对网络及信息安全问题的有关政策和法规

国家有关部门对安全问题的有关政策和法规，对制定电力调度控制系统的安全策略起到指导性的作用。

公安部是国家企事业单位及公共安全的主管部门，已经颁布了安全防护方面的一系列文件，正在制定安全保密和保护的等级，规定各部门应根据具体情况决定自己的安全等级，实行国家强制标准。公安部规定，从安全保密角度看，政府办公网应与外部因特网物理隔离，并认为自动控制系统应与外部网络绝对物理隔离，可根据业务的需要建立专用数据网络。

国家保密局是国家党政机关安全保密方面的主管部门，也颁布了一系列安全保密方面的文件。1998年10月国家保密局颁布的“涉及国家秘密的通信、办公自动化和计算机信息系统审批暂行办法”规定，涉及国家秘密的通信、办公自动化和计算机信息系统的建设，必须与保密设施的建设同步进行，系统集成方案和信息保密方案不可混淆，应从整体考虑。1999年7月国家保密局发出的“关于加强政府上网信息保密管理的通知”、1999年12月10号文“计算机信息系统国际联网保密管理规定”和1998年1号文“计算机信息系统保密管理暂行规定”均确定，涉及国家秘密的计算机信息系统，不得直接或间接地与国际互联网或其它公共信息网络相联接，必须实行物理隔离。

1996年11月原电力部、国家保密局752号文“电力工业中国家秘密及具体范围的规定”明确了电力工业中涉及的国家秘密和重要企业秘密，均必须参照国家有关保密方面的规定。

电力生产事关国计民生，电力系统的安全和保密都很重要，电力自动化系统要求可靠、安全、实时，而电力信息系统要求完整、保密。两种业务应该隔离，特别是电力调度控制业务是电力系统的命脉，一定要与其他业务有效安全隔离。

3．4调度自动化系统数据网络的安全防护策略

3．4．1数据网络的技术体制

规划数据网络技术体制和电力系统安全防护体系，应根据电力生产业务对数据网络安全性、可靠性、实时性方面的特殊要求，并遵照国家对单位和重要设施在网络安全方面的有关规定。首先应根据网络的规模、目的、服务对象、实时程度、安全级别等综合考虑，确定最基本的网络技术体制。

从应用和连接方式来看，企业内部网络有两类：一类是与公网完全隔离、在链路层上建立的企业内部网络一般称为专用网络；另一类是连接于公网、并利用公网作为通道的企业内部网。第一类网络除了面临来自物理层面的安全问题外，主要面临内部的计算机犯罪问题，如违规或越权使用某些业务、查看修改机密文件或数据库等，以及从内部发起的对计算机系统或网络的恶意攻击。第二类网络除了具有上述安全问题外，还要承受来自公网的攻击和威胁，由于公网上黑客、病毒盛行，网络安全的攻击与反攻击比较集中地体现在公网上。

由于电力调度数据网的服务对象、网络规模相对固定，并且主要满足自动化系统对安全性、可靠性、实时性的特殊需求，为调度自动化系统提供端到端的服务，符合建设专网的所有特征，所以电力调度数据网宜在通道层面上建立专网，以实现该网与其他网的有效安全隔离。

目前国家电力数据网同时承载着调度控制业务和管理信息业务，应当在将来通道资源允许的条件下，将现有电力调度数据网上的信息业务逐步分离出去，改造成为实时控制业务专用的数据网络。

电力系统中的光纤通信网络正在加紧建设，采用光纤+SDH+IP模式容易实现对不同IP应用业务之间的物理隔离，具有较高的传输效率，能满足控制、保护等电力系统的关键业务的要求，便于调度部门能对网络进行有效监控，并便于通信部门对外出租带宽。因此用光纤+SDH+IP模式建立调度数据专网是一个适当的选择，可以很好满足电力系统的下列要求：

（1）数据传输的实时性（继电保护毫秒级，自动化秒级），要求网络层次简化。

（2）传输的连续性，通信负荷基本恒定，需要恒定带宽。

（3）远方控制的可靠性（遥控、遥调、AGC等），要求有效隔离。

（4）因特网时代的安全防护体系（防黑客、防病毒、防破坏等）。

（5）网络拓扑结构必须覆盖远离城市的电厂、变电站。

（6）充分利用SPDnet的现有设备，节约大量资金，便于平滑过渡。

3．4．2调度专用数据网络的安全防护措施

调度专用数据网除了传送EMS数据外，还传送电能量计量计费、水调自动化、电力市场信息和调度生产信息（工作票和操作票、发电计划和交易计划、负荷预报、调度报表、运行考核等）。应根据各类应用的不同特点，采用不同的安全防护措施，如EMS等实时控制业务具有较高的优先级，应该优先保证，生产信息的优先级次之，而电力市场信息须进行加密处理等。

采用调度专用网络体制使数据网络在网络层的的安全得到最大程度的保证。但也不能保证100%的安全，对调度数据专用网络还必须做到技术措施和管理制度双管齐下，才有可能从根本上保障信息和控制系统的安全。在管理制度方面，要做到：

（一）对全网实施监管，所有与电力调度数据网连接的节点都必须在有效的管理范围内，保障安全的系统性和全局性。

（二）加强人员管理，建立一支高素质的网络管理队伍，防止来自内部的攻击、越权、误用及泄密。

（三）加强运行管理，建立健全运行管理及安全规章制度，建立安全联防制度，将网络及系统安全作为经常性的工作。

（四）聘请网络安全顾问，跟踪网络安全技术。

在技术措施方面，要做到：

（一）在网络传输层，为了保证数据网络的安全，又能向外传输必要的数据，必须坚持调度控制系统与调度生产系统之间、调度生产管理系统与企业办公自动化系统（OA/MIS）之间有效安全隔离，它们之间的信息传输只能采用单向传输的方式。常采用的措施包括防火墙、专用网关（单向门）、网段选择器等进行有效隔离。另外在调度数据专用网络的广域网和局域网上，根据不同的业务系统，还可采取以下技术手段：

（1）网络安全访问控制技术。通过对特定网段和服务建立访问控制体系，可以将绝大多数攻击阻止在到达攻击目标之前。可实施的安全措施有：防火墙、VPN设备、VLAN划分、访问控制列表、用户授权管理、TCP同步攻击拦截、路由欺骗防范、实时入侵检测技术等。

（2）加密通信技术。该措施主要用于防止重要或敏感信息被泄密或篡改。该项技术的核心是加密算法。其加密方法主要有：对称型加密、不对称型加密、不可逆加密等。

（3）身份认证技术。该项技术广泛用于广域网、局域网、拔号网络等网络结构。用于网络设备和远程用户的身份认证，防止非授权使用网络资源。

（4）备份和恢复技术。对于网络关键资源如路由器、交换机等做到双机备份，以便出现故障时能及时恢复。

（二）在系统和应用层面，包括计算机防病毒技术、采用安全的操作系统（达B2级）、应用系统的关键软硬件及关键数据的热备份和冷备份等。防病毒技术和备份措施是通常采用的传统安全技术，而安全的操作系统是一个新的发展趋势。

4．结论

电力调度数据网络是调度自动化系统的支撑平台，网络安全是系统安全的保障，专用数据网络是整体安全防护体系的基础，专网体现在网络互联、网络边界、网络用户的可管性和可控性。目前，国际上正在制定相应的自动化系统网络安全标准，国内也开始进行相关课题的研究，对于调度自动化系统及数据网络的安全防护措施，首先应在网络技术体制方面，采用光纤+SDH+IP的数据专网模式，在全系统实现电力调度专用数据网络与其它公用信息网络、电力生产控制系统与办公自动化系统等的安全隔离，同时在调度专用数据网及各相关应用系统上采取必要的安全防护技术手段，建立严密的安全管理措施，以确保电力调度系统和电力系统的安全。

参考文献：

1.余建斌.黑客的攻击手段及用户对策.北京：人民邮电出版社，1998年

2.OthmarKyas著.王霞，铁满霞，陈希南译.网络安全技术-风险分析、策略与防火墙.北京：中国水利水电出版社，1998年

3.赵遵廉等主编，电力市场运营系统，北京：中国电力出版社，2001年1月

数据分析论文篇5

对于定量资料，应根据所采用的设计类型、资料所具备的条件和分析目的，选用合适的统计分析方法，不应盲目套用t检验和单因索方差分析；

2.定性资源

对于定性资料，应根据所采用的设计类型、定性变量的性质和频数所具备的条件以及分析目的，选用合适的统计分析方法，不应盲目套用X-检验；

3.回归分析

对于回归分析，应结合专业知识和散布图，选用合适的回归类型，不应盲目套用简单直线回归分析，对具有重复实验数据的回归分析资料，不应简单化处理；

数据分析论文篇6

一、统计数据质量的含义

传统的统计数据质量仅仅指其准确性,通常用统计估计中的误差来衡量。但如今“质量”的概念被拓宽了，“统计数据质量”的概念也有必要拓宽。目前各国统计机构和有关国际组织对统计数据质量含义的解释和理解仍存在一定的分歧，对统计数据质量应涵盖哪几个方面，还没有统一的标准。各国从本国的实际情况以及对数据质量含义的理解出发，确定了不同的数据质量标准。如英国政府统计数据质量标准是准确性、时效性、有效性、客观性；韩国的质量标准则是适用性、准确性、时效性、可索取性、可比性、有效性。在我国，统计数据质量主要包括统计数据的核心质量、形式质量及延伸质量三大方面。

二、我国统计数据质量管理现状及存在问题

改革开放以来，我国统计人员大胆探索，辛勤实践，在指标体系、调查方法、统计标准、技术手段、数据报送与处理方式等方面进行改革，较好地满足了社会各界对统计信息的需求，推动了统计事业的发展。但是，浮夸风以及片面追求假、大、空现象仍然存在，这些都违背了统计工作的基本要求，阻碍了统计工作的发展。目前我国统计数据质量管理上存在的问题主要有：

1.统计数据失真。统计制度不够完善是造成统计数据失真的内在因素，表现在：统计部门内部各专业在统计方法、指标涵义、口径上还存在一定程度上的不统一；专业间统计方法改革不同步；统计范围、口径的理论值与实际值出入有时还比较大；统计与财会在核算周期上还存在一些差异，并且在统计数据质量管理上各级统计管理部门在统计执法过程中力度不够，对统计过程缺少制约与监督，对统计数据缺乏校验与复查的有力措施。

2.设计时需求不明确，缺乏远见。数据库与文件管理系统的重要区别之一在于不仅存放数据，而且存放数据之间的相关性。相关性不仅表现在数据依存的时间、地点、类型和名称等原始属性上，还会在数据的转移过程中产生再生的相关性。搜集数据阶段使用的方法不正确，应用需求不明确等都会影响数据完整性和准确性。

3.数据处理手段发展不平衡。数据处理手段出现从基层的手工操作到省、国家一级政府统计数据处理的高度信息化。就地域而言，占全国70%以上的地方统计数据处理是手工操作或半手工操作，速度慢、效率底，可靠性差，这与统计的及时性要求不相符合。统计所反映的当前经济现象的真实性难以确定。

4.质量管理监督措施不够健全。由于多数检索系统没有进入实际应用阶段，数据质量的控制和监督往往被人们忽视。绝大多数单位在数据准备、录入阶段缺乏审核等质量控制、监督措施，著录标引的检查，一般采取自己审核或互相审核的方法。缺少科学的统计数据质量评估和监控造成统计数据不同层次脱离实际的偏差，给决策带来极大的不便。

5.统计人员队伍素质不高。基层统计工作薄弱，统计手段落后，统计人员素质比较低，基层统计队伍不稳定都影响了统计数据质量。

三、我国统计数据质量管理问题的原因分析

在目前我国统计数据质量管理中，以单项数据质量管理为主，缺乏综合的、全面的质量管理体系；对数据质量内涵的理解相对来说仍较为狭隘，在实践中主要围绕着数据准确性进行评估，对数据质量的其他方面重视不够；在评估过程中，没有让社会公众和用户充分参与进来，评估机制缺乏必要的透明和有效性，未能取得社会各界对数据资料的充分理解和认可；对于多种经济成分的数据质量评估方法不够明澈；缺乏明确的数据质量管理要求和目标。

从数据质量管理的角度来看，我国统计数据质量管理存在诸多问题的原因在于：

1.统计数据质量理论及其控制技术与政府统计实践脱节。各种统计数据质量控制技术在我国的实际统计工作中的研究和应用不多，对于经常性统计数据质量控制，实际上还主要是采用事后的分析评估和挤水分的方法，而事前的分类预防控制不多，建立误差模型进行分析的也不多，所应用的仅有的一些事后质量控制技术和统计数据质量管理的组织活动没有实现很好的结合，虽然指定了主要统计数据质量的评估方法，但具体方法的应用、由哪些部门负责以及这些部门的质量责任、职权和义务并不明确。

2.统计数据质量管理中的全面质量管理并不全面。全程性上，只重视调查环节，不重视统计设计环节对数据需求的研究，从而影响数据相关性、及时性的提高；全域性上，所实行并取得很大成功的统计数据全面质量管理的措施及经验，主要集中于几个专项的普查，应用范围较窄；全员性上，只重视统计系统内部的人员控制，而对统计系统外部的，占统计工作人员2/3的基层统计人员却无从控制。

3.缺乏明确的质量管理目标和统一的质量管理规范。对统计数据质量管理缺乏明确的质量方针和质量目标，缺乏相对统一的统计数据质量管理标准和规范，导致了统计数据质量的混乱。

4.控制措施与事后评估结果及发现的问题没有很好结合。统计是一项循环往复的过程，因此每一次新的修订统计设计都应反映出上一次数据质量评估的结论以及质量改进的要求。但是从公布实施的统计调查制度上看，事先的控制措施，如填表要求中的平衡关系，逻辑审核关系用于质量控制的设计内容较少。

四、提高我国统计数据质量管理的对策和建议

多年来，国家统计局一直把统计数据放在首要地位，通过不断努力与实践的，摸索出一套方法，即一靠科技，二靠法制，对统计数据实行全面质量管理。在此，结合专家学者对统计数据质量管理的研究，笔者提出一些自己的看法。

1.搞好统计调查方法的改革是提高统计数据质量的前提。国家统计局在《国家统计制度的总体方案》中提出了我国统计调查方法改革的长远目标，即“建立以必要的周期性普查为基础，以经常性的抽样调查为主体，同时辅之以重点调查、科学推算和少量的全面报表综合运用的统计调查方案体系”指明了抽样调查作为新统计调查体系的主题，精简全面统计报表。要提高统计数据质量，必须推广抽样调查方法的应用，它避免了对总体单位的逐一调查和较多的中间环节，在较大程度上减少了各方面对统计数据在调查过程中的干扰，因而使得调查的数据较符合客观实际。它具有事先计算及控制抽样平均误差和便于对样本指标进行检查，避免调查工作中间环节的弄虚作假的特点。大大提高了统计数据的准确性和及时性。

2.强化统计基础工作是提高统计数据质量的保证。首先要搞好统计调查表的设计。企业综合统计部门应根据上级部门和本企业生产经营管理的需要，会同会计等部门统一设计企业内部套表，在设计中应体现新的国民经济核算体系，各指标之间应相互联系，相互配套，统计指标的涵义、范围、计算口径应一致。统计表的设计，统计分类标准和各种编码应当统一，以适应计算机整理、汇总、分析的需要。新的统计报表的采用，可以克服企业统计工作中存在的杂乱、重复、矛盾等弊端，也有利于报表的规范化、系统化，更有利于统计数据的准确性。其次，实现原始记录、统计台账的标准化。我们知道，原始记录是业务核算、会计核算、统计核算的共同基础，只有这样才能使三种核算结果相互衔接，口径一致，而要保证核算数字的准确性，要求核算的数字来源，都有真实的原始记录为依据。从原始记录开始一直到整理、场内报表及三种核算，数字来源通过逐级加工，都是有据可查的。只有这样核算，数字的准确性才有确切的保证。

3.加强统计法制法规建设是提高统计数据质量的法律保障。在企业统计工作中，主观随意性是影响统计数据质量的重要因素。领导者的法制观念和对统计数据质量的重视程度以及统计人员的综合素质，对统计数据质量有着直接的影响。只有具有强烈的事业心和责任感，具有高度的统计法制观念，具有基本的工艺技术知识和统计技能的统计人员，才具有做好统计工作的前提和基础。因此，要加强统计法制建设，健全统计法规，防止某些企业领导和统计人员对统计数据弄虚作假，要确定统计犯罪的界限，作出良性的具体规定，以强化统计法规的法律效力和约束力。应通过典型案件的查处和暴光宣传《统计法》，引起全社会的关注，提高社会公众的法制观念和执法自觉性，使《统计法》真正成为提高统计数据质量的法律保障。

4.提高统计人员的业务素质是提高统计数据质量的关键所在。统计数据质量与统计人员的业务素质和队伍稳定有直接的关系，企业统计人员是提高统计信息最基础、最原始数据的源泉，因此，为了提高统计人员的业务素质，必须搞好他们的上岗和在岗培训，要实行“统计员资格”考试制度，达到合格标准并取得上岗合格证方可上岗。要提高统计人员的统计分析能力，掌握多种使用统计分析方法，例如聚类分析法、判别分析法、回归分析法、相关分析法、主成分分析法等。其次还要提高统计人员对现代统计分析软件的应用能力做到“一专多能”。依靠科技手段快速提供高质量的统计数据。企业还应按规模大小、统计业务的难易程度，配备有一定统计职称的综合统计人员，以提高统计工作质量，保证统计数据的准确性。

5.用科学的统计分析方法对数据质量评估是提高统计数据质量的方法保证。首先，可运用抽样调查法推断总量指标的准确性，它是对全面报表、普查、重点调查的基层统计数据或汇总统计数据进行可靠性检验或误差判断的科学方法。其次，运用回归分析法检测统计数据的可信度。例如，在对汇总数据的评价中，可利用回归分析，发现矛盾，提高数据的可靠性，并可用计算机建立模型，对各类数据纵横比较，以确定其质量。另外，还可用主次因素排列分析图、因果分析图来分析各种统计数据质量。在多种经济成分的统计数据中，要寻求一种能够多因素同时考虑的方法，不能只局限与一些单一因素的评估方法。例如运用模糊评价法等。要加快成立相对独立的专门从事统计数据质量评估的社会终结组织结构，确保统计数据评估的独立性和公正性。

6.加大新的统计技术的应用是提高统计数据质量的必要途径。计算机技术不仅可以实现数据处理高速化、数据传输网络化、数据贮存资源化，从而降低统计数据在人工处理、传输、贮存等环节上的技术性误差和逻辑性差错，而且有利于从机制上形成强有力的统计质量管理体系，维护统计数据管理相对独立性并有效地遏止随意虚报、瞒报以及统计数据质量的其他腐败行为。

总之，提高统计数据质量是统计工作的永恒主题，要在明确什么是统计数据质量的基础上，抓住影响统计数据质量的关键，采取切实有效措施，最大限度地保证提高数据的质量，确保统计三大职能的发挥。

五、结语

统计信息是社会经济信息的主要组成部分，在社会经济生活中发挥着越来越重要的作用。作为其表现形式的统计数据的质量也受到越来越多人的关注。而目前我国的统计数据质量管理，不论是与社会各界的需求相比，还是与相关国际准则的运作要求相比，均存在一定差距。完善我国统计制度是一项长远的任务，这需要统计人员与社会各界的共同努力。

【参考文献】

[1]李金昌．论什么是统计数据质量[J]．统计与决策，1998，（9）．（下转第22页）

（上接第50页）

[2]唐修亭，韩鹏．试论新时期统计数据质量问题[J]．统计与咨询，2000，(6)．

[3]贾维洁．统计数据质量之我见[J]．统计科学与实践，2002，(1)．

[4]田静．关于统计数据质量问题的思考[J]．统计与决策，2005，(11).

[5]陈郁．弄虚作假统计数字现象透视[J]．中国统计，2002，(2)．

[6]史象奎．陈鹏程．当前统计制度报表存在的问题与改革探讨[J]．北京统计，2002，(7)．

[7]刘建平．我国工业抽样调查研究[J]．山西财大报，2002，(2)．

[8]陆蓉．运用抽样调查方法提高统计数据质量[J]．上海财经大学学报，2004，(4)．

[9]余芳东．国外统计数据质量评价和管理办法及经验[J]．北京统计，2003，(7)．

[10]李群．统计数据质量评估方法之我见[J]．上海统计，2004，(8)．

数据分析论文篇7

根据一份市场调查显示；卖家本身体现的实力给人与信任可依赖程度越高，用户越愿意来购买商品。

在我评论之前，我申明一下，一家之言只代表一个群体的言论，并不能涵盖每个人的想法与判断，电子商务的数据报告只能说明趋势，并不能完全反应出每个顾客真实的意图。卖家信誉-28%。价格-26%。网站的外观和感觉-16%。网站易用性-15%。商品打折-4%。快递和交付等原因-3%。出现在搜索引擎上-2%。

这是一份市场调查的结果，数据报告对实际商业产生怎样的影响，一个关键问题就是筛选问题的分类方式，他是否独立又相互依存，论点论据之间重合度越低，数据报告能说明的问题越准确。但在这之前首先是样本数据的获取与筛选方法，这里就不追溯了。我只是想根据个人对电子商务的理解，结合这份报告说点事，实际上这一组数据比较接近我个人对网购的理解，首先我们逐条说明这些影响一个网店的因素：

二、卖家信誉

之所以被普遍认为是最重要的，是因为我们网购时并不真实的接触到产品，也并不了解向你推销商品的人是否值得可信，这都是顾客基本的一个需要认知过程，互联网上哪里去确认?当然如果你在一家多卖家的平台上，往往都会有商家信用，评论等功能，很容易通过别的顾客消费情况增加自己对商家的认知。电子商务为什么要打假信用?这只是顺应顾客需求，维护健康秩序所必须做的事情。所以作为卖家不要轻易尝试作假信用，或者你今天逃过一劫，但说不定你明天网店刚做大的时候被强行关闭了。

三、价格

价格是一道屏障，在相互比拼中，有人拼得起，有人拼不起，但如何更好的控制价格，削减顾客成本，不仅为自己赢得更多展示机会，也会赢得更多顾客。价格不会是越低廉越好，最好的平衡体系没有，只有一个方法，如何在综合上为自己赢得市场??有人习惯选一些比如3.99美元的价格，看上去不加拿一分钱顾客潜在心理是这个人没赚钱，但值得说的是商品定价因产品，因地域时间，顾客等因素制宜，现在的顾客不都是傻子，商品有的是比价机会。也有人选择款0利润或者赔本的商品推，但在商品里关联组合商品卖，通过吸引用户购买自己的组合商品或者别的商品来拉动自己销售利润；还有的人也是利用免费赠送或者赔本的方式挂商品，但通过物流利润来保证自己不亏本的方式拉动店铺其他产品行销。

四、网站的外观与感觉

有的人店铺半年一年都是淘宝默认的最烂的那套模板，也不知道为什么淘宝没更新还是咋的，我没卖过商品，还不是很了解那个，但我买东西基本不光顾这样的店铺，店主对店铺的打理程度决定了我对店主的看法，因为信用不是绝对可靠的；产品，服务好不好，全在你的形象与行为上。

五、网站易用性

你能忍受自己在一个网站哗啦了半天结果没搞懂应该怎么买商品吗?我一个朋友，按照我的认识他也是比较理性，属于心思敏捷的，他说他在XX网站搞了好久，都不知道怎么买东西，所以以后都没去过；虽然易用的应用都还是不能被所有人接受，但简单清楚的，没有歧义的每一步流程总是好的。不过这个虽然用户关注的多，但我觉得但凡有点认识的，认识相应语言的人大概都明白很多网购系统的操作流程。这里就不说什么了。

六、促销打折

商品打折也属于价格范畴，只是这里细化成了一个活动，活动可以是定期的比如每周二，三，四晚上限量抢购啊；选2款顾客竞价啊；前面“价格”里也提到的0价格换信用，换软文之类的啊；参与商盟联合促销啊；换季狂甩啊之类的。总之参与打折的，有资本经历运作打折的，只要PV高，顾客肯定不会少，除非你的商品含有价格，性能，服务等水分太大，用什么样的打折方法，最关键的你是销售一时还是为了希望吸引到长久的顾客而去设计。

七、快递与交付等原因

物流过程中虽然有很多不可控因素导致一些商品容易磨损之类的，但物流惧怕承担责任的态度决定了自己的发展框架，假设一下，你的企业就在你的心胸里；你心胸只有100㎡大小，即使你鼓足了劲你也最多到120㎡，这样的容量是没有办法和犹如大海宽广心胸的人比较的。我是没记住你，但有人记住你了，他下次要走物流，肯定不会选你，你损失的不只是一个用户，而是损失了一个未来。

八、搜索排名

我没有看到他们分析提交的数据时基于怎样的搜索引擎，这个分类其实很不准确，虽然数字已经很少了，我自己买商品在淘宝，有啊上都用他们站内的搜索引擎，如果我常用的几个排序商品方法筛选数据你都没排列在前三页，那么即使你离我最近，就住在我隔壁，你服务态度最好，商品也不必别人的差；但你离我还是太远了，我根本找不到你。

对我个人来说，像百度，GOOGLE的网页搜索这样的综合搜索出来的商品，对我吸引力太小了，综合搜索出来的商品并不是他信誉最高，价格最低，服务最好就显示在了综合搜索引擎上，只因为他的页面更适合搜索引擎逻辑而已。商品真正追求的东西不在文本上，而在商品与服务内在的东西里。当然，在同等条件下，不要错过这样一个增加PV与交易机会的机会。

九、总结

目前，数据挖掘技术正以前所未有的速度发展，并且扩大着用户群体，在未来越来越激烈的市场竞争中，拥有数据挖掘技术必将比别人获得更快速的反应，赢得更多的商业机会。现在世界上的主要数据库厂商纷纷开始把数据挖掘功能集成到自己的产品中，加快数据挖掘技术的发展。我国在这一领域正处在研究开发阶段，加快研究数据挖掘技术，并把它应用于电子商务中，应用到更多行业中，势必会有更好的商业机会和更光明的前景。

参考文献：

[1]韩家炜.Web挖掘研究[J].计算机研究与发展，2001.

[2]陈宏.消费者数据挖掘系统建立的几个问题.

数据分析论文篇8

（一）、数据虚假

这是最常见的统计数据质量问题，也是危害最为严重的数据质量问题。这类统计数据完全是虚构的杜撰的，毫无事实根据。造成统计数据虚假的因素多种多样，比如，有意虚报，瞒报统计数据资料，指标制定不严密，统计制度不完善，不配套等。

（二）、拼凑的数据

这种数据是把不同地点，不同条件，不同性质的数据在收集、加工、传递过程中，人为地拼凑成同一时间、地点、条件和性质下的同一数据。这种东拼西凑的数据，虽然分别有事实根据，但是从整体上看数据是不符合事实的，其性质与数据虚构相同。

（三）、指标数值背离指标原意

这是由于对指标的理解不准确，或者是因为指标含义模糊，指标计算的随意性大等原因造成的数据质量问题，表现为收集整理的统计数据不是所要求的统计内容，数据与指标原意出现走样，面目全非。

（四）、数据的逻辑性错误

这是指统计资料的排列不合逻辑，各个数据、项目之间相互矛盾。例如，企业卷烟库存商品中主要的组成部分是省产烟、省外烟、国外烟，如果企业报送的统计资料中，卷烟库存商品总金额显著下降，而省产烟库存金额大幅度上升，省外烟和国外烟库存金额只是持平或只有小幅度的下降，这就存在矛盾，表明数据有逻辑性错误。

（五）、数据的非同一性

它是指同一个指标在不同时期的统计范围、口径、内容、方法、单位和价格上有差别而造成的数据的不可比性。例如，2003年的统计资料中不含税价在30元以上的卷烟为一类卷烟，而在2004年的统计资料中，不含税价50元以上的卷烟为一类卷烟，如果在此基础上来比较两年的一类卷烟的销售量，而得出一类卷烟销售量大幅度下降的结论显然是不合理的。

（六）、数据不完整

这里指调查单位出现遗漏，所列项目的资料没有搜集齐全，不符合统计资料完整性的要求。数据不完整，就不可能反映研究对象的全貌和正确认识现象总体特征，最终也就难以对现象变化的规律性做出明确的判断，甚至会得出错误的结论。

（七）、统计手段和统计分析落后

目前许多企业统计工作仍处于手工状态，很原始！即使采用计算机也仅仅是减少工作量去做一些汇总、指标计算，并没真正引用先进的计算机技术和网络技术。所做的统计分析也局限于事后分析，即对统计数据进行单纯的讲解说明；不能利用网络技术实行信息共享等方式进行事前分析和预测。换句话说，“统计预测”这一职能根本没有发挥作用，缺乏对信息的收集、综合和系统化。

此外，常见的统计数据问题还有计算错误、笔误等。

可见，统计数据质量问题既可能是来自于设计阶段，也可能是来自于统计资料的整理阶段。

三、统计数据质量控制方法

（一）、统计数据质量控制的原则应当是全过程的、全员参加的、以预防为主的数据质量控制。

首先，统计数据质量控制要贯穿于统计工作的全过程。每进行一步，都要对已完成的工作进行检查、对已发生的差错及时进行纠正，做到层层把关，防止差错流入下一个工作环节，以保证统计数据的质量。其次，参加统计数据质量管理和控制的人员应当是全面的。全体统计工作者都要树立数据质量意识，各个主要的工作环节都要落实专人负责。统计数据质量的好坏，是许多工作和许多统计工作环节质量的综合反映，牵涉到统计工作的所有部门和人员，因此，提高数据质量需要依靠所有统计工作者的共同努力，决不是单纯靠某一个部门或少数人所能搞得好、抓得了的。只有人人关心数据质量，大家都对数据质量高度负责，产生优质的统计数据才有坚实的群众基础。因而，统计数据质量控制要求把差错消灭在它的形成过程中，做到防检结合，以防为主。这就要求有关人员在质量控制中具有超前意识，抛弃那种出现了统计数据问题才想办法解决问题的被动的局面。

实行全员性的质量控制，就要把统计数据质量目标及其关键交给广大统计工作者，落实到每个工作岗位，使每个岗位都有明确的工作质量标准，做到合理分工、职责明确，职责越明确，数据质量控制就越有保证。

（二）、统计设计阶段的质量控制

统计设计是统计工作的首要环节，统计数据质量的好坏，首先决定于这个过程，它是提高统计数据质量的前提。如果设计过程的工作质量不好，就会给统计数据质量留下许多后遗症。设计过程的质量控制需要抓好以下几项工作：

1、正确规定统计数据质量标准。数据质量标准是指根据不同的统计目的对统计数据精度所提出的要求。满足统计目的精度的统计数据就是准确的，高质量的统计数据。首先要作充分的调查，系统地收集市场和用户对统计数据的反映和实际使用效果的情况；其次要分析研究过去统计数据的主要质量问题，找准统计数据质量控制的主攻方向；最后要进行反复论证，考虑到统计工作中实际能够达到的水平。

2、合理设计统计指标体系及其计算方法。

统计指标设计得是否合理，也是影响统计数据质量的因素之一。采用统计报表搜集资料，首先要实行标准化管理，制定的指标要符合统计制度的规定，范围要全，分组要准，指标涵义的解释和计算方法要精确；其次要对统计报表的设计、颁发、填制、汇总的全过程实行全面质量管理。

（三）、资料整理鉴别阶段的质量控制

统计资料整理鉴别阶段出现的差错是统计数据质量问题的重要方面。如果资料不准确，就会影响结论的正确。因此，要特别注意审查资料的可靠性和适用性，要弄清楚统计指标的口径范围、计算方法和时期时点。对于口径不一致或不完整的资料，需要进行调整、补充；对于相互比较的资料，必须要注意有无可比性；一旦发现数据有严重的质量问题，应进行核实，避免有质量问题的资料进入汇总处理阶段。总之，对搜集到的资料，经过鉴别推敲、核实审定、使之准确无误，才能使统计数据的质量得到保证。

（四）、人为错误的质量控制

1、尽可能采用计算机处理统计资料，同时提高统计分析水平。

计算机作为当今社会不可缺少的高科技产物已渗透到我们生活、工作中的各个环节。运用计算机整理、汇总统计资料，速度快、效果好，其优越性是手工整理无可比拟的。现在国内大部分著名企业基本上实行网络化、全球化，利用网络资源了解世界先进行业信息，采用科学先进的统计分析方法和手段，进行横向、纵向对比，找差距挖潜力，努力赶超世界先进企业。要能够写出有一定深度的统计分析预测报告，系统、全面、科学地去挖掘利用网络资源和从市场取得的第一手资料，完善整个分析、预测手段方法和过程。但是，也应重视计算机处理数据的质量问题，提高计算机数据处理的关键在于提高录入数据的可靠性。

2、统计工作者本身应提高自身素质。

统计人员没有深厚的专业知识和丰富的实际工作经验，没有跟上时代及时进行知识更新，不善于统计调查获取第一手资料，写不出有一定深度关于本企业某一方面对决策层有参考价值的统计分析报告。因此，对统计人员应该加强培训工作，企业内部应建立配套的培训机制，对每一层次统计岗位实施针对性的培训，必要时到企业外请有关专家学者授课，或到相关先进单位进行考察学习，做到取长补短。统计工作者本身也应该努力学习统计知识，钻研业务，不断提高统计业务素质和水平，杜绝因业务不熟悉而造成的数据质量问题。

3、加强对统计人员的职业道德培训。

目前，上级部门下达计划和各类政绩考核对统计数据干扰不可低估。有些地方，以是否完成计划和各类数据的高低作为考核地方政绩的依据，导致很多下级部门所报的统计数据高于计划数或持平，这并不是计划部门的计划多么精确合理，而是说明某些统计对象或统计部门受某种利益的驱动而使统计数据的质量得不到保障。当然，数据不真实、不准确的原因是多方面的，其中统计人员的思想道德对统计数据的影响是很大的。这就要求我们加强对统计人员的思想品德和职业道德教育，要求每一个统计工作者必须坚持实事求是的工作作风，认真对待每一个统计数据，如实地反映情况。

4、加大统计执法力度，保证源头数据的准确性。

数据分析论文篇9

【摘要】数据挖掘是从海量数据中发现和提取知识和信息的过程。在管理会计领域中运用数据挖掘技术，寻求和发现更多的企业顾客、供应商、市场以及内部流程优化的信息，将为企业决策者提供更为广泛而有效的决策依据，提高企业战略竞争能力。本文简要介绍了数据挖掘的基本概念和方法，在此基础上重点分析了数据挖掘技术在作用成本和价值链分析，产品、市场和顾客分析以及财务风险防范等方面的应用。【关键词】数据挖掘信息管理会计应用引言近年来，数据挖掘技术引起了信息产业界的极大关注，其主要原因是存在大量数据，可以广泛使用，并且迫切需要将这些数据转换成有用的知识和信息。根据美国GAO（GeneralAccountingOffice）的报告，联邦政府利用数据挖掘技术在提高政府服务水平、分析科学数据、管理人力资源、侦察犯罪和恐怖活动等方面发挥了巨大的作用。尤其是在9·11以后，美国的反恐活动需要从大量的数据中搜寻有用的信息，数据挖掘技术功不可没。除此以外，数据挖掘也被广泛用于商业活动。根据ThomasG,JohnJ和Il-woonKim对财富500强企业的CFO的调查，在收到的有效反馈中，65％的企业正在使用数据挖掘技术。支持使用数据挖掘技术的企业称数据挖掘技术的有效使用能够为企业创造2000到2400万的净利润。而在对数据挖掘使用领域的调查中发现：24％用在会计领域，42％用在金融领域，用在信息系统和市场领域分别占19％和5％。目前数据挖掘技术的应用多集中在金融保险、医疗保健、零售部门和电信部门。而对数据挖掘在提高企业内部经营管理、构筑企业竞争优势方面的应用鲜有提及。一、数据挖掘技术的含义数据挖掘是从数据当中发现趋势和模式的过程，它融合了现代统计学、知识信息系统、机器学习、决策理论和数据库管理等多学科的知识。它能有效地从大量的、不完全的、模糊的实际应用数据中，提取隐含在其中的潜在有用的信息和知识，揭示出大量数据中复杂的和隐藏的关系，为决策提供有用的参考。二、数据挖掘的方法和基本步骤（一）数据挖掘的主要方法常用的数据挖掘方法主要有决策树（DecisionTree）、遗传算法（GeneticAlgorithms）、关联分析（AssociationAnalysis）、聚类分析（ClusterAnalysis）、序列模式分析（SequentialPattern）以及神经网络（NeuralNetworks）等。（二）数据挖掘的基本步骤SAS研究所提出的SEMMA方法是目前最受欢迎的一种数据挖掘方法，其描述的数据挖掘的大致过程包括取样（Sample）、探索（Explore）、修改（Modify）、模型（Model）和评价（Assess）。1.数据取样在进行数据挖掘之前，首先要根据数据挖掘的目标选定相关的数据库。通过创建一个或多个数据表进行抽样。所抽取的样本数据量既要大到足以包含有实际意义的信息，同时又不至于大到无法处理。2.数据探索数据探索就是对数据进行深入调查的过程，通过对数据进行深入探察以发现隐藏在数据中预期的或未被预期的关系和异常，从而获取对事物的理解和概念。3.数据调整在上述两个步骤的基础上对数据进行增删、修改，使之更明确、更有效。4.建模使用人工神经网络、回归分析、决策树、时间序列分析等分析工具来建立模型，从数据中发现那些能够对预测结果进行可靠预测的模型。5.评价就是对从数据挖掘过程中发现的信息的实用性和可靠性进行评估。[1][2][][]三、数据挖掘在管理会计中的运用（一）数据挖掘在管理会计中运用的重要意义1.提供有力的决策支持面对日益激烈的竞争环境，企业管理者对决策信息的需求也越来越高。管理会计作为企业决策支持系统的重要组成部分，提供更多、更有效的有用信息责无旁贷。因此，从海量数据中挖掘和寻求知识和信息，为决策提供有力支持成为管理会计师使用数据挖掘的强大动力。例如，数据挖掘可以帮助企业加强成本管理，改进产品和服务质量，提高货品销量比率，设计更好的货品运输与分销策略，减少商业成本。2.赢得战略竞争优势的有力武器实践证明数据挖掘不仅能明显改善企业内部流程，而且能够从战略的高度对企业的竞争环境、市场、顾客和供应商进行分析，以获得有价值的商业情报，保持和提高企业持续竞争优势。如，对顾客价值分析能够将为企业创造80％价值的20％的顾客区分出来，对其提供更优质的服务，以保持这部分顾客。>3.预防和控制财务风险利用数据挖掘技术可以建立企业财务风险预警模型。企业财务风险的发生并非一蹴而就，而是一个积累的、渐进的过程，通过建立财务风险预警模型，可以随时监控企业财务状况，防范财务危机的发生。另外，也可以利用数据挖掘技术，对企业筹资和投资过程中的行为进行监控，防止恶意的商业欺诈行为，维护企业利益。尤其是在金融企业，通过数据挖掘，可以解决银行业面临的如信用卡的恶意透支及可疑的信用卡交易等欺诈行为。根据SEC的报告，美国银行、美国第一银行、联邦住房贷款抵押公司等数家银行已采用了数据挖掘技术。（二）数据挖掘在管理会计中的应用1.作业成本和价值链分析作业成本法以其对成本的精确计算和对资源的充分利用引起了人们的极大兴趣，但其复杂的操作使得很多管理者望而却步。利用数据挖掘中的回归分析、分类分析等方法能帮助管理会计师确定成本动因，更加准确计算成本。同时，也可以通过分析作业与价值之间的关系，确定增值作业和非增值作业，持续改进和优化企业价值链。在ThomasG,JohnJ和Il-woonKim的调查中，数据挖掘被用在作业成本管理中仅占3％。2.预测分析管理会计师在很多情况下需要对未来进行预测，而预测是建立在大量的历史数据和适当的模型基础上的。数据挖掘自动在大型数据库中寻找预测性信息，利用趋势分析、时间序列分析等方法，建立对如销售、成本、资金等的预测模型，科学准确的预测企业各项指标，作为决策的依据。例如对市场调查数据的分析可以帮助预测销售；根据历史资料建立销售预测模型等。3.投资决策分析投资决策分析本身就是一个非常复杂的过程，往往要借助一些工具和模型。数据挖掘技术提供了有效的工具。从公司的财务报告、宏观的经济环境以及行业基本状况等大量的数据资料中挖掘出与决策相关的实质性的信息，保证投资决策的正确性和有效性。如利用时间序列分析模型预测股票价格进行投资；用联机分析处理技术分析公司的信用等级，以预防投资风险等。4.顾客关系管理顾客关系管理是提升企业竞争优势的有力武器。首先，要对顾客群体进行分类。通过对数据仓库的分类和聚类分析，可发现群体顾客的行为规律，从而对顾客进行分组，实行差别化服务；其次，对顾客的价值进行分析，根据帕累托定律，20％的客户创造了企业80％的价值。针对这种情况，公司可以从客户数据库中挖掘出这部分顾客，对这部分顾客的行为、需求以及偏好进行动态跟踪和监控，并根据不同的顾客群的不同特点提供相应的产品和服务，从而与顾客建立长期的合作关系，提高顾客保持力。如在电信部门，对电信数据进行多维分析有助于识别和比较不同顾客对于产品的不同需求，从而使企业提供更有特色的产品，为顾客提供更优质的服务。5.产品和市场分析品种优化是选择适当的产品组合以实现最大的利益的过程，这些利益可以是短期利润，也可以是长期市场占有率，还可以是构建长期客户群及其综合体。为了达到这些目标，管理会计师不仅仅需要价格和成本数据，有时还需要知道替代品的情况，以及在某一市场段位上它们与原产品竞争的状况。另外企业也需要了解一个产品是如何刺激另一些产品的销量的等等。例如，非盈利性产品本身是没有利润可言的，但是，如果它带来了可观的客户流量，并刺激了高利润产品的销售，那么，这种产品就非常有利可图，就应该包括在产品清单中。这些信息可根据实际数据，通过关联分析等技术来得到。6.财务风险分析管理会计师可以利用数据挖掘工具来评价企业的财务风险，建立企业财务危机预警模型，进行破产预测。破产预测或称财务危机预警模型能够帮助管理者及时了解企业的财务风险，提前采取风险防范措施，避免破产。另外，破产预测模型还能帮助分析破产原因，对企业管理者意义重大。在20世纪30年代，Smith和Winakor率先进行了破产预测的尝试。随后到了20世纪60年代，Altman利用多维判别式分析（MultivariateDiscriminantAnalysis）方法提出的Z-score破产预测模型取得了很大的成功，预测准确率高达90％以上。此后，数据挖掘技术包括多维判别式分析（MultivariateDiscriminantAnalysis）、逻辑回归分析（LogisticRegressionAnalysis）、遗传算法、神经网络以及决策树等方法在企业破产预测中得到了广泛的应用。四、结束语随着我国加入WTO，企业面临的竞争压力也越来越大。充分利用信息技术的最新成果，挖掘企业自身潜力，加强企业内部管理，提升企业竞争力刻不容缓。数据挖掘技术的推广应用虽然受到成本和技术的限制，但是如果能取得企业高层管理者的支持，数据挖掘的应用将会有很大的发展前景。

数据分析论文篇10

还可以进一步加强多协议文件系统（MPSFS）的建设。MPSFS系统从性能角度看，保留了分布式文件系统本身的灵活性优势，并且在并发访问管理以及安全性方面都有很大改善。从技术角度看，MPSFS系统除了提供文件的存取接口以外，更为重要的在于采用存储卷实现存储。存储卷中包括文件目录结构以及其固有的存储模式，对应的进一步包括元数据结构、操作接口、功能函数集以及对于空间的利用优化算法和数据结构。在MPSFS工作环境之下，能够实现面向不同的用户区分提供不同的存储访问视图，因此在油田工作环境中，能够更好地实现与权限身份控制更好的数据管理机制。除此以外，MPSFS还能够实现更为完善的用户身份认证，具体是通过相应的专用认证服务器，来依据内部的多个证书文件来实现对于身份的确定。

数据分析论文篇11

该结构图中，CPLD和FPGA实现模块接口，包括串并转换、8位和32位数据总线间的转换、SRAM等功能。采样结果经过CPLD送至DSP运算处理（FFT变换、相关分析、功率谱分析等）后，由FPGA和USB接口送至主控计算机存储和显示。计算机应用程序易于实现丰富的图形界面，具有良好的人机接口。

1模数模块

本系统主要用于振动信号和噪声分析，要求采样精度高，采样频率不超过100kHz。根据要求选用CRYSTAL公司的CS5396。该芯片原本用于立体声采样，基于∑-Δ结构，采样精度高，24位分辨率，120dB的动态范围；采样频率32kHz、44.1kHz、48kHz、96kHz可选；内部集成采样保持器、模拟低通滤波器、数字滤波器，同时还具有时采样功能；两路同时采样，串行输出，串行数据由CPLD转换成24位并行数据；由于该芯片量程是4V，差分输入，所以模拟部分只需再加上简单量程放大电路即可。这样模拟电路十分简单，抗干扰能力强、精度高。

2DSP处理器

选择DSP处理器时主要考虑其运算速度、总线宽度和性价比。本系统采样结构24位，最好选用32位DSP；系统要进行实时信号分析、模态分析等，要求有较高运算速度，所以选用TI公司的32位浮点DSP——TMS320VC33。该芯片采用哈佛结构，6级流水线操作，指令执行周期7ns，外设包括一个DMA控制器和一个缓冲串口。

N点复数FFT变换约做2N×Log2N次实数乘法运算和3N×Log2N实时加法运算。TMS320VC33的乘法、加法都是单周期指令，取N=1024，不计内存访问和其它时间，则一次FFT所需时间为：10×5120×17ns约0.9ms。而按96KSPS的采样频率计算，1024点的采样时间约10ms，可见该DSP速度足以满足要求。

该DSP启动模式可选，上电后执行驻留在低地址空间的BOOTLOADER；然后根据4个中断输入信号的状态判断启动模式，可以从RAM、ROM或串行口启动。本系统选择串行口方式。这样，DSP程序可以直接从PC下载送至DSP接口，做到在系统调试，具有极大的灵活性。

3USB接口

USB协议的实现基于网络的思想，是一种共享式的总线，在总线上数据以包（Packet）的形式发送。USB的数据传送有4种模式：块传输（BulkTransfers）、中断传输（InterruptTransfers）、同步传输（IsochronousTransfers）、控制传输（ControlTransfers）。当需要快速传输大批量的准确数据时，一般采用块传输模式；当传输实时性较强的数据时，采用中断传输模式。

当USB设备插入计算机时，计算机和USB设备之间产生一个枚举过程。计算机检测到有设备插入，自动发出查询请求；USB设备回应这个请求，送出设备的VerdorID和ProductID；计算机根据这两个ID装载相应的设备驱动程序，完成枚举过程。

由于USB协议非常复杂，开发者不可能在底层基础上进行开发。目前，市场上对USB协议进行封装的接口芯片，如：NationalSemiconductor公司的USBN9602、Plilips公司的PDIUSBD12等。本系统选用CYPRESS公司的带单片机内核的EZ-USB系列的AN2131QC.该芯片遵从USB1.0规范（12Mbps），将8051单片机内核、智能USB接口引擎、USB收发模块、存储器、串行口等集成一起，从而减少芯片接口时序。其内部结构如图2（虚线内是芯片部分）。

EZ-USB的8051代码（Firmware）可以固化在ROM内；更好的方案是通过USB口从主机下载到内部RAM，这样，易于修改、调试和更新。之所以能下载代码是因为芯片一上电完全在硬件上自动完成枚举过程，不需要Firmware。完成枚举后便可作为一个USB设备（叫做缺省USB设备）与计算机通讯，此时即可进行Firmware下载。下载完后，8051内核脱离RESET状态开始执行代码。可以通过Firmware对USB设备重新配置，这个重新配置过程叫做再枚举。

在EZ-USB中，缺省USB设备的接口中包括14个Endpoints，如表1所示。

表1缺省USB端点（Endpoint）

EndpointTypeAlternateSetting

012

MaxPacketSize(bytes)

0CTL06464

1ININT01664

2INBULK06464

2OUTBULK06464

4INBULK06464

4OUTBULK06464

6INBULK06464

6OUTBULK06464

8INISO016256

8OUTISO01616

9INISO01616

9OUTISO01616

10INISO01616

10OUTISO01616

计算机与USB设备的数据通信主要包括两个方面：一是读取采样数据；二是给USB设备发送控制命令。发送控制命令先发送一个命令包（消息），然后根据情况发送后续数据或从设备读取响应数据。因此，根据EZ-USB芯片的功能，直接使用缺省配置中的6个Endpoint。

EndpoitOUT2BULK：用来发送控制命令包。

EndpointIN2BULK：接收从USB设备发来的DSP消息。

EndpointIN4BULK：用来从USB设备读取数据，如读取采样数据、配置参数等。

EndpointOUT4BULK：用来向USB设备发送数据，如下载8051程序、下载FPGA程序等。

EndpointOUT6BULK：作辅助判断用，当PC传送完大量数据至USB设备时，向该端口写任意数据以起到通知USB设备的作用。

EndpointIN1INT：用来从USB设备读取响应信号，如下载FPGA程序是否成功的标志等。

在缺省配置基础上可以编写适合需要的代码，如果对8051编程经验丰富的话，完全可以在不需要调试工具的情况下编写Firmware。

本系统Firmware结构建立在对消息队列不断服务基础上，即构建一个消息队列，当接收到任何一方（DSP或计算机）的消息时，将其放入消息队列。消息的接收是通过中断服务程序来实现的。当处理完一个消息时，从消息队列取出下一个消息进行处理。这种软件结构非常简单，思路清晰，对调试十分有利。

USB设备驱动程序基于WDM。WDM型驱动程序是内核程序，与标准的Win32用户态程序不同。采用了分层处理的方法。通过它，用户不需要直接与硬件打它道（在USB驱动程序中尤为明显），只需通过下层驱动程序提供的接口号访问硬件。因此，USB设备驱动程序不必具体对硬件编程，所有的USB命令、读写操作通过总线驱动程序转给USB设备。但是，USB设备驱动程序必须定义与外部设备的通讯接口和通讯的数据格式，也必须定义与应用程序的接口。

本系统的驱动程序是在CompuwareNumegaDriver-Works的基础上采用面向对象语言C++开发的。Driver-Works可以很快构造出驱动程序的框架。主要构造了两个类：ClassUSBDAC和classUSBDACDevice。ClassUSBDAC继承了classKdriver，负责装载驱动程序和创建功能设备对象时要做的一些操作。ClassUSBDACDevice继承了classKpnpDevice，是驱动程序的主要部分，负责设备启动、停止的操作以及与设备的数据通讯。API函数调用和CreateFile()、ReadFile()、WriteFile()、DeviceIO-Control()、CloseFile（）等的实现也在classUSBDACDevice中完成。

ClassUSBDAC的定义如下：

classUSBDAC:publicKdriver

{

SAFE_DESTRUCTORS

public：

/*DriverEntry()，在系统引导或I/O管理器装入驱动程序时，调用这个例程。执行大量的初始化函数，包括建立到其它驱动程序的指针、查找和定位由驱动程序使用的任何硬件资源等，不过，这部分工作大多由基类Kdriver完成。*/

virtualNTSTATUS

DriverEntry(PUNICODE_STRINGRegistryPath);

/*AddDevice(),创建一个Device对象。调用其构造函数对设备初始化，创建设备的名称等。*/

virtualNTSTATUS

AddDevice(PDEVICE_OBJECTPdo);

Intm_Unit;

};

ClassUSBDACDevice的定义如下：

ClassUSBDACDevice:publicKpnpDevice

{

//Constructors

public:

SAFE_DESTRUCTORS

USBDACDevice(PDEVICE_OBJECTPdo,ULONGUnit);

～USBDACDevice()；

//MemberFunctions

public:

…

//添加自己的成员函数

NTSTATUSUSBDAC_GetACK(int&);

NTSTATUSUSBDAC_StartADConversion(void);

NTSTATUSUSBDAC_StopADConversion(void)；

NTSTATUSUSBDAC_DownloadFPGA(KIrp)；

NTSTATUSUSBDAC_Download8051(KIrp);

NTSTATUSUSBDAC_SetChannelParameter（PUCHAR，ULONG，int）；

…

}；

数据分析论文篇12

1数据融合

1.1概念的提出

1973年,数据融合技术在美国国防部资助开发的声纳信号理解系统中得到了最早的体现。70年代末,在公开的技术文献中开始出现基于多系统的信息整合意义的融合技术。1984年美国国防部数据融合小组(DFS)定义数据融合为:“对多源的数据和信息进行多方的关联、相关和综合处理,以更好地进行定位与估计,并完全能对态势及带来的威胁进行实时评估”。

1998年1月,Buchroithner和Wald重新定义了数据融合:“数据融合是一种规范框架,这个框架里人们阐明如何使用特定的手段和工具来整合来自不同渠道的数据,以获得实际需要的信息”。

Wald定义的数据融合的概念原理中,强调以质量作为数据融合的明确目标,这正是很多关于数据融合的文献中忽略但又是非常重要的方面。这里的“质量”指经过数据融合后获得的信息对用户而言较融合前具有更高的满意度,如可改善分类精度,获得更有效、更相关的信息,甚至可更好地用于开发项目的资金、人力资源等[3]。

1.2基本内容

信息融合是生物系统所具备的一个基本功能,人类本能地将各感官获得的信息与先验知识进行综合,对周围环境和发生的事件做出估计和判断。当运用各种现代信息处理方法,通过计算机实现这一功能时,就形成了数据融合技术。

数据融合就是充分利用多传感器资源,通过对这些多传感器及观测信息的合理支配和使用,把多传感器在空间或时间上的冗余或互补信息依据某些准则进行组合,以获得被测对象的一致性解释或描述。数据融合的内容主要包括:

(1)数据关联。确定来自多传感器的数据反映的是否是同源目标。

(2)多传感器ID/轨迹估计。假设多传感器的报告反映的是同源目标,对这些数据进行综合,改进对该目标的估计,或对整个当前或未来情况的估计。

(3)采集管理。给定传感器环境的一种认识状态,通过分配多个信息捕获和处理源,最大限度地发挥其性能,从而使其操作成本降到最低。传感器的数据融合功能主要包括多传感器的目标探测、数据关联、跟踪与识别、情况评估和预测[4]。

根据融合系统所处理的信息层次,目前常将信息融合系统划分为3个层次:

(l)数据层融合。直接将各传感器的原始数据进行关联后,送入融合中心,完成对被测对象的综合评价。其优点是保持了尽可能多的原始信号信息,但是该种融合处理的信息量大、速度慢、实时性差,通常只用于数据之间配准精度较高的图像处理。

(2)特征层融合。从原始数据中提取特征,进行数据关联和归一化等处理后,送入融合中心进行分析与综合,完成对被测对象的综合评价。这种融合既保留了足够数量的原始信息,又实现了一定的数据压缩,有利于实时处理,而且由于在特征提取方面有许多成果可以借鉴,所以特征层融合是目前应用较多的一种技术。但是该技术在复杂环境中的稳健性和系统的容错性与可靠性有待进一步改善。

(3)决策层融合。首先每一传感器分别独立地完成特征提取和决策等任务,然后进行关联,再送入融合中心处理。这种方法的实质是根据一定的准则和每个决策的可信度做出最优的决策。其优点是数据通讯量小、实时性好,可以处理非同步信息,能有效地融合不同类型的信息。而且在一个或几个传感器失效时,系统仍能继续工作,具有良好的容错性,系统可靠性高,因此是目前信息融合研究的一个热点。但是这种技术也有不足,如原始信息的损失、被测对象的时变特征、先验知识的获取困难,以及知识库的巨量特性等[5,6]。

1.3处理模型

美国数据融合工作小组提出的数据融合处理模型[7],当时仅应用于军事方面,但该模型对人们理解数据融合的基本概念有重要意义。模型每个模块的基本功能如下:

数据源。包括传感器及其相关数据(数据库和人的先验知识等)。

源数据预处理。进行数据的预筛选和数据分配,以减轻融合中心的计算负担,有时需要为融合中心提供最重要的数据。目标评估。融合目标的位置、速度、身份等参数,以达到对这些参数的精确表达。主要包括数据配准、跟踪和数据关联、辨识。

态势评估。根据当前的环境推断出检测目标与事件之间的关系,以判断检测目标的意图。威胁评估。结合当前的态势判断对方的威胁程度和敌我双方的攻击能力等,这一过程应同时考虑当前的政治环境和对敌策略等因素,所以较为困难。

处理过程评估。监视系统的性能,辨识改善性能所需的数据,进行传感器资源的合理配置。人机接口。提供人与计算机间的交互功能,如人工操作员的指导和评价、多媒体功能等。

2多传感器在林业中的应用

2.1在森林防火中的应用

在用MODIS(ModerateResolutionImagingSpectroradiometer)数据测定森林火点时的20、22、23波段的传感器辐射值已达饱和状态,用一般图像增强处理方法探测燃烧区火点的结果不理想。余启刚运用数据融合技术,在空间分辨率为1000m的热辐射通道的数据外加入空间分辨率为250m的可见光通道的数据,较好地进行了不同空间分辨率信息的数据融合,大大提高了对火点位置的判断准确度[8]。为进一步提高卫星光谱图像数据分析的准确性与可靠性,利用原有森林防火用的林区红外探测器网,将其与卫星光谱图像数据融合,可以使计算机获得GPS接收机输出的有关信息通过与RS实现高效互补性融合,从而弥补卫星图谱不理想的缺失区数据信息,大大提高燃烧区火点信息准确度和敏感性。

2.2森林蓄积特征的估计

HampusHolmstrom等在瑞典南部的试验区将SPOT-4×S卫星数据和CARABAS-IIVHFSAR传感器的雷达数据进行了融合,采用KNN(knearestneighbor)方法对森林的蓄积特征(林分蓄积、树种组成与年龄)进行了估计[9]。

KNN方法就是采用目标样地邻近k个(k=10)最近样地的加权来估计目标样地的森林特征。研究者应用卫星光谱数据、雷达数据融合技术对试验区的不同林分的蓄积特征进行估计,并对三种不同的数据方法进行误差分析。试验表明,融合后的数据作出的估计比单一的卫星数据或雷达数据的精度高且稳定性好。

2.3用非垂直航空摄像数据融合GIS信息更新调查数据

森林资源调查是掌握森林资源现状与变化的调查方法,一般以地面调查的方法为主,我国5年复查一次。由于森林资源调查的工作量巨大,且要花费大量的人力、物力和资金。国内外许多学者都在探索航空、航天的遥感调查与估计方法。

TrevorJDavis等2002年提出采用非垂直的航空摄影数据融合对应的GIS数据信息实现森林调查数据的快速更新,认为对森林资源整体而言,仅某些特殊地区的资源数据需要更新。在直升飞机侧面装上可视的数字摄像装置,利用GPS对测点进行定位,对特殊地区的摄像进行拍摄,同时与对应的GIS数据进行融合,做出资源变化的估计或影像的修正[10]。

试验表明,融合后的数据可以同高分辨率矫正图像相比,该方法花费少,精度高,能充分利用影像的可视性,应用于偏远、地形复杂、不易操作、成本高的区域,同时可避免遥感图像受云层遮盖。

3数据融合在林业中的应用展望

3.1在木材检测中的应用

3.1.1木材缺陷及其影响

木材是天然生长的有机体,生长过程中不可避免地有尖削度、弯曲度、节子等生长缺陷,这些缺陷极大地影响了木材及其制品的优良特性,以及木材的使用率、强度、外观质量,并限制了其应用领域。在传统木制品生产过程中,主要依靠人的肉眼来识别木材缺陷,而木材板材表面缺陷在大小、形状和色泽上都有较大的差异,且受木材纹理的影响,识别起来非常困难,劳动强度大,效率低,同时由于熟练程度、标准掌握等人为因素,可能造成较大的误差。另外在集成材加工中,板材缺陷的非双面识别严重影响了生产线的生产节拍。因此必须开发一种能够对板材双面缺陷进行在线识别和自动剔除技术,以解决集成材加工中节子人工识别误差大、难以实现双面识别、剔除机械调整时间长等问题。

3.1.2单一传感器在木材检测中的应用

对木材及人造板进行无损检测的方法很多,如超声波、微波、射线、机械应力、震动、冲击应力波、快速傅立叶变换分析等检测方法[11,12]。超声技术在木材工业中的应用研究主要集中在研究声波与木材种类、木材结构和性能之间的关系、木材结构及缺陷分析、胶的固化过程分析等[13]。

随着计算机视觉技术的发展,人们也将视觉传感器应用于木材检测中。新西兰科学家用视频传感器研究和测量了纸浆中的纤维横切面的宽度、厚度、壁面积、壁厚度、腔比率、壁比率等,同时准确地测量单个纤维和全部纤维的几何尺寸及其变化趋势,能够区分不同纸浆类型,测定木材纤维材料加固结合力,并动态地观察木材纤维在材料中的结合机理。

新西兰的基于视觉传感器的板材缺陷识别的软件已经产业化,该软件利用数码相机或激光扫描仪采集板材的图像,自动识别板材节子和缺陷的位置,控制板材的加工。该软件还具有进行原木三维模型真实再现的计算机视觉识别功能,利用激光扫描仪自动采集原木的三维几何数据。

美国林产品实验室利用计算机视觉技术对木材刨花的尺寸大小进行分级,确定各种刨花在板中的比例和刨花的排列方向;日本京都大学基于视觉传感器进行了定向刨花板内刨花定向程度的检测,从而可以通过调整定向铺装设备优化刨花的排列方向来提高定向刨花板的强度。

在制材加工过程中,利用计算机视觉技术在线实时检测原木的形状及尺寸,选择最佳下锯方法,提高原木的出材率。同时可对锯材的质量进行分级,实现木材的优化使用;在胶合板的生产过程中,利用计算机视觉技术在线实时检测单板上的各种缺陷,实现单板的智能和自动剪切,并可测量在剪切过程中的单板破损率,对单板进行分等分级,实现自动化生产过程。Wengert等在综合了大量的板材分类经验的基础上,建立了板材分级分类的计算机视觉专家系统。在国内这方面的研究较少,王金满等用计算机视觉技术对刨花板施胶效果进行了定量分析[14]。

X射线对木材及木质复合材料的性能检测已得到了广泛的应用,目前该技术主要应用于对木材密度、含水率、纤维素相对结晶度和结晶区大小、纤维的化学结构和性质等进行检测,并对木材内部的各种缺陷进行检测。

3.1.3数据融合在木材检测中的应用展望

单一传感器在木材工业中已得到了一定程度的应用,但各种单项技术在应用上存在一定的局限性。如视觉传感器不能检测到有些与木材具有相同颜色的节子,有时会把木板上的脏物或油脂当成节子,造成误判,有时也会受到木材的种类或粗糙度和湿度的影响,此外,这种技术只能检测部分表面缺陷,而无法检测到内部缺陷;超声、微波、核磁共振和X射线技术均能测量密度及内部特征,但是它们不能测定木材的颜色和瑕疵,因为这些缺陷的密度往往同木板相同。因此,一个理想的检测系统应该集成各种传感技术,才能准确、可靠地检测到木材的缺陷[15,16]。

基于多传感器(机器视觉及X射线等)数据融合技术的木材及木制品表面缺陷检测,可以集成多个传统单项技术,更可靠、准确地实时检测出木材表面的各种缺陷,为实现木材分级自动化、智能化奠定基础,同时为集裁除锯、自动调整、自动裁除节子等为一身的新型视频识别集成材双面节子数控自动剔除成套设备提供技术支持。

3.2在精确林业中的应用

美国华盛顿大学研究人员开展了树形自动分析、林业作业规划等研究工作;Auburn大学的生物系统工程系和USDA南方林业实验站与有关公司合作开展用GPS和其他传感器研究林业机器系统的性能和生产效率。

目前单项的GPS、RS、GIS正从“自动化孤岛”形式应用于林业生产向集成技术转变。林业生产系统作为一个多组分的复杂系统,是由能量流动、物质循环、信息流动所推动的具有一定的结构和功能的复合体,各组分间的关系和结合方式影响系统整体的结构和功能。因此应该在计算机集成系统框架下,有效地融合GPS、GIS、RS等数据,解决这些信息在空间和时间上的质的差异及空间数据类型的多样性,如地理统计数据、栅格数据、点数据等。利用智能DSS(决策支持系统)以及VRT(可变量技术)等,使林业生产成为一个高效、柔性和开放的体系,从而实现林业生产的标准化、规范化、开放性,建立基于信息流融合的精确林业系统。

南京林业大学提出了“精确林业工程系统”[17]。研究包括精确林业工程系统的领域体系结构、随时空变化的数据采集处理与融合技术、精确控制林业生产的智能决策支持系统、可变量控制技术等,实现基于自然界生物及其所赖以生存的环境资源的时空变异性的客观现实,以最小资源投入、最小环境危害和最大产出效益为目标,建立关于林业管理系统战略思想的精确林业微观管理系统。

[参考文献]

[1]高翔,王勇.数据融合技术综述[J].计算机控制与测量,2002,10(11):706-709.

[2]龚元明,萧德云,王俊杰.多传感器数据融合技术(上)[J].冶金自动化,2002(4):4-7.

[3]钱永兰,杨邦杰,雷廷武.数据融合及其在农情遥感监测中的应用与展望[J].农业工程学报,2004,20(4):286-290.

[4]高德平,黄雪梅.多传感器和数据融合(一)[J].红外与激光工程,1999,28(1):1-4.

[5]王耀南,李树涛.多传感器信息融合及其应用综述[J].控制与决策,2001,16(5):518-52.

[6]许军,罗飞路,张耀辉.多传感器信息融合技术在无损检测中的应用研究[J].无损检测,2000,22(8):342-344.

[7]WhiteFE.Datafusionlexicon:DatafusionsubpanelofthejointdirectorsoflaboratoriestechnicalpanelforC3[R].SanDiego,1991.

[8]余启刚.数据融合技术在“3S”森林防火中的应用[J].森林工程,2003,19(4):5-6.

[9]HampusHolmstrom,biningremotelysensedopticalandradardatainKNN-estimationofforest[J].ForestScience,2003,49(3):409-418.

[10]TrevorJDavis,BrianKlinkenberg,PeterKellerC.Updatinginventory:Usingobliquevideogrammetry&datafusion[J].JournalofForestry,2002,100(2):45-50.

[11]杨春梅,胡万义,白帆,等.木材缺陷检测理论及方法的发展[J].林业机械与木工设备,2004,32(3):8-10.

[12]胡英成,顾继友,王逢瑚.木材及人造板物理力学性能无损检测技术研究的发展与展望[J].世界林业研究,2002,15(4):39-46.

[13]肖忠平,卢晓宁,陆继圣.木质材料X射线与超声检测技术研究的发展与展望[J].木材加工机械,2004,15(1):25-27.

[14]王金满,周秀荣.刨花板施胶效果计算机视觉分析方法[J].东北林业大学学报,1994,22(3):25-26.

数据分析论文篇13

近年来，网络技术得到迅速的发展，这就为信息资源的共享提供了技术上的可能.作为信息密集型的地理信息系统(GIS)上升到网络平台可谓适逢其时.但从目前的应用情况来看，除了国外极少的公司拥有网络版的GIS之外，在国内还处于试验研制的阶段.因此，尽快地研制出我国自主版权的网络GIS的原型和产品，并在技术手段上达到国际先进水平，是摆在我们面前的一项迫切的任务.

1网络计算的几种模式及特点

(1)传统的集中式.这是一种主机-终端模式，所有的计算任务和数据管理任务都集中在主机上，终端只是主机输入/输出设备的延长.这种模式的优点是容易管理，缺点是对主机的性能要求很高，也浪费了作为终端的计算机的计算能力，并且从性能价格比来看，在购置费用相当的情况下，一台主机的性能往往比不上几台计算机所组成网络的性能；因此这种模式已逐渐退出主流.

(2)客户机/服务器(client/server，简称C/S)模式.一般说来，在这种模式下，服务器只集中管理数据，而计算任务分散在客户机上，客户机和服务器之间通过网络协议来进行通讯.客户机向服务器发出数据请求，服务器将数据传送给客户机进行计算，计算完毕，计算结果可返回给服务器.这种模式的优点充分利用了客户机的性能，使计算能力大大提高；另外，由于客户机和服务器之间的通讯是通过网络协议进行的，是一种逻辑的联系，因此物理上在客户机和服务器两端是易于扩充的.它是目前占主流的网络计算模式.

(3)浏览器/服务器(browser/server)模式.在这种模式下，用户端只需一通用的浏览器，如Netscape或Explore，便代替了形形的各种应用软件.服务器则为Web服务器.浏览器和服务器之间通过TCP/IP这一通讯协议进行连接.浏览器发出数据请求，由Web服务器向后台取出数据并计算，将计算结果返回给浏览器.这种模式的优点是：由于用户端所用软件只是一个简单的浏览器，用户基本上无需培训，用户端软件也无需维护；软件的升级与修改只在服务器端进行，对用户透明；服务器与浏览器可处于不同的操作系统平台.其缺点为：Web动态技术不够成熟，各种标准有待统一，如各厂家的动态协议互不支持、浏览器之争等.总之，它是一种先进的但发展还未成熟的技术.

基于以上的分析，应选择客户机/服务器模式作为GIS访问网络数据库的实现模式.

2C/S模式下的GIS访问网络数据库的结构设计

设计在总体上分为C/S两层(见图1)，以充分利用C/S模式的跨平台、易扩充、数据独立等优点.在client端又分两层来进行设计——GIS功能层和数据请求层，GIS功能层是GIS的功能实现部分，数据请求层是GIS的数据实现部分.数据请求层作为一中间层，起到数据转换的作用，对上是具有GIS特点的数据文件，对下是标准的数据库记录.这种分层设计的形式一方面充分利用了现有的单机版本GIS研究成果；另一方面，GIS功能层和数据请求层的开发可同时进行，只要接口标准不变，本层的变动不会影响到另一层.

Fig.1ThegeneralframeworkofGISaccessingdatabasebasedonC/Smodel

值得一提的是ESRI公司的空间数据库引擎(spatialdatabaseengine，简称SDE)的设计方案(见图2).它是目前国际上领先的GIS数据处理的网络计算模型.其数据的访问形式为：由用户的应用程序(userapplication)通过SDE应用编程接口(SDEAPI)向SDE服务器提出空间数据请求，SDE服务器内存放有空间对象模型，并依据空间对象的特点在本地完成空间数据的搜索，并将搜索结果通过网络向用户的应用程序返回.

对比图1和图2可以看出两者采用的都是C/S模式，并且都将GIS功能实现与数据请求进行分层处理；所不同的是面向数据库的数据请求实现的位置：图1在客户机端实现，图2在服务器端实现.在服务器端实现的主要优点为：(1)对于空间对象模型及相关的计算模式的升级可以只在服务器端实现，而且对客户机端透明；(2)由于SDE服务器与数据库ORACLE7.2的结合非常紧密，因此数据的搜寻速度非常快.对于图1来说，把数据请求层放在客户机端，对数据库的依赖程度就不同于SDE服务器，后者对数据库的选型有极强的依赖性(目前SDE服务器只在ORACLE7.2实现)，相反，它是一种非常开放的结构，它所支持的服务器不但可跨数据库系统平台，而且还可跨操作系统平台.可以说，图1和图2两种设计模式的优缺点是相互对应的.

3数据库访问方式的比较

基于程序的访问数据库的几种方法如下.

(1)专用的数据库访问工具.如PowerBuilder，Delphi等，它偏向于对数据库中数据的管理和显示，具有限的计算功能.既不适于用它来开发GIS应用系统，也难以将它们的数据操纵功能与现有的GIS应用系统紧密结合.

(2)嵌入数据库语言的常规语言.各数据库厂家为了让用户程序能直接访问自已的数据库，基本上都提供了专有的面向C语言的预编译头和静态库，如Sybase公司的OPENCLIENT和ORACLE的PRO*C.

(3)开放数据库互连性应用编程接口(opendatabaseconnectivityapplicationprogramminginterface，简称ODBCAPI)［2，3］.它是微软(Microsoft)公司提出的数据库访问形式.它通过确保所有的应用系统遵循标准的调用层接口，提供对特定数据源命令进行解释的驱动程序来保持应用系统的互用性.这样的应用系统是开放的，只要有相应数据源的ODBC的驱动，它就无需改变代码而可访问相应的数据库.

在确定访问数据库的方式时，ODBCAPI的开放性的优势是不言而喻的，但这种方式在效率上不如第二种访问形式.应说明的是：ODBCSQL语法分为3层，即最小层、核心层和扩展层，尽管目前的大型数据库都能支持到扩展层，但为了保证应用系统的开放性，在具体编程实现时，尽量只使用最小层和核心层的语法.

4某电信局配线系统的实现

客户机为MAPGIS/ODBC/WINDOWS95，服务器为SQLSERVER/WINDOWSNT，要访问的相关表中记录约为13万条.要求从地理底图上选中某一DP，在数据库中寻找出从这一DP到配线架的可用通路，并在数据库中作相应配线修改.如图3所示.结果表明：(1)程序实现了MAPGIS访问网络数据库的功能；(2)客户机和服务器均为PC机(主频166MHz)，每次操作反应时间为数秒，换机观察，发现服务器的性能是整个网络计算的瓶颈.

5结论

(1)C/S模式为目前网络平台GIS的首选，将GIS功能与数据库访问分层实现有利于保护现有的开发成果；(2)将数据请求层放在客户端和以ODBC作为数据库的访问方式保证了应用系统的开放性，其访问可跨越数据系统和操作系统平台；(3)实例表明，应用系统的反应速度更多取决于服务器的性能，而不是ODBC的效率.

参考文献