数据分析论文15篇

引论：我们为您整理了1篇数据分析论文范文，供您借鉴以丰富您的创作。它们是您写作时的宝贵资源，期望它们能够激发您的创作灵感，让您的文章更具深度。

数据分析论文

数据分析 论文:大数据分析煤矿安全生产论文

1综合决策分析缺乏时空维度的支持

煤矿安全生产和管理是一个与时间和空间相关的过程，其综合决策分析离不开时间和空间维度的参与，而现有的煤矿信息系统往往缺乏时空维度的决策分析工具，如拓扑分析、缓冲区分析、密度分析、叠置分析、时间和空间趋势探测分析、时间/空间关联分析、时间/空间自回归分析等。煤矿安全生产内涵丰富，既包含了日常性事务性的风险超前预控管理，又包含即时性的风险识别、监测、预测乃至预警，这就给安全生产管理的各类信息系统建设提出了很高的要求，需要满足监控实时化、系统集成化、数据海量化、分析决策在线化和智能化，这些都是目前信息系统建设的短板。上述问题的存在使得我国煤矿安全生产形势没有本质的好转，诸多信息化建设成果（硬件、软件）在煤矿安全生产过程中也没有起到预期的成效。

2煤矿安全生产大数据分析系统

2.1大数据分析的概念大数据分析

是指数据量急剧积累迅速超出主流软件工具和人类思维处理的极限，大数据与传统数据比较起来，有四大特征：数据体量巨大（Volume）、数据类型繁多（Variety）、数据价值密度低（Value）、更新速度快时效高（Velocity）。大数据分析需要全新的数据处理理念和分析工具，洞察发现海量高速增长信息中潜藏的价值［4］。从理念上，大数据分析与传统数据分析有三大转变：要全体不要抽样，要效率不要，要相关不要因果。针对大数据，既有的技术架构和分析工具已经无法满足要求，需要全新的数据分析方法和技术，这其中包括：（1）大数据分析可视化方法；（2）大数据挖掘算法；（3）预测性分析能力；（4）语义处理能力；（5）数据质量和数据管理技术。

2.2大数据分析系统的建设

根据大数据处理和分析的理念，煤矿安全大数据分析系统的建设目标包括：数据综合集成、安全知识集成、三维虚拟可视化展示、煤矿安全动态分析诊断。具体建设内容包括：（1）基于物联网/云计算技术的煤矿安全综合数据库。建设煤矿安全大数据分析诊断系统，首先要利用物联网和云计算技术实现综合的数据集成，将基础空间和属性数据、在线监测的实时性数据、专业业务系统的事务性数据综合集成起来，构建煤矿安全综合数据库。（2）基于专家系统的煤矿安全专家知识库。针对知识集成的目标，整理规范规程体系中的经验或者理论知识（煤矿安全规程、煤矿作业规程、三违行为知识、隐患界定知识、评估模型、设备操作规程知识、工种操作规程知识），构建煤矿安全动态分析诊断的专家知识库。（3）建设三维虚拟矿井可视化平台。针对信息和知识三维虚拟矿井可视化展示分析，主要的建设内容是基于高精度地质模型理论研究开发三维虚拟矿井平台，实现地层建模、钻孔建模、断层建模、工作面建模和巷道建模等工作。然后，基于三维虚拟矿井平台，实现数据和知识可视化、煤矿安全生产活动可视化、分析和决策过程可视化。（4）研发煤矿安全动态分析系统。针对基于专家知识库的煤矿安全生产分析决策，需要利用煤矿安全综合数据库中的基础数据、实时监测数据以及事务性数据，根据煤矿安全专家知识库进行煤矿安全生产状况评估、推理和演绎，动态分析诊断煤矿安全生产的现状与趋势、预测未来，并针对煤矿应急现象做出科学合理的响应对策。

3结语

物联网、云计算、大数据分析带来了新的数据处理和分析的视野［5］，也必将影响煤矿企业的信息化建设，成为提升煤矿安全生产水平的核心信息技术手段。与互联网、电子商务、电信通信等行业相比，煤炭行业在这方面的发展稍稍晚一些。因此，煤矿科技研究工作者需要抓住时机，在大数据分析处理的研究和应用上付出更大努力，推动煤矿信息化建设发展。

作者：魏忠奎袁传增单位：山东能源枣矿集团田陈煤矿

数据分析论文:数据分析网络舆情论文

网络舆情是由于各种事件的刺激而产生的通过互联网传播的人们对于该事件的所有认知、态度、情感和行为倾向的集合[1]。在大数据背景下，网络舆情呈现以下特征：1.信息数据量庞大，2013年我国产生的数据总量超过0.8ZB（相当于8亿TB），两倍于2012年；2.网络信息来源多样，信息内容来源于各门户网站，博客、论坛、微博、微信等；3.信息传播速度快，尤其是微博、微信等的即时性特征，可以将信息同步传播。网络信息呈现出的特征在网络科技日益进步的情况下将会越来越突出。在海量、复杂的数据环境下，要及时有效地发现网民的认知、态度、情感和行为倾向，依靠传统的数据人工获取、人工分析的方法显然是难以应对的。我们需要应用情报分析手段，从繁杂的网络信息中采集热点信息，将信息修剪、清洗、统计，获取舆情评估结果，实现网络舆情有效管控。

一、基础数据采集

网络产生巨大的数据量，例如2013年，每天平均产生两百多万TB的数据量而且信息来源多样，这些信息都是获取有效舆情的数据基础，我们首先要尽可能地收集到这些信息。网络数据获取可以采用网站提供的API或网络爬虫工具获取。使用API方式是通过网站提供商获取数据信息，为了避免频繁调用对网站服务产生影响，一般调用API次数都会有一定限制，同时网站对于获取数据权限有各种限制，由于种种限制，目前普遍研究和使用的网络爬虫都不使用API。网络爬虫指从一个或多个指定的网页开始，在全网范围搜索获取网络信息资源，通过简单设置目标网站、爬行间隔和存储位置等就能够自动批量获取网页内容，为数据获取提供极大便利。常见的网络爬虫有传统网络爬虫和聚焦网络爬虫。传统网络爬虫获取的数据有一定盲目性，获取的信息很大一部分都不符合要求，造成时间、资源的浪费。而传统网络爬虫的并行机制也带来数据重复抓取、页面质量下降等问题。但传统网络爬虫具有获取数据完整、速度较快的优点。聚焦网络爬虫增加了页面相关度评价和URL价值评价功能进行信息过滤和分析，利用主题相关度评价模型过滤掉与主题无关的网页，利用URL主题相关度控制爬虫爬行过程，不遍历和主题无关页面，提高爬行效率。聚焦网络爬虫数据相关性高，但速度较慢。在舆情采集过程中合理利用网络爬虫，可以在短时间获取大量网络数据，但这些数据存在大量冗余，数据针对性不高，需要后续提取分析。

二、冗余数据清洗

网络舆情分析的主体是与主题相关的数据信息，通过网络爬虫程序获取的是由HTML和各种脚本语言构成的web页面，web页面由与主题相关的网页正文和与主题无关的数据组成，与主题无关的数据也称为网页噪音。由于web页面的形式多样，正文与噪音之间没有明确的界限，而大量存在的网页噪音造成资源浪费，对正文分析也造成很大干扰。我们需要对页面进行处理，剔除网页噪音，比如页面中的广告、导航信息、说明文字等，提取正文、链接、作者、点击量等主题相关信息。通过去噪处理得到的文档一般包含大量重复信息，互联网信息频繁的转发、复制以及不同URL地址指向同一页面等情况都导致信息重复，重复信息成倍增加工作量，去除重复文档也是进行正文提取、分析的必要步骤。我们可以对文档进行向量化处理之后，计算各个特征词的权重，利用相似度算法计算词语与词语之间的相似度，通过计算文档相似度，去除重复信息。当前网页去重算法有很多,但大多数都是基于shingling和LsH的思想,比如对shingle生成策略的改进,对LsH指纹间海明距离计算的改进,以及对这些算法本身参数设置不同而带来性能变的研究等。

三、正文文本提取

通过去噪去重处理，修剪掉网页多余数据，如何快速有效地提取出需要的正文就需要正文提取技术。正文提取技术也是网络舆情发现的一项重要技术。当前常用的网页正文提取算法包括基于DOM树的网页正文提取技术、基于内容规则的网页正文提取技术、基于统计学特征的网页正文提取技术和基于神经网络的网页正文提取技术等。各种提取技术各有优劣，比如目前应用比较广泛的基于DOM树的网页正文提取技术，它利用HTML的各种标签信息，将网页内容转化成规范的树形结构，通过遍历DOM树的节点，裁剪与正文无关的节点而得到正文内容。这种算法依赖于HTML标签，对于HTML规范性要求很高，而且解析过程效率也较低。利用统计学特征的正文提取技术将HTML代码解析后以行或段为单位保存，统计单位文本和HTML代码的字节数，通过计算文本和字节数比例得到文本密度，如果密度大于事先设定好的文本阈值，则该部分内容判定为正文。这种算法不需要分析源码，判断度较高，但限制性也较大，对于正文集中的内容效率较高。实际应用中需要针对舆情来源及其特点，结合使用各种网页正文提取技术，以达到提取效率和度。

四、信息分类与关联

网络信息数据多样，来源复杂，数据分布离散。通过文本处理抽取的正文数据往往是相互没有关联的数据，这些文本在使用时就面临无法分析、统计等诸多问题。利用数据挖掘技术可以将文本经过分类、聚类、关联规则发现等一系列处理，从海量数据中发现主题相关的信息，发现其中的模式、规律等，从而为舆情分析与预警提供依据。文本分类指按照预先定义好的类别集合，根据文本内容进行文本自动分类的过程。是一种有监督的机器学习问题。当前的文本分类技术，大多数是基于向量空间模型，用规则的向量来表示不规则的文本数据。文本分类一般分为训练和分类两个阶段，训练阶段需确定类别集合，并在类别集合选取代表性文档计算特征矢量。分类阶段则计算待分类文档特征矢量，通过与各集合特征矢量比较选取相似度最接近的集合。文本聚类在没有类别集合的情况下进行文本分类。主要依据文档相似度，通过计算将相似文档进行归类。不同的聚类算法采取不同的文本向量组织调度策略，以不同的方式进行相似或相异的比较，将大量无序的文本划归为若干类簇，使得不同类簇描述不同事件，得出不同的话题。文本聚类是一种无监督的机器学习问题，不需要预先定义集合，具有一定的灵活性和较高的自动化处理能力。网络获取的数据类型多样，比如对于一个舆情热点事件，我们可能从网页获取事件过程，从论坛、博客等获取关注度和转发量，从公安部门获取人员、关联信息等，这些数据我们需要通过关联规则发现关联关系，将数据整合为相关的数据网。关联规则挖掘过程主要包含两个阶段，及时阶段从获取的复杂数据聚合中找到出现频率高的数据组，第二阶段在这些高频数据组中产生关联规则。有效的关联规则对于舆情分析有重大意义，但目前我国对这一领域的研究应用尚不深入。

五、话题检测与追踪

话题不同于主题、事件等概念，话题是由某一个特定事件和与该事件相关的一系列事件共同构成的。在大量网络信息中，发现某一话题并按照该话题收集与其相关的信息，对信息重新组织，可以有效了解话题的发展与演变。信息的采集、处理、分类、关联等方法将网络中存在的大量无序数据整合为统一的、存在映射关系的数据网，这个过程以网络中已经存在的各类信息为主体进行简单检索和归类。随着网络规模的几何增长，网络信息多样化，网络舆情具有隐蔽性、突发性、自由性等特点。话题发现与跟踪技术的关注点不仅仅在网络已有信息的收集处理上，还要在大量信息基础上，自动分析判断，发现值得关注的深层次的、新的信息并进行追踪，更倾向于新信息的发现，话题跟踪依据与某话题相关的少量事件，判断出后续新闻报道流中与该话题相关的报道，并将相关报道收集起来实现跟踪。通过大规模文档自动聚类建立话题。话题检测与追踪对复杂无序的网络事件进行深入分析，总结事件中的特征规律。当某一网络事件特征符合其中规律时，就可以预测该事件的发展结果，并对于预测可能导致重大后果的事件进行舆情预警。网络监控人员可以根据预警提前对网络事件进行预防疏导，避免产生严重后果。

六、信息定量评估

一般通过数据采集、修剪、提取和分类后可以获得大量舆情信息，并通过跟踪检测手段获取话题发展规律从而对舆情事件采取积极的、有的放矢的应对措施。信息评估不属于舆情信息获取的组成部分，但在具体舆情监控工作中，不同地域、不同行业对于信息的需求不同，如何从用户角度出发，对获取的数据进行评估是非常重要的一个方面。从公安行业需求角度，按照话题热度、行业敏感度等综合评估，对于信息的定量分析与把握是非常必要的。公安行业对于舆情有很多特定的关注点，把握关注点的关键词是重要的评估指标，关键词来源于公安行业多年信息数据积累，有基于行业的文本信息关键词，比如警察、公安局等，基于案件的文本信息关键词，比如偷窃、抢劫等，基于辖区的文本信息关键词，比如兰州、城关区等，基于重大事件的文本信息关键词，比如爆炸、贪腐等。通过对这些关键词的甄别提供舆论倾向性、苗头性的舆情信息以及相关舆情数据，为网络舆情关注点评估提供支持。热点话题是网络流传比较广泛、网民反响较为激烈、产生较大影响的话题，网络热点在新媒体环境下传播的即时性和广泛性大幅增长，我们可以通过对话题访问量、转发数、网页浏览数等评估网络舆情中的热点话题，即时抓住海量网络信息中的重点，找到真正有价值的信息。当前互联网舆情日益复杂，处置要求高、难度大。网民的理性讨论与过激言论叠加在一起，人民群众的正常民意呼吁、反映与敌对分子和别有用心的人蛊惑煽动、恶意炒作交织在一起。在这种形势下，互联网舆情监控引导工作是必要的，研究网络舆情获取与分析技术并及时应用在舆情监控工作中，对于梳理舆情监控的思路，抓住纷繁的监控工作中的重点，将有限的人力物力用到关键的地方，提高工作的针对性和有效性有重要意义。

作者:胡晴云马鸿单位:甘肃警察职业学院渭源县公安局

数据分析论文:项目数据分析与金融投资论文

一、项目数据分析工作对投融资具有重要的意义

无论是政治，还是经济形势，任何政府、企业、个人，面对未来进行投融资等项目决策，不经过数据分析论证就简单的决定会带来巨大的危害，已经渐渐的被人们认同。所以，只要参与社会政治、经济等活动，进行投融资，期望带来一定的经济效益，或者社会效益，就必须加强数据分析工作，对投融资意向进行评估，为决策提供科学的依据。

（一）项目数据分析

1、什么是项目数据分析工作

项目数据分析就是研究将经济学理论用数学模型表示，并应用于项目投资分析的方法论。项目数据分析过程是：提出项目（研究机会）、初步可行性研究（市场、技术、资源、环境研究、效益、风险分析评价）、测算经济效益、评估和决策、可行性研究（市场、技术、资源、环境研究、效益、风险分析评价）、评估和决策、项目实施。

2、项目数据分析工作的内容、特点

（1）项目分析工作的内容

一般来说，项目数据分析的内容包括项目的经济效益评价、项目的风险分析和项目的比较选择。

项目的经济效益评价主要是在假设项目没有风险情况下的经济效益，主要针对非贴现指标（会计收益率和投资回收期）和贴现指标（净现值、内部收益率、获利指数和动态投资回收期）。

项目的风险分析，主要是进行盈亏平衡分析、敏感性分析和概率分析。

项目的比较选择，主要是独立方案、互斥方案和不互斥方案的设计、评估等选择。

（2）项目分析工作的特点

项目数据分析工作是一门边缘科学，其特点是以定量分析为主要分析手段，通过分析翔实的数据进行项目的论证得出定性结论，并以定量数据进行说明。显然，项目数据分析，必须通过建立数学模型的方法进行分析涉及经济学、数学、统计学和预测学。

（二）什么是投融资

1、项目投融资的概念。

投资是指 “为了在获得预期的收益而作出的确定的垫支或牺牲的各种经济行为” 。因此，投资并不局限于与基础建设相关的经济活动，还包括证劵投资、信贷投资和信托投资。

2、项目投资的特点

项目投资的特点是现在投入资金进行经济效益的博弈，通过对该项目的管理进行长期或者未来的收益，不仅具有时间性，而且具有较强的风险性，其本质就是获得预期的收益。

一些大型的投资项目，通常都由一家专业的财务顾问公司担任其项目的财务顾问，财务顾问公司做为资本市场中介于筹资者与投资者之间的中介机构凭借其对市场的了解以及专门的财务分析人才优势，为项目制定严格的，科学的，技术的财务计划以及形成最小的资本结构，并在资产的规划和投入过程中做出理性的投资决策。

（三）项目数据分析工作对投融资具有重要的意义

1、数据分析工作提高了工作效率，增强了管理的科学性。无论是国家政府部门、企事业单位还是个人，数据分析工作都是进行决策和做出工作决定之前的重要环节，数据分析工作的质量高低直接决定着决策的成败和效果的好坏。

2、越来越多的企业将选择拥有中国项目数据分析师资质的专业人士为他们的项目做出科学、合理的分析，以便正确决策项目；越来越多的风险投资机构把中国项目数据分析师所出具的项目数据分析报告作为其判断项目是否可行及是否值得投资的重要依据；越来越多的企业把中国项目数据分析师课程作为其中高管理层及决策层培训计划的重要内容；越来越多的有志之士把中国项目数据分析师培训内容作为其职业生涯发展中必备的知识体系。

二、从事项目数据分析工作的感受

（一）从数据分析师的角度，项目数据工作需要做到以下几个方面的服务，才可以为被服务对象提供品质的有价值的投融资报告。

1、真诚服务

所谓真诚服务，主要是因为投融资报告的价值来自于数据分析师精湛的业务能力，细致的数据搜集能力、阅读能力、分析能力和预测能力。无论是竞争性项目、还是基础性项目，由于数据分析工作时一门边缘科学，需要对真实和翔实的数据进行定量或者是定性分析，需要对国家或者国际政策进行审读，需要对经济形势进行判断，需要对项目所属的行业进行科学的宏观把握，因此，项目数据分析师在搜集相关数据，在分析相关数据时，在阅读国家或者国及政策时，在斟酌行业趋势时，都需要真诚的付出，否则，闭门造车或者移花接木式的投融资报告，只能是危害客户，只能给客户带来更大的风险，而不是丰厚的收益。

2、真心服务

所谓真心服务，主要是指项目数据分析师在服务客户时，需要站在客户的角度思考问题。由于项目数据分析师，是从属于某公司，因此从公司利益出发，需要为公司赚取一定的利润，这部分利润就来自于数据分析师所服务的客户。从客户角度思考，实际上客户委托数据分析师针对企业的项目意向而进行的数据分析，实际是希望数据分析师提供的项目方案，不仅是可行的，能够为公司获得预期利益，而且是风险较小的，可以操作实施的投融资报告。

3、真实服务

所谓真实服务，就是指数据分析师在进行项目数据分析，通过建立数学模型的方法进行分析并提出具有科学性的、前瞻性的、科学性的、可操作性的投融资项目预测报告时，需要是真实服务。一般来说，客户在提出项目设想时，是充满了憧憬，也具有天真的幻想，那么数据分析师提出的可行性报告如果是刻意逢迎客户的主张，那么对客户来说将是灾难性的打击。

4、真情服务

所谓真情服务，主要侧重于项目付诸于实践中，项目数据分析师跟踪调查项目实施的禁毒，以及修正项目风险分析和比较选择。

（二）从数据分析师所服务的客户角度来看，客户也需要做到以下几个方面的工作：

1、信赖数据分析师的服务

对数据分析师服务的企业来说，信赖数据分析师是必要的。一方面，投融资项目报告，制定严格，具有科学性，是理性的投资决策；另一方面，

2、忠诚数据分析师的服务

3、诚挚和数据分析师的合作

数据分析师在进行投融资项目分析时，一方面，客户的意项是否描述清晰、完整、，是非常重要的，它决定了投融资项目报告的起点和方向；另一方面，企业的真实经营状况，也对项目报告具有决定性的意义。因此，企业需要同数据分析师进行诚挚的、真诚的合作，否则，项目数据报告就存在不可预知的、本可避免的巨大风险。

三、为项目方和投资方案例分析

支持创新不忘避险—“倍爱康”生物科技项目作为股东类项目，“中投信保”为“倍爱康”提供4笔贷款担保，累计担保余额1900万元，实现保费收入28.5万元。

“倍爱康”是由冶金自动化研究院投资兴办的高新技术企业，主营磁分离酶联免疫检测系统等医疗器械和试剂的购销与制造。企业贷款用途为引进加拿大的磁酶免系统。但贷款后对该产品的市场推广未见成效，研发费用又较高，在销售无法取得突破的情况下，使得公司的净利水平偏低。同时，下游各地方医院压款情况严重。虽引入的国外先进技术不如预期般成功，企业仍按时还贷，该项目顺利完结。

四、结束语

本文在对项目数据分析与投融资进行了简单的介绍，并分析了数据分析对投融资的重要性，在此基础上简要说明了数据分析与企业之间的服务关系。本文认为，从项目数据分析与企业投融资决策之间，要相互真诚合作，以避免数据分析失真，避免投融资出现过大的风险。

数据分析论文:云计算环境下大数据分析论文

1大数据处理流程

基本的大数据的处理流程可以分成数据采集、数据处理与集成、数据分析和数据解释4个阶段。首先获取数据源的数据，因为在数据源端的数据包含各种各样的结构，需要使用某种方法将其进行预处理，使数据成为某种可以用一种算法分析的统一数据格式，接着需要找到这种数据分析的算法，将预处理过的数据进行算法特定的分析，并将分析的结果用可视化等手段呈现至用户端。

1.1数据采集

大数据的采集是整个流程的基础，随着互联网技术和应用的发展以及各种终端设备的普及，使得数据的生产者范围越来越大，数据的产量也越来越多，数据之间的关联也越来越复杂，这也是大数据中“大”的体现，所以需要提高数据采集速度和精度要求。

1.2数据处理与集成

数据的处理与集成主要是对前一步采集到的大量数据进行适当的预处理，包括格式化、去噪以及进一步集成存储。因为数据采集步骤采集到的数据各种各样，其数据结构也并不统一，不利于之后的数据分析，而且，一些数据属于无效数据，需要去除，否则会影响数据分析的精度和性，所以，需要将数据统一格式并且去除无效数据。通常会设计一些过滤器来完成这一任务。

1.3数据分析

在完成了数据的采集和处理后，需要对数据进行分析，因为在进行数据分析后才能体现所有大数据的重要价值。数据分析的对象是上一步数据的处理与集成后的统一格式数据，需要根据所需数据的应用需求和价值体现方向对这些原始样本数据进一步地处理和分析。现有的数据分析通常指采用数据仓库和数据挖掘工具对集中存储的数据进行分析，数据分析服务与传统数据分析的差别在于其面向的对象不是数据，而是数据服务。

1.4数据解释

数据解释是对大数据分析结果的解释与展现，在数据处理流程中，数据结果的解释步骤是大数据分析的用户直接面对成果的步骤，传统的数据显示方式是用文本形式体现的，但是，随着数据量的加大，其分析结果也更复杂，传统的数据显示方法已经不足以满足数据分析结果输出的需求，因此，数据分析企业会引入“数据可视化技术”作为数据解释方式。通过可视化结果分析，可以形象地向用户展示数据分析结果。

2云计算与大数据分析的关系

云计算是基于互联网的相关服务的增加、使用和交付模式，通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源，是一种按使用量付费的模式。这种模式提供可用的、便捷的、按需的网络访问，进入可配置的计算资源共享池（资源包括网络、服务器、存储、应用软件、服务），这些资源能够被快速提供，只需投入很少的管理工作，或与服务供应商进行很少的交互。目前，国内外已经有不少成熟的云计算的应用服务。数据分析是整个大数据处理流程里最核心的部分。数据分析是以数据的价值分析为目的的活动，而基于大数据的数据分析通常表现为对已获取的海量数据的分析，其数据来源可能是企业数据也可能是企业数据与互联网数据的融合。从目前的趋势来看，云计算是大数据的IT基础，是大数据分析的支撑平台，不断增长的数据量需要性能更高的数据分析平台承载。所以，云计算技术的不断发展可以为大数据分析提供更为灵活、迅速的部署方案，使得大数据分析的结果更加。另一方面，云计算的出现为大数据分析提供了扩展性更强，使用成本更低的存储资源和计算资源，使得中小企业也可以通过云计算来实现属于自己的大数据分析产品。大数据技术本身也是云计算技术的一种延伸。大数据技术涵盖了从数据的海量存储、处理到应用多方面的技术，包括海量分布式文件系统、并行计算框架、数据库、实时流数据处理以及智能分析技术，如模式识别、自然语言理解、应用知识库等等。但是，大数据分析要走向云计算还要赖于数据通信带宽的提高和云资源的建设，需要确保原始数据能迁移到云环境以及资源池可以随需弹性扩展。

3基于云计算环境的Hadoop

为了给大数据处理分析提供一个性能更高、性更好的平台，研究者基于MapReduce开发了一个基于云计算环境的开源平台Hadoop。Hadoop是一个以MapReduce算法为分布式计算框架，包括分布式文件系统（HDFS）、分布式数据库（Hbase、Cassandra）等功能模块在内的完整生态系统，已经成为当前流行的大数据处理平台，并被广泛认可和开发应用。基于Hadoop，用户可编写处理海量数据的分布式并行程序，并将其运行于由成百上千个节点组成的大规模计算机集群上。

4实例分析

本节以电信运营商为例，说明在云计算环境中基于Hadoop的大数据分析给大数据用户带来的价值。当前传统语音和短信业务量下滑，智能终端快速增长，移动互联网业务发展迅速，大数据分析可以为运营商带来新的机会，帮助运营商更好地转型。本文数据分析样本来自于某运营商的个人语音和数据业务清单，通过Hadoop2.6.0在Ubuntu12.04系统中模拟了一个大数据分析平台来处理获得的样本。希望通过对样本数据的分析与挖掘，掌握样本本身的一些信息。以上分析只是一些很基本的简单分析，实际上样本数据中所蕴含的价值要远远大于本文体现的。以上举例意在说明基于云计算的大数据分析可以在数据分析上体现出良好的性能，为企业带来更丰富更有效率的信息提取、分类，并从中获益。

5结束语

基于云计算的大数据分析已经成为解决大数据问题的主要手段，云计算环境中的大数据分析平台部署需要综合考虑硬件、网络、软件等各方面的集成，使大数据的海量信息积累体现价值，显示云计算的性能优势，而没有云计算技术的支撑也不能进行高效和的大数据处理分析。本文通过一个例子来分析了基于云计算的大数据分析给企业带来的价值，由此可见，大数据需要云计算技术的深入挖掘，同时也促进了云计算技术的不断发展。

作者:陈清金张岩陈存香单位:联通云数据有限公司中国联合网络通信集团有限公司

数据分析论文:蚊虫基因组数据分析论文

1蚊虫的基因组学研究

蚊虫基因组序列的揭示为其基因的克隆鉴定和功能分析提供了很好的平台。由于蚊基因组中高度重复序列的广泛存在，给一些基因特别是非编码序列的分子克隆带来了困难，而基因组序列的提供给这一问题的解决带来了福音。利用已获得的白纹伊蚊基因组序列，我们已顺利克隆了其嗅觉结合蛋白（OBP）和嗅觉受体（OR）基因及其调控序列，为其嗅觉发生分子机制的阐明奠定了基础。Criscione等通过比较斯氏按蚊雌蚊和雄蚊的基因组DNA和RNA样本的Illumina测序结果，发现了一个Y染色体特有的基因GUY1。Hall等则发明了一种更为有效的染色体熵法，该方法的优势是仅利用高通量测序获得的基因组和转录组数据，而不需要一个固定在染色体上的参考基因组来进行比对。通过比对两种疟疾重要传播媒介斯氏按蚊和冈比亚按蚊的高通量基因组和转录组数据，系统性地在斯氏按蚊和冈比亚按蚊中各发现了3个Y基因。同时通过对鉴定的Y基因进行生物进化分析，结果表明按蚊的Y染色体进化迅速。随后，Hall等又使用染色体熵的方法比对了雄性和雌性埃及伊蚊基因组DNA和RNA的Illumina测序数据，筛选并鉴定了一个新的基因myo-sex。myo-sex基因几乎只存在于雄蚊的基因组，但是由于基因重组偶尔地能在雌蚊的基因组中发现，具有雄性偏好性，是一个可能具有性别拮抗效应的肌球蛋白重链基因。蚊虫基因组数据也为蚊虫性别决定网络底部基因dsx的研究提供了依据。dsx是性别决定网络中的调控核心，主要行使决定体细胞和生殖细胞性别的功能，也可调控中枢神经相关基因fruitless，进而调节性行为。冈比亚按蚊基因组数据之后，Scali等率先鉴定了冈比亚按蚊dsx的性别特异性转录本，其横跨2号染色体85kb的区域，通过选择性拼接产生多个外显子组成的雌性和雄性特异性转录本。而随着2014年斯氏按蚊基因组的，有研究者将Scali等报导的Angdsx与刚的斯氏按蚊基因组和转录组进行序列比对，发现一致性达到了97%，而与冈比亚按蚊基因组及转录组序列一致性仅为85%。Scali等在埃及伊蚊中发现了两种雌性特异性的可变剪接方式，这不同于黑腹果蝇和冈比亚按蚊具有的特异性DsxF。

2蚊虫的转录组学研究

转录组学（transcriptomics）是一个活细胞所能转录出来的所有RNA的总和，是研究细胞表型和功能的一个重要手段。传统上用于转录组数据获得和分析的方法主要有基于杂交技术的芯片技术包括cDNA芯片和寡聚核苷酸芯片，但目前使用最普遍的是RNA-seq即转录组测序技术。基于Illumina高通量测序平台的转录组测序技术能够在单核苷酸水平对任意物种的整体转录活动进行检测，在分析转录本的结构和表达水平的同时，还能发现未知转录本和稀有转录本，地识别可变剪切位点以及cSNP（编码序列单核苷酸多态性），提供最的转录组信息。相对于传统的芯片杂交平台，转录组测序无需预先针对已知序列设计探针，即可对任意物种的整体转录活动进行检测，提供更的数字化信号，更高的检测通量以及更广泛的检测范围，是目前深入研究转录组复杂性的强大工具。巨蚊属是蚊科中三种不吸血的蚊属之一，其幼虫阶段以同在小型水体中孳生的白纹伊蚊和埃及伊蚊为食，两性成蚊均不吸血，以植物汁液和花蜜为食。为了探究巨蚊与其它吸血蚊种在搜寻宿主方面的基因水平上有何差异，国外有学者从巨蚊上分离出触须、触角和身体其他部分，分别提取这三部分的RNA，利用RNA-seq技术，将获得的序列片段从头组装，与目前已公布的致倦库蚊、冈比亚按蚊、埃及伊蚊基因组数据进行系统进化树分析，发现巨蚊与埃及伊蚊的种属关系最近，并且在上述四种蚊种中均发现了编码气味分子受体（odorantreceptor,OR）蛋白和离子转移受体（ionotropicreceptor,IR）蛋白的基因，但值得注意的是，巨蚊受体蛋白的表达量与丰度上较其它蚊种都有所降低［18］。因为这些受体蛋白被认为与吸血昆虫搜寻宿主气味分子如CO2有关，所以，巨蚊在长期的生物进化过程中，丧失了原本存在的吸血习性。蚊唾液腺蛋白与其吸血传病密切相关。国外有学者提取白纹伊蚊雌性成蚊的唾液腺RNA后进行转录组和蛋白质组分析，发现至少有32个基因在雌性成蚊的唾液腺中表达程度或者增高或者降低，另外有17个基因表达在雌性成蚊唾液腺和雄性成蚊中，但不表达在雌性成蚊的其他组织中。通过分析发现，其中大约三分之一的基因功能表现在吸血、消化糖、免疫应答等方面，但是并未发现其余基因的明确功能，所以非常有可能是长期吸血的过程中进化出的新的功能分子。利用同样的方法，分析冈比亚按蚊、斯氏按蚊、达氏按蚊、埃及伊蚊、白纹伊蚊、致倦库蚊和致死按蚊（Anophelesfunestus）的唾液蛋白相关的转录组，可以将这些蛋白归纳为：

（1）昆虫唾液腺中普遍存在的唾液蛋白，包括抗原-5蛋白家族、核酸酶、碳水化合物水解酶等；

（2）在吸血的长角亚目昆虫（包括白蛉、蚋、蠓等）中丰富表达的D7蛋白；

（3）仅在蚊唾液腺中存在的蛋白，包括30000左右的过敏原蛋白家族（allergenfamily）和一些粘蛋白。很多昆虫都被发现具有一种独特的生物学现象——滞育（diapause）。昆虫的滞育现象被认为是一种休眠的形式，在昆虫发育时遇到不适宜的环境时，就会马上由体内激素调节并控制，暂时停止发育。白纹伊蚊被发现同样具有滞育现象，这是它能适应环境气候变化，实现快速扩张入侵的生物学基础之一。白纹伊蚊的雌性成蚊在每日受到较短时间的光照后，产下的卵不会立即孵化，这便是一种滞育的现象。有趣的是，同是伊蚊属的埃及伊蚊，其雌性成蚊产的卵如果没有接触到水，也不会孵化、发育，这却被认为是一种静息状态（quiescence）。这两种现象的区别在于，发生滞育后，白纹伊蚊的卵即使收到合适的外界环境的刺激，仍需要经过一段时间的恢复才会孵化，而处于静息状态的埃及伊蚊的卵，只要受到适宜条件的刺激（如接触到水），就会马上进入发育阶段。国外有学者利用RNA-seq技术，对这两种现象进行分析，发现这两种现象在发育停止的阶段，分子水平上是很相近的，不同之处在于滞育现象的早期准备阶段和后期修复阶段，是其所独有的。关于滞育现象的早期准备阶段，国外学者通过RNA-seq技术，比较滞育前阶段（pre-diapause）的白纹伊蚊胚胎与同时期非滞育的白纹伊蚊胚胎基因表达水平上的差异，发现前者在基因表达模式上有非常大的改变。目前，已有学者归纳和总结出了一套利用RNA-seq技术研究白纹伊蚊滞育现象的方法，为今后更、彻底地认识白纹伊蚊以及其他媒介昆虫的滞育现象提供了坚实的基础。利用RNA-seq技术，我们对白纹伊蚊不同发育时期（卵、幼虫、蛹、雄蚊、雌蚊）和感染登革病毒前后的转录组进行了分析。对比分析不同发育阶段特别是雌雄蚊的基因表达谱，我们找到了在胚胎早期对性别分化具有重要作用的候选基因和对雌蚊吸血传病相关的性别偏爱基因。对比分析登革病毒感染与否的白纹伊蚊转录组，我们发现了可能与蚊媒与病原相互作用有关的免疫分子（未发表结果）。目前，针对这些候选基因的进一步功能分析正在进行之中。另外，对白纹伊蚊抗药品系和敏感品系的RNA-seq对比分析也在进行中，这对于其抗药机制的阐明非常重要。

3蚊虫的小RNA组学研究

小RNA（smallRNAs）主要指长度在18~30nt的一类非编码RNA（ncRNAs），在真核生物中，具有基因表达调控功能的小RNA主要有微小RNA（microRNAs,miRNAs）、内源小干扰RNA（endo-siRNAs）和piwi干扰RNA（piRNAs）。piRNA长度集中在26-31nt,目前只在动物的生殖系细胞及干细胞中被发现，其主要功能是参与转座子的沉默。miRNAs和endo-siRNAs长度主要集中在20~24nt。miRNAs在动植物和微生物中都普遍存在，据估计一个物种中约1/3的基因会受到miRNA的调控，大量的实验也表明miRNAs参与了诸多生命过程的调控，例如细胞周期、细胞分化、组织器官的发生、营养代谢、信号途径以及对外界生物的非生物的环境的反应；同时，miRNAs在生产实践与临床治疗上也具有很大的应用前景。以往用于寻找miRNAs等小RNA的方法有实验克隆法、计算机预测法。克隆法可以直接用于鉴定新小RNA，是初期发掘小RNA的常用方法，不足之处是实验周期较长，对低表达的小RNA的发现能力十分有限。计算机预测法多是针对某一已知的小RNA特征设计算法，从全基因组或EST数据库中快速发掘大量潜在的小RNA，一定程度上弥补了克隆法的缺点，然而，预测的小RNA最终还需要实验证明，同时计算机预测法对新类型小RNA的发掘能力十分有限。随着第二代高通量测序技术的问世，小RNA高通量测序（smallRNA-Seq）技术开始逐渐取代原始的小RNA发掘法方法，该法具有速度快、成本低、覆盖度深等多方面的优点，对鉴定与发现生命体内的小分子RNA及其功能与机理研究起极大的推动作用。全世界有超过3000种蚊虫，目前为止仅有冈比亚按蚊、斯氏按蚊、埃及伊蚊、致倦库蚊以及白纹伊蚊鉴定出miRNA。一些miRNA的文库和功能分析表明miRNA对蚊虫的卵巢发育和吸血后的血液消化具有调节作用。病毒感染可以对宿主细胞miRNA的表达水平产生深远影响，可能与宿主抗病毒机制及病毒入侵后改变细胞内环境有关，雌蚊中miRNA的表达模式会随着病原体的感染而发生变化。Hussain等对登革病毒（DENV）编码的miRNA或病毒小RNA（vsRNAs）的进行了功能研究，他们发现6个vsRNAs能通过作用于病毒基因组RNA茎环结构中的5''''和3''''的UTR区，显著增加病毒复制。中肠屏障是蚊虫防止病原体入侵而建立的重要屏障，Alexander等的研究发现miR-1174仅在伊蚊和按蚊的中肠中表达，且雌蚊吸血后其表达量明显上调；而当miR-1174表达下调后，蚊子吸血率明显降低，寿命明显缩短。作者认为：蚊特异性miRNAs，特别是miR-1174具有重要的生物学意义，它们可能影响人们今后控制蚊虫的策略。我们对白纹伊蚊不同发育时期（卵、幼虫、蛹、雄蚊、雌蚊、吸血后雌蚊）的小RNA进行了深度测序分析。结果在白纹伊蚊中筛选出119条已知的miRNA基因，确定了15条novelmiRNA基因，其中11条是伊蚊特异的，并且观察到许多miRNA呈现期特异表达的特点。经过实验验证，miR-286、miR-2492和miR-1891分别在白纹伊蚊的卵、幼虫和成虫期特异高效表达，敲低/敲除这些miRNA会对蚊虫的生长发育造成显著影响。这些研究为新型生物杀虫剂的研发提供了靶标。我们还对感染登革病毒前后白纹伊蚊的细胞和成虫的小RNA进行了深度测序分析。结果在感染登革病毒的白纹伊蚊中找到了10条表达上调的miRNA和11条表达下调的miRNA。通过对这些差显表达miRNA的功能分析，发现miR-252通过与E蛋白3''''-UTR区域的结合，对登革病毒的复制起到抑制作用；而miR-281则通过与E蛋白5''''-UTR区域的结合，对登革病毒的复制具有促进作用。这些研究为抗登革病毒药物的设计和研发提供了线索。piRNA来源于转座元件、基因间隔区和一些编码蛋白质基因的3''''UTRs，对维持基因的完整性和稳定性有一定作用，但最近的研究证明它在抗病毒免疫中也有较大作用。Schnettler等的研究证明：对蚊虫细胞感染虫媒病毒可以引发piRNA路径，而敲除piRNA蛋白质会使病毒产生增多。Castellano等确定了多个24-30nt的Piwi相互作用RNAs基因组簇，通过比对到转座元件和蛋白质编码基因的3''''UTRs，发现许多TEs和一些内源性基因的3''''UTR产生大量具有piRNA样特征的29-nt小RNAs峰。此外，来自冈比亚按蚊和黑腹果蝇TEs的正义和反义piRNAs揭示了piRNA序列偏差的新特征。弗吉尼亚理工大学的研究人员最近在库蚊中发现了一种新型的抗病毒途径，Morazzani等在无dicer-2和无突变的蚊细胞中进行的实验表明，病毒产生的piRNA样小RNA可以在病毒产生siRNA的过程中调节病毒感染的发生。同时也表明新的piRNA途径存在于蚊媒的体细胞中并且可能发挥着比siRNA途径更宽泛的的抗病毒作用，显示出其为强大的免疫系统。因此，理解病毒如何绕开蚊虫的双重抗病毒反应对于科学家来说是越来越有趣的挑战。

4结语

随着新型测序技术和生物信息学分析技术的不断发展，生物医学研究也迎来了大数据分析时代。近年蚊虫组学的快速发展，给其媒介生物学、入侵扩散的机制研究等提供了广阔的、深远的大数据分析平台，也必将为蚊虫的媒介控制和传播疾病的防制带来更多的机遇和指引。

作者:吴恙谢李华刘培文李小聪闫桂云陈晓光单位:南方医科大学公共卫生与热带医学学院病原生物学系

数据分析论文:多维数据分析下电力营销论文

1电力营销现状

1.1垄断

世界多数大国在近一百多年来在供电上采取的模式是集发电、输电、配电为一身的垄断模式。国家在电力供应上大多数或全部由国家垄断经营，广大电力用户就是消费者。这种垄断经营在短时间内使电力工业聚集了大量的资金，电力工业持续发展，同时避免了重复设施的出现，为电网的统一规划和建设提供了有力的支持。

1.2发电竞争

发电竞争模式，竞争主要体现在发电环节，输电和配电仍然采取垄断经营。在电力经营过程中对电力市场进行开放，引入发电企业，在市场中由垄断企业对发电企业生产的电力进行买断，然后由垄断企业统一卖给电力用户，这种供电模式的引入加大了市场中电力的供给量。

1.3电力转运

电力运转模式就是合理的将发电、输电、配电三个过程进行分离，每个发电厂都独立成为一个企业，各个发电厂之间采取公平竞争。市场中的用电大户，可以低价从电力企业直接购买电力，利用统一电网实现电力运转。在电力运转模式中，部分竞争市场、垄断经营市场和竞争市场同时存在。

1.4配电网开放

配电网开放模式的主要特点是：发电、输电、配电三个环节适当分离，三个环节都各自成为独立的经营体系，三者之间存在电力买卖关系。这种经营模式将发电、输电、配电三者打破了传统的电力运营管理模式，电力市场形成了多种商家相互竞争的形式，这不仅增加了发电企业之间的相互竞争，客户可以通过自己的需求来选取适当的发电商，而且电力消费者和生产者之间形成了一种真正的买卖格局，从而为电力显示商品特性提供了便利条件。

2企业多维数据分析具有的特点

2.1多维性

多维数据分析的一个最重要特点就是多维性。多维性不仅体现了人们在观察世界时的多角度，同时也体现了多层次观察。例如，在销售量数据的查看上可以从时间维入手，同时还可以从年、季、月等时间层次上进行查看。对数据进行分层查看，不仅符合事物的客观运行规律，而且也能让用户地掌握数据情况。

2.2实时性

实时性不仅满足了用户在时间上对信息的需求，而且可以快速查找多维数据的分析结果，同时实现了实时的接受用户所反馈的数据。

2.3开放性

多维数据分析支持多数据源和系统平台。因此，在实际工作中，不论数据存储量有多大，存储在何处，采取何种方式对数据进行存储，都可以及时获取到存储的数据，并且可以以多种方式将分析结果提供给不通过平台上的客户使用。

2.4可分析性

可以从不同的角度对数据的较大值、平均值、最小值、汇总进行记录和处理，将庞大的有用数据提供给客户，此外还具有数据分析和数据查询等能力。

2.5安全性

确保信息的安全，避免受到欺诈，对用户进行分级管理，数据分析过程中，对于数据分析结果只能提供给相应的用户。如果在实际工作中，存在多个用户共同应用同一个分析时，应当对客户的级别进行合理划分，依据客户所处的安全级别，允许客户查看对应层次的信息。

3电力营销多维数据分析过程

（1）依据决策者和企业业务在信息上的需求，对多维数据分析主题进行确定，在进行多位数据分析时，依据面向主题分析获取信息，从而实现为决策者提供信息的目的。

（2）收集数据，目前供电企业信息系统收集了电量的业务数据，这些数据都存储在各个供电企业的信息系统中，为了使其能够更好的为企业所用，应当建立数据库服务器，采集供电企业中数据。多维数据分析在电力决策的实际应用中，数据采集工作需要依据多维数据分析主体进行，要对数据库系统进行确认，并且在构建面向分析时选择数据库，从数据库系统中抽取、转换企业需要的数据。数据仓库是集成的、面向主题的且在实际运行过程中容易因为时间变化而发生改变的一个数据集合。数据仓库是企业为数据分析工作而设计的，利用数据仓库可以为多维数据分析提供更加稳定且具有针对性的数据，目前许多电气企业都构建了数据服务器。

（3）多维数据模型的建立，多维数据分析需要以多维数据模型为基础，从哪些角度对多维数据模型进行观察，对哪些数据进行分析，可以通过多维数据分析决定哪些数据需要仔细分析历史数据结构来获得，从获取的数据中找到有用的数据构建成适当的度量、维度从而构成高效的多维数据模型。

（4）设计人员依据现有的多维数据模型，选取适当的度量和维度，结合报表利用适当的统计方法，通过图表直观地展现企业的大量了历史数据。

（5）信息，通过灵活的方式将电力企业想要的相关信息直接提供给决策者。

4分析电力影响数据主题

在电力营销决策中，每一个主体都对应一个具体的分析，表示一种营销决策者在工作中需要掌握的信息。本文在研究上将分析主体分为用户情况、购电情况、电价情况、电费回收、设备资产情况等，并对较大的主体进行了进一步划分，针对电力营销的数据分析，应当从宏观到微观，从多个角度对电气企业的数据进行科学分析，为电力企业的各级领导者提供决策信息。因此，在分析上还需要确定分析层次和分析角度。

5结论

综上所述，近年来电力营销工作得到了一定的发展，但在管理过程中，同一营销管理因为时间、地点上的差异，管理者通过不同的角度观看信息，信息的呈现方式都会所差别。同时因为多维数据的存储、分析不断的发展，多维数据分析在电力营销决策中的应用是一个漫长的过程，因此需要依据需求的变化进行不断地改进和完善。

作者:刘晓华柏青单位:国家电网新疆电力公司

数据分析论文:固网漏话用户数据分析论文

1数据挖掘和知识获取

数据挖掘是在数据库中进行知识发现的重要方法，是从大量的表面数据中提取隐藏在其中的知识的过程。近年来，该技术发展迅速，已应用到各个领域。本文主要介绍固话漏话用户数据挖掘和分析。

2数据挖掘技术应用于电信用户数据研究

2.1固网用户数据的组成和结构

对于企业来说，大量的用户数据不仅有利于客户关系管理（CRM），同时也是获得用户知识的源泉。从用户知识发现的过程中可以看到，用户数据的质量会对知识发现的结果产生直接的影响，所以用户数据准备也是一项很重要的步骤。从商业系统中提取出高质量的用户数据就成为一项最主要的工作。固网企业的用户数据包括用户基本信息、用户账单信息以及客服信息。数据仓库就是根据这种方式来组织的。

2.2知识发现的方法和过程

用户知识发现概括如下：根据提出的商业目标，分析大量的用户数据，找出隐藏的和未知的规律或者丰富已知的规律，进而提出模型；要将数据挖掘和分析的结果转化成有商业意义的方法，然后采取进一步的行动。用户知识发现必须遵循以下几个步骤：商业理解，数据理解，数据准备，分类模型，评估应用。

2.3数据挖掘建立用户分类模型

近年来，“以客户为中心”的电信市场开始强调为不同用户提供个性化服务，其前提条件就是用户分类。这也说明了过去的消费行为也预示了未来的消费倾向。

（1）商业理解

对用户的理解不仅是理解电信市场的开始，也是理解客户关系管理的开始。在电信企业中对用户的理解包括：用户种类，不同类中用户的本质属性区别，用户偏好，不同类别之间的用户如何通信等。

（2）用户数据准备

对用户分类的研究主要是从用户属性中得到用户特征和行为习惯。主要数据来源于用户账单信息，同时也需要从商业系统中得到一些用户的基本属性信息。

（3）用户分类模型

本文使用聚类分析对用户进行细分以建立分类模型。聚类分析是把大量数据点的集合根据较大化类内相似性、最小化类间相似性的原则进行聚类或分组，使得每个类中的数据之间较大限度地相似、而不同类中的数据之间较大限度地不同。

3固网漏话用户数据分析

3.1关于固网漏话用户数据分析的商业理解

通过各种渠道调查，对固网漏话用户数据分析的目标可以概括为以下几点：

（1）对用户通话次数、时间段等分析，找出特征，以此来寻找目标用户；

（2）对用户开通漏话保护业务前后的ARPU值分析比较，分析收益的对比；

（3）对目标用户数据分析，从用户分类的角度来管理，设计针对性的服务，提升用户满意度。

3.2系统用户数据准备

数据准备的过程：明确目标；制定计划；分析变量的获取；数据收集和获取；数据集成。根据当前客户关系管理基本状况和数据挖掘的目的，涉及到的人口属性变量有：性别、年龄、住址、用户职业、婚否、学历、薪资等。用户分类结束之后，再使用描述变量来进行分析说明。本文选用某市电信公司运营支持系统和经营分析系统的数据，从中选取了基本客户基本信息表、客户详细话表、账单及缴费信息表、产品信息表、业务使用清单等原始数据。数据挖掘工具选择SPSSClementine。在使用该工具进行挖掘之前，需要对数据进行清洗：

（1）删掉不满足要求的数据：选择普通的用户；选择状态正常的用户；选择入网时间较长的用户，使数据有完整的用户周期；

（2）去掉异常数据：比如用于测试的号码；

（3）去掉极端值：不具备普遍性的极值容易产生噪声。

3.3固网漏话用户数据分析结果

考虑到不同分类建立的有效性和简便性，以及固话用户和数据源的特点，本文采用常见的K-means算法，其高性、高精准性以及低复杂度使其成为主流的聚类算法。本文选用SPSSClementine作为数据挖掘工具进行K-means聚类分析。获取原始数据并进行预处理之后，选择参与聚类的细分变量，输入簇的个数k，选择k=7，然后点击“聚类”按钮，使用K-means算法对固网漏话用户数据进行聚类。经过正常值选择、极值处理等一系列的数据清洗工作，用于研究的记录有251284条。

3.4分析结果和解释

93%的遇忙话务都出现在8∶00~18∶00的工作时段，这说明该时段遇忙话务较多，话务量流失严重，特别需要遇忙话务的解决方法。而这一时间段遇忙话务量最多的就是政企用户，这些话务量流失对政企用户将造成巨大的损失：30000政企用户一个月遇忙话务损失达到260万次，本网超过120万次，每个月预计损失20万；以电信中等发达省份为例：符合条件的政企高端用户约为60万；每年度损失的潜在业务收入为50000万。经过分析，得到该市各地区已开通和未开通漏话保护业务的用户分布，如图4所示。C区属于政务新区，未开通漏话业务的用户较多，而F区属于工业园区，企业较多，很多用户已开通漏话保护业务，但是还有大量用户未开通该业务，所以C区和F区应该作为该业务的重点推广地区。综上分析，固网漏话业务是一个非常有潜力的业务，解决漏话问题是提高用户满意度和忠诚度的重要途径。根据上文的分析，在8∶00~18∶00时间段，用户遇忙话务量非常多，在这段时间内，企业需要更多的漏话接入服务器，而在其他时间段可以减少接入服务器以节约成本。而在不同的地区，用户数量和精准用户的数量也不同，应该选择精准用户较为集中的地区优先推广漏话保护业务。由于精准高端用户带来的收益远远超过普通用户，所以要对经过筛选的精准用户采取针对性措施，比如在C区和F区大力宣传，以各种形式让精准客户看到该业务带来的收益，还可以电话推广为精准用户提供信息。

4结论

本文将聚类挖掘方法应用到固网漏话用户数据分析中，采用SPSSClementine工具进行数据挖掘。漏话保护系统主要针对政企高端用户提出，主要目的是为了提高通话接通率，以提高政企用户的效益，达到用户和运营商的共赢。而对用户数据的分析，是为了运营商可以更好地服务于政企客户，为企业带来更多的利益，从根本上改善固网漏话问题。

作者:孙骏单位:南京邮电大学

数据分析论文:多层次数据分析论文

1海量数据处理流程

1.1数据采集

数据的采集是指利用传感器、社交网络以及移动互联网等方式获得的各种类型的结构化、半结构化以及非结构化的海量数据，这是一切数据分析的基础。数据的采集需要解决分布式高速高数据的采集、高速数据全映像等数据收集技术。还要设计质量评估模型，开发数据质量技术。而数据采集一般分为大数据智能感知层：主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统，实现对海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。

1.2数据预处理

数据采集的过程本身就有会有很多数据库，但如果想达到有效分析海量数据的目的，就必将这些来自前端的数据导入到一个集中的大型分布式数据库，或者分布式存储集群，而且在导入基础上做一些简单的辨析、抽取、清洗等操作。

①抽取：因为我们通过各种途径获取的数据可能存在多种结构和类型，而数据抽取过程可以有效地将这些复杂的数据转换为单一的结构或者便于处理的类型。以达到快速分析处理的目的。

②清洗：对于海量数据而言，数据所处的价值层次不一样，就必然存在由于价值低而导致开发成本偏大的数据，还有与数据分析毫无关系的数据，而另一些数据则是错误的干扰项，所以对数据通过过滤“去噪”从而提取出有效数据是十分重要的步骤。

1.3数据的存储与管理

当我们采集数据完成后，就需要将其存储起来统一管理，主要途径就是建立相应的数据库，进行统一管理和调用。在此基础上，需要解决大数据的可存储、可表示、可处理、性及有效传输等几个关键问题。还需开发的分布式文件系统（DFS）、能效优化的存储、计算融入存储、数据的去冗余及高效低成本的大数据存储技术；以及分布式非关系型大数据管理与处理技术、异构数据的数据融合技术、数据组织技术、研究大数据建模技术、索引、移动、备份、复制、可视化技术。

1.4数据的统计分析

一般情况下，统计与分析主要就是利用分布式数据库，或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等，以满足大多数常见的分析需求，在这方面，一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata，以及基于MySQL的列式存储Infobright等，而一些批处理，或者基于半结构化数据的需求可以使用Hadoop。统计与分析这部分的主要特点和挑战是分析涉及的数据量大，其对系统资源，特别是I/O会有极大的占用。

1.5数据分析与挖掘

所谓数据挖掘是指从数据库中的大量不的、有噪声的、模糊的、随机的实际应用数据中，揭示出隐含的、先前未知的并有潜在价值的信息的过程。与前面统计和分析过程不同的是，数据挖掘一般不会有预先设计好的主题，主要是在现有数据上面进行基于各种算法的计算，从而起到预测（Predict）的效果，从而实现一些高级别数据分析的需求。比较典型的算法有用于聚类的K-means、用于统计学习的SVM和用于分类的NaiveBayes，主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂，并且计算涉及的数据量和计算量都很大，常用数据挖掘算法都以单线程为主。

2数据分析的8个层次

2.1标准化报告（StandardReports）

标准化报告作为数据分析的及时个层次，要求相对较低，主要是借助相应的统计工具对数据进行归纳总结，得出包含主要参数指标的标准化报告。类似于一个销售企业每月或者每季度的财务报表。

2.2即席查询（AdHocReports）

用户可以通过自己的需求，灵活地选择查询条件，系统就能够根据用户的需求选择生成相应的统计报表。即席查询与普通应用查询较大的不同是普通的应用查询是定制开发的，而即席查询所有的查询条件都是用户自己定义的。在面向高层的数据分析软件中，用户随意添加想要查询的指标按钮再加上相应的限制条件，就可以立即生成可视化的统计结果，不仅一目了然，而且没有任何操作难度。

2.3多维分析（QueryDrilldown）

多维分析是指对具有多个维度和指标所组成的数据模型进行的可视化分析手段的统称，常用的分析方式包括：下钻、上卷、切片（切块）、旋转等各种分析操作。以便剖析数据，使分析者、决策者能从多个角度多个侧面观察数据，从而深入了解包含在数据中的信息和内涵。上卷是在数据立方体中执行聚集操作，通过在维级别中上升或通过消除某个或某些维来观察更概括的数据。上卷的另外一种情况是通过消除一个或者多个维来观察更加概括的数据。下钻是在维级别中下降或者通过引入某个或者某些维来更细致地观察数据。切片是在给定的数据立方体一个维上进行的选择操作，切片的结果是得到了一个二维的平面数据（切块是在给定的数据立方体的两个或者多个维上进行选择操作，而切块的结果是得到了一个子立方块）。转轴相对比较简单，就是改变维的方向。

2.4仪表盘与模拟分析(Alerts)

仪表盘用于监控一些关键指标。模拟分析是由操作者动态地加以调节的控件（如滑动块、可调旋钮、选择框等），来控制管理决策模型行为某些参数。当操作者通过控制面板对模型中的参数值或变量值进行调节时，图形中的曲线、柱形组或分析指标等要素就会发生相应的运动，而这种运动正好反映了该参数的变化对模型行为的影响，如果这种变动引起了模型中解或其他关键数字的变化，能够随时将关于这种变化的结论正确地显示出来。

2.5统计分析（StatisticallyAnalysis）

我们知道概率论是数理统计的基础，数理统计是在其基础上研究随机变量，并应用概率论的知识做出合理的估计、推断与预测。概率论中讨论的各种分布在数理统计中作为统计模型来分析处理带有随机误差的数据。典型的数理统计方法有参数估计、假设检验和回归分析。而统计分析主要是对用户所关注的问题进行推断、预测和控制的分析方法。具体可以分为以下三方面：

①描述统计：主要是集中趋势、离散程度、分布形状等，统计图（方图、箱线图、散点图等）；

②数据的分类汇总；

③基础统计分析：方差分析、时间序列分析、相关和回归分析、（主成分）因子分析等统计分析方法。

2.6预测（Forecasting）

在统计分析和数据挖掘领域，对未来的预测已经有了很多数学模型以及解决具体问题的相关算法。其核心思想便是从历史数据中找出数据的发展模式，然后以这些模式为支点，就可以对未来进行预测。

2.7预测模型（PredictiveModeling）

随着数据分析学家对数据挖掘技术的不断探索，出现了很多预测模型以及与之相对应的算法，但是很难确定某个模型是最的，因为不同的领域，不同的条件，对应的预测模型是不一样的，所以没有统一化的模型，只存在有选择性的模型。下面介绍几种典型的预测模型。

①回归模型:回归模型可以分为一元线性回归模型和多元线性回归模型。一元线性回归模型可表示为yt=b0+b1xt+ut，该式表示变量yt和xt之间的真实关系。其中yt称作被解释变量（或相依变量、因变量），xt称作解释变量（或独立变量、自变量），ut称作随机误差项，b0称作常数项（截距项），b1称作回归系数。b0+b1xt是非随机部分，ut是随机部分。而在很多情况下，回归模型必包含两个或更多自变量才能够适应地描述经济现象各相关量之间的联系，这就是多元线性回归模型需要解决的问题，其一般形式为：Y=a+b1X1+b2X2+…+bmXm，式中X1、X2、…、Xm是这个多元回归问题的m个自变量，b1、b2、…、bm是回归方程对应于各自变量的系数，又称偏回归系数。

②贝叶斯网络：贝叶斯网络是基于概率推理的数学模型，而概率推理是通过一些产量的信息来获取其他概率信息的过程。贝叶斯网络会建立一个有向无环图和一个概率表集合，有向无环图中的每一个节点便是一个随机变量，而有向边表示随机变量间的条件依赖，条件概率表中的每一个元素对应有向无环图中的节点，存储此节点对其所有直接前驱节点的条件概率。贝叶斯网络是为了解决不定性与不完整性问题而提出的，在多个领域中获得广泛应用。

③基于时间序列分析的指数平滑模型在时间序列分析中指数平滑模型是最灵活和的方法，在经济领域也被证明是最有效的预测模型。在不同的时间序列下，指数平滑模型可以分为简单指数平滑法、带有趋势调整的指数平滑法、带有阻尼趋势的指数平滑法、简单季节指数平滑法、带有趋势和季节调整的指数平滑法五种不复杂度的模型。

2.8化

（Optimization）因为优化问题往往可以带来巨额的收益，通过一系列可行的优化，可以使收益得到显著提高。所谓化就是从有限或者无限种可行的方案中选取的方案。如果可以通过简单的评判，就可以确定方案那是好的。但是事实不会那么简单，所以优化技术已经发展出了一系列的理论来解决实际问题。其常用的优化技术为：

①线性规划：当目标函数与约束函数都是线性函数时，就是一个线性规划问题。而当同时满足约束函数和目标函数时，则可以认为是解。

②整数规划：要求决策变量取整数值的数学规划。

③多目标规划：指衡量一个决策优劣的标准不止一个，也就是有多目标函数。

④动态规划：将一个复杂的问题划分为多个阶段，逐段求解，最终求出全局解。

3用Excel实现简单的数据分析

①对于企业而言最重要的是利润，所以管理者必须要从这张表中得到最关键也最容易得到的销量和销售额以及与其相关的一些数据，通常是用最基本的数理统计结果来直观地反映该企业在某个期间的盈利情况。

②其次，我们必须要做进一步的分析。已经对整体的情况有了一定的把握，所以就可以朝着不同的方向去挖掘一些有价值的信息，为企业高层做决策提供有力的依据。对产品销售而言，客户结构能够有效地反映客户的地域分布，企业可以根据客户的来源，在未开辟客户的地域去寻找新的目标客户群。而销量结构可以直观地反映企业较大销量来自哪个地区，对销量较小的地区可以加大宣传力度或者增加销售网点来保持各地区销售均衡。还可以及时地调整销售方式来扩大市场份额，而对于销量最小的地区考虑开辟新的市场。

统计了各地区的销售总额和平均销售额以及两者的对比关系。由此可以得出地区平均购买力大小，以及各地区总销售额大小。借助图表描述，管理者可以对企业在某段期间内的销售状况有一个大概的把握，只有掌握了这些的信息，才能更细化地去研究具体的影响因素。划分等级，对于经常性大量购买的客户必须要以惠的价格和好的服务让其满意，以形成一个稳定的大客户群。而对于那些少量购买的客户，也要制定出相应合适的方案来留住客户。所以，分析销售额的分布情况，可以掌握客户的购买力度而且还能及时做一些留住大客户的举措。

4用R语言实现数据多层次分析

R语言是一种自由软件编程语言与操作环境，是一套完整的数据处理、计算和制图软件系统，它是一种用来进行数据探索、统计分析和作图的解释型语言。它可以提供一些集成的统计工具，但更大量的是它提供各种数学计算、统计计算的函数，从而使使用者能灵活机动地进行数据分析，甚至创造出符合需要的新的统计计算方法。而在使用R语言进行数据分析处理时，当我们遇到很大的原始数据，但用来建模的数据较小，则可以先在数据库中进行整理，然后通过R与数据库的接口提取数据，数据库适合存放和整理比较规整的数据，和R中的数据框有良好的对应关系，这也是R中绝大多数统计模型的标准数据结构。数据库中大部分的运算都不需要消耗很大的内存。

5结语

多层次数据分析在管理上有十分重要的意义，因为它所产生的价值是建立在真实的数据层面，而对一个企业而言搜集数据模式的改进是管理过程的完善，对企业符合时代潮流和规范管理过程是至关重要的。多层次数据分析能够及时纠正企业错误的决策，能够对进度展开实时跟踪，还能了解成本管制情况和人员思想动态等。对于个人而言，数据分析可以帮助我们更好地去生活，消费者可以通过分析结果去选择物美价廉的商品。还可以用数学模型来分析电影的票房，来减少不必要的损失等。总之，大数据时代多层次数据分析的价值是无可估量的，它可以囊括我们能想到方方面面以及我们现在还想不到的一些领域。也许，在不久的将来数据分析技术会变成一个独立的学科，而掌握数据分析技术是以后社会中人才必备的技能。

作者:祁鹏年单位:长沙理工大学经济与管理学院

数据分析论文:气象雷达数据分析论文

1.系统的设计

系统主要实现软件的模块话设计，包括反射率数据分析模块、速度分析模块、天线运行稳定性分析模块以及雷达组网数据分析模块。

1.1反射率分析模块

反射率的大小体现了气象目标的降水粒子的密度分布及体积大小，在实际气象技术中长期用于表示气象目标的强度，在工作上采用dBZ单位表示。对于空管气象雷达图，数据显示采用PPI(PlanPositionImage)显示方式。该方式决定了一张气象雷达图由圆锥俯视平面上分析空间的回波构成。在设计上简单介绍其设计流程，首先必须读取原始数据，并判断是否首次读取，若为首次读取则对其进行预处理，否则进行坐标转换；其次进行图像绘制并判断是否需要改变仰角。此处需要关注的关键是如何进行数据的预处理。在实现上，对接收的数据进行反射率信息结构体赋值。当然该结构体包括了记录实际仰角角度、数据文件路径存储、雷达波段判断以及相关数据的偏移。通过扫描上述结构体可以实现对雷达数据的预处理。

1.2速度分析模块

多普勒雷达采用了速度退化模糊技术以扩大其对径向风速测量不模糊的区间。结构设计主要考虑数据显示的径向方式，流程设计则与反射模块类似。当然在界面设计上，系统将提供对颜色配置的定义，使其人机交互更为快捷。

1.3天线稳定性分析模块

天线是雷达数据采集的关键部位，长期以来是影响雷达运行的主要关键点之一。其依赖于底下的电机进行旋转，目前大多数进口电机可以保障24小时安全运行。而运行时仰角提升和转速的平稳性直接影响雷达数据的采集。为此，我们通过在径向数据上采用方位角及仰角进行扫描实现曲线图监控。通过选择基数据再进行预处理后绘制相关曲线实现对天线运行状态的评估。其中，曲线图的绘制需要的参数为：纵坐标为气象雷达实际运行的每层仰角均值；横坐标为范围角：0-360°。

1.4雷达组网分析模块

按照民航局的总体规划，未来空管将实现多气象雷达覆盖，在这过程，多个气象雷达的组网将成为气象雷达数据的主要来源。这种模式将使得数据覆盖面更大、数据安全性更高、数据性更强。而与此同时带来了雷达数据融合组网的技术难点。设计上，首先模块将定义雷达站点配置信息，并与此同时提供组网雷达可选数据；其次对选择雷达数据进行数据预处理；再之则对雷达数据进行统计平均并做坐标转换；进行拼图处理。在这过程中，需要对雷达数据的强度进行自适应调整、显示范围自适应调整。与上述同理，系统核心在于预处理。在C#中定义List数据列表，并在定义其结构为[站点标示][距离][方位角]，对于数据读取时，需要进行插值算法处理，此时的单时数据拼接分析可以实现不同仰角和方位角的筛选。为了控制系统数据的性可以在前端定义雷达数据方位角表，根据表进行映射处理。通常如若出现非连续数据可以在预处理上对其进行差值补偿。在C#上可以采用反差圆补偿方法。

2．结束语

本文从实际出发，提出一种包括多普勒雷达反射率数据分析、速度分析、天线稳定性分析和雷达组网分析为一体的集成化空管气象雷达数据分析系统，该系统通过C#设计实现，能够应用于空管一线技术保障，并为相关多普勒雷达系统数据分析提供一种参考。

作者:李志单位:中国民用航空汕头空中交通管理站气象台

数据分析论文:变电站电流回路数据分析论文

1新投变电站概况

某一变电站是220kV新建负荷站，220kV和110kV电气主接线均使用双母线接线方式，通过2213，2214和－500kV变电站连接并接入系统，110kV系统和10kV系统尚无出线。站内有2台三卷变压器，接线型式为Y0/Y0/Δ-11，额定容量是180000/180000/90000kVA，电压组合是220±8×1.25%/115110.5kV。

2相量检查的意义

对新安装或电流回路有过变动的保护装置，在其投入运行前，必须用一次电流和工作电压检验，也就是进行相量检查。在检验保护装置电流回路接线正确后，方可将保护投入运行，为电网的安全、稳定运行提供保障。

3相量数据采集和分析

3.1井目量数据分析

502所带为10kV5母线，投入3组电容器，每组容量为7.5Mvar，总容量为22.5Mvar。因为所带负荷为纯电容元件，所以，有功P为0Mvar，无功Q为22.5Mvar。即得出视在功率S为22.5MVA。取10kV系统平均电压为10.5kV，得出502的一次电流为1237A。已知502保护用TA变比是4000/1，可求得502TA保护绕组二次电流为0.309A。通过相量检查，可知502各TA保护绕组电流为0.294A左右，计算值与测量值相差不大。因此，可以得出502各TA保护绕组变比使用正确。同理可推导出503各TA保护绕组变比使用正确。3.1.1.2502，503相位分析，10kV5母线通过502向2号主变输送无功，10kV3母线通过503向3号主变输送无功，并且已知有功为0，因此，对应相电压超前一次电流90°，电流以母线侧为极性，则二次对应相电压超前二次电流90°。通过相量检查所得电流相位与理论推导一致。3.1.22202，2203相量数据分析

3.2变比分析

502各TA保护绕组电流为0.294A左右，且已验证502各TA保护绕组变比使用正确，因此，通过502的一次电流是1176A。由于102，103，145均在合位，所以，10kV5母线通过502向2号主变输送等量无功，10kV3母线通过503向3号主变输送等量无功。根据基尔霍夫定律可知，102，103，145没有电流流过。因此，2号主变可视为只有高低压侧运行，即两卷变运行。根据能量守恒定律，低压侧输入功率等于高压侧输出功率，取10kV系统的平均电压为10.5kV，220kV系统的平均电压为231kV，由此可得，2202一次电流I为（1.732×1176×10.5）/（1.732×231）＝53.45A。已知2202的主变差动保护用TA变比是1250/1，则可求得2202主变差动保护二次电流是0.0428A。2202母线差动保护用TA变比是2500/1，则可求得2202母线差动保护二次电流是0.0214A。通过相量检查可得2202TA保护绕组的电流分别为0.0413A和0.0205A，计算值与测量值相差不大，由此可得，2202各TA保护绕组变比使用正确。同理可推导出2203各TA保护绕组变比使用正确。

3.3相位分析

220kV5母线通过2202，2203接受无功，并且已知有功为0，因此，对应相电压超前一次电流270°，电流以母线侧为极性，则二次对应相电压超前主变差动二次电流270°。因为母差用保护绕组为反极性，由此可得二次对应相电压超前母差二次电流为90°。通过相量检查所得的电流相位与理论推导一致。观察可知，A相、B相、C相的电流幅值基本相等，相位互差120°，即A相电流超前B相120°，B相电流超前C相120°，C相电流超前A相120°。由此可得，2202，2203各TA保护绕组极性正确。

3.4相量数据分析

3.5母联极性问题

该变电站220kV系统为双母线，配置母线保护BP-2B和RCS-915AB.BP-2B母线保护各元件TA的极性端必须一致，装置默认母联TA的极性与2母线上的元件一致。RCS-915AB母线保护TA极性要求支路TA同名端在母线侧，母联TA同名端在母线1侧，可将该变电站的母线1称作4母线，母线2称作5母线。因此，2245母联BP-2B母线保护用TA同名端在5母线侧，2245母联RCS-915AB母线保护用TA同名端在4母线侧。

3.6变比分析

2214是2202通过2245提供一次电流，因此，2245一次电流为51.625A。已知2245各TA保护绕组变比为2500/1，则可求得2245各TA绕组二次电流为0.0207A。通过相量检查可得2245各TA保护绕组电流为0.0202A左右，计算值与测量值相差不大。由此可得，2245各TA保护绕组变比使用正确。

3.7相位分析

220kV4母线通过2245接受无功，且已知有功为0，因此，对应的相电压超前一次电流270°，充电保护电流以4母线为极性，则二次对应相电压超前充电保护二次电流270°。2245母联BP-2B母线保护用TA同名端在5母线侧，并且母差用保护绕组为反极性，则二次对应相电压超前BP-2B母线保护二次电流270°。2245母联RCS-915AB母线保护用TA同名端在4母线侧，并且母差用保护绕组为反极性。由此可得，二次对应相电压超前RCS-915AB母线保护二次电流90°。通过相量检查可知，电流相位与理论推导相差不大。

3.8相量检查结论

之前多通过表记得出一次电流的大小和送受关系，其实这是不的（TA表记绕组也需要相量检查），应该通过负荷情况，用理论方法计算和推导出一次电流的大小和送受关系，以便核实相量检查结果。相量检查后的相量分析不但包括相位分析，还应包括变比分析，只有在变比和相位都正确的情况下，才能算作相量正确。

4结束语

电流回路数据的采集和分析对变电站的运行有非常重要的作用，所以，我们要足够重视此问题。综上所述，本文主要研究了变电站电流回路数据，并结合具体的工程实例系统地阐述了相关内容，以期为变电站的工作提供一定的帮助。

作者:卢志华单位:广州南方电力集团科技发展有限公司

数据分析论文:电力营销系统数据分析论文

1HANA数据分析平台采用的核心技术

HANA数据分析平台在软件方面，通过内存技术，应用程序能直接处理电力企业数据库中的各种数据，并直接在主内存中处理。主要技术包括行+列的存储、压缩、数据分区、增量数据更新等。平台采用的软件包括数据抽取工具、内存数据库（含数据库服务器、建模工具Studio、客户端工具）、报表展现层BusinessObjectsBI组件。在硬件方面，通过预配置的软硬件结合体，提供高性能的数据读写操作，并在内存数据库里采用列式存储从而将更多的数据存入（列式存储方式更适合数据压缩）。

2HANA数据分析平台实施过程

数据分析平台建设应遵循较大限度的考虑应用实用性、缩短实现周期、降低技术风险等因素。

2.1需求分析

需求分析是要对用户的诉求或需求进行深入了解，并在需求的基础上对整个平台进行一致约定。因此以重要性、分析的复杂性、数据量大小、以及快速见效为原则，需求分析需要明确下面的内容。

1)选择需要分析的主题，结合当前电力营销业务在计量、业扩、抄表、电费核算、电费缴纳、账务等工作职能的划分，也要考虑分析的主题具有针对性的业务场景，这些场景往往跨越多个职能。

2)分析并描述各个主题的业务背景，包括使用的用户角色，使用的业务场景。以电费出账异常为例：电费出账异常主要是由于用户档案错误、抄表错误所引发的，涉及到业扩、抄表、电费核算等多个职能部门。以电费出账异常作为分析的主题，其业务场景主要用于电费发行后，对引发电费异常的用户档案数据、计量信息、抄表信息进行检查并按职能需求进行分别展示。

3)分析各个主题间的关系，在这个平台上用户的所有活动信息，如用户请求的数量，用户对这些数据的访问频率、时间、数据细节层次、请求多大的数据量等之间的关联。

4)分析主题所涉及的表的目录、表的内容、表的容量、每个表的平均行大小、表的记录数、表的增长情况等。

2.2平台规划

HANA数据分析平台应用架构一般采用四层：数据源层、数据抽取及复制层、HANA数据集市层以及报表展示层。

1）数据源层：作为平台的分析对象，提供报表分析所需的数据，数据源层可同时支持各种类型的数据库，数据源层为营销系统（管理库），生产库到管理库之间采用SharePlex复制工具实现数据同步，以避免数据抽取对生产系统的影响。

2）数据抽取和复制层：数据抽取和复制层负责将数据源层中源系统的数据抽取和复制到HANA分析数据库中，主要构成是数据抽取和复制工具，可以分别采用实时同步服务（SLT）以及非实时同步的数据服务（DataService）两种不同的复制工具来满足不同特征的源数据要求。在确定采用哪种工具前，需要对每个数据源的大小、变更时间、变更频繁度、增量大小等信息做详细了解，对不同数据源表选择合适的复制工具。

3）数据集市层：数据集市层是整体系统架构的核心，负责分析数据的储存、报表模型的建立以及数据计算。该层包含分析数据库以及虚拟模型架构两个主要组成，所有需分析展示的数据在数据集市层通过集市层进行储存、压缩、建立逻辑模型并计算，通过该平台特有的内存计算技术可以使这个过程的效率大幅提升。

4）报表展示层：报表展示层负责将HANA数据库中的数据运算结果按照报表需求进行展示，采用SAPBusinessObjectBI4.0以及EXCEL作为展示工具。

2.3平台实现

2.3.1模型设计

依据报表的需求分析、功能需求、性能需求、模型扩展性、模型的灵活性、实现成本进行平衡，在达到性能要求的前提下，设计出可以重用的模型，HANA平台不同于传统的数据仓库需要物理化模型设计，HANA采用了逻辑视图模型设计的概念，逻辑视图从表面看体现的是传统的星型、雪花型模型设计，但这些模型中的数据并不是物理存放的。HANA提供了属性视图、分析视图、计算视图三种模型设计，属性视图实现对维度的设计，分析视图则实现传统的星型模型设计，计算视图实现更复杂的雪花型模型设计。模型设计时是先将需求阶段所确定的分析主题作为分析对象，梳理每个主题展示所需的事实表数据内容和数据粒度、分析维度、分析的数据指标。例如：一个以分析电费构成为主题的业务场景，该主题分析当期电费的构成情况，并同期比较各个电费构成的变动情况，那它的指标可以为目录电度电费、峰谷品跌、丰枯品跌、基本电费、力调费、代征费、电度电费、结算电费等指标。分析的维度可包含：时间维度、用户维度、组织维度、用电服务维度、抄表维度、计收维度等。并在此时完成对事实表和维度表的逻辑数据模型设计。

2.3.2表样及功能设计

报表的样式和功能应当考虑用户对数据进行分析的使用习惯，借鉴数据仓库中的多维数据可视化方法，通过对报表的上钻、下钻、切片等展示功能技术的利用，实现对汇总性数据、明细类数据、核心数据的快速查看和分析。以上述的分析电费构成主题为例，其展示需求决定表样的设计采用图型混合表格的方式，功能上采用按照组织维度进行上钻、下钻功能可查看不同供电区域的电费构成情况和各个指标的排名情况，前端展示采用了BOWebintelligence嵌入DashBoard图表设计实现。

2.3.3数据抽取及复制设计

为确保数据质量，应当进行数据抽取和复制的规划设计。首先，根据模型设计中指标、维度信息分别列举出其相应的数据来源，即营销系统的物理表和字段，指标来源于营销系统的交易数据，而维度来源于营销系统的主数据。其次，根据逻辑数据模型和数据来源确定营销数据库到HANA数据库的ETL规划，根据数据的质量规则（包括：数据清除、空值处理、数据替换、规范化数据格式等），确认营销系统源数据到HANA目标数据库数据的转换规则，同时依据数据大小、数据变更时间、数据变更频繁度、数据增量大小要求确定采用的实时工具SLT还是定时抽数工具BODataService，例如：收费账务相关的交易数据存在记录基数大、变更频率很高等特征，采用实时复制增量数据更合适，而账务的月结数据仅在每月初产生且数据量非常巨大，因此采用定时批量复制更合适。

2.3.4模型及报表开发

模型及报表开发共分为数据装载、HANA建模、定义语义层（IDT）、报表开发、数据校验五个步骤，这五个步骤相互交叠与重复，直至到达化设计。其中数据装载的方式利用了SLT的实时同步技术，SLT同步技术其核心是基于数据库的触发器模式实现对源数据的增量复制，较大限度的避免了对源系统表结构的改变，同时采用的多任务复制机制使得实时复制的效率可保持在5~10秒内的数据延迟，装载后的HANA数据的大小比较源数据库数据大小可压缩30%~70%的容量。

3发展前景

不断的完善HANA数据分析平台的分析主题，不仅是基于电力营销系统，还可以基于用电采集系统等构建起电力企业的大数据分析平台。利用HANA内置的PAL(预测分析库)对海量电量数据、客户服务数据实现数据高级分析，建立其有效的事前预测、事中控制、事后改善的企业快速辅助决策模式。营销业务可以在客户服务中对受理业务的情况信息、执行过程、执行结果进行深入分析、对客户需求进行快速响应，改进服务质量、提升电网服务建设。更可以利用海量电能量数据对偷窃电稽核、客户用电行为、能效管理等进行过分析和应用，助力营销辅助决策与分析能力的快速提升。

4结论

基于电力营销系统中业务数据所建立的HANA数据分析平台，从分析效率来看均有实质性的提高。经实践证明，与营销系统报表在同等条件下对比，其分析效率可提高百倍以上。在大宗数据的分析上，HANA平台更是体现了其快速见效、性能优异、分析功能操作简洁和灵活、快速适应业务变化的能力。

作者:刘宏刚吴丹单位:重庆市电力公司信息通信分公司重庆智网科技有限公司

数据分析论文:中医学科评估数据分析论文

1评估指导思想和中医学科参评高校情况分析

评估按照“提高质量、优化结构、鼓励特色、协同创新”的思路，强调质量，淡化规模，建立了新的评估指标和体系。全国中医学科共有21个学位授予单位自愿申请参评，共有博士授权学科14个，硕士授权学科7个。其中，博士一级12个（北京中医药大学，天津中医药大学，辽宁中医药大学，黑龙江中医药大学，上海中医药大学，南京中医药大学，浙江中医药大学，山东中医药大学，湖北中医药大学，湖南中医药大学，广州中医药大学，成都中医药大学），博士二级1个（青海大学），硕士一级6个（河南中医学院，湖北民族学院，重庆医科大学，西藏藏医学院，陕西中医学院，甘肃中医学院），硕士二级1个（中央民族大学）。全国中医国家重点学科有11个，“国家重点学科”参评率为。全国有中医博士一级学科的大学是14个，其中12个参评，2个未参评（福建中医药大学、长春中医药大学），“博士一级学科”参评率为85.7％。

2评估指标分析

2.1一级指标分析

在本轮学科评估指标体系中，一级指标共有4个，分别是“师资队伍与资源”“科学研究水平”“人才培养质量”和“学科声誉”。“学科整体水平”得分由这4项一级指标得分按指标权重计算得出。高于“学科整体水平”的一级指标为“学科声誉”和“师资队伍与资源”，低于“学科整体水平”的一级指标有“科学研究水平”和“人才培养质量”，说明我校中医学科“学科声誉”和“师资队伍与资源”实力较强，是我校长期积淀的结果，“科学研究水平”和“人才培养质量”相对较弱，表明我校在这2个方面仍有很大的进步空间。

2.2二级指标分析

（1）师资队伍与资源。“师资队伍与资源”的二级指标包括“专家团队情况”“突出中青年专家数”“专职教师数”和“重点学科与重点实验室”。“专家团队情况”是将本单位本学科的“院士、长江、杰青、千人、973首席、教学名师、新世纪人才”等。“突出中青年专家”是指“长江学者、国家杰青基金获得者、千人计划入选者、973首席科学家、百千万人才工程部级人选、国家教学名师”。我校中医学科在“专家团队情况”“突出中青年专家数”和“重点学科与重点实验室”均位列第1。但在“专职教师数”指标上仅位列第9，相对于其他项明显不足。从该指标上看，我校中医学科应着力增加专职教师，促进师资队伍整体结构进一步优化。

（2）科学研究水平。“科学研究水平”一级指标包括“代表性学术论文质量”“科研获奖”“专利转化与出版专著情况”“科研项目情况”等二级指标。我校“科研获奖”位列第1。“代表性学术论文质量”和“科研项目情况”位列第2。“代表性学术论文质量”包括“国内、国外收录的代表性学术论文的他引次数”“高水平学术论文”等末级指标。“国内代表性论文他引次数和”是指近5年（2007—2011年）被CSSCI、CSCD收录的代表性学术论文的他引次数和（自选20篇）。“国外代表性论文他引次数和”是指近5年（2007—2011年）被SCI、EI、Medline收录的代表性学术论文的他引次数和（自选30篇）。“高水平学术论文”是指本学科近3年（2009—2011年）发表学术论文中，水平相对较高的15篇论文，提供给专家进行主观评价打分。我校“国内代表性论文他引次数和”在20个参评高校中位列第1，但“国外代表性论文他引次数和”在20个参评高校中位次第3，“高水平学术论文”位次第2。该指标比起2008年学科评估结果有较高程度的提升，究其原因一方面可能是随着我校师生研究和交流国际化进程的不断加速，国际交流与合作意识持续增强；另一方面由于我校出台了高水平论文奖励制度，学校教师及科研人员也得到了认可和鼓励，发表SCI论文能力也大幅增长[2]。但是离“研究型大学”的目标还很远，仍需加强高水平论文激励机制，大幅度提高数量和质量，特别是SCI收录文章的质量。“专利转化”二级指标是指本学科近3年（2009—2011年）获得授权并已转化或应用的“发明专利”或“国防专利”（不含“外观专利”“实用新型专利”“软件著作权”等）。我校“专利转化”在20个参评高校中位次仅并列第8，说明我校成果转化能力需要加强，服务社会的贡献度有待进一步提高。学校应在专利转化上要加大支持力度，出台优厚的政策，鼓励专利成果的转化。“科研项目情况”包括“部级科研项目经费及项目数”“人均科研经费”等末级指标。“部级科研项目”包括：863计划、973计划、支撑计划等科技部项目及国家自然基金项目、国家社科基金项目、全国教育科学规划课题等科研项目；所统计经费应是本学科近3年（2009—2011年）实际到账的经费之和。“人均科研经费”是指本学科近3年（2009—2011年）承担“部级、省部级、境外合作科研项目以及30项其他重要科研项目（如横向项目）”并实际到账的经费除以专职教师数。我校“部级科研项目经费”位列第3，“人均科研经费”在20个参评高校中仅位列第2。可见，我校承接重大科研课题的能力需要加强。科研经费短缺一直是制约我校发展的难点和重点，我校应当创造条件，鼓励科研人员积极争取各类科研项目。

（3）人才培养质量。“人才培养质量”一级指标包括“教学与教材质量”“学位论文质量”“学生国际交流”“学生”和“授予学位数”等二级指标。“教学与教材质量”二级指标包括“国家及省部级教学成果奖”“部级规划教材与精品教材”等末级指标。“国家及省部级教学成果奖”是指本学科近3年（2009—2011年）获得的国家教学成果奖和省部级教学成果奖，不包括精品课程等。“部级规划教材与精品教材”是指本学科近3年（2009—2011年）出版或再版的“十一五”部级规划教材和精品教材情况。我校“教学与教材质量”在20个参评高校中位次第10，“国家及省部级教学成果奖”在20个参评高校中位次第9，“部级规划教材与精品教材”在20个参评高校中位次第10，说明我校应在中医学科的“教学与教材质量”上下功夫，花大力气冲击“国家及省部级教学成果奖”，同时，争取更多的“部级规划教材与精品教材”。“学位论文质量”二级指标包括“全国博士学位论文”“全国博士学位论文抽检情况”等末级指标“，学位论文质量”二级指标中，一项重要观测点就是“学生获得全国博士学位论文数”。全国博士学位论文评选工作是教育部为了加强高层次创造性人才的培养工作，鼓励创新精神，提高我国研究生教育特别是博士生教育的质量开展的。此次评估主要依据参评学科近5年（2008—2012年）入选和提名“全国博士学位论文”的情况。我校“学位论文质量”本次在20个参评高校中位次并列第2。我校中医学科2008—2012年入选“全国博士学位论文”1篇，无提名，排在并列第3的位置上。表明尽管我校中医学科人才培养的成效显著，但其质量仍有待进一步提高。“学生国际交流情况”二级指标包括“学生境外交流人数”和“授予境外学生学位数”等末级指标。“学生境外交流人数”是指近3年（2009—2011年）本学科学生赴境外交流学习（时间超过3个月）的学生数。“授予境外学生学位数”是指近3年（2009—2011年）本学科授予境外学生的学位数。我校“学生国际交流情况”在20个参评高校中位次第3，“学生境外交流人数”在20个参评高校中位次第4，“授予境外学生学位数”在20个参评高校中位次第2，可能与近些年外籍学生数目减少有关。我校已将建设“有特色、高水平、国际知名的研究型大学”作为奋斗目标，因此，必须推进与境外知名大学、研究机构和医疗单位高层次、实质性合作，加快我校的国际化进程。走出去拓展我校的国际交流与合作平台，同时积极宣传，扩大学校的国际影响力。“学生”二级指标是有参评学科提供本学科的在校生（5名）和近10年（2002—2011年）的毕业生（10名），由本学科专家和行业、企业界人士进行主观评价打分。我校“学生”在20个参评高校中位次第1。“授予学位数”二级指标包括“授予博士学位数”和“授予硕士学位数”等。本次评估对此项指标设置了“上限”，超过上限值的均为满分，而不按规模的增大递增得分。我校“授予学位数”在20个参评高校中位次并列第1。可见，我校中医学科的研究生学位授予已达一定的规模，今后的重点是进一步提高研究生培养的质量。从二级指标层面看，位次等于学科整体水平的有“专家团队情况”“重点学科与重点实验室”“科研获奖”“学生”“授予学位数”。位次低于学科整体水平的有“专职教师数”（第9位），“专利转化”（并列第8位），“代表性学术论文质量”（第2位），“科研项目情况”（第2位），“教学与教材质量”（第10位），“学位论文质量”（并列第2位）等。可见，位次低于学科整体水平的指标偏多，未来提升的需求任重而道远。

3我校中医学科发展的方向及趋势建议

综上所述，我校中医学科较前5年有较大发展，在“师资队伍与资源”“科学研究水平”“人才培养质量”和“学科声誉”均有整体优势，这与我校长期的积淀分不开。但在一些方面仍显不足，如：“师资队伍与资源”暴露出“专职教师数”的不足，在“科学研究水平”上仍有“国外代表性论文他引次数和”和“高水平学术论文”不够多，“专利转化”明显滞后，还存在“部级科研项目经费”不够多、“人均科研经费”缺乏等问题。在“人才培养质量”上，“教学与教材质量”“学位论文质量”还有待提高，“学生境外交流人数”不多“，授予境外学生学位”的规模还不大。这些均是学科核心竞争力的体现，代表着学科发展的潜能和动力。因此，在努力改善办学条件的同时，一方面要继续打造和发展学科平台，稳固学科发展所需的科研基础；另一方面要继续提高人才培养质量，加强高层次领军人物的培养和引进工作，提升承担国家重大科研任务和科研成果孵化转化能力，加快学校的国际化进程，保持主干学科的国内引领地位。

总之，笔者分析了我校中医学科此次评估中的重要指标，有优势也有不足，希望能为了解我校中医学科的学术队伍、科学研究、人才培养等方面的状态提供一些参考，从而更加明确发展和建设的方向，并有针对性地进行学科的内涵和质量建设提供科学依据。

作者:赵慧辉单娇王娟王伟单位:北京中医药大学

数据分析论文:人工模拟降雨试验数据分析论文

1人工模拟降雨试验方法

1．1径流小区布局

野外人工模拟降雨试验要在前期土壤水分不饱和的状态下进行，因此每次模拟降雨试验只能在同一径流小区进行一次降雨过程。为获取更多的野外模拟降雨产汇流及水土流失对比数据，计划在每个项目区的典型坡度———5°～8°、8°～15°、15°～25°分别建设坡地径流小区。径流小区的布设与等高线垂直，根据相关规范和实际条件，径流小区投影面积一般为60m2，即20m(顺坡投影长度)×3m(宽与等高线平行)。云县石佛山坡耕地水土流失综合治理试点工程水土保持监测项目于2010年12月初完成8°、12°、15°三块坡地小区的建设，2011年6月下旬及时次模拟降雨试验后，为方便对比分析，根据工程进展情况在12°坡地小区旁增设一块梯地小区。

1．2人工模拟降雨系统

此次人工模拟降雨试验采用西安理工大学研制的人工模拟降雨试验系统(图1)。它基于工控组态软件，应用现有的人工模拟降雨试验装置，将试验过程的常用设备和工控软件结合在一起，增加了自动控制环节，通过对控制系统进行改造，解决了手动调节雨强不方便的问题，实现了对不同时段、不同雨强、不同分布的人工模拟降雨系统的手动和自动双控制，采用监控组态系统更好地满足了人工模拟降雨试验的需求。该人工模拟降雨系统可建于自然坡面上，高6m，降雨试验区长20m、宽3m，有效降雨面积60m2。降雨系统布设在降雨装置支架上，喷头选用与天然降雨雨滴谱最为接近的X型下喷式喷头，由4组不同喷嘴孔径组合而成。为兼顾模拟降雨的均匀性与搭建支架的经济性和安全性，将系统在野外难以架设的固定式方钢支架改为钢管脚手架。顶宽超出径流小区宽度方向两边各0．3m，顶端横杆按照水管和喷头分布架设，压力控制装置设4个出水管，每管对应同一喷嘴孔径的喷头，共设置4组24个不同喷嘴孔径喷头，支架内部无任何遮挡。压力控制装置可自动、手动控制出水管的全开、全关或部分开启。本系统可模拟降雨强度变化范围4～200mm/h，降雨雨强最小分辨值1．3mm/h，降雨强度控制精度0．66mm/h，降雨均匀度＞0．95。系统采用先进的闭环自动控制理论和技术，是一种应用交流变频调速器控制的人工模拟降雨自动控制设备，以降雨过程的最终实际降雨参数控制和驱动系统的各个降雨部件，克服了从水源到喷头之间诸多环节对降雨的随机影响。实验室测试结果表明，该设备的主要性能指标优于国内外其他人工模拟降雨系统，是进行土壤产汇流和侵蚀规律研究的重要试验设备。

1．3人工模拟降雨雨强

石佛山小流域位于云南省临沧市云县幸福镇幸福村水土保持监测项目区。模拟降雨设计频率及雨强参照幸福雨量站。该站距项目区直线距离2km，1983年建站，有1983—2010年共28年的完整降雨资料，降雨资料质量，能满足设计暴雨频率分析要求。通过幸福雨量站1h短历时暴雨频率计算，石佛山小流域100年一遇1h降雨量为84．8mm，50年一遇1h降雨量为77．0mm，30年一遇1h降雨量为72．1mm。人

工模拟降雨采用100年一遇1h降雨过程。

2人工模拟降雨监测结果

2．1JDZ02型自记雨量器记录结果

人工模拟降雨试验于2011年1月开始，至2012年9月结束，跨2年历时40天，试验时间分别为枯水期两次(及时次、第三次)、主汛期两次(第二次、第四次)。在不同坡度的径流小区分别进行15场次的人工模拟降雨试验。

2．2普通雨量器监测结果

径流小区人工模拟降雨面降雨量采用普通雨量器监测，用算术平均法计算平均面降雨量。用普通雨量器观测的15场次人工模拟降雨面降雨量计算结果见表3。

2．3人工模拟降雨产流产沙量监测

人工模拟降雨雨强采用100年一遇1h降雨雨强。在模拟降雨试验前采用移动墒情监测仪和称重法在各小区距地表10、20、30cm土层剖面处取土样分别测定前期土壤含水率，并取平均值。产流产沙量的监测是在有径流产生时，每5min取1个水样，采用加权平均法计算平均含沙量，并用容积法记录产流量。监测结果。

3试验结果分析

3．1人工模拟降雨试验降雨监测结果分析

云南省人工模拟降雨试验是全国及时次大规模使用人工模拟降雨系统在野外研究土壤产汇流和侵蚀规律的试验。实验室内的环境与野外环境差距较大，在野外试验虽然是按100年一遇的标准进行人工降雨，但是由于受风速、风向影响较大，加之降雨雨滴与实际还有一定差距，所以部分降雨随风飘落到小区之外，落到小区地面的降雨标准也因此降低。考虑到上述情况，试验都选在无风或轻微风和微风的环境下进行。将径流小区内安装的JDZ02型自记雨量器记录的降雨雨强与设计降雨雨强进行相关性分析，相关系数都在0．6以上，说明人工模拟降雨过程与设计降雨过程之间存在强相关。根据统计学原理，使用Brown－Forsythe检验法检验设计降雨过程与12场次JDZ02型自记雨量器记录降雨过程的差异性，在显著性水平α=0．05下检验结果为各组之间差异不显著。对比设计雨量与JDZ02型自记雨量器记录结果，有7场次降雨接近或超过设计雨强，说明在径流小区局部，人工模拟降雨雨强是达到设计要求的。对径流小区12场次面降雨量监测结果进行分析，小区内模拟降雨重现期达到10年一遇以上的有7场，以下的有5场，较高重现期为13年一遇，低为2年一遇。小区内降雨极不均匀，单个普通雨量器收集的降雨量有的大于设计雨强，有的小于设计雨强，特别是小区两侧降雨量与设计雨量误差较大，达到82．5mm。受风速、风向、试验支架架设高度和植被的影响，用加权平均法计算出径流小区内21只普通雨量器的实测面平均雨量均小于设计雨量，相对误差在－62．7%～－27．0%之间，未达到设计要求。

3．2径流小区产流产沙情况分析

(1)8°径流小区。由表4知，及时次模拟降雨试验，坡地小区土壤含水率接近饱和、植被覆盖率为0，降雨4min后开始产流，历时1h，产流量1．402m3，产沙量15．6kg。第二次试验在主汛期进行，土壤含水率接近饱和，小区内种植玉米，植被覆盖率为，降雨2min后开始产流，历时62min，产流2145m3，产沙量10．2kg。第三次试验，小区土壤含水率12．16%，植被为杂草和伐倒的玉米植株，植被覆盖率为70%，降雨9min后开始产流，历时40min，产流量0．064m3，产沙量0．015kg。该次模拟降雨面平均雨量为44．1mm，仅占设计雨量的48．5%，加之前期土壤含水率低，因此产流量和产沙量都较小。第四次试验，小区内种植的玉米已进入成熟期，植株较高，植被覆盖率为。试验时为减小风力对人工模拟降雨的影响，将降雨架高度由6m减至4m。降雨27min后开始产流，历时12min，产流量0．082m3，产沙量0．082kg。该次降雨面平均雨量为59．9mm，占到设计雨量的70．6%，但是由于小区前期土壤含水率低，仅为9.04%，故产流量和产沙量都较小。

(2)12°径流小区。及时次试验，由于模拟降雨面平均雨量小(31．6mm)，虽然前期土壤含水率高达1503%，但该次降雨条件下该小区未产流。第二次试验，小区前期土壤含水率已接近饱和，植被覆盖率达，降雨2min后开始产流，历时58min，产流量1．513m3，产沙量20．9kg。第三次试验，小区前期土壤含水率11．41%、植被覆盖率70%，降雨11min后开始产流，历时42min，产流量0．156m3，产沙量0．044kg。该次模拟降雨面平均雨量较大，占到设计雨量的71．3%，但是由于前期土壤含水率低，故产流量和产沙量都较小。第四次试验，小区植被覆盖率，降雨31min后开始产流，产流时间5min，产流量0．010m3，产沙量0．004kg。该次模拟降雨面平均雨量达到50．9mm，占到设计雨量的60．0%，但是受土壤含水率仅为10．59%的影响，产流量和产沙量都较小。

(3)15°径流小区。由表4可知，及时次试验，小区前期土壤含水率为16．05%、植被覆盖率为0，降雨30min后开始产流，历时10min，产流量0．0165m3，产沙量0．133kg。第二次试验，土壤含水率已接近饱和，达20．65%，小区植被覆盖率60%，降雨7min后开始产流，产流53min，产流量0．629m3，产沙量10.6kg。第三次试验在冬季进行，小区植被覆盖率为80%，由于前期土壤含水率低(10．41%)、面平均雨量偏小(43．3mm)，因此该次降雨在该小区未产流。第四次试验，小区植被覆盖率，人工模拟降雨60min未产流，为检验产流情况，在12:15将人工模拟降雨装置闸门全开，以较大降雨强度连续降雨5min，于降雨64min后开始产流，产流5min，产流量0．022m3，产沙量0．036kg。该次模拟降雨历时65min，面平均雨量达到61．1mm，占到设计雨量的72．1%，受前期土壤含水率(10．74%)较低、植被覆盖率较高影响，该小区产流量和产沙量都较小。(4)梯地径流小区。由表4可知，梯地径流小区及时次试验在主汛期进行，前期土壤含水率为17．46%，植被覆盖率为20%，降雨2min后开始产流，产流48min，产流量1．146m3，产沙量1．93kg。第二次试验在冬季进行，小区前期土壤含水率8．09%，植被覆盖率90%，模拟降雨面平均雨量为58.5mm，由于前期土壤含水率过低，该次降雨在该小区未产流。第三次试验在9月份进行，前期土壤含水率为8.48%，植被覆盖率为，模拟降雨面平均雨量为54．1mm。该次试验该小区未产流，其主要原因也是梯地小区前期土壤含水率过低。

4结语

(1)人工模拟降雨装置在实验室内可取得较为理想的降雨成果，在野外试验虽然是按100年一遇的标准进行人工模拟降雨，但受风速、风向、支架架设高度和植被的影响，加之降雨雨滴与实际还有一定差距，部分降雨随风飘落到小区之外，落到径流小区地面的降雨量相对减少，面平均降雨强度因此降低，但局部降雨强度达到设计要求，这说明该模拟降雨系统仍存在一定不足，需要进一步改进。

(2)在相同坡度、相同暴雨条件下，无植被覆盖或植被覆盖率低的径流小区产流、产沙量更大，说明提高地表植被覆盖率可以有效涵养水源、减轻土壤侵蚀，同时在前期土壤含水率高的情况下，也更容易出现产流产沙。此外，将坡地改为梯地，并增加相应植被覆盖率对减少水土流失的效果是非常明显的。

作者:徐晓鹏徐志春张鼎辉杨轩单位:云南水文水资源局耿马县水务局

数据分析论文:烟草视频数据分析论文

1前言

随着烟草行业信息化推进现代化进程的快速发展，新兴的IT技术、先进的IT技术等已不断融入到烟草行业的生产、营销及管理等过程中，逐渐改变了烟草行业原有的经营管理模式，加快了烟草行业结构调整，完善管理体制，提升市场竞争力。可以说，信息化建设给烟草行业带来了改革与发展。因此，对新兴技术的研究与探索，具有十分重要的意义。尤其是视频监控技术的发展，给烟草行业的带来了较多的好处，烟草从种植、生产、流通、消费的每个环节中，视频监控技术都发挥了重要作用。视频大数据分析技术是近两年兴起的技术，视频大数据分析的应用，在公安视频侦查等中已突显其发展前景，本文将针对烟草行业，讨论视频大数据分析的发展应用。

2视频监控在烟草行业的发展及应用现状

（1）烟田监控：实现对烟田、育苗大棚内实时监控；

（2）烟叶收购站监控：实现对烟草所有站点烟叶收购全流程监控视频调看、查询、巡视、控制的功能；

（3）生产及公用设施区监控：主要用于监控车间内重要设备、生产线运行、物流线路及环境状况，以及动力中心车间内空调、锅炉等重要设备的运行及环境状况，防止灾害和事故的发生。

（4）烟草物流配送中心监控：对物流配送中心进行实时监控；

3视频大数据分析的技术需求

随着视频监控在烟草行业的大规模应用，视频数据量的增加，每天产生的数据量都是以TB（1000GB）级别计算的，若是利用传统的技术手段对每天的视频进行检索和分析，则需要数小时的时间才能够完成，工作量及工作难度可想而知；而对于更高级别的视频数据，如PB（1000TB）级别的视频数据进行分析和检索时间那就是很多天了。视频检索与分析的效率低下，也是目前视频数据利用效率及数据价值低下的首要原因。为此，如何提高视频数据分析与检索的效率，如何针对PB（1000TB）级别甚至EB（1000PB）级别的海量数据进行分析与检索，提升视频监控数据价值，成为了当前用户的首要需求，也成为了当前视频大数据分析技术的难点及关键点之一。同时，在对视频进行检索与分析的过程中，需要考虑检索结果的性。由于视频图像信息为非结构化数据，如何合理有效地对非结构化的数据进行检索分析，优化计算机图像识别算法，是提高视频大数据分析性关键所在。再者，当完成视频检索与分析后，如何做好视频数据与非视屏数据的整合与关联工作，是后期视频数据应用时重点考虑的内容。

4视频大数据在烟草行业的应用思考

时下，烟田监控、烟叶收购站监控、生产及公用设施区监控、烟草物流配送中心监控等的视频监控数据较多仅仅用作安防视频使用，还未涉及到与烟草业务的关联；随着视频监控建设的完善及视频大数据技术发展，各类监控视频数据量的增加，考虑到投资回报比，是否可以通过视频大数据分析，将烟草业务与视频监控相关联，在海量的视频监控数据中提取有益于烟草行业发展的变革或新技术呢？

4.1安防业务

基于传统视频监控，安防业务是传统业务之一，通过大数据分析，有效快捷的提取安防所需要的视频片段。同时基于视频行为告警策略，及时告警。

4.2安全生产

结合视频大数据分析，将以往多次生产事故监控视频整合，通过对多次生产安全事故的分析，总结出更为安全的生产规则；再则通过视频监控与生产行为的结合，制定安全生产标准，通过声音报警或警示灯报警等技术，在不符合标准视频监控预定义的安全规则情况时，能够及时报警。通过视频监控分析，提升生产的安全性。如采用彩色网络快球摄像机和彩色固定网络枪式摄像机，彩色网络快球摄像机的预制位设置应优先，根据视频大数据分析后，系统可提供不同故障区域或设备的故障信号，各工艺段或设备的操作运行信号，通过系统集成与生产监控实现联动，平常摄像机对正在操作或运行设备进行监控，一旦某个故障点报警，摄像机立刻自动转动到报警点，监控中心的NVR主机开始录像等。

4.3效率生产

结合视频大数据分析，通过分析各个不同烟站或烟厂中的同一种生产行为，结合对海量数据进行智能分析，提取出价值数据片段，形成元数据信息库，再通过人为加工后期数据，总结形成效率生产有用的价值信息，提供生产借鉴，提高生产效率。

4.4创新生产

通过视频大数据分析，将以往的视频通过轨迹分析，得出以往生产过程中各类生产动作中不必要或者多余的部分，简化或者优化生产规则；通过对给类生产行为的总结，提出合理的建议，为生产提出创新性意见或建议，提高生产率。

5结论

视频大数据分析技术是近年来新兴的技术，目前已广泛应用于公安行业的平安城市之中；随着视频监控的发展与更新，其视频大数据分析同样也会逐渐向各行各业扩展，烟草行业对视频大数据分析技术的需求也将会越来越强烈，目前国内基本还属于空白及探索阶段，尚需要技术的发展与行业的实践。

作者:郜社荣魏嘉伟王宁单位:昆明市烟草公司

数据分析论文:广电网络数据分析论文

1系统架构设计

整个系统以广电大数据分析平台为基础构建，系统由数据采集系统、数据分析中心、三个数据应用中心(推荐中心、决策中心和服务中心)组成和系统管理模块组成。

1.1数据采集系统

大数据时代，大数据有着来源复杂、体量巨大、价值潜伏等特点，这使得大数据分析必然要依托计算机技术予以实现．因此从两个方向上加强数据采集统建设，一是侧重于数据的处理与表示，强调采集、存取、加工和可视化数据的方法;二是研究数据的统计规律，侧重于对微观数据本质特征的提取和模式发现，在两个方向上的协同、均衡推进，以此来保障大数据平台应用的稳健成长和可持续发展．广电的网络和用户是其核心资产，而其中流动的数据(包括用户基础数据、网络数据、网管/日志数据、用户位置数据、终端信息等)是核心数据资产．对于广电运营商来说，最有价值的数据来自基础网络，对于基础网络数据的挖掘和分析是运营商大数据挖掘的最重要方向．因此其数据采集的目标包括机顶盒数据、CRM数据、帐务数据、客服数据、运维数据、媒资数据、GIS数据、财务数据和其他手工录入、表格数据．采集频率要求可以实现实时采集和定时批量采集．采集这类数据带来一个问题就是各类数据杂乱无章，会导致数据质量问题越来越严重，通过引进实时质量监控和清洗技术，建设强大的分布式计算和集群能力，提高数据监控和数据采集性能，利用分布式处理技术，实现数据抽取、数据清洗以及相应的数据质量检查工作，保障采集到高质量的数据，将广电大数据中心建设成一个覆盖广电系统全部数据的存储中心，具备采集各类结构化、非结构化海量数据的处理能力．

1.2数据分析中心

广电企业每时每刻都在产生大量的数据，需要对这些数据归集、提炼，广电企业大数据平台建设的意义在于有效掌握规模庞大的数据信息，对这些数据信息进行智能处理，从中分析和挖掘出有价值的信息．在广电大数据分析中需要对直播节目分析、互动业务分析、互联网流量分析、互联网内容分析、广电客户分析、市场收益分析、智能内容推送和广告分析等，通过这类数据分析，能够实时了解广电运营商的经营状况，提供决策支持．因此采用两种方式分析方法对收集到的数据进行分析处理．一是采用在线分析方法技术，使分析人员能够迅速、一致、交互地从各个方面观察信息，以达到深入理解数据的目的．这些信息是从原始数据直接转换过来的，他们以用户容易理解的方式反映企业的真实情况．在线分析策略是将关系型的或普通的数据进行多维数据存贮，以便于进行分析，从而达到在线分析处理的目的．这种多维数据存储可以被看作一个超立方体，沿着各个维方向存贮数据，它允许分析人员沿事物的轴线方便地分析数据，分析形式一般有切片和切块以及下钻、挖掘等操作．二是数据挖掘是从海量、不的、有噪声的数据中挖据出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则．这些规则蕴含了数据库中一组对象之间的特定关系，揭示出一些有用的信息，可以为经营决策、市场策划和金融预测等方面提供依据．

1.3数据应用中心

在大数据分析平台应用过程中，数据本身并不是数据分析和数据挖掘的重点，重点在于如何应用这些技术去解决企业在运营中实际的商业问题．通过对数据分析和挖掘，了解企业运行过程存在问题，预判企业中各类业务发展走向．对数据分析与挖掘结果来说主要有两个方面，一是将分析结果给客户使用，另一个是将分析结果提供给内部用户使用，因此在大数据分析平台设计中，将数据应用划分为三个应用中心:

1)推荐中心

推荐中心面向收视、宽带使用用户，通过分析使用用户的收视、互联网、消费等行为，将使用用户分群，总结群体特征，向不同群体推荐个性化的电视节目、广告和增值应用服务．从而提升用户的使用体验，提升用户的满意度和粘度．

2)决策中心

决策中心面向广电企业内部决策者、管理者、经营分析人员，通过对企业经营数据的KPI、运营监控、经营盘点，使企业决策者掌握企业运营状况及发展趋势;智能报告协助分析人员自动定位经营中的问题;即席查询在预定义的语义层基础上，实现灵活的自定义查询;通过主题分析满足各部门、岗位的多维度分析需求;通过专题分析就某一具体问题进行深入挖掘，辅助专业分析人员的工作;统计报表满足各部门常规统计需求．

3)服务中心

服务中心面向广电的合作伙伴，比如:电视台、广告商、服务和内容提供商、相关政府职能部门等．通过对使用用户收视行为的实时分析，将电视栏目实时收视率提供给电视台，电视台根据收视率进行在线的问卷调查，提高电视台的影响力，帮助其增强栏目的评价体系．为广告商提供精准的广告投放策略，实时的广告投放评估，帮助广告商提升广告到达率、度和营销效果．为服务和内容提供商的电影、电视和增值应用等产品提升收视率和使用频率，并进行评估，为其提供受众喜好特征，帮助其推出有针对性的产品．通过用户收视数据、节目反馈等信息，将相关舆情向相关政府部门汇报．

1.4系统管理

系统管理是大数据分析平台一个辅助功能模块，主要是为了系统管理员对大数据平台进行有效的监控和管理，提升大数据分析平台性能使用，包含有如下几个模块:权限管理、数据质量管理、元数据管理、调度管理、系统监控等．

2数据应用分析

移动互联网的发展为传统行业带来了新的思考，如何在互联网时代更好地实现以客户为中心的服务理念，借助大数据分析平台、海量的客户非结构化的行为数据和传统的结构化数据，可以有效提升广电个性化、人性化的服务水平．大数据分析平台通过整合广电网络中多个数据源，并按照主题进行划分，在定义主题的过程中，提供广电业务概念的规范定义．数据模型不偏重于面向某个应用，而是站在企业角度统揽全局，提供可扩展的模型设计，偏范式化的设计使平台在较大程度上保持一致和灵活扩展性．依托某广电网络公司业务开展情况，搭建数据分析平台，具有如图2所示的主题结构，共计8大类53小类，从广电网络运营的各个方面进行了数据分析．

2.1直播节目分析主题

直播电视节目作为广电运营模式中一直沿用的产品类型，对于广电用户的影响和广电运营商运营模式起着至关重要的作用．实时直播节目分析，用户可以实时查看每个时间点上每个节目收视率，以此为据来指导产品定制、节目选择、用户推广等方面的商业应用，对直播节目的多维度分析，运营商可深入分析直播节目收视特性及受众影响规律，以指导运营优化，提高节目的收视率和营收．

2.2多媒体业务分析主题

广电行业的双向网络改造不仅将视频点播、通信及娱乐业务成为可能，同时配备增值业务，如广告、支付、股票、游戏、付费节目等服务．可以明显看到哪类业务受欢迎，哪类业务的增长趋势良好，哪类业务应用下滑得较快，哪类业务不受用户欢迎，从这样的分析结果中，可以为广电网络以后的业务引进中提供指导，避免引进的业务不受用户欢迎，同时也可以预见性的引进一些代表将来趋势性的业务，提前做好业务储备工作．互动业务的互动特性为广电运营商增加客户粘度、制定产品投放策略、获取较大化收益及市场价值提供了前所未有的空间，通过对互动业务的应用分析，可以分析出用户的行为趋势．利用这样的分析结果改善广电业务引进，提高用户的粘度和ARPU值．

2.3互联网应用分析主题

广电作为政府宣传的喉舌，一个主要的特点就是可管可控，相对此而言，互联网网络一个重要特点就是用户各类行为的不可控性．在三网融合的新环境下，广电网络一个重大改变就是引进了互联网业务，同时通过多屏互动技术使广电终端类型日益复杂，如何对广电网络引进的互联网业务和终端进行有效的管控，成为摆在广电网络运营商面前一个重要课题．运营商可以清晰地看到用户在讨论什么、在看什么，以此来分析用户将来可能采取的行为趋势，进而来引导用户舆论与行为，实现对广电网络的可管可控的最终目的．同时广电网络也可以利用互联网数据从如下两方面做了分析，运营流量及应用优化，节省网络带宽，减少运营费，同时用以提高用户体验度，增加用户粘性;充分利用线上、线下同步运营模式，深入挖掘线上讨论内容，为线下运营提供指导．

2.4广电客户分析主题

在三网融合的环境下，广电网络在逐渐摆脱事业单位模式下经营模式，向“市场驱动”、“客户驱动”经营模式的转变，“以客户为中心”的理念和策略不可或缺，而广电网络拥有的客户群和常规用户分析的客户群体有着本质区别，以往分析往往针对个体用户进行分析，广电网络面向的用户通常是以家庭为单位的，这给广电网络用户行为分析带来不可预料的困难．通过针对用户群体不同年龄、不同时间段的收视行为和上网行为分析，可以区分某一时间段内该家庭用户内个人的行为，可以清晰看到各类用户在各个阶段的变化情况，以及这个变化给广电网络运营带来的变化．从用户信息出发，以用户应用行为为主线，深入挖掘用户关系，为广电用户关系管理提供有效基础数据，提高用户满意度、忠诚度，提高广电网络市场运作的主动性．

2.5市场收益分析主题

三网融合后，广电网络作为一个市场主体，需要适应日趋激烈的市场竞争环境，提升广电运营商的企业核心竞争力，应充分利用业务支撑系统产生的大量宝贵的数据资源，建立广电企业收益分析系统，实现对收益数据的智能化加工和处理，为市场运营工作提供及时、、科学的决策依据．利用先进的OLAP技术和数据挖掘技术，帮助企业的经营决策层了解企业经营的现状，发现企业运营的优势和劣势，预测未来趋势;帮助细分市场和客户，指导营销、客服部门进行有针对性的营销和高效的客户关系管理;对决策的执行情况和结果进行客观的评估，深受用户的青睐．如图7所示的收益分析结果，可以清晰看出企业各类业务在营收中所占比例，可以明确了解哪类业务是企业的品质业务，哪类业务需要进一步加强开拓市场，同时也可以预测哪类业务会有更大的推广空间，为企业持续开展业务提供指导．

2.6智能内容推送主题

深层次挖掘用户潜在的需求，以用户的需求为导向，向用户推送有针对性的内容．广电运营商通过对用户差异性的运营策略，激发用户参与的热情，让用户有持续的良好体验，提升对用户的吸引力和黏着度．信息精准、智能推送的关键在于把握住用户的行为习惯，同时让每一个用户都可以按自己需求方便、快捷地调整、归类相关信息．大数据分析平台基于用户行为收集分析系统，挖掘出用户潜在需求，充分了解了用户的真实意愿，将有助于广电运营商建立以客户为中心的服务理念，提升社会影响力．

3总结

大数据分析平台能够整合企业内部多源异构、跨域关联的海量数据，有效收敛企业各业务系统的运营数据，提供完善的数据分析和挖掘能力，为企业的客户和企业本身提供了有价值的数据支撑，让企业轻松掌握数据背后的本质洞察商机，提升效率，抢占大数据时代的竞争优势．通过在实际环境中建设的大数据分析平台检验，大数据分析平台具备四个核心能力:数据存储、数据管控、数据服务和数据分析能力，将对广电企业运营和发展有着重要的战略意义．广电利用大数据分析技术了解用户，同时将分析结果融入内容制作传播等各个环节。因此，广电需要利用大数据发展的契机，了解用户，提升用户粘性．

作者:朱月单位:沈阳音乐学院