大数据技术实用13篇

大数据技术篇1

[15] Storm [EB/OL]. [2012-10-02]. .

[24] Hive [EB/OL]. [2012-10-02]. http：//./conflunce/display/Hive/Home.

[25] Zookeeper [EB/OL]. [2012-10-02]. http：//.

[26] Sqoop [EB/OL]. [2012-10-02]. http：//.

[27] Flume [EB/OL]. [2012-10-02]. http：//.

大数据技术篇2

现在随着大数据时代的到来，由Carlo Strozzi开创的NoSQL以其技术上的先进性、方便性得到了越来越多的认可。NoSQL改变了数据的定义范围，其“数据类型”可以是文本、图片、影像、网页，也可以是整个文件；NoSQL数据库是非关系式的、数据间的关系更加复杂、多样，类型和相互关系具有多种扩展可能、存储方式也多采用分布式结构。经过十多年的发展，NoSQL取得了成功，采用NoSQL技术的产品也不断增长，目前NoSQL网站上（）已经收集了150余个相关产品，人们也把采用类似NoSQL结构和原理的数据库统称为NoSQL数据库。

最初NoSQL有意排斥关系数据库的ACID规则和SQL特性（后发现其弱点又在一定程度和一定范围内支持数据的一致性要求和SQL特性）。NoSQL坚持分布式领域的CAP理论，CAP的含义为：

Consistency，一致性。数据一致更新，所有节点访问同一份最新的数据副本；

Availability，可用性。对数据更新具备高可用性；

Partition tolerance，分区容错性。能容忍网络分区。

CAP理论主张任何基于网络的数据共享系统，都最多只能拥有以下三条中的两条。而这种“三取二”的法则以及具体理解与执行的争论就一直存在。想同时满足三者，或者过分强化割舍三者之间联系均会破坏数据系统的效率和效果。32岁便获得加州大学伯克利分校终身教授的Eric Brewer提出了BASE理论（Basically Available， Soft state， Eventually consistent；基本可用、软状态、最终一致性），它用一种更注重可用性、更便于理解的方式解释分布式系统的特点。

NewSQL注意到关系数据库的灵活性不足、数据库互锁机制效率低下的特点，同时也意识到NoSQL不支持SQL所带来的不便，它采用了一种近似折中的方案，既支持SQL并保证一定程度的数据一致性，同时也提供NoSQL数据库的非关系数据处理的扩展功能，因而从产生之初便受到业界的喜爱，相关产品不断涌现。NoSQL和NewSQL常见产品及其分类情况如图所示。

2.2 NoSQL及其发展趋势

在NoSQL潮流中，最重要的莫过于Apache基金会的Hadoop。它是一个领导者，是一个典型的分布式文件系统，是一个开源系统。用户可以在不了解分布式底层细节的情况下，借助Hadoop开发分布式程序，它取得了成功，成为分布式数据处理界的巨兽（Hadoop的Logo就是只大象）。现在甚至出来了“无分布不Hadoop”——每个传统的数据库提供商都急切地声明支持Hadoop。关系数据库的传统霸主Oracle公司也将Hadoop集成到自己的NoSQL数据库中，Microsoft、Sybase、IBM也加入了收纳Hadoop功能的竞赛中。

第二位领导者，MongoDB，是一个成功的文档处理型数据库系统，它被称为“非关系式数据库中最像关系式数据库的产品”。MongoDB查询功能强大，特别适合高性能的Web数据处理。

Cassandra是这个领域中的一个另类产品，它兼有键值数据库和列值数据库两者的长处，它的查询功能很优秀。虽然运行Cassandra集群难度较高，但它升级后的分析能力使得很多人感到惊讶。

Redis也是相当好的一个产品。对故障恢复的良好支持以及使用Lua的服务器端脚本语言是明显区别于其他软件之处。使用Lua确实带来了一些震动，因为更多的人喜欢和习惯JavaScript服务器端语言。但是，Lua是一个整洁的语言，它并为Redis开启了潘多拉盒子。

CouchBase在可扩展性和其他潜在因素，使其看起来是一个很好的选择，尽管Facebook以及Zynga面临着关键开发者离开的风波。CouchDB会变得更好抑或相反？只要数据库做得好受众就会欢迎，现在看来，它确实做的很好。

还需要提及的是Riak，在功能性和监控方面它也有了巨大的提升。在稳定性方面，它继续得到大家的赞美：“像巨石一般稳定、可靠且不显眼……”。Riak 数据模块化方面做得很有特色。

大数据技术篇3

[18]丁智，林治.MapRdeuce编程模型、方法及应用综述[J].电脑知识与技术，2014，10（30）：70607064.

[19]江舢，金晶，刘鹏展，等.分布式海量数据批处理技术综述[Z].中国科技论文在线，2012.

[20]吴哲夫，肖鹰，张彤.大数据和云计算技术探析[J].互联网天地，2015（4）：611.

大数据技术篇4

1数据挖掘与数据挖掘技术的方法分析

“数据海量、信息缺乏”是相当多企业在数据大集中之后面临的尴尬问题，由此而诞生的数据挖掘技术其实就是用以处理这一尴尬问题的技术。数据挖掘实际上是相对比较新型的一门学科，在几十年的发展过程中，已经不可同日而语。其实数据挖掘技术的本质就是人工智能技术，而数据挖掘技术的利用相对应的就是指人工智能技术的开发与应用，也就是说数据挖掘其实是依赖技术的提升来实现数据的整体创新的技术，所以，整个数据挖掘技术实际上是非常具有信息价值的，它能够帮助决策者更快的得到重要信息并作出决策，提高效率和准确率，是非常重要的知识凭证，能够在一定程度上提高当下企业的整体竞争力。

数据挖掘技术的核心就是分析，通过分析方法的不同来解决不同类别的问题，以实现数据挖掘的潜在内容。简单来说就是对症下药以保证药到病除。

1.1聚类分析法

简单来说聚类分析就是通过将数据对象进行聚类分组，然后形成板块，将毫无逻辑的数据变成了有联系性的分组数据，然后从其中获取具有一定价值的数据内容进行进一步的利用。由于这种分析方法不能够较好的就数据类别、属性进行分类，所以聚类分析法一般都运用在心理学、统计学、数据识别等方面。

1.2人工神经网络

人工神经网络是通过大批量的数据进行分析，而这种数据分析方式本身是建立在一定的数据模型基础上的，因此通常都可以随时根据数据需求进行分类，所以人工神经网络也是当下数据挖掘技术中最常用的一种数据分析方式之一。

1.3关联性分析法

有时数据本身存在一定的隐蔽性使得很难通过普通的数据分析法进行数据挖掘和利用，这就需要通过关联性分析法完成对于数据信息的关联性识别，来帮助人力完成对于数据分辨的任务，这种数据分析方法通常是带着某种目的性进行的，因此比较适用于对数据精准度相对较高的信息管理工作。

1.4特征性数据分析法

网络数据随着信息时代的到来变成了数据爆炸式，其数据资源十分广泛并且得到了一定的普及，如何就网络爆炸式数据进行关于特性的分类就成为了当下数据整理分类的主要内容。在上文中提到的人工神经网络数据分析也属于这其中的一种，此外还有很多方法都是通过计算机来进行虚拟数据的分类，寻找数据之间存在的普遍规律性完成数据的特性分析从而进行进一步分类。

2大数据时代下数据挖掘技术的具体应用

数据挖掘技术的具体流程就是先通过对于海量数据的保存，然后就已有数据中进行分析、整理、选择、转换等，数据的准备工作是数据挖掘技术的前提，也是决定数据挖掘技术效率及质量的主要因素。在完成数据准备工作后进一步对数据进行挖掘，然后对数据进行评估，最后实现运用。因此，数据挖掘能够运用到很多方面。

2.1市场营销领域

市场营销其实就是数据挖掘技术最早运用的领域，通常根据客户的具体需求，进行客户分析，将不同的消费习惯和消费特点的客户进行简单的分类管理，以此来保证商品能够顺利销售，并提高个人销售的成功率和业绩。而销售的范围也从最初的超市购物扩展到了包括保险、银行、电信等各个方面。

2.2科学研究领域

科学研究与实验测试等都需要对数据进行关系分析为进一步的实验和总结失败做准备，而实验测试和科学研究产生的数据往往是巨大的，因此数据挖掘技术在科学研究领域也得以广泛运用。通常都是通过科学研究内容选择数据挖掘技术分析法进行计算来找到数据中存在的规律，实现数据挖掘的部分价值――科学知识的分析与运用。

2.3电信业领域

随着信息化时代的到来，电信产业也飞速发展起来，到目前为止，电信产业已经形成了一个巨大的网络信息载体，如何将其中信息数据进行整合就成为电信产业发展过程中的重要问题。而数据挖掘技术的运用则在一定程度上解决了这一问题，大量的数据通过数据挖掘技术得到了有效分类，并在这个过程中通过运算得出数据之间的关联性，运用规律进一步进行数据分类。

2.4教育教学领域

教学评价、教学资源、学生个人基本信息等组成了教育教学领域的数据库，利用数据挖掘技术来实现教学资源的优化配置，对学生的个人信息整理归档，从而保证教育教学领域中数据整理的良好运作。

3结语

综上所述，数据挖掘技术对于当今社会的发展有着不可替代的作用，而如何改善当下数据挖掘技术中存在的问题，进一步提高数据挖掘技术的质量和效率就成为了数据挖掘技术进步的方向。本文通过对于数据挖掘与数据挖掘技术的方法分析和大数据时代下数据挖掘技术的具体应用两个方面对于数据挖掘技术进行了简要的阐述和分析，相信在未来伴随着科学技术的进一步发展，数据挖掘技术也将更加强大。

参考文献

大数据技术篇5

一、大数据的界定及特性

大数据发展背景下，它不再仅仅代表数据规模，更具有了一种划时代的意义和价值，它意味着对传统计算信息技术的挑战，是对大数据进行分析、处理的新技术和方法，是指在数据庞大到无法承受的状态下，用计算机软件工具进行信息数据捕捉、组织和分析处理的数据集合。大数据决策可以推动数据信息管理准则的重新定位，并在大数据分析和预测性分析不断发展的条件下，大数据会对各领域的管理决策产生颠覆性的影响。同时，大数据还可以推动新技术和新应用的开发，在大数据新技术不断被开发的基础上，数据信息的能量将会以不可预知的速度增大。

大数据的特性主要指以下几个方面的内容：（1）Volume。即大数据的庞大体量，一些个人计算机的容量已经到了TB量级，大型企业的容量更是接近了EB量级。（2）Variety。即大数据的类型。大数据总体而言有结构化数据和非结构化数据两大类，在新时代下，各种非结构化数据呈现迅速增长的态势，如：网络日志、视频、地理位置信息等。（3）Value。即大数据的价值密度。通常而言，数据总量与数据的价值密度呈反比关系。（4）Velocity。即大数据的处理速度。在未来迅猛发展的信息时代，对数据的信息处理速度将决定企业的效率和质量。

二、大数据发展背景下的数据库技术

1 键值存储技术

在传统的结构化数据之中，通常采用二维表数据模型，对结构化数据进行存储和分配，以实现不同二维表之间的链接和操作，然而，这种传统的数据库处理技术难以满足人类对数据库高并发读写的需求，也无法满足海量数据存储和访问的需求，使数据库具有较低的扩展性和可用性。

在大数据发展的背景下，产生新型的数据库――非关系型数据库，它通过键值与存储相对应，不同的元组可以拥有各自独立的字段，如果有增添键值的情况，则可以不再受到固定结构的禁锢，这种键值对存储的方式也称为KV存储方式，它借助于键值对的方式对大数据进行索引、组织和存储，可以有效地减少读写磁盘的次数，有更好的读写性能。

KV存储技术可以用于写操作和读操作，对数据进行简单查询和复杂查询，还可以对过期的数据进行定时的合并操作加以处理。

2 BigTable非关系型数据库

由于人类对非结构性数据的需求不断增加，由此也催生出了云数据库，它可以满足人们对非结构性数据的需求，可以支持多种数据模型，其中，BigTable非关系型数据库显示出一种多维的排序状态，它不是密集形式而是疏散状态的永久性的模型，利用行键、“列键”以及“时间戳”实现对图索引，它不存在各表之间的链接式操作，整个系统是采用一个“行键”索引的访问方式，来实现对大数据的组织和处理。

三、大数据发展背景下数据库技术的应用安全

1 巩固网络外部环境，确保数据安全支撑

大数据时代背景下，数据信息是一种重要的资产，要以数据库技术为手段，对网络外部环境进行安全建构，要在操作系统层进行漏洞管理和安全维护，并主要通过以下几项技术性内容加以实现：

1.1 科学合理地匹配网络资源。在大数据发展的趋势下，网络资源的科学合理匹配是安全运行和维护的前提，要利用网络资源管理程序，对其进行科学的调度和管理，使各种网络资源在良好、安全的运行状态下进行操作。

1.2 全面完善防火墙技术。在大数据处理和组织的过程中，要全面构筑和完善数据库系统的防火墙技术，它是网络安全的第一道屏障，可以确保数据库内部数据不受侵犯，对于未知的、非法的访问可以加以有效的拦截，在对数据库访问用户进行权限设定的前提下，对数据库访问并管理的区域进行有效的划分，通过防火墙过滤技术，对安全数据信息放行安全通道，而对于非法数据则予以拦截，从而避免数据库遭受外部的攻击和意外的损害。

1.3 全面运行入侵检测技术。除了数据库的防火墙技术之外，数据库还应当注重网络系统内部的安全攻击，由于防火墙技术侧重于对外部攻击的防范和拦截，然而，来自于网络系统内部的安全攻击则需要借助于入侵检测技术，在入侵检测技术的应用和运行状态下，数据库可以便捷而迅速地对恶意入侵进行检测并锁定，有效地对入侵行为或动作朝廷阻止，通过对入侵行为的追踪和记录，从而阻止试图入侵或病毒感染的异常活动，提高数据库系统的整体安全性能。

1.4 注重系统更新程序。数据库的系统漏洞有时也是一种致命的安全威胁，它有可能使不法侵入者进入而对数据库系统进行侵犯，因而，要安装数据库补丁程序和杀毒软件，并且还要对杀毒软件的杀毒引擎和病毒库进行及时的更新。

2 强化数据库的技术安全

在大数据发展背景下，要强化数据库安全技术和手段，（1）要选用安全可靠的文件系统，尽量选用NTFS文件系统和Unix系统，不仅可以提高数据库系统的访问性能，而且可以确保数据文件的安全。（2）对于数据库文件还要进行加密处理，可以采用库外加密和库内加密两种方式，根据数据信息的状况选取适宜的加密方式。（3）使用数据库视图技术，为需求用户提供不同的视图，在视图机制之下，限定和保密不同用户的访问范围，确保数据库应用的安全。（4）云安全。在大数据的发展背景下，“云安全”技术发展出了新兴的内容，可以运用并行处理、网格计算和病毒行为判断等策略，对数据库进行异常监测，并在自动分析和处理的前提下，对每一个客户端提供病毒解决方案，高效保证数据库系统环境的安全。

3 强化数据库管理与安全水平

数据库管理系统的安全是应用过程中的最后一道屏障，它主要可以采用两种方式实施安全管理，其一，采用数据库用户口令管理方式，对于数据库使用者采用口令和用户名的复杂性验证方式，以减少被攻击的几率。其二，对于数据库角色和权限管理的方式，它可以通过不同的权限管理方式，即：系统权限和对象权限，并在权限分配方案中，提高数据库管理的灵活性和安全性。

总而言之，在大数据发展背景下，数据库技术有了新的发展要求和机遇，各种结构化数据和非结构化数据相互融合和补充，使数据库技术不断地更新和优化，并在数据安全保障技术的实际应用下，实现对多源异构数据的存储和利用。

参考文献：

[1]何明，陈国华，梁文辉，赖海光，凌晨.物联网环境下云数据存储安全及隐私保护策略研究[J].计算机科学.2012（05）

[2]王珊，王会举，覃雄派，周@.架构大数据：挑战、现状与展望[J].计算机学报.2011（10）

大数据技术篇6

当前许多企业都已基本实现了信息化建设，企业积累了海量数据。同时企业间的竞争日益加剧，企业为了生存及发展需要保证自身能够更加准确、快速和个性化地为客户提品及服务。而大数据技术能够从海量的数据中获取传统数据分析手段无法获知的价值和模式，帮助企业更加迅速、科学、准确地进行决策和预测。

1.1大数据技术现状

广大企业的迫切需求反之也促进了大数据技术的飞速发展，涌现出了诸如Hadoop、Spark等实用的架构平台。其中，目前最主流的就是Hadoop。Hadoop的分布式处理架构支持大规模的集群，允许使用简单的编程模型进行跨计算机集群的分布式大数据处理。通过使用专门为分布式计算设计的文件系统HDFS，计算的时候只需要将计算代码推送到存储节点上，即可在存储节点上完成数据本地化计算。因此，Hadoop实现了高可靠性、高可拓展性、高容错性和高效性，可以轻松应对PB级别的数据处理。

1.2大数据技术对烟草数据中心建设的影响

当前，烟草企业基于多年的信息化建设已经积累了海量数据，同时每天还不断有新的各种数据产生。在高并发、大体量的情况下，需要在数据采集、存储和运算方面采用与以往完全不同的计算存储模式，这就不可避免地需要采用大数据技术。同时，除了购进单、卷烟交易数据、货源投放数据等结构化数据外，还产生越来越多的非结构化数据，利用大数据技术，对非结构化数据进行预处理，可为人工判断和机器学缩减范围。对海量数据以及非结构化的信息进行分析统计，仅仅依靠传统的技术手段很难实现，只有引入大数据技术才能充分的将所有的数据资源利用起来，成为企业决策的助力。

2.江苏烟草数据中心应用现状

2.1江苏烟草数据中心体系架构

目前江苏烟草数据中心以一体化数据中心、一体化数据管理和一体化数据分析三个部分为核心，构建了一套完整的数据中心架构。一体化数据中心是整个数据中心最核心的部分。通过数据仓库模型、数据存储、ETL工具等组成部分，构建了业务数据的收集、加工、存储、分发的总体架构。建立了按ODS（SODS、UODS）、DW、DM三层结构设计建设的数据仓库。一体化数据管理通过主数据管理、信息代码管理、ESB平台构建了企业主数据收集、标准化、同步分发过程。结合指标管理，全面管控企业的公用基础信息。通过数据质量管理，全面有效管控数据质量。通过数据服务管理，有效提升数据中心的对外服务能力与水平。通过元数据管理来管理数据中心元数据。一体化数据分析通过构建移动信息、业务分析、数据挖掘三大模块，针对性解决当前不同人员的决策、管理以及操作需求，发挥数据中心的数据、技术、平台优势。通过移动信息模块为各级领导提供决策支持；通过业务分析模块为业务人员的日常工作提供支撑；通过数据挖掘模块，发掘数据所蕴含的隐性价值。基于上述一整套架构的支撑，目前数据中心构建了全省范围的数据集成、交换体系，一方面提升了全省基础数据、业务数据的规范化程度和数据质量，另一方面为在建业务系统的实施、已有系统的改造提供了标准化的高质量数据保障。

2.2大数据技术的应用场景分析

随着江苏数据中心的不断运行，一些基于传统技术架构的功能逐渐暴露出种种问题。其中较为突出的问题有：一是使用者对于大数据量数据的查询需求。基于传统技术架构的查询功能响应较慢；二是分析支持灵活性的不足。传统统计分析应用的数据结构大多是预先定义好的，面对灵活的非传统的统计查询需求难以支撑，需要进行额外的加工处理。江苏烟草数据中心结合互联网大数据技术特性，引入Hadoop平台以及Impala等工具，搭建基于大数据的自定义数据查询平台，以补充基于传统技术架构的功能不足，并为未来进一步发展建设基于大数据技术和云环境的数据中心做好准备。

3.基于大数据的自定义数据查询平台实现

3.1设计思路及架构

基于大数据的自定义数据查询平台是在现有数据中心的建设成果之上，以数据中心的数据存储为基础，以Hadoop、Hive、Impala等大数据技术工具为手段，以简单灵活、快速高效的查询展现为目标，建立的数据查询分析支持平台。

3.2技术方案

自定义数据查询平台的建设主要涉及数据存储架构、后台数据加工准备、前端展现三块内容。自定义数据查询平台的数据存储分为两部分。一部分为KETTLE、Impala等工具以及自定义查询相关的元数据存储，另一部分则是查询所需的各种统计数据的存储。元数据的存储根据元数据库的不同主要分为两部分。第一部分为基于Mysql数据库的元数据存储。这部分元数据主要包括有ETL工具KETTLE的元数据，以及前端自定义查询需要定义的权限、数据源、表、列和表列关系等信息。第二部分为基于Hive的元数据存储。这部分存储的是前端查询需要使用的Impala工具的元数据。统计数据的存储则是使用Hadoop的HDFS实现的。根据Hadoop平台架构，自定义数据查询平台的HDFS建立在6台虚拟主机构建的集群上的。其中：2台虚拟主机作为NameNode，一台为主节点，另一台为备份节点；其余4台虚拟主机都作为DataNode用于存储数据。所有数据将会统一分块自动分配存储到4个DataNode上。自定义数据查询平台的数据加工，是通过开源ETL工具KETTLE实现的。通过KETTLE从数据中心现有数据仓库及数据集市中读取需要的数据，根据自定义数据查询平台的数据模型定义对数据进行处理，最终加载到Hadoop的HDFS文件系统中。自定义数据查询平台的前端展现功能，主要是基于JSP技术实现页面开发，通过JDBC或者ODBC对后台Mysql数据库进行访问。使用者在查询页面中组织定义查询的内容，查询服务自动根据获取的元数据信息将定义的查询内容拼接转换成为查询SQL，之后通过Impala执行查询SQL对HDFS文件系统中的统计数据进行查询。

3.3系统实现效果

利用大数据技术，自定义数据查询平台较好地解决了目前数据中心所面对的问题，满足了使用人员对于大数据量以及分析灵活性的需求。面对使用人员层出不穷的查询需求，自定义数据查询平台通过预先梳理、分类定义各种维度以及统计指标。使用者可以自由的根据实际需求选择分析所需的维度及统计指标，同时还可以基于这些基础的内容更进一步自定义过滤条件以及计算公式，并指定其展现形式。在大数据量查询效率方面，自定义查询平台相比传统架构的查询功能有了较大提升。

4.结束语

大数据技术的发展方兴未艾，应用前景无比广阔，对各行各业的巨大作用正在逐步展现。江苏烟草数据中心的建设既要看到大数据技术未来的前景，更需要明确地认识到大数据平台的建设并非一朝一夕，需要有明确而长远的规划，不断完善数据环境建设、云计算环境的构建以及数据服务的扩展。

参考文献

[1]陈鹏.大数据时代下的信息安全问题研究[J].电子制，2015,18：48

大数据技术篇7

互联网；大数据；网络安全技术

大数据已经开始影响人们的生活了，人们越来越依赖大数据。在商业领域，大数据成为预测行情、找准营销方向点的重要载体；在公共的服务领域，大数据为人们的出行、旅游、健康、环保等方面提供出参考信息；大数据为人们生活带来了方便、快捷、灵通的消息和服务。但是，也在人们的生活中增添了很多危险的因素。在大数据环境下，人们上网、购物、消费的同时也暴露了个人信息。提高网络的安全技术，在社会发展的同时保障人们的合法权益。

1大数据时代

最早提出大数据的人是维克托•迈尔-舍恩伯格及肯尼斯•库克耶，他们认为大数据是一个巨量资料库。大数据具有大量、高速、多样、价值等四个主要特点，大数据以多元的形式将很多信息资源收集在一起，形成一个实效性特别强的数据组。大数据与云计算的关系密不可分，在大数据需要使用分布式的计算结构时，云计算会帮助大数据进行分布式处理、建立分布式数据库和云存储。在人们的意识里，数据就是简单的信息。在互联网时代到来之后，大数据时代也紧跟着到来。大数据不是简单的互联网信息，在工业设备、汽车、电表、机械等方面安装上数码传感器，随着空气、温度、湿度、环境的变化数码传感器会发生变化，随之产生很多的数据信息，将这些数据汇集到一起进行研究处理就形成了数据库，也就是大数据。大数据的产生对社会的发展有着很大的影响，它可以通过数据间的信息变化，设计出适合生产的软件。将大数据运用到社会的各个领域中，可以节省资源、提高生产效益。企业中可以利用大数据对大量消费者的消费状况有一个详细的了解，找到消费者们共同的消费领域，制订精准的营销方案。大数据时代下，一些小型企业可以借助大数据的优势做服务转型。大数据环境下，企业的创新之路会走的更顺畅更久远。

2大数据环境中存在的问题

随着大数据时代的到来，很多新兴技术和软件应运而生。互联网的普及是人们出门携带的物品越来越少，甚至有人说拿着一部手机就可以走遍天下。无论是购物，还是吃饭，一个手机APP就可以全部搞定。但是，现在的软件都是实名制的，随着使用的数据软件越多，人们的个人信息就暴露的越全面。近几年，网络诈骗的案件层出不穷，人们的姓名、身份证信息、家庭住址等等，都已经不再是秘密。大数据环境下，人们的个人信息被盗取是最大的问题。在2014年，支付宝前技术员工利用职位便利将20万的支付宝用户信息非法卖给了他人，这个事件发生之后，在社会上引起了很大的轰动。人们开始意识到自己的信息并不安全，有了防范心理。但是，骗子的手段也是层出不穷，每年都有很多人因为轻信网络信息，被骗取了大量钱财。海量数据的安全存储问题大数据环境中的数据存储太多，存储数据的系统无法满足大数据的运用。大数据所带来的存储容量问题、延迟、并发访问、安全问题、成本问题等，对大数据的存储和安全保护系统提出了新的挑战。大数据的存储分为结构化存储和非结构化存储。结构化数据的存储中安全防护存在很大的漏洞，诸如物理故障、软件问题、病毒、黑客攻击等因素是威胁数据安全的问题。非结构化数据占大数据总量的80%，在对数据存储进行管理和处理工作中，一般使用NOSQL存储技术。虽然NOSQL存储技术有很大的优点，但是数据的多、杂、乱依然使数据存储工作一团糟。在非结构化的数据存储出现了访问控制和隐私管理模式问题、技术漏洞问题、验证安全问题等。

3提高网络安全技术的措施

出现问题就要解决问题，大数据在促进社会发展的过程中也产生了很多的弊端。找到问题的源头后，就应该付出实践去解决问题。通过对数据进行网络安全监控，提高大数据环境的安全性能。网络安全技术是在数据传输中保证数据安全性的一种技术手段，网络安全技术又分为网络结构安全分析技术、系统安全结构分析技术以及物理安全分析技术和管理安全分析技术。提高网络安全技术，在大数据环境中建立健全的网络安全体系。提高网络安全技术的具有措施有以下几点：

3.1使用入侵检测系统

入侵检测系统是网络安全技术中的新型系统，主要对数据进行实时的入侵检测，是一种保证数据安全、无病毒的防护系统。入侵检测系统分为两类，一类基于主机；一类基于网络。机遇主机的入侵检测系统可以保护重要的服务器，随时监测并可疑连接、非法访问的入侵。基于网络则是用来监控网络主要的路径信息、不良信息。一旦发现入侵现象立马发出警报，并自动采取防护措施。

3.2提高网络安全技术人员的综合素养

“监守自盗”是大数据时代下经常出现的问题，负责保护整理数据的人员成了贩卖数据信息的人。在企业或者媒体平台中，应该对所有的职员进行培训。建立网络数据管理制度，对不遵守制度的人严惩不贷。提高网络安全技术人员的专业能力和职业素养，对企业中的数据进行严格保管，不做有损人民利益和企业形象的事情。

4结语

在这个日新月异的时代中，人们的生活每天都有新的变化。随着大数据时代的到来，人们可以轻松解决很多事情。没有了时间和空间的上的阻碍，经济发展的脚步会越来越快的。将来，大数据在教育、消费、电力、能源、交通、健康、金融等全球七大重点领域都会得到全面广泛的应用。大数据已经成为了国家发展的趋势。为保证大数据能够利国利民的进行，国家的网络安全监测人员需要不断地提升自己的专业能力，加强对网络安全的管理。提高网络安全技术，使人们能有一个健康、安全的生活环境。

参考文献

[1]王元卓,靳小龙,程学旗等.网络大数据:现状与展望[J].计算机学报,2013,36(06):1125-1138.

大数据技术篇8

基于二维关系模型的数据库在数据管理的发展历程中是一个标志性的时期，数据结构化存储，冗余较低、程序和数据具有一定的独立性、易扩充等特点。随着Internet技术的发展，涌现出半结构化、非结构化数据，对这些结构复杂的大数据的高效实时多维分析的需求越来越多。传统的关系数据库从70年展至今，虽然应用范围较广技术较成熟，但在处理海量数据方面还存在许多不足。（1）关系模型结构制约了快速访问大数据的能力。在二维关系表中，依据属性的值来检索相应的元组，受这种方式的束缚，在检索数据过程中，将耗费一定的时间，从而使访问数据的时间较慢。在存储对象设计上虽然可以使用分区的方法，提高数据访问冲突，但在大量数据的前提下，分区技术改善的性能较微弱。（2）处理大数据的灵活性不足。在应用系统中，用户的各种查询需求经常发生变化，不受时间和操作对象的约束，用户希望随时随地都能快速得到反馈结果。关系型数据库需要专门的数据库维护人员对用户的查询要求进行优化处理，不能及时的反馈给用户查询结果，这使得使用关系数据库存储数据的企业不具备对大数据的快速响应能力。（3）处理复杂结构数据能力较弱。关系型数据库对现实数据的处理常见类型为字符、数值等，对于半结构化和非结构化数据的处理只限于二进制代码文件的存储，而现今用户对复杂结构数据的要求上升为识别、检索和多维分析，如何处理占总数据量85%的非结构化数据，是许多关系数据库产品需要解决的问题。（4）存储维护管理PB级数据导致成本不断增加。数据量递增使得企业在硬件存储上投资不断增加，虽然存储设备的投入成本在逐步降低，但总成本却在逐步提高。此外，大量复杂结构的数据维护工作也给数据库管理员增加了很多负担。

3大数据库技术

随着大数据技术的日趋完善，各大公司及开源社区都陆续了一系列新型数据库来解决海量数据的组织、存储及管理问题。目前，工业界主流的处理海量数据的数据库有四种，分别是列式数据库、内存数据库、键值数据库及流式数据库。

3.1列式数据库

采用列族存储数据，将经常被使用的数据放到一个列族中，例如，经常会查询学生的学号和姓名，而不是专业，这样把学号和姓名放到一个列族中，专业放到另一个列族中，该数据库通常用来存储分布式大数据，HBase是列式数据库的典型代表。

3.2内存数据库

对数据库中所有数据的操作都在内存中完成，一般数据库也有一定的缓存机制，对大部分数据的操作都包含从外存到内存的读取，这一过程在很大程度上降低了系统的性能。由于在内存中的读/写是以纳秒为单位的，所以内存数据库的性能极高，Spark是内存数据库的典型代表。

3.3键值数据库

该数据库主要借助哈希表的结构，使用一个特定的键和一个指向特定数据的指针，利用键来完成对数据库中数据的添加、删除和查询操作，这种结构具有很好的扩展性，使系统具有较高的性能，Memcached、Redis、MemcacheDB都是键值数据库的典型代表。

3.4流式数据库

基本理念是数据的价值会随着时间的流逝而不断减少，因此，需要使式数据库来实现流式计算。流式计算处理模式是将源源不断的数据视为数据流，它总是尽可能快速地分析最新的数据，并给出分析结果，也就是尽可能实现实时计算。典型流式数据库：SparkStreaming、Storm。

4大数据SQL

大数据技术篇9

近几年，大数据（big data）一词越来越多地被提及，人们用它来描述和定义信息爆炸时代产生的海量数据，并命名与之相关的技术发展与创新。2012 年3 月，奥巴马公布了美国《大数据研究和发展计划》，标志着大数据已经成为国家战略，上升为国家意志。从硅谷到北京，大数据的话题传播迅速。

1 大数据时代

随着计算机技术全面融入社会生活，经过半个多世纪的发展，信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息，而且其增长速度也在加快。最先经历信息爆炸的学科，如天文学和基因学，创造出了“大数据”这个概念。

1.1 大数据时代产生的背景

最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡，麦肯锡称：“数据，已经渗透到当今每一个行业和业务职能领域，成为重要的生产因素。人们对于海量数据的挖掘和运用，预示着新一波生产率增长和消费者盈余浪潮的到来。”大规模生产、分享和应用海量数据的时代之所以能够开启，源于信息科技的进步、互联网与云计算技术和物联网的发展。

（1）信息科技的进步。信息处理、信息存储和信息传递是信息科技的三个主要支撑，存储设备性价比不断提升、网络带宽的持续增加，为大数据的存储和传播提供了物质基础。

（2）互联网与云计算技术。互联网时代，电子商务、社交网络和移动通信产生了大量结构化和非结构化的数据，以云计算为基础的信息存储、分享和挖掘手段，可以便宜、有效地将这些大量、高速、多变化的终端数据存储下来，并随时进行分析与计算。互联网领域的公司最早重视数据资产的价值，他们从大数据中淘金，并且引领着大数据的发展趋势。

（3）物联网的发展。众所周知，物联网时代所创造的数据不是互联网时代所能比拟的，而且物联网的数据是异构的、多样性的、非结构和有噪声的，最显著的特点是是它的高增长率。大数据是物联网中的关键技术，物联网对大数据技术的要求更高，它的发展离不开大数据。

1.2 大数据与数据挖掘

Google、Amazon、Facebook、Twitter，这些称霸全球互联网的企业，它们的成功都具备一个共同的因素，就是收集分析海量的各种类型的数据，并能够快速获取影响未来的信息的能力。“购买了此商品的顾客还购买了这些商品”，这恐怕是世界上最广为人知的一种商品推荐系统了，而创造出这个系统的正是Amazon。Amazon 通过分析商品的购买记录、浏览历史记录等庞大的用户行为历史数据，并与行为模式相似的其他用户的历史数据进行对照，提供出最适合的商品推荐信息。Facebook 可以为用户提供类似“也许你还认识这些人”的提示，这种提示可以准确到令人恐怖的程度，而这正是对庞大的数据进行分析而得到的结果。这种以数据分析为核心的技术就是数据挖掘（data mining）。

从技术角度看，数据挖掘是从大量的、复杂的、不规则的、随机的、模糊的数据中获取隐含的、人们事先没有发觉的、有潜在价值的信息和知识的过程。从商业角度来说，数据挖掘是从庞大的数据库中抽取、转换、分析一些潜在规律和价值，从中获取辅助商业决策的关键信息和有用知识。大数据概念的提出，将为数据挖掘技术的发展和应用带来一个很大的机遇。

2 数据挖掘

数据挖掘旨在从大数据中提取隐藏的预测性信息，用便于理解和观察的方式反映给用户，作为决策的依据。

2.1 数据挖掘原理

数据挖掘又称为数据库中的知识发现（Knowledge Diseoveryin Databases，KDD），是一个从数据库或数据仓库中发现并抽取隐含的、明显未知的、具有潜在用处的信息的过程。数据挖掘一般流程主要包括三个阶段：数据准备、数据挖掘、结果解释和评价。在数据挖掘的处理过程中，数据挖掘分析方法是最为关键的。

（1）数据准备。数据准备是从海量数据源得到数据挖掘所用的数据，将数据集成到一起的过程。由于数据收集阶段得到的数据可能有一定的污染，即数据可能存在不一致，或有缺失数据、脏数据的存在，因此需通过数据整理，对数据进行清洗及预处理。

（2）数据挖掘。是数据挖掘中最关键的一步，使用智能的方法提取数据模式，例如决策树、分类和聚类、关联规则和神经网络等。首先决定要提取什么样的模型，然后选取相应的算法参数，分析数据从而得到可能形成知识的模式模型。

（3）结果解释和评价。数据挖掘后的结果需要转换成用户能够理解的规则或模式，并根据其是否对决策问题具有实际意义进行评价。

2.2 数据挖掘技术在营销中的应用

无差别的大众媒体营销已经无法满足零和的市场环境下的竞争要求。精准营销是企业现在及未来的发展方向，在精准营销领域，最常用的数据挖掘分析方法包括分类、聚类和关联三类。

（1）关联规则。挖掘关联规则就是发现存在于大量数据集中的关联性或相关性，例如空间关联挖掘出啤酒与尿布效应；时间关联挖掘出孕婴用品与家居装修关系；时间关联挖掘出调味品、纸巾与化妆品的消费等。

此外，关联规则发现也可用于序列模式发现。序列模式发现的侧重点在于分析数据项集在时间上或序列上的前后（因果）规律，可以看作是一种特定的关联规则。例如顾客在购买了打印机后在一段时间内是否会购买墨盒。

（2）分类分析。分类是假定数据库中的每个对象属于一个预先给定的类，从而将数据库中的数据分配到给定的类中。它属于预测性模型，例如在银行业，事先定义用户的信用状况分为两类：信用好和信用坏，对于一个信用状态未知的用户，如果需要确定其信用度，可以采用“决策树”法构建一个分类模型，决策树方法着眼于从一组无次序、无规则的客户数据库中推理出决策树表现形式的分类规则。决策树的非叶子节点均是客户的一些基本特征，叶子节点是客户分类标识，由根节点至上而下，到每个叶子节点，就生成了一条规则，由该决策树可以得到很多规则，构成了一个规则集合，从而进行数据分析。

（3）聚类分析。聚类是将物理或抽象对象的集合进行分组，然后组成为由类似或相似的对象组成的多个分类的分析过程，其目的就是通过相似的方法来收集数据分类。为品牌找客户，回答品牌“谁来卖”是精准营销首先要解决的问题，科学细分客户是解决这一问题的有效手段。聚类可以将目标客户分成多个类，同一个类中的客户有很大的相似性，表现在购买行为的高度一致，不同类间的客户有很大的相异性，表现在购买行为的截然不同。

3 结语

大数据时代背景下“数据成为资产”，数据挖掘技术作为支撑精准营销的重要手段，将它应用于营销行业的决策中，不仅拓展了数据挖掘技术的应用范围，而且大数据时代的数据挖掘技术可以帮助企业获得突破性回报。

参考文献

[1]维克托・迈尔―舍恩伯格；肯尼思・库克耶.大数据时代：生活、工作与思维的大变革[M].周涛译.杭州：浙江人民出版社，2013.

[2]王伟玲.大数据产业的战略价值研究与思考.技术经济与管理研究[J]，2015（1）.

大数据技术篇10

在现今信息技术发展中，数据同计算可以说是信息技术发展过程中的两个重要主题，在这两个主题的基础上，信息技术也逐渐出现了大数据技术概念。从严格意义来说，所谓大数据技术，即是针对于海量数据的分析、存储以及技术。对于这部分海量数据来说，我们很难直接对其进行应用，在获得数据之后，需要在经过一定处理后才能够获得有用的数据，如何能够实现大数据时代下数据同计算的科学协作、并能够将其形成一种机制，则成为了目前非常重要的一项问题。

1 计算同数据协作机制对比

对于面对数据系统来说，其一般为分布式系统类型，即通过将计算向数据进行迁移对系统中数据传递代价进行降低，可以说是一种通过计算对数据进行寻找的方式。要想对数据进行计算，实现数据的定位可以说是一项重要的前提，而数据切分以及存储方式情况也将对计算的模式以及处理效率产生影响。对此，要想对数据同计算间的科学协作进行实现，就需要对数据在分布式文件系统中的存储方式进行研究。而由于在分布式系统当中，需要对数据冗余、节点失效以及备份等问题进行解决，就对数据同计算协作价值的研究带来了较大的挑战。在两者协作机制研究中，数据同计算的一致性可以说是研究重点，需要首先从该方面进行讨论与解决。

1.1 位置一致性映射模型

对于分布式系统中数据同计算的一致性问题，我们可以将其理解为将两者在同一节点位置映射，即在数据存储区域发起计算。以网格计算系统为例，其到达客户节点的数据是计算先于数据，并根据客户端请求将数据映射到客户端中进行处理。对于Hadoop系统来说，就是先将数据存储到系统的一个节点当中，当系统发起计算时，再对元数据进行查询后对数据存储位置进行获得，并将计算任务映射到节点当中进行处理。根据此种情况，我们可以将计算同数据间的映射比作是数据到节点的映射过程，在该过程中，数据片同计算程序在按照一定规则到节点进行定位之后将两者注入到节点当中，而到该节点失效时，数据片则会按照相应的规则进行数据备份以及迁移，并重新按照规则实现到节点的对应。

在上述模型中，我们可以将计算视作是一种具有特殊特征的数据类型，这是因为对于计算而言，其自身就是程序语言设计的可执行程序片，在系统映射过程中，可以将其同数据进行同等的看待，且在程序中一般也将包括相关数据的逻辑位置信息。在分布式文件中，其中的定位算法也正是数据同节点间的映射功能，即要想对两者的一致性位置进行实现，就离不开分布式文件系统的支持。同时，由于在分布式系统中计算迁移、存储迁移以及数据冗余问题的存在，在具体功能实现时，也将对存储冗余以及均衡调度等技术进行结合性的应用，以此对两者科学协作、且具有稳定健壮特征的系统进行实现。映射方式方面，则有哈希映射以及元数据映射等。

1.2 元数据映射算法

对于该类算法来说，其可以说是最为基础的对存储位置同计算一致性进行实现的方法，在实际应用中，该方式通过数据块存储位置的查找使该位置能够同指定的存储节点进行映射，在其对计算同数据的定位实现中，同网络路由表原理较为类似，即两者通过对有路由的查询保证数据能够同计算被分配到同一个节点当中。对于应用该方式的系统来说，其一般为主从结构类型，如果其中出现单点失效情况，则将对整个系统产生较大的影响。对于HDFS以及GFS结构来说，就是以该数据方式构建的。在实际对数据进行存储时，其一般会根据节点目前存储负载情况进行判断，而为了避免结构对失效情况具有过高的敏感性，也有学者通过对元数据进行复制的方式提升系统可用性。

通过该方式的应用，则能够以较为便利的方式对机群系统目前状态进行利用，在以其为依据的基础上对系统的负载均衡进行实现。此时，系统主节点则会通过一定调度算法的应用对数据计算以及存储进行分配，在对系统负载均衡进行实现的同将分配信息作为元数据进行保存。目前，很多针对集群负载均衡算法都能够在元数据方法中进行应用、并将其作为对柱节点资源进行分配的依据。在实际应用中，虽然该方式在网络信息搜索以及大量复杂均衡算法的应用方面具有较好的表现，但当系统具有较多数量小文件时，则需要对路由数据进行大量的维护，并因此对数据的查询效果产生影响。

1.3 哈希映射算法

哈希算法是一种从稀疏到紧密值的映射方式，在计算以及存储定位时，可以将其视作路由算法的一种，通过该方式的应用，则能够将目标定位到节点位置。对于传统的哈希算法，其在扩展性以及容错性方面的表现都一般，并不能够较为有效的对面向数据系统节点的动态变化相适应，1997年，学者David Karger提出了使用一致性哈希算法对数据进行定位，并在后续的改进中逐渐使其成为了分布式存储中的标准技术类型。当系统对该方式进行应用之后，则不需要对中心节点元数据进行维护，可以说对普通元数据服务器性能瓶颈以及单点失效问题进行了较好的解决，其实现过程为：首先通过Key值的应用将MD5算法变换成一个32位长度的16进制数值，在以该数值进行232取模后将其映射到环状哈希空间，并以相同的方式将节点映射到环状哈希空间当中，此时Key则会在哈希空间中寻找到节点值作为路由值。

2 计算同数据的流式拓朴协作机制

2.1 Storm系统

流水线技术是对高性能数据进行处理的重要技术类型，其主要技术思想即将一个任务分解成多个具有前后关系的子任务，在流水线模式中，各个子任务的启动同之前顺序任务的完成情况具有依赖，对具有先后相关性数据分析方面具有较好的实用性特征。目前，以分布式系统以及流式技术为协作的框架机制已经在应用中表现出了较好的生命力以及灵活性，在本研究中，将以Storm系统为例进行简单的介绍。

Storm是由Twitter所推出的一种流式分布式系统，在该集群中，由多个工作节点以及一个主节点组成，其中，主节点可以说是系统的核心，具有任务布置、代码分配以及故障检测等作用。在该系统中，当其要对实时计算任务进行完成时，需要对一个Topology进行建立，并由该模块对数据处理进行规划。在Storm系统中，元组是基本的数据流单位，可以将其看作是一个被封装的数据结构类型，在Storm系统中，Topology可以说是最高级别的执行单元，其是由很多个节点所组成的拓扑，在拓扑中，由不同节点对相应的计算逻辑进行完成。在该系统中，Spout是系统的数据流生成器，而Bolt则为不同的处理位置。对于数据流来说，由于Spout为数据源头，在实际运行中，其在对数据进行读取之后则会实现向Bolt的传送，其不仅能够对多个输入流进行接收，且能够较好的对数据进行特定处理。在Storm系统对Topology进行应用之后，其则具有了更为强大以及更为灵活的数据处理能力，节点在根据Topology逻辑对任务进行分配之后将任务分配到相应物理节点之上。而从整个架构情况看来，在数据以及计算协作处理方面，系统主要是通过Topology进行分配，并在按照其描述之后由对应的节点程序进行处理，并由主节点将根据一个逻辑实现物理节点的映射。

2.2 流式拓朴映射模型

在Storm系统中，其通过Topology结构的应用，则能够对较为复杂的分布式数据处理任务进行实现，在整个过程中，对于不同计算任务，Topology好比是逻辑规划，并没有对相应的物理节点进行对应，在系统主节点中，可能具有数量较多的该种结构，而对于每一个结构都可以将其视作为对特殊问题进行处理的逻辑规划，可以说，通过Topology结构的应用，则能够对大多数问题的处理方式进行描述。其整个过程可以抽象如图1所示。

在图1中，每一个操作就可以将其是作为Bolt，而数据发生器则为Spout，在该系统中，同样由主节点对很多个处理节点进行管理与监控，对于每个任务的逻辑规划，主节点都会在一定策略的基础上对物理节点进行分配，以此对相关的计算恩物进行完成。如上图中，主节点为操作1分配物理节点1，为操作2分配物理节点2，为操作3分配物理节点3，为操作4分配物理节点1，在以该种方式进行分配之后，Topology则能够被映射为集群物理结构，并能够对相应的计算任务进行完成。而作为编程人员，在工作当中仅仅需要对Topology的逻辑结构进行定义即可，其后续相关工作则完全由系统进行维护，作为设计人员，在整个操作过程中也不需要对失效问题进行担心，这是因为当某个节点出现失效情况时，主节点将根据对应操作将其对一个好的物理节点进行重新的映射，以此保证整个规划能够得到顺利的实现。

通过上述的分析可以了解到，通过流式拓朴映射方法的应用，则能够使系统根据Topology描述的情况对不同的集群计算结构进行自动组合，以此以更为灵活的方式对复杂问题进行处理。在整个过程中，系统的主节点具有数据路由以及计算的作用，并通过Topology的描述对协作机制的跟踪定位进行实现。

在此，我们以MPS对Topology到物理的映射过程进行模拟，在节点间，将通过Mpi_Send（）函数的应用将流数据元组注入到节点当中，并在该节点上对相关操作进行发起，之后，通过MPI_Recv（）函数的应用对前端数据进行接收，以此对节点间通讯进行实现。对于该种方式来说，其能够对不同数据系统仅仅能够进行非实时数据批处理的问题进行了较好的避免，具有较好的应用效果。

3 结束语

在现今大数据时代背景下，数据同计算间的协作具有了更为重要的意义。在上文章，我们对大数据技术中计算与数据的协作机制进行了一定的研究，需要能够联系实际进行系统模式的选择与应用，以此更好的对数据处理任务进行实现。

参考文献

大数据技术篇11

随着科技的日益进步，计算机的相关技术被引用到各个领域。智能灌溉系统是融合传感器技术、自动控制技术、计算机技术、无线通信技术与移动终端控制等多种高新技术，自动采集光照、温度、土壤水分、空气湿度等信息，通过无线通信技术传输给信息管理系统，自动控制喷水灌溉、通风除湿等设备，从而调节环境参数。智能灌溉系统应用大数据策略，在云服务平台进行数据分析处理，以关联图表显示历史记录，为农业专家提供决策支持，同时获取国家气象局天气预报信息，根据天气状况和作物需要智能调节喷水灌溉策略，调整用水量，实施精准灌溉，提高水资源利用率。智能灌溉系统支持多种应用场景如智能花园、温室大棚、高尔夫球场等，提供Web版、桌面版、移动终端3种管理系统供用户使用，使其随时随地操作管理。智能灌溉系统采用WiFi技术实现远程无线通信，采用Zigbee技术构建底层无线传感网，节能低耗，能够根据应用场景规模灵活增加无线节点模块，不会因为监测点过多而使布线复杂，降低系统维护运营成本。

1职能灌溉系统总体结构

系统总体结构如图1所示。系统实验室模型及部分实物操作界面如图2所示。

2智能灌溉系统功能模块简介

本系统根据物联网三层体系结构设计，功能模块划分及其主要设计内容如下表1所示。

3智能灌溉系统简易操作说明

下面主要说明桌面版管理系统、Web版管理系统、移动终端版管理系统的操作使用方法。3.1桌面版管理系统桌面版管理系统主要功能模块有：操作控制模块、数据与命令查看模块。其中，操作控制模块的功能如下：这部分提供了实时场景的选择，区域实时数据的显示，区域手动操作和自动控制的设置。可以通过输入服务器地址，进行场景的选择，然后对该场景下的区域进行手动控制，实时控制底层终端控制设备，也可以开启自动控制，输入要自动控制的参数范围，系统会根据输入的控制参数，进行自动控制。3.2Web版管理系统3.2.1登录界面系统的开始页面，界面简洁友好。只有获取权限才能进入控制系统。3.2.2首页这部分主要是显示项目的一些图片，页面下方是项目的介绍。3.2.3监控中心这是本程序的核心部分，在这个页面中，能够通过仪器表查看到当前的数据，并提供了天气预报，能够根据需要设置自动控制的外界条件，或是进行人工的操作处理。上述界面中，上面部分是最近一次采集到的数据，以仪器表的形式生动地展示出来，左下角是自动控制时的温湿度，光照强度的控制范围，在这里输入要控制的范围后，系统会根据用户输入的范围自动调控。右下角是系统的自动控制区域，在这里用户可以进行手动控制。3.2.4数据分析查看将历史记录以关联图表的形式展示出来，一目了然，为农业专家进行数据分析提供决策支持，最终确定适于作物生长的控制策略。3.2.5操作记录将用户的操作即自动操作记录下来，便于查看。3.2.6退出程序退出后，系统的工作模式不变，保持原状。点击退出后，登录状态被重置，并跳转到登录页面。3.3移动终端管理软件3.3.1登录部分这个是手机端的登录界面，简洁明了，选择联网模式，输入账号密码以及当前的服务器地址即可登录，可以选择保存密码，方便下次登录。3.3.2数据查看中心选择当前环境模式和区域，即可查看当前的实时数据。3.3.3控制中心选择当前的场景模式和区域，就可以对该区域进行控制，可以根据需要输入环境参数，设置自动控制的范围，也可直接进行手动控制。

大数据技术篇12

1.2云计算的发展

云计算可以像电力资源一样提供弹性的按需服务，事实上它是集合了一系列的服务提供给用户。云计算的核心可分为三个层次，分别为基础设施层、平台层、应用层，如图2所示。云计算将基础设施、软件运行环境、应用程序抽象成服务，具有可靠性高、可用性强、规模可伸缩等特点，满足了不同企业的发展需求，各个云服务提供商根据各自服务对象的差别分别开发了各具特色的云服务。（1）基础设施即服务层基础设施即服务（InfrastructureasaService，IaaS）层通过部署硬件基础设施对外提供服务，用户可以根据各自的需求购买虚拟或实体的计算、存储、网络等资源。用户可以在购买的空间内部署和运行软件，包括操作系统和应用程序。消费者不能管理或控制任何云计算基础设施，但能控制操作系统的选择、存储空间、部署的应用，也有可能获得有限制的网络组件（如防火墙、负载均衡器等）的控制。云服务提供商为了使硬件资源得到更有效的利用，引入了Xen、KVM、VMware等虚拟化技术，使得云服务商可以提供更个性化的IaaS服务。亚马逊弹性云计算（AmazonElasticComputeCloud，AmazonEC2）是亚马逊Web服务产品之一，AmazonEC2利用其全球性的数据中心网络，为客户提供虚拟主机服务，让使用者可以租用云服务运行所需应用的系统。（2）平台即服务层平台即服务（PlatformasaService，PaaS）层是指云计算应用程序开发和部署的平台，包括应用设计、应用开发、应用测试和应用托管，都作为一种服务提供给客户。开发者只需要上传代码和数据就可以使用云服务，而无需关注底层的具体实现方式和管理模式。鉴于PaaS平台的重要意义，国内外厂商根据各自的战略提出了相应的PaaS平台，国外的如GoogleAppEngine（GAE），通过GAE，即使在重载和数据量极大的情况下，也可以轻松构建能安全运行的应用程序。国内也有新浪的SAE（SinaAppEngine）、阿里的ACE（AliyunCloudEnginee）等。（3）软件即服务层软件即服务（SoftasaService，SaaS）层是为云计算终端用户提供基于互联网软件应用服务的平台。随着Web服务、HTML5、AJAX、Mashup等技术的成熟与标准化，SaaS应用近年来发展迅速，典型的SaaS应用包括GoogleApps、SalesforceCRM等。国外云计算平台比较成功的应用案例有：亚马逊电子商务网站根据用户的购买行为和搜索技术搭建Hadoop集群，构建推荐系统；Twitter社交网站搭建Hadoop分布式系统用于用户关联的建立。国内云计算平台的成功案例有：阿里巴巴目前整个集群达到1700个节点，数据容量达到24.3PB，并且以每天255TB的速率不断攀升；2013年，华为推出国内首个运营云平台，目前为止与该平台签订协议的ISV有3000多家。

1.3云计算相关技术

（1）分布式文件系统分布式文件系统（GoogleFileSystem，GFS）[3]是Google公司针对云计算过程处理海量数据而专门设计的。一个GFS集群由一个主节点和多个从节点组成，用户可以通过客户端访问文件系统，进行正常的文件处理工作。在云计算中，海量数据文件被分割成多个固定大小的数据块，这些数据块被自动分配到不同的从节点存储，并会在多个节点进行备份存储，以免数据丢失。主服务器管理文件系统记录文件的各种属性，包括文件名、访问控制权限、文件存储块映射、块物理信息等数据。正是通过这个表，文件系统可以准确地找到文件存储的位置，避免数据丢失，保证数据安全。图3是GFS的体系结构示意，每一个节点都是普通的Linux服务器，GFS的工作就是协调成百上千的服务器为各种应用提供服务。（2）分布式并行数据库BigTableBigTable[4]是一个为管理大规模结构化数据而设计的分布式存储系统，可以扩展到PB级数据和上千台服务器。很多Google的项目使用BigTable存储数据，这些应用对BigTable提出了不同的挑战，比如对数据规模的要求、对时延的要求。BigTable能满足这些多变的要求，为这些产品成功地提供了灵活、高性能的存储解决方案。BigTable采用的键是三维的，分别是行键（RowKey）、列键（ColumnKey）和时间戳（Timestamp）。行键和列键都是字节串，时间戳是64位整型；值是一个字节串，可以用（row:string,column:string,time:int64）string来表示一条键值对记录。（3）分布式计算框架MapReduceMapReduce[5]是Google公司提出的大数据技术计算框架，被广泛应用于数据挖掘、海量数据处理以及机器学习等领域，由于其并行化处理数据的强大能力，越来越多的厂商根据MapReduce思想开发了各自的云计算平台，其中以Apache公司的Hadoop最为典型。MapReduce由Map和Reduce两个阶段组成。用户只需要编写简单的map()和reduce()函数就可以完成复杂分布式程序设计，而不用了解计算框架的底层实现。MapReduce的数据分析流程如图4所示。分布在不同服务器节点上的海量数据首先通过split()函数被拆分成Key/Value键值对，map()函数以该键值对为输入，将该键值对进行函数处理，产生一系列的中间结果并存入磁盘。MapReduce的中间过程shuffle()将所有具有相同Key值的键值对传递给Reduce环节，Reduce会收集中间结果，并将相同的Value值合并，完成所有工作后将结果输出给用户。MapReduce是一个并行的计算框架，主要体现在不同的服务器节点同时启动相同的工作，并且在每个独立的服务器节点上又可以启动多个map()、reduce()并行计算。

2基于云计算的大数据处理

目前大数据处理的基本流程如图5所示，整个流程经过数据源的采集，用不同的方式进行处理和加工，形成标准的格式，存储下来；然后用合适的数据计算处理方式将数据推送到数据分析和挖掘平台，通过有效的数据分析和挖掘手段，找出大数据中有价值的信息；最后通过可视化技术将信息展现给人们。

2.1数据采集存储

大数据具有不同结构的数据（包括结构、半结构、非结构），针对不同类型的数据，在进行云计算的分布采集时，需要选择不同的数据采集方式收集数据，这也是大数据处理中最基础的一步。采集到的数据并不是都适合推送到后面的平台，需要对其进一步处理，例如来源不同的数据，需要对其进行加载合并；数据存在噪声或者干扰点的，需要对其进行“清洗”和“去噪”等操作，从而保障数据的有效性；数据的格式或者量纲不统一的，需要对其进行标准化等转换处理；最后处理生成的数据，通过特定的数据库，如NoSQL数据（Google的BigTable，Amazon的Dynamo）进行存储，方便进行下一步的数据读取。由于传统的数据仓库无法适应大数据的存储要求，目前基于云计算的数据仓库都是采用列式存储。列式存储的数据具有相同的数据类型，可以大大提高数据的压缩率，例如华为的云存储服务MOS（MassiveObjectService）的数据持久性高达99.9%，同时提供高效率的端到端保障。

2.2数据计算模式

这一环节需要根据处理的数据类型和既定目标，选择合适的计算模型处理数据。由于数据量的庞大，会消耗大量的计算资源，因此，传统的计算技术很难使用大数据的环境条件，取而代之的是分而治之的分布式计算模式，具有代表性的几种计算模式的特点见表1。采用批处理方式计算的Hadoop平台，例如，Facebook拥有全球最大规模的Hadoop集群，集群机器目前超过3000台，CPU核心更是超过30000个，可以存储的数据量能够达到惊人的40PB；采用流处理方式计算的Storm平台分布式计算的时延比Hadoop更小；实时处理方式计算的Spark是一种基于内存的计算模式，例如，Yahoo运用Spark技术在广告营销中实时寻找目标用户，目前在Yahoo部署的Spark集群有112台节点和9.2TB内存；交互处理方式计算的Dremel在处理PB级别的数据时耗时可以缩短至秒级，并且无需大量的并发。

2.3数据分析挖掘

数据分析挖掘环节是从海量数据中发现隐藏规律和有价值信息的过程，这个环节是大数据处理流程最为有价值和核心的部分，传统的数据分析方法有机器学习、商业智能等。传统的数据挖掘十大算法[6]（其中有K-Means、Na觙veBayes、SVM、EM、Apriori等）在云计算环境下都得到了大幅度的并行优化，在大数据的背景下，计算速度得到了很大程度的提升。现在新兴的深度学习是原始机器学习的一个新领域，动机是在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，这种新的数据分析挖掘技术已经在计算机视觉、语音识别、自然语言处理等领域有了成功的应用。

2.4数据解释展现

将挖掘出来的复杂信息进行数据解释和展现是整个大数据处理流程的最后一个环节，数据分析的结果需要向客户进行恰当的展现。与传统的数据输出和文本展示等方式不同，现在绝大部分的企业都通过引进“数据可视化”技术来展示大数据分析的结果信息，这种方式以图像、动画等方式，形象地向客户展现数据处理分析的结果，也容易被客户理解和接受，更为先进的是，现在逐步形成的“交互式可视化技术”，大大地方便了数据与人之间的“亲密交流”。目前面向大数据主流应用的可视化技术见表2。

3大数据和云计算的未来挑战

大数据需要超大存储容量的计算能力，云计算作为一种新的计算模式，为大数据的应用研究提供了技术支持，大数据和云计算的完美结合，相得益彰，发挥了各自的最大优势，为社会创造了巨大的价值。虽然国内大数据和云计算的研究还是处于初步阶段，但随着研究的不断进行，所面临的问题也越来越多。在大数据向前不断迈进的阶段里，如何让我们对大数据的研究朝着有利于全人类的方向发展成为了重中之重。

3.1重要战略资源

在这个信息社会里，大数据将会成为众多企业甚至是国家层面的重要战略资源。国家层面要将大数据上升为国家战略。奥巴马在2012年3月将“大数据战略”上升为最高国策，像陆权、海权、空权一样，将数据的占有和控制作为重要的国家核心能力。大数据资源也会成为各种机构和企业的重要资产以及提升企业社会竞争力的有力武器。在大数据市场里，客户的各种数据信息都会为企业创造价值，也会在促进消费水平、提高广告效应等方面扮演重要的角色。

3.2数据隐私安全

大数据如果运用得当，可以有效地帮助相关领域做出帮助和决策，但若这些数据被泄露和窃取，随之而来的将是个人信息及财产的安全问题得不到保障。2011年索尼公司遭到黑客攻击，造成一亿份客户资料泄露，经济亏损约1.71亿美元。为了解决大数据的数据隐私安全问题，Roy等在2010年提出了一种隐私保护系统，将信息流控制和差分隐私保护技术融入到云计算平台中，防止MapReduce计算过程中的数据泄露问题。在数据更新飞速的情况下，如何维护数据的隐私安全成为大数据时代研究的重点方向。

3.3智慧城市

人口的增长给城市交通、医疗、建筑等各方面带来了不小的压力，智慧城市就是依靠大数据和云计算技术，实现城市高效的管理、便捷的民生服务、可持续的产业发展。在刚刚结束的“两会”的政府工作报告中，总理也特意强调了智慧城市发展的重要性，目前国家智慧城市试点已遍布全国各地，多达409个。智慧安防、智慧交通、智慧医疗等都是智慧城市应用领域。智慧城市的建设也趋使大数据人才的培养。据预测，到2015年，大数据将会出现约100万的人才缺口，全球将新增440万个与大数据相关的工作岗位来填补这个空缺。

大数据技术篇13

随着电信网络的不断演进，全省数据网、交换网、接入网设备单月产生告警原始日志近亿条。以上告警通过网元网管、专业综合网管、智能网管系统[1]三层收敛，监控人员每月需处理影响业务或网络质量的告警事件为20万条，但一些对网络可能造成隐患的告警信息被过滤掉。如何从海量告警数据中获取与网络性能指标、运维效率相关的有价值的数据，对于传统的关系型数据库架构而言，似乎是一个不可能完成的任务。

在一般告警量情况下，ORACLE数据处理能力基本可以满足分析需求，但当告警分析量上升到亿级，如果采用传统的数据存储和计算方式，一方面数据量过大，表的管理、维护开销过大，要做到每个字段建索引，存储浪费巨大；另一方面计算分析过程耗时过长，无法满足实时和准实时分析需求。因此必须采用新的技术架构来分析处理海量告警信息，支撑主动维护工作显得尤为必要，为此我们引入了大数据技术。

2 分析目标

（1）数据源：电信运营商网络设备告警日志数据，每天50 G。

（2）数据分析目标：完成高频翻转类（瞬断）告警分析；完成自定义网元、自定义告警等可定制告警分析；完成被过滤掉的告警分析、TOPN告警分析；核心设备和重要业务监控。

（3）分析平台硬件配置：云计算平台分配8台虚拟机，每台虚机配置CPU16核；内存32 G；硬盘2 T。

3 制定方案

进入大数据时代，行业内涌现了大量的数据挖掘技术，数据处理和分析更高效、更有价值。Google、Facebook等公司提供可行的思路是通过类似Hadoop[2]的分布式计算、MapReduce[3]、Spark[4]算法等构造而成的新型架构，挖掘有价值信息。

Hadoop是Apache基金会用JAVA语言开发的分布式框架，通过利用计算机集群对大规模数据进行分布式计算分析。Hadoop框架最重要的两个核心是HDFS和MapReduce，HDFS用于分布式存储，MapReduce则实现分布式任务计算。

一个HDFS集群包含元数据节点（NameNode）、若干数据节点（DataNode）和客户端（Client）。NameNode管理HDFS的文件系统，DataNode存储数据块文件。HDFS将一个文件划分成若干个数据块，这些数据块存储DataNode节点上。

MapReduce是Google公司提出的针对大数据的编程模型。核心思想是将计算过程分解成Map（映射）和Reduce（归约）两个过程，也就是将一个大的计算任务拆分为多个小任务，MapReduce框架化繁为简，轻松地解决了数据分布式存储的计算问题，让不熟悉并行编程的程序员也能轻松写出分布式计算程序。MapReduce最大的不足则在于Map和Reduce都是以进程为单位调度、运行、结束的，磁盘I/O开销大、效率低，无法满足实时计算需求。

Spark是由加州伯克利大学AMP实验室开发的类Hadoop MapReduce的分布式并行计算框架，主要特点是弹性分布式数据集RDD[5]，中间输出结果可以保存在内存中，节省了大量的磁盘I/O操作。Spark除拥有Hadoop MapReduce所具有的优点外，还支持多次迭代计算，特别适合流计算和图计算。

基于成本、效率、复杂性等因素，我们选择了HDFS+Spark实现对告警数据的挖掘分析。

4 分析平台设计

4.1 Hadoop集群搭建

基于CentOS-6.5系统环境搭建Hadoop集群，配置如表1所示。

4.2 Spark参数设置[6]

Spark参数设置如表2所示。

4.3 数据采集层

数据采集：由于需采集的告警设备种类繁多，故采取分布式的告警采集，数据网设备、交换网设备、接入网设备分别通过IP综合网管、天元综合网管、PON综合网管进行采集，采集周期5分钟一次。采集机先将采集到的告警日志文件，通过FTP接口上传到智能网管系统文件服务器上，再对文件进行校验，通过Sqoop推送到Hadoop集群上。

4.4 逻辑处理层

（1）建立高频翻转告警监控工作流程

先将海量告警进行初步删选，通过数量、位置和时间三个维度的分析，得出高频翻转类告警清单列表，最后由专业工程师甄别确认，对某类告警进行重点关注和监控。

（2）差异化定制方案

按组网架构细分，针对核心重要节点的所有告警均纳入实时监控方案；

按业务网络细分，针对不同业务网络设计个性化的监控方案；

按客户业务细分，针对客户数字出租电路设计个性化的监控方案。

4.5 数据分析层

Spark读取Hive[7]表的告警数据，然后在Spark引擎中进行SQL统计分析。Spark SQL模K在进行分析时，将外部告警数据源转化为DataFrame[8]，并像操作RDD或者将其注册为临时表的方式处理和分析这些数据。一旦将DataFrame注册成临时表，就可以使用类SQL的方式操作查询分析告警数据。表3是利用Spark SQL对告警工单做的一个简单分析：

5 平台实践应用

探索运维数据分析的新方法，利用大数据分析技术，分析可能影响业务/设备整体性能的设备告警，结合网络性能数据，找到网络隐患，实现主动维护的工作目标。

5.1 高频翻转类告警监控

首先制定了高频翻转类告警分析规则，将连续7天每天原始告警发生24次以上定义为高频翻转类告警，并基于大数据平台开发了相应的分析脚本，目前已实现全专业所有告警类型的分析。表4是全省高频翻转类TOP10排名。

5.2 核心设备和重要业务监控

目前以设备厂商或专家经验评定告警监控级别往往会与实际形成偏差，主要表现在以下几个方面：监控级别的差异化设定基于已知的告警类型，一旦网络重大故障上报未知的告警类型就无法在第一时间有效监控到；同一类型的故障告警出现在不同网络层面可能影响业务的程度是完全不同的；不同保障级别的客户对故障告警监控的实时性要求也是不同的。

通过大数据分析平台对差异化监控提供了灵活的定制手段，可根据告警关键字，分专业、地市、网管、机房、告警频次等维度自主定制需要的告警数据，实现日、周、月、某个时间区等统计分析。

应用案例：省NOC通过大数据分析出一条编号为CTVPN80113的中国平安大客户电路在一段时间内频繁产生线路劣化告警，但用户未申告，省NOC随即预警给政企支撑工程师，政支工程师与用户沟通后，派维护人员至现场处理，发现线路接头松动，紧急处理后告警消除、业务恢复。

5.3 被过滤告警分析

全省每天网络告警数据300万条～500万条，其中99%都会根据告警过滤规则进行过滤筛选，把过滤后的告警呈现给网络监控人员。过滤规则的准确性直接影响告警数据的质量。一般来说告警过滤规则可以从具有丰富运维经验的网络维护人员获得，但是这个过程非常繁琐，而且通过人工途径获得的告警过滤规则在不同的应用环境可能存在差异，无法满足网络维护的整体需要。采用大数据技术对被过滤的告警进行分析可以很好地完善过滤规则，让真正急迫需要处理的告警优先呈现给维护人员及时处理，真正做到先于客户发现故障。表5是动环专业被过滤的告警情况分布。

5.4 动环深放电分析

动环网管通过C接口采集蓄电池电压数据，在停电告警产生之后，电压数据首次下降到45 V，表示该局站电池出现深放电现象，通过计算这一放电过程的持续时间，记为深放电时长，该时长可以初步反映电池的放电性能。一个局站每天产生几十万条电压等动环实时数据。

在告警数据分析的基础上，实现对蓄电池电压变化数据的分析，提醒分公司关注那些深放电次数过多和放电时长过短的局站，核查蓄电池、油机配置、发电安排等，并进行整治。利用Spark SQL统计了一个月内抚州、赣州、吉安三分公司几十亿条动环数据，分析了其中深放电的情况如表6所示。

6 结论

本文利用HDFS+Spark技术，实验性地解决告警数据存储和分析等相关问题：一是通过数据分析，从海量告警数据中发现潜在的网络隐患；二是结合资源信息和不同专业的告警，最终为用户提供综合预警；三是转变网络监控思路和方式，通过数据汇聚、数据相关性分析、数据可视化展示，提高了网络监控效率；最后还扩展到对动环实时数据、信令数据进行分析。

从实际运行效果来看，HDFS和Spark完全可以取代传统的数据存储和计算方式，满足电信运营商主动运维的需求。

参考文献：

[1] 中国电信股份有限公司. 中国电信智能网管技术规范-总体分册[Z]. 2015.

[2] Tom white. Hadoop权威指南[M]. 4版. 南京：东南大学出版社， 2015.

[3] RP Raji. MapReduce： Simplified Data Processing on Large Clusters[Z]. 2004.

[4] Spark. Apache Spark?[EB/OL]. [2016-11-27]. http：///.

[5] Matei Zaharia， Mosharaf Chowdhury， Tathagata Das， et al. Resilient Distributed Datasets： A Fault-Tolerant Abstraction for In-Memory Cluster Computing[J]. Usenix Conference on Networked Systems Design & Implementation， 2012，70（2）： 141-146.

[6] S鹏. Apache Spark源码剖析[M]. 北京：电子工业出版社， 2015.

[7] Hive. Apache HiveTM[EB/OL]. [2016-11-27]. http：///.

[8] Holden Karau， Andy Konwinski， Patrick Wendell， et al. Learning Spark： Lightning-Fast Big Data Analysis[M]. Oreilly & Associates Inc， 2015.