数据分析分析技术实用13篇

引论：我们为您整理了13篇数据分析分析技术范文，供您借鉴以丰富您的创作。它们是您写作时的宝贵资源，期望它们能够激发您的创作灵感，让您的文章更具深度。

数据分析分析技术

篇1

1数据挖掘技术在警务数据分析系统中的重要性

警务系统由于工作的特点，要不断地接受外来数据和有序存储旧数据，这就对警务系统的数据处理系统有越来越高的要求，传统的警务数据处理系统在信息量巨大的现今社会已经不能再有效的完善数据库的运行，这就需要新型的数据处理系统接替工作。新型的数据处理系统在案件的信息提取、视频分析等方面都应该有卓越的性能，将对案情有帮助的信息从大数据库中有效的提取出来。数据挖掘技术是一项在能够提高警务系统在数据的提取和挖掘效率的一项技术，能在短时间内将案件中的数据作为数据源，将其进行分析和建模，从而从这些数据中获得有力的线索。

2目前警务系统特点

现今的警务系统是跟随时代不断发展的一个工作效率高、工作素质强的组织系统，有案件处理速度快、案件分析效率高的特点。这些特点，都需要警务系统中数据处理系统的有效应用，通过对数据的处理分析、检查对比得出较有价值的案件线索，从而提高效率。警务系统的正常运行离不开数据处理系统，而数据挖掘技术更是数据处理系统的重要组成部分，它确保了整个系统的运行速度，对案件的侦查有促进作用。

3构建警务系统数据存储器

基于警务系统的数据特点，警务系统应该建立一个高速运行的警务系统数据存储器。“数据存储器”在结构上分为三个部分，分别是关系系统、OLAP服务器以及客户处理系统。这三个部分的作用效果如下：

3.1关系系统

关系系统是这三个组成部分的基础部分，这个系统负责对系统中的数据进行整理和提取、刷新，将数据在整个系统中的存储位置有序的排列好，防止数据丢失和数据残缺的现象发生。关系系统在运行的过程中通过警务系统不断的收集新的信息，将其整理保存，始终将数据系统中的有效信息得到较完好的保护。

3.2 OLAP服务器

OLAP是联机处理的缩写，是将多角度的信息共享并由一个关键的出发点而联机进行数据处理分析的一个软件技术，在警务系统中可将需要处理的信息进行联机处理分析，将信息较快的处理出来，得到有效的结论。

3.3客户处理系统

客户处理系统是将数据进行分析处理以及检索和报告的一个系统，通过对数据之间的联系将数据的信息整理和挖掘出来，形成有用的线索，供警务系统人员进行案件的侦破和处理，是数据存储器的重要部分，特别是数据挖掘技术的应用时整个系统的运作重心。

4数据挖掘技术

数据挖掘技术是将数据库中的数据进行采集、集成以及分析的一项技术，其应用到警务系统中可以对案件相关信息进行检索和分析，应用了多维数据分析处理及关联规则的应用、聚类分析方法的实际处理等数据挖掘分析处理模式将警务系统中的数据有效的联系起来，形成一个较为完整的数据挖掘模式。

在挖掘出境数据时，数据挖掘技术的决策树技术有效应用，与县赢得算法技术相互应，将数据较为完整的从警务系统中巨大的信息库中挖掘出来，实现了数据挖掘的分级处理模式的有效应用。

5数据挖掘技术在现代警务系统中的应用

在警务系统中，数据挖掘系统在案件的相关数据中整理生成了一个多维数据模型，使信息可视化、将案件信息的关系更加清楚的展现在警务系统的工作人员面前，通过多角度、多方面的分析和挖掘，将系统中的有用信息全部呈现在报告中，实现了信息的有效用。

6结语

警务系统中的信息有多样化、复杂化、信息量巨大的特点，使用传统的数据库是不能按照现代的社会发展速度生存的，对数据进行高效的分析处理和采集，是现代警务数据处理系统应该具有的一项特点。在数据处理速度快的前提下，数据处理系统的管理能力和联系能力也应该是突出的，本文中提到的数据挖掘技术就是解决数据处理问题的有效解决办法，其运行通过对数据的建模、分析、采集等手段强化了数据处理系统的能力，为警务系统中案件处理效率的提升做出了一定的贡献。目前社会的高速发展离不开大数据的支持，大数据时代对数据的处理系统要求越来越高，数据挖掘技术近些年在警务信息系统中的引用为警务系统的发展提供了技术上的有效支持，警务系统未来的发展肯定也离不开数据的有效处理工作，数据挖掘系统在未来的警务数据分析系统中也会有不断地改善和提高。

参考文献

篇2

随着电信网络的不断演进，全省数据网、交换网、接入网设备单月产生告警原始日志近亿条。以上告警通过网元网管、专业综合网管、智能网管系统[1]三层收敛，监控人员每月需处理影响业务或网络质量的告警事件为20万条，但一些对网络可能造成隐患的告警信息被过滤掉。如何从海量告警数据中获取与网络性能指标、运维效率相关的有价值的数据，对于传统的关系型数据库架构而言，似乎是一个不可能完成的任务。

在一般告警量情况下，ORACLE数据处理能力基本可以满足分析需求，但当告警分析量上升到亿级，如果采用传统的数据存储和计算方式，一方面数据量过大，表的管理、维护开销过大，要做到每个字段建索引，存储浪费巨大；另一方面计算分析过程耗时过长，无法满足实时和准实时分析需求。因此必须采用新的技术架构来分析处理海量告警信息，支撑主动维护工作显得尤为必要，为此我们引入了大数据技术。

2 分析目标

（1）数据源：电信运营商网络设备告警日志数据，每天50 G。

（2）数据分析目标：完成高频翻转类（瞬断）告警分析；完成自定义网元、自定义告警等可定制告警分析；完成被过滤掉的告警分析、TOPN告警分析；核心设备和重要业务监控。

（3）分析平台硬件配置：云计算平台分配8台虚拟机，每台虚机配置CPU16核；内存32 G；硬盘2 T。

3 制定方案

进入大数据时代，行业内涌现了大量的数据挖掘技术，数据处理和分析更高效、更有价值。Google、Facebook等公司提供可行的思路是通过类似Hadoop[2]的分布式计算、MapReduce[3]、Spark[4]算法等构造而成的新型架构，挖掘有价值信息。

Hadoop是Apache基金会用JAVA语言开发的分布式框架，通过利用计算机集群对大规模数据进行分布式计算分析。Hadoop框架最重要的两个核心是HDFS和MapReduce，HDFS用于分布式存储，MapReduce则实现分布式任务计算。

一个HDFS集群包含元数据节点（NameNode）、若干数据节点（DataNode）和客户端（Client）。NameNode管理HDFS的文件系统，DataNode存储数据块文件。HDFS将一个文件划分成若干个数据块，这些数据块存储DataNode节点上。

MapReduce是Google公司提出的针对大数据的编程模型。核心思想是将计算过程分解成Map（映射）和Reduce（归约）两个过程，也就是将一个大的计算任务拆分为多个小任务，MapReduce框架化繁为简，轻松地解决了数据分布式存储的计算问题，让不熟悉并行编程的程序员也能轻松写出分布式计算程序。MapReduce最大的不足则在于Map和Reduce都是以进程为单位调度、运行、结束的，磁盘I/O开销大、效率低，无法满足实时计算需求。

Spark是由加州伯克利大学AMP实验室开发的类Hadoop MapReduce的分布式并行计算框架，主要特点是弹性分布式数据集RDD[5]，中间输出结果可以保存在内存中，节省了大量的磁盘I/O操作。Spark除拥有Hadoop MapReduce所具有的优点外，还支持多次迭代计算，特别适合流计算和图计算。

基于成本、效率、复杂性等因素，我们选择了HDFS+Spark实现对告警数据的挖掘分析。

4 分析平台设计

4.1 Hadoop集群搭建

基于CentOS-6.5系统环境搭建Hadoop集群，配置如表1所示。

4.2 Spark参数设置[6]

Spark参数设置如表2所示。

4.3 数据采集层

数据采集：由于需采集的告警设备种类繁多，故采取分布式的告警采集，数据网设备、交换网设备、接入网设备分别通过IP综合网管、天元综合网管、PON综合网管进行采集，采集周期5分钟一次。采集机先将采集到的告警日志文件，通过FTP接口上传到智能网管系统文件服务器上，再对文件进行校验，通过Sqoop推送到Hadoop集群上。

4.4 逻辑处理层

（1）建立高频翻转告警监控工作流程

先将海量告警进行初步删选，通过数量、位置和时间三个维度的分析，得出高频翻转类告警清单列表，最后由专业工程师甄别确认，对某类告警进行重点关注和监控。

（2）差异化定制方案

按组网架构细分，针对核心重要节点的所有告警均纳入实时监控方案；

按业务网络细分，针对不同业务网络设计个性化的监控方案；

按客户业务细分，针对客户数字出租电路设计个性化的监控方案。

4.5 数据分析层

Spark读取Hive[7]表的告警数据，然后在Spark引擎中进行SQL统计分析。Spark SQL模K在进行分析时，将外部告警数据源转化为DataFrame[8]，并像操作RDD或者将其注册为临时表的方式处理和分析这些数据。一旦将DataFrame注册成临时表，就可以使用类SQL的方式操作查询分析告警数据。表3是利用Spark SQL对告警工单做的一个简单分析：

5 平台实践应用

探索运维数据分析的新方法，利用大数据分析技术，分析可能影响业务/设备整体性能的设备告警，结合网络性能数据，找到网络隐患，实现主动维护的工作目标。

5.1 高频翻转类告警监控

首先制定了高频翻转类告警分析规则，将连续7天每天原始告警发生24次以上定义为高频翻转类告警，并基于大数据平台开发了相应的分析脚本，目前已实现全专业所有告警类型的分析。表4是全省高频翻转类TOP10排名。

5.2 核心设备和重要业务监控

目前以设备厂商或专家经验评定告警监控级别往往会与实际形成偏差，主要表现在以下几个方面：监控级别的差异化设定基于已知的告警类型，一旦网络重大故障上报未知的告警类型就无法在第一时间有效监控到；同一类型的故障告警出现在不同网络层面可能影响业务的程度是完全不同的；不同保障级别的客户对故障告警监控的实时性要求也是不同的。

通过大数据分析平台对差异化监控提供了灵活的定制手段，可根据告警关键字，分专业、地市、网管、机房、告警频次等维度自主定制需要的告警数据，实现日、周、月、某个时间区等统计分析。

应用案例：省NOC通过大数据分析出一条编号为CTVPN80113的中国平安大客户电路在一段时间内频繁产生线路劣化告警，但用户未申告，省NOC随即预警给政企支撑工程师，政支工程师与用户沟通后，派维护人员至现场处理，发现线路接头松动，紧急处理后告警消除、业务恢复。

5.3 被过滤告警分析

全省每天网络告警数据300万条～500万条，其中99%都会根据告警过滤规则进行过滤筛选，把过滤后的告警呈现给网络监控人员。过滤规则的准确性直接影响告警数据的质量。一般来说告警过滤规则可以从具有丰富运维经验的网络维护人员获得，但是这个过程非常繁琐，而且通过人工途径获得的告警过滤规则在不同的应用环境可能存在差异，无法满足网络维护的整体需要。采用大数据技术对被过滤的告警进行分析可以很好地完善过滤规则，让真正急迫需要处理的告警优先呈现给维护人员及时处理，真正做到先于客户发现故障。表5是动环专业被过滤的告警情况分布。

5.4 动环深放电分析

动环网管通过C接口采集蓄电池电压数据，在停电告警产生之后，电压数据首次下降到45 V，表示该局站电池出现深放电现象，通过计算这一放电过程的持续时间，记为深放电时长，该时长可以初步反映电池的放电性能。一个局站每天产生几十万条电压等动环实时数据。

在告警数据分析的基础上，实现对蓄电池电压变化数据的分析，提醒分公司关注那些深放电次数过多和放电时长过短的局站，核查蓄电池、油机配置、发电安排等，并进行整治。利用Spark SQL统计了一个月内抚州、赣州、吉安三分公司几十亿条动环数据，分析了其中深放电的情况如表6所示。

6 结论

本文利用HDFS+Spark技术，实验性地解决告警数据存储和分析等相关问题：一是通过数据分析，从海量告警数据中发现潜在的网络隐患；二是结合资源信息和不同专业的告警，最终为用户提供综合预警；三是转变网络监控思路和方式，通过数据汇聚、数据相关性分析、数据可视化展示，提高了网络监控效率；最后还扩展到对动环实时数据、信令数据进行分析。

从实际运行效果来看，HDFS和Spark完全可以取代传统的数据存储和计算方式，满足电信运营商主动运维的需求。

参考文献：

[1] 中国电信股份有限公司. 中国电信智能网管技术规范-总体分册[Z]. 2015.

[2] Tom white. Hadoop权威指南[M]. 4版. 南京：东南大学出版社， 2015.

[3] RP Raji. MapReduce： Simplified Data Processing on Large Clusters[Z]. 2004.

[4] Spark. Apache Spark?[EB/OL]. [2016-11-27]. http：///.

[5] Matei Zaharia， Mosharaf Chowdhury， Tathagata Das， et al. Resilient Distributed Datasets： A Fault-Tolerant Abstraction for In-Memory Cluster Computing[J]. Usenix Conference on Networked Systems Design & Implementation， 2012，70（2）： 141-146.

[6] S鹏. Apache Spark源码剖析[M]. 北京：电子工业出版社， 2015.

[7] Hive. Apache HiveTM[EB/OL]. [2016-11-27]. http：///.

[8] Holden Karau， Andy Konwinski， Patrick Wendell， et al. Learning Spark： Lightning-Fast Big Data Analysis[M]. Oreilly & Associates Inc， 2015.

篇3

大数据具有“4V”的特点：Volume、Variety、Velocity和Value，可实现大容量、低成本、高效率的信息安全分析能力，能够满足安全数据的处理和分析要求，将大数据应用于信息安全领域能够有效的识别各种攻击行为或安全事件，具有重大的研究意义和实用价值。随着企业规模的增大和安全设备的增加，信息安全分析的数据量呈指数级增长。数据源丰富、数据种类多、数据分析维度广；同时，数据生成的速度更快，对信息安全分析应答能力要求也相应增长。传统信息安全分析主要基于流量和日志两大类数据，并与资产、业务行为、外部情报等进行关联分析。基于流量的安全分析应用主要包括恶意代码检测、僵木蠕检测、异常流量、Web安全分析等；基于日志的安全分析应用主要包括安全审计、主机入侵检测等。将大数据分析技术引入到信息安全分析中，就是将分散的安全数据整合起来，通过高效的采集、存储、检索和分析，利用多阶段、多层面的关联分析以及异常行为分类预测模型，有效的发现APT攻击、数据泄露、DDoS攻击、骚扰诈骗、垃圾信息等，提升安全防御的主动性。而且，大数据分析涉及的数据更加全面，主要包括应用场景自身产生的数据、通过某种活动或内容“创建”出来的数据、相关背景数据及上下文关联数据等。如何高效合理的处理和分析这些数据是安全大数据技术应当研究的问题。

1.2安全大数据分析方法

安全大数据分析的核心思想是基于网络异常行为分析，通过对海量数据处理及学习建模，从海量数据中找出异常行为和相关特征；针对不同安全场景设计针对性的关联分析方法，发挥大数据存储和分析的优势，从丰富的数据源中进行深度挖掘，进而挖掘出安全问题。安全大数据分析主要包括安全数据采集、存储、检索和安全数据的智能分析。（1）安全数据采集、存储和检索：基于大数据采集、存储、检索等技术，可以从根本上提升安全数据分析的效率。采集多种类型的数据，如业务数据、流量数据、安全设备日志数据及舆情数据等。针对不同的数据采用特定的采集方式，提升采集效率。针对日志信息可采用Chukwa、Flume、Scribe等工具；针对流量数据可采用流量景象方法，并使用Storm和Spark技术对数据进行存储和分析；针对格式固定的业务数据，可使用HBase、GBase等列式存储机制，通过MapReduce和Hive等分析方法，可以实时的对数据进行检索，大大提升数据处理效率。（2）安全数据的智能分析：并行存储和NoSQL数据库提升了数据分析和查询的效率，从海量数据中精确地挖掘安全问题还需要智能化的分析工具，主要包括ETL（如预处理）、统计建模工具（如回归分析、时间序列预测、多元统计分析理论）、机器学习工具（如贝叶斯网络、逻辑回归、决策树、随机森利）、社交网络工具（如关联分析、隐马尔可夫模型、条件随机场）等。常用的大数据分析思路有先验分析方法、分类预测分析方法、概率图模型、关联分析方法等。可使用Mahout和MLlib等分析工具对数据进行挖掘分析。综上，一个完备的安全大数据分析平台应自下而上分为数据采集层、大数据存储层、数据挖掘分析层、可视化展示层。主要通过数据流、日志、业务数据、情报信息等多源异构数据进行分布式融合分析，针对不同场景搭建分析模型，最终实现信息安全的可管可控，展现整体安全态势。

2安全大数据分析的典型应用

2.1基于用户行为的不良信息治理

中国移动开展了基于大数据的不良信息治理工作，主要针对垃圾短信和骚扰诈骗电话开展基于异常行为的大数据分析。通过开源工具Hadoop、HDFS、Pig、Hive、Mahout、MLlib搭建大数据分析平台，采集用户的行为数据，构建用户行为分析模型；分别提出了异常行为分类预测模型、统计预测分析模型、社交网络分析模型等，将用户的行为数据输入到模型中，可以精准地挖掘出违规电话号码，并且发现违规号码与正常号码之间存在大量相异的行为特征。通过用户的行为，构建多维度的用户画像数据库，支撑全方位的大数据不良信息治理服务，支撑大数据不良内容的智能识别等。实践表明，大数据分析技术能够挖掘出更多潜在的违规号码，是对现有系统的有效补充。除此之外，中国移动还将大数据技术应用在安全态势感知、手机恶意软件检测和钓鱼网站的分析中，提升了现有系统的分析能力。

2.2基于网络流量的大数据分析

在互联网出口进行旁路流量监控，使用Hadoop存储及Storm、Spark流分析技术，通过大数据分析技术梳理业务数据，深度分析所面临的安全风险。主要分析思路是采集Netflow原始数据、路由器配置数据、僵木蠕检测事件、恶意URL事件等信息，采用多维度分析、行为模式分析、指纹分析、孤立点分析及协议还原等方法，进行Web漏洞挖掘、CC攻击检测、可疑扫描、异常Bot行为、APT攻击、DDoS攻击挖掘等分析。

2.3基于安全日志的大数据分析

基于安全日志的大数据分析思路主要是融合多种安全日志，进行数据融合关联分析，构建异常行为模型，来挖掘违规安全事件。主要的安全日志包含Web日志、IDS设备日志、Web攻击日志、IDC日志、主机服务器日志、数据库日志、网管日志、DNS日志及防火墙日志等，通过规则关联分析、攻击行为挖掘、情景关联分析、历史溯源等方法，来分析Web攻击行为、Sql注入、敏感信息泄露、数据分组下载传输、跨站漏洞、尝试口令破解攻击等应用场景。基于安全日志的大数据分析已经在国际上有广泛的应用。如IBMQRadar应用整合分散在网络各处的数千个设备端点和应用中的日志源事件数据，并将原始安全数据进行标准化，以区别威胁和错误判断；IBMQRadar还可以与IBMThreatIntelligence一起使用，提供潜在恶意IP地址列表，包括恶意主机、垃圾邮件和其它威胁等；IBMQradar还可以将系统漏洞与事件和网络数据相关联，划分安全性事件的优先级等。ZettaSet海量事件数据仓库来分析网络中的安全漏洞和恶意攻击；Zettaset主要包括Orchestrator和SDW(SecurityDataWarehouse，安全数据仓库）。Orchestrator是端到端的Hadoop管理产品，支持多个Hadoop分布；SDW是构建在Hadoop的基础上，并且基于Hive分布式存储。SDW于2011年BlackHat网络安全会议面世，SDW可从网络防火墙、安全设备、网站流量、业务流程以及其它事务中挖掘安全信息，确定并阻止安全性威胁。处理的数据质量和分析的事件数量比传统SIEM多；对于一个月的数据负载，传统SIEM搜索需要20～60min，Hive运行查询只需1min左右。

2.4基于DNS的安全大数据分析

基于DNS的安全大数据分析通过对DNS系统的实时流量、日志进行大数据分析，对DNS流量的静态及动态特征进行建模，提取DNS报文特征：DNS分组长、DNS响应时间、发送频率、域名归属地离散度、解析IP离散度、递归路径、域名生存周期等；基于DNS报文特征，构建异常行为模型，来检测针对DNS系统的各类流量攻击（如DNS劫持、DNS拒绝服务攻击、DNS分组异常、DNS放大攻击等）及恶意域名、钓鱼网站域名等。

2.5APT攻击大数据分析

高级可持续性威胁（APT）攻击通过周密的策划与实施，针对特定对象进行长期的、有计划的攻击，具有高度隐蔽性、潜伏期长、攻击路径和渠道不确定等特征。现已成为信息安全保障领域的巨大威胁。“震网”潜伏3年，造成伊朗纳坦兹核电站上千台铀浓缩离心机故障。收集业务系统流量、Web访问日志、数据日志、资产库及Web渗透知识库等，提取系统指纹、攻击种类、攻击时间、黑客关注度、攻击手段类型、行为历史等事件特征，再基于大数据机器学习方法，发现Web渗透行为、追溯攻击源、分析系统脆弱性，加强事中环节的威胁感知能力，同时支撑调查取证。

篇4

1石油化工检测涵义

一般来说，石油化工检测技术层次面广，涉及技术多，能够将计算机、控制工程、信息处理、自动化以及电子等学科融合在一起，并且应用于石油化工领域自动化装备以及其他自动化生产过程中。生产石油化工原料时，往往存在着较多的易燃易爆及有毒的气体，一旦泄漏将会发生巨大的危险，严重时还会影响到相关工作人员的生命财产安全。因此，石油化工产业在一定程度上来说也存在着较高的危险性，所以对于安全问题的防范更要严加注意，在石油化工生产过程中，严格控制检测程序，并且做好相关的记录，避免检测程序出现纰漏，影响石油化工的质量检测。随着科学技术的不断进步，石油化工检测技术也在不断提高，更新换代，将现代计算机、电机学、物理、化学以及光学技术予以有机结合，从而实现了质的飞跃。在当前的石油化工检测过程中，无损失检测设备比较常见，并且广泛应用于石油化工产业。随着人们对新设备的采纳，说明现代石油产业的新兴概念已经开始被接受，这便是安全评价及安全检测体系，安全评价主要采用工程技术方法以及安全系统工程原理来进行评价，全面分析系统中可能存在的危险因素或者已经发现的危险，亦可以称之为危险性评价以及风险评价，主要包括危险性评价和危险性确定两方面的内容，因此需要全面的对危险源予以排除，并且反复认真考核及校对，同时，合理的对危险源可能导致的后果进行预测及分析，并且和目前最新的安全指标予以校对，假如控制在安全范围之内，则可以视之为安全，如果不在安全范围之内，则需要上报上级部门，并且采取合理的措施，对危险源可能导致的危险予以降低或者避免。

2数据分析技术的要点

2.1数据集

数据主要包括数值形态以及数字中的各种信息，而数据集则是一组数据的总和，数据集是数据分析技术的依据及基础，数据分析技术主要通过数据集来实现此功能，仅仅少数的几个数据对其来说并没有实际意义，而且数据的种类通过需要有计量数据，比如重量、质量等，计数数据需要包括故障数、缺陷数以及合格品数，顺序数据包括产品的质量状态顺序等。

2.2数据整理

收集的数据需要对其分类整理，比如分析目的以及分析对象等，将没有实际意义的数据予以剔除，最终组成数据集。数据整体通常包括两种，即分类整理及分层整理，分层整理主要是通过逻辑关系对该数据进行不同层次的整理，分类整理主要是通过收集到的数据的性质以及特点对其进行不同类别的整理。

2.3分析工具

目前常见的分析工具主要包括控制图、因果图、直方图、散布图、排列图以及调查表，某些复杂的数据分析还会用到卡方分析、加权分析、回归分析以及方差分析等。利用软件工具包对其进行合理利用，比如MiniTab工具，不同的数据分析工具均具有其不同的适用条件以及自身特点，石油化工产品的检测需要结合其产品技术特点和质量管理要求的特点，合理的采用相关工具，比如为了确保石油化工产品生产顺利，应该将其危险源予以排除，从而判断某批石油化工产品是否过关，充分了解石油化工产品的生产过程以及生产质量，通常可以利用控制图以及统计抽样检验的方法，从而避免石油化工产业发展过程中受到阻碍。

2.4过程监督

通过相关的数据分析，对整个石油化工产品生产质量的过程进行控制，比如通过控制图将质量波动表现出来，对其质量程度进行判断，挖掘出薄弱的环节，加强监督效果。

3数据分析技术在石油化工检测中的具体分析

3.1分析石油化工产品安全检查

一般石油化工产品的系数均要控制于安全系数范围中，根据表1数据可以看出，国标200#溶剂油产品的初馏点为190～245，密度0.893～0.912，闪点14～25℃，外观无色透明，拔出常压装置石脑油和直柴的部分馏分，控制馏程在140～200℃，即可达到直接生产200#溶剂油，所有的数据均能够确保相互独立，而且彼此之间不受影响，呈正态分布，因此可以看出该检测数据均处于一个合理的范围的准备，此为安全检测法表法，利用抽样数据，结合SPSS软件数据的标准方差以及平均值进行计算，对其进行比较，观察数据是否控制在平均值的合理范围内，在对其进行分析时，还能够将安全检测标准方差比值和标准平均值予以赋分，假如＞1，则偏差较大，石油化工产品并没有在安全范围内，假如=0，则石油化工产品处于安全范围之内。

3.2分析石油化工产品预先危险性数据

进行数据统计时，还有种分析方法，通常将其称之为数据拟合，能够将数据进行回归分析，并且通过回归分析函数的作用，对系统的危险性进行合理的预见。通常采取的数据回归方法主要包括曲线拟合分析以及二元Logistic回归分析，例如利用同居分析，对过往存在的事故中的安全数据系数予以统计，并且针对性的进行二元回归拟合，进而计算出输入函数，闪点指标数据统计、储存时数据如果在可控范围内，不会增加危险性。

3.3分析石油化工产品的故障影响因素

进行石油化工产品工作过程中，往往会发生故障，此类故障的概率主要受发生变质产品、某次故障以及工艺过程的影响，存在明显的差异，对于主要因素的分析，通常可以采取方差对其进行分析。通过将两个样本设置成对比对象，从而计算出主要的影响因素，在进行数据的统计计量分析过程中，需要满足统计量存在明显的正态分布，经过结果表明，影响因素往往互相独立，从而满足方差分析的实际标准，利用数据统计及方差分析，能够清晰明了地显示出故障的主要愿意，并且对其进行合理的评价，为日后的整治措施提供理论依据。与此同时，方差分析还能对自动化仪表故障以及石油管道故障的主要因素进行分析，与此同时，石油长期储存将会在不同程度上增加石油的胶质，而且柴油随着产品氧化，也会使其安定性变低，影响其石油化工产品的使用。

3.4分析石油化工产品的事件频率

进行石油化工产品的检测过程中，通常会存在较大差异的不同类型的事故，而且此类事故对发生，因此，可以对这些数据频率进行统计分析，利用频率分析及参数估计，对数据频率进行归纳分析，从而明确是否存在置问的范围内，频率分析法是目前较为常见的方法，通过对发生事件趋势的监测，确定其分散峰度、偏度以及离散程度，利用模拟分布图将事件的合法性频率进行有效判断。石油化工产品的时间频率分析收益较高，能够将其应用于主要故障的分析以及成品油质量的分析过程中。

4结束语

综上所述，数据分析的范围比较大，但是目前市场上有关石油化工产品检测的设备均大同小异，最终目的确保油品质量过关，但是这只是一方面的因素，重要的是进行石油化工产品的生产过程中，降低事故的发生频率，这才是石油化工产业亟待解决的重要问题。为了适应当前石油化工产品的检测需求，针对性的进行软件开发，合理的予以数据分析，除此之外国外还要出台一些优惠政策，从而确保石油化工产业健康发展。

参考文献

[1]董伟亮.解析石油化工检验检测的若干问题的思考[C].//科技研究——2015科技产业发展与建设成就研讨会论文集（上）.2015.

篇5

一、数据挖掘技术简介

1.1数据挖掘的概念

在上世纪90年代内，研究人员提出了数据挖掘，主要目的就是希望能够将所采集到的应用数据内所具有的潜在价值信息挖掘，获取价值信息。数据挖掘内包含较多学科内容，例如人工智能、统计、可视化技术、数据库等。数据挖掘在对数据分析研究过程中，主要采取分类及聚类进行监测，对有关知识进行演变。数据挖掘常见模式主要分为四种，分别为频繁模式、分类模式、聚类模式与异常模式[1]。

1.2数据挖掘的过程

1、数据准备。数据准备阶段主要包含两方面工作，分别为数据获取和数据预处理。数据挖掘应用点在确定之后，能够有效对有关数据进行收集，同时对数据背景进行掌握，对挖掘模式进行确定。有关数据在收集之后，需要对数据内所包含的冗余数据及空缺数据进行预处理，为计算机分析奠定坚实基础。

2、数据挖掘。数据娃聚主要是在数量及挖掘目标确定之后，选择合适的数据挖掘方法及技术，对数据进行计算分析，构建针对性数据。

3、挖掘结果展示。数据挖掘技术所得到的数据结果，十分抽象，除了数据挖掘技术行业工作人员无法对数据挖掘结果进行了解，所以需要对数据挖掘结果进行转化，通过图形及图像的方式，将挖掘结果在屏幕内显示出来，直观将挖掘结果展示出来，用户能够对挖掘结果深入理解。

4、挖掘结果应用分析。按照挖掘背景及目的，对数据挖掘结果进行系统性分析研究，进而找到海量数据内具有价值的信息，同时这些信息技有关生产，对数据挖掘结果正确性进行判断，对数据挖掘有关知识进行修正、完善[2]。

二、数据挖掘技术在频谱监测数据分析中的应用

2.1认知无线电中频谱资源预测应用

认知无线在频谱监测数据内应用，能够有效提高频谱监测数据质量，同时非授权用户也可以对频谱资源进行利用。授权用户在对频谱监测数应用过程中，非授权用户能够直接将频谱监测数据资源让出来，非授权用户就需要充分构建频谱途径，构建通信连接。非授权用户要是没有直接将频谱资源让出来，授权用户与非授权用户之间就会产生矛盾，进而造成通信中断，这样情况所将的损失将是无法预计的。所以，非授权用户及授权用户要是都能够对频谱资源精确划分，能够有效对资源矛盾事件防止，在这种情况下频谱监测资源利用效率也就显著提升。

正式由于认识无线电技术在实际应用内所具有的优势，在对认知无线电技术分析研究过程中，需要将重点放在授权用户应用规律上面，对授权用户占据频谱监测数据空余时间进行预测，帮助非授权用户能够在授权用户空余时间内寻找利用有关资源，这种预测性分析研究主要是通过数据挖掘技术内的频发模式实现。

2.2异常无线电信号监测应用

无线电监测站在常规监测过程中，最为主要的一项工作就是对异常无线电信号进行监测，严禁非法占用情况出现，有效提高无线电通信安全性能。

按照无线电监测所产生的数据可知，频谱设备属于常规性运行，一旦出现异常运行情况，所输出的信号就与常规状态下信号存在一定差异。所以，想要了解频谱设备出现异常情况，只需要将将信号进行分析比较，数据挖掘技术能够有效对海量信号内特点进行提取，在海量信号内寻找到异常信号。数据挖掘技术在无线电监测内应用，首先是通过无线电监测历史数据构建数据模型，模型在具有自我学习能力之后，能够应对无线电瞬息变化环境，对数据模型与历史数据模型相似点进行计算，在发现无线电设备出现异常运行情况之后，数据模型就会发出警告。

结论：数据挖掘技术在频谱监测数据分析内应用，能够有效对l谱监测数据分析流程进行简化，在大量数据信息内高效率的找到针对性数据信息，提高信息挖掘质量，进而为管理人员提供针对性意见。正式由于数据挖掘技术在频谱监测数据分析内所具有的作用，所以对数据挖掘技术进行分析研究，能够有效推动频谱监测数据发展。

篇6

大数据的主要特点是海量、非结构化和半结构化、实时处理。大数据技术，或大数据分析技术，就是对这些数量巨大的海量数据进行搜索、整理、分析、加工，以便获得有价值的产品和服务，以及提炼出具有深刻见解和潜在价值信息的技术和手段。

1 大数据分析在公共交通中的应用

交通拥堵日益严重，交通事故频繁发生，这些都是各大城市亟待解决的问题，科学分析交通管理体系成为改善城市交通的关键所在。因此，高效、准确地获取交通数据是构建合理城市交通管理体系的前提，而这一难题可以通过大数据管理得到解决。

大数据分析技术改变了传统公共交通的路径：大数据可以跨越行政区域的限制；大数据可以高效地整合交通信息；大数据可以较好地配置公共交通资源；大数据可以促进公共交通均衡性发展。在大数据中，随着数据库摄入更多数据，所消耗的计算工作量反而递减，配置成本也随之减小，但所做的计算则更加精准。大数据在公共交通中的应用表现在：一旦某个路段发生问题，能立刻从大数据中调出有用信息，确保交通的连贯性和持续性；另一方面，大数据具有较高预测能力，可降低误报和漏报的概率，可随时针对公共交通的动态性给予实时监控。因此，在驾驶者无法预知交通拥堵的可能性时，大数据可帮助用户预先了解。

2 大数据分析在医药领域中的应用

在医学领域，我们正处在一医学信息爆炸的时代。基因序列、各种医学图像、电子病历记录和多中心临床药物试验等，使生物医学领域跨入网络化的大数据时代。如何从医疗大数据中提取出有用的信息是目前亟待解决的问题，构建医疗大数据系统需要将各家医院通过互联网连接，实现各家医院之间的数据共享。将医疗数据存于专门的数据库中，在信息协作平台上将各种医疗信息分类整合，建立成一个相互共享的网络，从而实现医疗数据信息的共享。

大数据技术的核心就是预测，使用大数据分析技术可以提高诊断疾病的准确率，对有效地治疗疾病具有重要价值。其中最好地体现在传染病预测上，因为传染病的发生、发展、分布与地理地貌、生态景观、人文环境有密切关系，特别在全球气候变化和经济全球化背景下，自然环境及人类社会活动对传染病的影响越来越重要。因此，时间和空间信息对传染病的预测、预警具有重要意义。利用大数据可对传染病疫情的时间、空间信息进行多维搜索，检索、处理和分析这些疫情信息可实现对传染病的流行趋势及影响范围进行预测、预警，对提高传染病防控的针对性、预见性和主动性，抑制流行病的蔓延，以及制定卫生决策都具有十分重要的意义。

3 大数据分析在移动通信网络优化中的应用

当前的大数据技术面临着数据过大和安全隐患越多这两个问题。在移动通信网络发展的过程中，网上用户在不断增加，通信网络的范围在不断扩大，而移动通信网络所产生的数据量也在不断上升。大数据技术和移动通信网络的安全问题密切相关，一旦技术出现漏洞，移动通信网络的数据就会出现安全隐患。大数据技术中存储功能的是云储存技术，它将大量的网络数据放在统一的平台之上，加大了数据丢失的风险，影响移动通信网络的安全。

优化移动通信网络，需要运用大数据技术的储存功能。移动通信网络的用户在不断变化，每天都要更新大量的数据，而且这些数据都需要进行妥善管理和保存。在这一过程中，可以应用大数据技术的存储功能，将存储虚拟化作为解决存储问题的有效策略。

优化移动通信网络，需要获取相关的数据信息。移动通信网络的用户非常多，而且其所跨越的时间、空间维度都很大，这些用户在移动通信网络留下的海量的数据信息，使数据获取工作难以继续。在进行数据的获取和收集工作时，移动通信网络可以应用大数据技术，减少人力和物力的投入，同时增加数据的准确度。

4 结语

本文是大数据技术在实际生活领域的应用，分别阐述了大数据分析技术在公共交通、医药领域、移动通信网络优化中的具体运用。借助大数据技术的即时性、准确性和预测性，将其应用到人们的日常生活领域，提高了人们的生活质量。

参考文献

[1]陈美.大数据在公共交通中的应用[J]. 图书与情报，2012（06）：22-28.

[2]张春丽，成.大数据分析技术及其在医药领域中的应用[J].标记免疫分析与临床，2016（03）：327-333.

[3]汪敏，廖名扬.大数据分析在移动通信网络优化中的应用研究[J].通讯世界，2017（02）：123.

[4]祝兴平.大数据分析技术及其在数字出版中的应用[J].出版发行研究，2014（04）：13-16.

[5]程学旗，靳小龙，王元卓，郭嘉丰，张铁赢，李国杰.大数据系统和分析技术综述[J]. 软件学报，2014（09）：1889-1908.

作者简介

篇7

由于能将存储读写响应时间从毫秒缩短到微秒级别，闪存这种最先用于消费级电子产品领域的技术也开始被企业级存储市场关注和青睐。随着大数据时代的到来，企业需要更强更快的分析洞察能力，闪存技术越来越多地出现在硬件底层，以加速大数据应用。

正是看准这一机遇，自去年收购闪存企业Texas Memory System后，IBM在近日宣布投入10亿美元研发资金，用于设计和创建新的闪存解决方案，并将其集成到日益增多的服务器、存储系统和中间件中。IBM副总裁、IBM系统与科技部企业级存储产品线总经理周谂畬表示，闪存将对企业产生革命性影响。尤其是对于事务密集型应用，它将为运营信息提供实时的决策支持，并且提高关键任务的工作负载性能，例如信用卡处理、证券交易、制造业和订单处理系统。

美国目前的闪存企业多达100多家。IBM院士、存储首席技术官许育诚表示，闪存技术用于企业级别最大的挑战在于承载能力。有的闪存产品初始速度很快，但当闪存存储承载到一定级别后读写速度就显著降低，甚至降低到磁盘读取速度的级别。而IBM 在中国刚刚推出的FlashSystem全闪存系统其实已经在全球的银行交易和电信应用上有不少的成熟客户，他们的处理时间缩短了90%。在ERP和业务分析应用中，批处理时间缩短了85%。在美国运营商Sprint的最新规划中，甚至计划把最活跃的数据都转移到IBM FlashSystem全闪存存储系统中去。据悉，新的IBM FlashSystem是IBM稳步扩展的全闪存和混合（磁盘/闪存）解决方案的新成员，后者还包括IBM Storwize V7000、IBM System Storage DS8870和IBM XIV Storage System。

IBM 投入的10亿美元研发经费将如何提升闪存技术呢？许育诚总结了三大方向。一是更高密度的闪存，现在1U的存储量是24TB，每年I/O吞吐量将增加一倍，数据存储也增加一倍。二是核心物理介质技术的提升，“未来将会是24纳米，15纳米的技术，以及更强的数字信号处理能力，比如IBM苏黎世实验室就在研究数字信号进程技术。”许育诚说。第三，闪存将影响上层中间件的软件架构的设计思路。如果没有软件层面的优化，用户使用闪存技术仅仅获得的是20%以上的速度提升。虽然这也是非常可观的改善，但是由于软件以前的设计思路是将存储看作整个系统应用速度的瓶颈，当闪存提升存储速度后，软件将会成为一种全新的设计思路。

以DB2 Blue为例，它直接做实时分析而无需将数据转移到其他地方，这种配合软件优化技术的产品，可以将速度提升20倍甚至百倍。据悉，IBM目前至少有两种产品在应用软件和闪存共同优化的技术：一个是DB2 Blue；另一个是PureData Analytics的最新版本，它将DB2和信息管理软件进行高度整合，成为大数据基础云的最新产品。

篇8

新疆油田重油开发公司是以稠油开采为主的采油厂。有着将近10年的数字油田建设历史。而且中心数据库已经做得很成熟，主要包括五大业务板块数据。即勘探业务板块、开发业务板块、生产业务板块、经营业务板块的数据库。数据库包括的内容主要有单井、区块的日月报数据、试井与生产测井数据、分析化验数据、井下作业和地理信息数据等。数据库的数据资源种类齐全，质量高。2010年新疆油田重油开发公司正式开始进行智能化油田建设工作，利用物联网诊断单井问题，使用大数据技术对油田进行全面感知、分析预测、优化决策找到油水井的生产规律，从而有助于油田生产工作进行。

1 油田大数据的概念及处理流程

大数据有四个特点即量大（Volume）、快速生产（Velocity）、类型丰富（Variety）、真实性（Veracity），被称为4V[1]。由于数据的数量非常大，就将数据组成数据集，进行管理、处理实现数据的价值。大数据对数据库的整理流程是将数据转化为信息，将信息转化为知识，再将知识转化为智慧。这个过程应用于油田可以理解为是对油田的生产和管理工作。大数据的七个处理步骤包括：对数据的提取和收集、清洗数据、分析数据找到潜在的内在价值规律、建立预测模型、对结果进行可视化的估计、验证结果、评估模型。

2 大数据分析平台及体系架构研究

新疆油田为了满足生产应用，构建了一个有效的大数据分析平台及体系架构。此平台主要包括四个基础架构：数据抽取平台、进行分布式的存储平台、大数据的分析与展示平台。最底层是数据抽取平台主要是实现数据的整合，将数据转化成适合进行数据挖掘或者建模的形式，构建可靠的样本数据集。存储平台主要是对数据进行汇总、建模、分析，最后将处理好的数据进行储存。其功能与数据仓库相似。大数据分析层，是在大数据建模的工具和算法基础上，挖掘隐藏的数据模式和关系，利用数据软件进行分类、建模，生成预测的结果，结合专家经验利用测试的样本选定评价方案不断提高模型的精度，更好的用于油田的决策。数据应用层主要是把建立的模型设计为运行软件，运用建模方法实现数据的可视化界面设计，更好的实现人机交互。

3 大数据分析技术研究

进行大数据分析时我们经常采用两大技术即大数据预处理和抽取技术，大数据分析技术。

3.1 大数据抽取及预处理技术

大数据预处理和抽取技术的原理是指将不同名称，不同时间，不同地点的多种不同结构和类别的数据抽取处理成一种所表达的算法和内涵一致便于处理类型的数据结构[2]。在检查数据缺失、数据异常时可以使用数据清洗方法确定有用的数据，一般采用剔除法或估计值法、填补平均值替换错误的数据。为了满足建模所需的大量数据，创建新的字段时需要进行数据库的构建。将原始数据用一定的方法如归一法转换为可用于数据挖掘的数据，这个过程为数据转换。

3.2 大数据分析技术

应用于油田的大数据分析技术为：因子分析技术、聚类分析技术、回归分析技术和数据挖掘技术。其中的因子分析技术是指，利用少数的因子对多个指标和因素间的相关性进行描述，一般将密切相关的多个变量归纳为一类，这一类数据就属于一个影响因子，用较少的因子反应大量数据的信息。聚类分析技术是指把具有某种共同特性的事物或者物体归属于一个类型，并按照这些特性划分为几个类别，同种类型的事物相似性较高。这样更利于辨别预先未知的事物特征。回归分析是指在一组数据的基础之上，研究一个变量和其他变量间隐藏的关系。利用回归方程，进行回归分析，从而有规律地把变量之间的不规则，不确定的复杂关系简单得表示出来。

在使用大数据进行分析时，数据挖掘技术是最关键的一门技术。该技术将大量复杂的、随机性的、模糊的、不完整的数据进行分析，挖掘出对人类未来有用的数据，即提前获得未知信息的过程[3]。数据挖掘功能分为预测功能和描述功能。数据预测是指对数据进行处理推算，完成预测的目的。数据描述是展现集体数据的特性。数据挖掘功能是与数据的目标类型有关，有的功能适用于不同类型的数据，有的功能则只适用于特定功能的数据。数据挖掘的作用就是让人们能够提前得到未知的消息，提升数据的有效性，使其可以应用于不同的领域。

4 大数据分析在油田生产中的应用研究

4.1 异常井自动识别

油田生产过程中影响最大的一个因素是异常井的出现，因此生产管理人员加大了对异常井的重视。最初，异常井的识别主要是依靠生产部门的生产人员，必须经过人工查阅许多关于油田生产的资料才能确定异常井，这种人工检阅的方法存在很多缺陷。比如说大量的检索工作、耗费时间长等，对异常井的诊断和措施制定造成很大的困难。异常井是指油井当天的产油量和上个月相比波动很大，并大于正常的波动范围。目前广泛采用数据挖掘技术和聚类分析技术对异常井进行识别，提高效率。为了实现算法编译使用技术，系统架构B/S模式进行，能够及时发现异常井的存在。

4.2 异常井智能诊断

异常井诊断是油田每天进行生产必须要完成的工序。而大部分油田采用人工方法对其进行异常诊断，工作量极大，影响因素较多，诊断结果的可靠性较低，对后期进行计划实施造成很大的影响。这时可以采用智能诊断方法，利用灰度图像处理技术和人脸识别算法建立抽油井的特征功图库，对比油井当前的功图和所建立的特征功图，实现异常井的诊断。若是相似则不属于异常井，反之，则为异常井。但是有时一种工况可能会有许多中表现方式，致使功图解释存在很多种状况，可以采取因子分析法，分析每个工况下关联的因子间是如何变化，然后建立参数诊断数据库，对比相关因子的指标项，找到异常的原因，采取适合的方案进行修改，从而提高单井的生产效率。

4.3 间抽井开关井计划制订

当油田开发进入后期阶段就会出现很多问题，过度开发使得地层的能量越来越少，致使更多供液不足的井开发出来。将这类井称之为间歇出油井。新疆油田一般会使用人工方法制订间歇出油井的开关时间计划，但是对于计划的合理性没有进行检验。若是能够控制好间歇出油井的开关时间，对油田实现节能减排是至关重要的。这时可以采用因子分析方法和回归分析法进行研究，利用数据挖掘技术找出影响间歇出油井的开关时间的因素，建立合适的分析模型，对模型进行线性回归，进行归一化处理。从而为业务人员提供制订间歇出油井开关时间的合理方案，达到节能减排的效果。

4.4 油井清防蜡预测

目前油田上对于油井清蜡采取平均每口井一个月清洗一次蜡的措施，按照人工计划进行，出现了许多问题。比如，一些井还没有结蜡就已被清洗，有些井已经结蜡，却没有得到及时清洗。这样既浪费大量的人力物力，而且还对油田的生产效率产生不利影响。若是利用因子分析法，将收集的关于结蜡周期、清蜡方式、清蜡用量、油井状况等数据进行分析，建立油井Y蜡模型，再利用回归分析法对建立的模型建立曲线方程，进行预测，找到结蜡时间，推断出结蜡周期，更好的指导油田清蜡工序的进行，提高油田的精细化管理。

5 结束语

总之，对比以前利用人工进行油田生产可以发现大数据对于油田生产是非常必要的，可以更快的挖掘油田的生产作业规律，解决油田生产的困难。而且，可以利用油田数据进行可视化分析，关注问题的主要影响因素找到管理中存在的不足，预防未来问题的出现。大数据的核心价值就是通过以往大量数据进行分析，预测出未来，从而更好地指导油田的生产工作。

参考文献

篇9

一、绪论

互联网技术不断革新与发展，给全球经济带来新的革命，从而也影响着人们的生活。互联网为企业提供了一种真正属于自己并面对广大网民的信息载体，企业通过这一载体，可以自由地将企业的产品、服务等其他相关信息在线。

电子商务就是网上实行各种商务活动的总包装，种种所谓电子商务解决方案，实际上就是实现各种网上商务活动的硬件与软件系统。它将影响到每一个人、每一个企业。电子商务的主体是我们每一个人、每一个企业，电子商务发展的过程就是对人们的生活、企业的运行的一种模式的一个巨大改变的过程。对于进入虚拟世界的商家而言，仅仅吸引注意力还不行，对它们而言，站点的访问率绝对不仅仅是一个数字，它还是一种信息，如果网站能够从网络中获得网民的信息并从中分析其行为诱因，那么就容易掌握网民的需求，从而利用互联网去创造更多商机。

电子商务站点用户行为的分析这一问题也因此成为现如今的热门话题，被人们普遍关心起来，尤其是被众商家所重视。Web站点的日志数据正以每天数十兆的速度增长。如何分析这些数据，如何从这些大量数据中发现有用的、重要的知识(包括模式、规则、可视化结构等)也成为现在人们最关注的信息。

在此情况下，站点用户行为分析就可为网站或商家提供出大量有价值的信息，包括站点的受欢迎度的对比、商业广告点击情况总括、产品的反馈信息、站点各种信息的点击情况等等。另外，还可根据不同的页面内容来分类浏览者，以便做出更合理的页面分类，促使网站逐步向个性化、最优化状态发展。这一技术对互联网的发展壮大有着不可忽视的巨大作用，它的发展对信息技术亦将产生深远的影响。

在电子商务早期阶段时，Web站点数据流分析通常是在主页上安装计数器以及在一个外部日志文件上运行简单的统计程序记录点击率。但是，简单的点击计数既不准确也远未达到营销目的所需的详细程度。因此，各公司开始寻找更先进的分析工具，这类工具可以提供谁在访问公司Web站点以及访问者一旦进入站点后将做些什么的全面信息。站点开始分析的地方是Web服务器的访问日志。每当用户在站点上请求一个网页时，这个请求就被记录在访问日志中。如:目前有多少用户正在访问站点、他们正在看哪些网页以及他们在站点中呆了多长时间。显然，日志分析和行为概况的正确组合可以对Web站点的成功产生直接影响。此外，从日志分析中得到的信息是很难从真实世界中捕获到的，但这些信息却可以较容易地在线收集到。Web数据流分析工具的这些最新进展可以使网站获得有关上网客户和他们习惯的详细报告。

二、站点信息统计方法

Web页面数据主要是半结构化数据，计算机网络技术和信息技术的飞速发展，使得半结构化数据呈现日益繁荣的趋势。半结构化数据，是一种介于模式固定的结构化数据，和完全没有模式的无序数据之间，在查询前无法预先确定其具体的类型和格式;同时它们相应的数据结构是不固定、不完全或不规则的，即这些数据有的本身就没有结构，有的只有十分松散的结构，有的数据的结构是隐含的，需要从数据中进行抽取。而有时，尽管数据本身是有精确结构的，但为了一定的目的，而故意忽视它的结构。半结构化数据具有以下五方面的

主要特点:

1.结构是不规则的。包含异构数据、相同的数据信息用不同类型或不同的结构表示。

2.结构是隐含的。如电子文档SGML格式。

3.结构是部分的，有时部分数据根本无结构，而部分数据只有粗略的结构。

4.指示性结构与约束性结构。传统的数据库使用严格的分类策略来保护数据。而指示性数据结构是对结构的一种非精确的描述。它可接受所有新数据，代价是要频繁修改结构。

5.半结构化数据通常在数据存在之后才能通过当前数据归纳出其结构，称之为事后模式引导。模式有时可被忽略，同时数据与数据模式间的区别逐渐消除。

三、数据分析的方法

Web页面的数据通常是利用统计模型和数学模型来分析的。使用的模型有线性分析和非线性分析;连续回归分析和逻辑回归分析;单变量和多变量分析以及时间序列分析等。这些统计分析工具能提供可视化功能和分析功能来寻找数据间关系、构造模型来分析、解释数据。并通过交互式过程和迭代过程用来求精模型，最终开发出最具适应性的模型来将数据转化为有价值的信息。

知识发现是从数据仓库的大量数据中筛取信息，寻找经常出现的模式，检查趋势并发掘实施。它是分析Web页面数据的重要方法。知识发现与模式识别的算法有以下几种:

1.依赖性分析

依赖性分析算法搜索数据仓库的条目和对象，从中寻找重复出现概率很高的模式。它展示了数据间未知的依赖关系。利用依赖性分析算法可以从某一数据对象的信息来推断另一数据对象的信息。例如:在杂货店中，一堆椒盐饼干放在陈列饮料的走道上，这是因为经过依赖性分析，商店认为:很大一部分买饮料的顾客如果在取饮料的路上看到椒盐饼干的话就会购买，因而此种分析影响了商店布局。

2.聚类和分类

在某些情况下，无法界定要分析的数据类，用聚类算法发现一些不知道的数据类或怀疑的数据类。聚类的过程是以某一特定时间为依据，找出一个共享一些公共类别的群体，它称为无监督学习。分类过程，这是发现一些规定某些商品或时间是否属于某一特定数据子集的规则。这些数据类很少在关系数据库中进行定义，因而规范的数据模型中没有它们的位置。最典型的例子是信用卡核准过程，可确定能否按商品价格和其它标准把某一购买者归入可接受的那一类中。分类又称为有监督学习。

3.神经网络

神经网络通过学习待分析数据中的模式来构造模型。它对隐式类型进行分类。图像分析是神经网络最成功的应用之一。神经网络用于模型化非线性的、复杂的或噪声高的数据。一般神经模型由三个层次组成:数据仓库数据输入、中间层(各种神经元)和输出。它通常用恰当的数据库示例来训练和学习、校正预测的模型，提高预测结果的准确性。

4.数据挖掘中的关联规则

关联规则是数据挖掘的一个重要内容，通常关联规则反映的是数据间的定性关联关系。如一个商品交易数据库，一条记录表示用户一次购买的商品种类，每个属性(A、B……)代表一种商品，每个属性都是布尔类型的。一条关联规则的例子是:{A、B}{D}[2%][60%]，规则的含义是“如果用户购买商品A和B，那么也可能购买商品D，因为同时购买商品A、B和D的交易记录占总交易数的2%而购买A和B的交易中，有60%的交易也包含D”。规则中60%是规则的信任度，2%是规则的支持度。数据挖掘就是要发现所有满足用户定义的最小信任度和支持度阀值限制的关联规则。数据只是定性地描述一个交易是否包含某商品，而对交易量没有定量描述，这种布尔类型数据间的关联规则被称为定性关联规则。但数据记录的属性往往是数值型或字符型的，这些数据间也存在对决策有帮助的关联规则，相对于定性关联规则，这些规则被称为定量关联规则。

另外，数据挖掘目前仍面临着数据质量的问题。由于数据仓库中的数据来自多个数据源，而在合并中存在很多障碍，如:没有建立合并视图所需的公共关键字;数据值相互抵触;元数据的说明不完备或丢失;数据值的不洁净等等。数据挖掘是在标准化的数据基础上进行的，因而这些都会严重破坏数据的准确性，导致最终决策的失误。所有这些问题都在等待着人们去发掘更好的解决方法。

参考资料

1.周斌，吴泉源，高洪奎:“用户访问模式数据挖掘的模型与算法研究”，《计算机研究与发展》，1999 vol.36 No.7 P.870-875;

2.Srikant R，Vu W，Agrawal R.Mining association rules with itemconstrains.IBM Almaden Research Center，Tech Rep:97.056，1997;

3.Park J S，Chen M，Yu P S.Aneffective hash based algorithm for miningassociation ru1es.In:ACM InternationalConference on Management of Data，Caliform，1995;

篇10

近日，英特尔公司公布了其在高性能计算方面的创新，并宣布推出全新软件工具，帮助企业和研究人员从大量数据中获得深入洞察，解决业务难题和科学挑战。

英特尔通过与各合作伙伴的合作，利用当前可用技术，创建出易于编程且经济高效的新一代高度集成的解决方案。在合作过程中，英特尔还计划提供定制化高性能计算产品，来满足客户的广泛需求。这一计划将通过加入优化特性等方式，提升基于标准的英特尔可扩展平台的价值。在今年的超级计算大会上，英特尔展示了新一代能够被用作主处理器的英特尔至强融核产品――Knights Landing。该处理器可用于标准机架架构之中，同时无缝运行原生应用，而无需将数据转移至协处理器。这一处理器将能够降低编程的复杂性，并消除数据“负载的转移”，缩短内存、PCIe和网络导致的延迟。

此外，英特尔与富士通公司最近宣布推出了一项可利用光纤链路来替代计算机电缆的计划，前者可通过基于英特尔硅光子技术的链路来承担以太网或PCI Express的流量。在此基础之上，英特尔至强融核协处理器将可以安装至与主英特尔至强处理器相分离的扩展机箱中，但功能却如同其仍位于主板上一样，从而能够实现更高的协处理器安装密度，并在不影响主服务器运行的情况下扩展计算机容量。

如今，在高性能计算行业中系统和并行软件的高性能让我们可以创建出大而复杂的模拟。但是，由于非结构化数据占所有数据的 80%，同时该类数据量的增长速度比其他数据快 15 倍，为满足这一需求，英特尔推出了Intel HPC Distribution for Apache Hadoop。该解决方案结合了 Apache Hadoop 软件的英特尔分发版和Lustre软件的英特尔企业版，为存储和处理大型数据集提供了企业级解决方案。这一组合将能够支持用户无需做出改变，即可在基于 Lustre的快速共享存储上直接运行MapReduce应用，并加快存储速度，提高管理速度、可扩展性和易用性。

The Intel Cloud Edition for Lustre是一个可扩展的并行文件系统，通过Amazon Web Services Marketplace提供，允许用户以随用随付的形式购买使用。该软件可用于快速模拟和原型设计等动态应用，当出现超出用户内部计算或存储性能的紧急的、意外的任务时，该软件可用于处理云爆发模式下的高性能计算工作负载，从而将任务迁移至云之前，快速供应所需的基础设施。

篇11

一、绪论

互联网技术不断革新与发展,给全球经济带来新的革命,从而也影响着人们的生活。互联网为企业提供了一种真正属于自己并面对广大网民的信息载体,企业通过这一载体,可以自由地将企业的产品、服务等其他相关信息在线。

电子商务就是网上实行各种商务活动的总包装,种种所谓电子商务解决方案,实际上就是实现各种网上商务活动的硬件与软件系统。它将影响到每一个人、每一个企业。电子商务的主体是我们每一个人、每一个企业,电子商务发展的过程就是对人们的生活、企业的运行的一种模式的一个巨大改变的过程。对于进入虚拟世界的商家而言,仅仅吸引注意力还不行,对它们而言,站点的访问率绝对不仅仅是一个数字,它还是一种信息,如果网站能够从网络中获得网民的信息并从中分析其行为诱因,那么就容易掌握网民的需求,从而利用互联网去创造更多商机。

电子商务站点用户行为的分析这一问题也因此成为现如今的热门话题,被人们普遍关心起来,尤其是被众商家所重视。Web站点的日志数据正以每天数十兆的速度增长。如何分析这些数据,如何从这些大量数据中发现有用的、重要的知识(包括模式、规则、可视化结构等)也成为现在人们最关注的信息。

在此情况下,站点用户行为分析就可为网站或商家提供出大量有价值的信息,包括站点的受欢迎度的对比、商业广告点击情况总括、产品的反馈信息、站点各种信息的点击情况等等。另外,还可根据不同的页面内容来分类浏览者,以便做出更合理的页面分类,促使网站逐步向个性化、最优化状态发展。这一技术对互联网的发展壮大有着不可忽视的巨大作用,它的发展对信息技术亦将产生深远的影响。

在电子商务早期阶段时,Web站点数据流分析通常是在主页上安装计数器以及在一个外部日志文件上运行简单的统计程序记录点击率。但是,简单的点击计数既不准确也远未达到营销目的所需的详细程度。因此,各公司开始寻找更先进的分析工具,这类工具可以提供谁在访问公司Web站点以及访问者一旦进入站点后将做些什么的全面信息。站点开始分析的地方是Web服务器的访问日志。每当用户在站点上请求一个网页时,这个请求就被记录在访问日志中。如:目前有多少用户正在访问站点、他们正在看哪些网页以及他们在站点中呆了多长时间。显然,日志分析和行为概况的正确组合可以对Web站点的成功产生直接影响。此外,从日志分析中得到的信息是很难从真实世界中捕获到的,但这些信息却可以较容易地在线收集到。Web数据流分析工具的这些最新进展可以使网站获得有关上网客户和他们习惯的详细报告。

二、站点信息统计方法

Web页面数据主要是半结构化数据,计算机网络技术和信息技术的飞速发展,使得半结构化数据呈现日益繁荣的趋势。半结构化数据,是一种介于模式固定的结构化数据,和完全没有模式的无序数据之间,在查询前无法预先确定其具体的类型和格式;同时它们相应的数据结构是不固定、不完全或不规则的,即这些数据有的本身就没有结构,有的只有十分松散的结构,有的数据的结构是隐含的,需要从数据中进行抽取。而有时,尽管数据本身是有精确结构的,但为了一定的目的,而故意忽视它的结构。半结构化数据具有以下五方面的

主要特点:

1.结构是不规则的。包含异构数据、相同的数据信息用不同类型或不同的结构表示。

2.结构是隐含的。如电子文档SGML格式。

3.结构是部分的,有时部分数据根本无结构,而部分数据只有粗略的结构。

4.指示性结构与约束性结构。传统的数据库使用严格的分类策略来保护数据。而指示性数据结构是对结构的一种非精确的描述。它可接受所有新数据,代价是要频繁修改结构。

5.半结构化数据通常在数据存在之后才能通过当前数据归纳出其结构,称之为事后模式引导。模式有时可被忽略,同时数据与数据模式间的区别逐渐消除。

三、数据分析的方法

Web页面的数据通常是利用统计模型和数学模型来分析的。使用的模型有线性分析和非线性分析;连续回归分析和逻辑回归分析;单变量和多变量分析以及时间序列分析等。这些统计分析工具能提供可视化功能和分析功能来寻找数据间关系、构造模型来分析、解释数据。并通过交互式过程和迭代过程用来求精模型,最终开发出最具适应性的模型来将数据转化为有价值的信息。

知识发现是从数据仓库的大量数据中筛取信息,寻找经常出现的模式,检查趋势并发掘实施。它是分析Web页面数据的重要方法。知识发现与模式识别的算法有以下几种:

1.依赖性分析

依赖性分析算法搜索数据仓库的条目和对象,从中寻找重复出现概率很高的模式。它展示了数据间未知的依赖关系。利用依赖性分析算法可以从某一数据对象的信息来推断另一数据对象的信息。例如:在杂货店中,一堆椒盐饼干放在陈列饮料的走道上,这是因为经过依赖性分析,商店认为:很大一部分买饮料的顾客如果在取饮料的路上看到椒盐饼干的话就会购买,因而此种分析影响了商店布局。

2.聚类和分类

在某些情况下,无法界定要分析的数据类,用聚类算法发现一些不知道的数据类或怀疑的数据类。聚类的过程是以某一特定时间为依据,找出一个共享一些公共类别的群体,它称为无监督学习。分类过程,这是发现一些规定某些商品或时间是否属于某一特定数据子集的规则。这些数据类很少在关系数据库中进行定义,因而规范的数据模型中没有它们的位置。最典型的例子是信用卡核准过程,可确定能否按商品价格和其它标准把某一购买者归入可接受的那一类中。分类又称为有监督学习。

3.神经网络

神经网络通过学习待分析数据中的模式来构造模型。它对隐式类型进行分类。图像分析是神经网络最成功的应用之一。神经网络用于模型化非线性的、复杂的或噪声高的数据。一般神经模型由三个层次组成:数据仓库数据输入、中间层(各种神经元)和输出。它通常用恰当的数据库示例来训练和学习、校正预测的模型,提高预测结果的准确性。

篇12

一、前言

电力用户用电信息采集系统是国家电网公司实现智能化用电的主要方法，通过采集电力用户的用电信息，能够减少电力公司的运营成本，并且还可以减少设备维护，延长设备的使用寿命。

二、用电信息采集系统现状与分析

用电信息采集系统一般由主站、远程传输通信通道和本地数据采集通道三部分构成。用电信息采集的实现主要依赖于通信通道的选择，在通信方式上一般采用两级通信方式，一是远程传输通道，是指集中器到主站（供电公司）之间的通信方式；二是本地数据采集通道，即集中器到采集器或电能表之间的通信方式。

1、远程传输通道现状与分析远程通信是指采集终端和系统主站之间的数据通信。通过远程通信，系统主站与用户侧的采集终端设备间建立联系，下达指令和参数信息，收集用户用电信息。远程通信信道可采用光纤专网、GPRS/CDMA无线公网、230MHz无线专网和中压电力线载波等。综合考虑系统建设规模、技术前瞻性、实时性、安全性、可靠性等因素，确定具体通信方式。

2、远程传输通道可以采用以下几种方式：

（一）借助移动运营商的无线传输方式，如中国移动或中国联通的GSM/GPRS和中国电信的CDMA-1X优点：覆盖面广，接入容易，在一定程度上解决了少量数据采集的需求，按流量计费；缺点：能提供的带宽很低（一般只有几十千比特），且存在不稳定性，满足不了实时采集的要求。在地下配电室、移动电话用户集中区、楼宇密集区对通信质量影响很大。处理网络问题依赖第三方的协调。

（二）借助于固网运营商的宽带城域网，如ADSL或LAN优点：传输速率高，适用于有网络端口环境下的表计集抄；缺点∶目前运行费比GPRS/CDMA方式贵。处理网络问题依赖第三方的协调。此外还有通过电话线调制的方式上传数据，这种方式曾经用于调度自动化的远动数据传输，但由于接续时间长，容易掉线，与电话用户挤占通道资源、带宽较低、运行不稳定等因素很快就被淘汰。这种方式多用于试点，已陆续转为其他通信方式。

以上几种远程数据通信方式，普遍存在以下问题：通道不能专用用电信息涉及商业机密，公用网络承载业务复杂，用电数据以内网转外网再进入内网的方式进行数据转发，存在着数据泄漏和易被攻击的隐患，难以达到国家电网公司对于生产经营信息安全分区与隔离的要求。易受到天气、地理、人群密度等多方面因素的影响多点间难以实现同步的实时采集与分析，关口电量、大客户与居民用电信息存在比较大的时延差，使线损分析、营业数据动态分析偏差较大。运营成本较高以上海市为例，640万居民用户按照每100户一个集中点计算，70万大用户按照每个用户一个集中点计算，共有76.4万个集中点。按照10元/月进行计算，每年仅运行费用就达9200多万元。基于这一原因，许多供电公司只能采用加大采集间隔，或有选择地抄收部分而不是全部表计参数，牺牲应用性能来维持系统的正常运行。

3、无线宽带通信目前主要的无线宽带接入方案有WiMax和McWill。WiMax支持ATM和IP两种数据接口，主要应用于高速传输的数据业务，同时也支持语音、视频等多媒体业务的传输。McWill是完全基于IP分组交换的宽带无线系统，采用宏蜂窝网络结构。McWill是大唐基于SCDMA衍生出来的宽带无线技术，由大唐旗下的信威公司拥有知识产权。

三、分析电力用户用电信息采集系统不良数据的必要性

用电信息的采集系统建设工作是一项复杂而系统的工程，其涉及到通信体系的建设、信息采集终端的架构、采集系统主站的建设等几个方面。整个采集系统建设工作涉及到复杂的用户类型，而且用户数量众多，同时还需要解决信道不稳定、算法不统一以及公共网络信道故障等问题。在这个过程中，将使得不良数据出现，例如线路的功率异常、电量异常、电压数据异常等现象。采集系统获得的数据中不良数据比例虽然很低，但是其存在直接影响到信息的准确性以及客观性，可能造成计费错误以及用电习惯分析不准确等问题，从而造成不良的社会影响。因此，如何处理好其中的数据畸变问题是当前用电信息采集系统优化及完善的一个重要内容。

四、导致不良数据的主要原因及主要类型

1、导致不良数据出现的主要原因

（一）数据采集、存储过程中的不良数据

电力数据的采集终端主要用于配网的使用，但是配网运行过程中存在诸多的问题，而且用电电压的稳定性不足，造成信息通道噪声较大。所以，在设备的应用过程中就会在数据的采集、传输环节中出现数据遗漏、数据误差等现象。同时，所应用的数据处理芯片中可能存在BUG，从而导致电力数据超出边界，或者电力数据读数偏大等现象。

（二）电力系统故障导致的数据错误

当线路中由于部分故障而导致电流出现不正常时，例如出现了接地问题、连电问题等时，将会导致供电网络的功率数据、用电数据出现故障。

五、电力用户用电信息采集系统不良数据处理方法

不良数据点（包括漏点数据、畸变数据等）若没有进行处理，直接参与统计分析，对系统数据将造成较大的影响，使整体负荷曲线、负荷特性等数据失真。可使用短期负荷预测的方法进行修正。

采用短期负荷预测方法对不良数据进行修正的原理是：辨识出历史日中的正常数据点和可疑数据点；以正常数据点为已知条件，采用短期负荷预测方法完成对可疑数据点的预测，用预测结果修正这些可疑数据点、。其修正步骤如下（适合功率、电压、电流、电量等）。

1、辨识可疑数据点

不良数据点往往具有数值突变的特征。通过这个特征可以辨识出历史负荷数据中的可疑不良数据点。对于采集系统来说，其负荷数据中存在的正常的随机变化量幅度不同，通过提高或降低判断标准，即可收紧或放宽对可疑数据点的认定。任何一种可疑数据判断机制都可能造成一定的误差（误判或漏判），但是，在采用短期负荷预测进行不良数据修正时，由于依据的是有规律的预测结果完成修正，所以所认定的可疑数据点多几个点或少几个点并不会对修正结果造成太大的影响。该算法可满足实际数据估算的要求。

2、修正可疑数据点

修正历史数据中的可疑数据是用电信息采集系统的要点和难点之一。准确修正可疑数据点的数据要比辨识它难得多。因此，传统的负荷预测系统无法很好地处理不良数据修正问题，只能依靠预测人员的人工经验来解决。采用短期负荷预测方案进行不良数据修正则可代替人工修正方式，减少预测人员的工作量，同时减少由于人工修正带来的人的主观因素影响。

根据已运行的采集系统数据分析，实际电力系统中每日不良数据点数一般不超过5%，以每天采集96点为例，不超过5点，即：91。则上述修正方案相当于，在以已知的91点数据为优化目标的情况下，对该日96点数据进行短期负荷预测，统计表明，这样条件下的预测准确度高达97.59%以上。满足系统实用化要求。

六、结束语

通过以上详细的分析以及探讨，我们能够看出电力用户用电信息采集系统数据分析与处理技术在电力公司中的作用。所以，我们必须加大资金投入力度，进行广泛推广以及应用。

参考文献

[1]莫维仁，孙宏斌，张伯明.面向电力市场的短期负荷预测系统设计及实现[J].电力系统自动化.2001（23）：41―44.

篇13

交通运输业指的是在国民经济的发展过程中主要负责运送货物和旅客的社会生产工作，其中包括铁路运输、公路运输、水路运输以及航空运输等等。该文主要将城市道路交通运输作为主要切入点，分析当前大数据分析决策技术在城市道路运输行业的应用过程中所出现的问题以及所带来的重要影响。在信息技术高速发展的今天，以数据为核心的大数据技术在交通系统中的应用已经逐渐为城市交通事业的发展提供了新的方向，并打开了新世纪的大门，城市智慧交通的时代已经逐渐到来了。

1 大数据分析决策技术概述

1.1 大数据分析决策技术的概念

大数据，顾名思义是对许多大型数据进行分析、处理和管理的数据集，数据的最大可达到10 TB左右，在大数据的日常工作中具有体量大，数据类别多，数据处理速度快以及数据具有真实性的特点。

而大数据分析决策技术正是在大数据的体量大、数据类别多、数据处理速度快以及数据具有真实性的优势的基础上对数据进行分析和决策的一种新兴技术。这种技术多应用于公共交通服务、交通引导、物流调度优化等各个方面。大数据分析决策技术能够通过反馈的各种交通数据和各种资源进行分析、处理、整合，并能够依托云计算服务平台为使用者提供更加快捷、便利的出行服务。

1.2 大数据分析决策技术的关键

大数据分析决策技术的关键在于计算层，而计算层主要指的是利用内存计算中的Spark，并利用R语言和框架来实现专业的统计分析功能，采用图形的方式展现，以保证分布式的集群和高效存储方式来加快大数据集上的查询速度。除此之外，Mahout是一个集数据挖掘、决策支持等算法于一身的工具，其中包含的都是基于Hadoop来实现的经典算法，通常相关人员会使用其作为数据分析的核心算法集来进行参考[1]。

利用大数据进行决策和分析，就必须通过表格和图表图形来展示，这样一来，将使得数据的分类更加详细，并提高了数据的权威性。另外，Tableau和Pentaho也是进行处理的最佳选择。

2 大数据分析决策技术在道路运输业的应用分析

2.1 大数据分析决策技术在道路运输业的应用现状

伴随着信息技术的快速发展和高新技术产业的高速推进，新科技、新技术已经融入到了各行各业的生产活动和运营管理当中，并深入到了人们的生活中，使普通人也能看见科技，摸得着技术，时时刻刻地感受着科学技术为生活带来的美好[2]。

当前，大数据分析决策技术在道路运输业应用日渐成熟，使得大数据分析决策技术已经成为了城市智慧交通的重要发展平台和重要的技术载体，科学稳定的分析决策技术，便捷高效的数据处理技术使得大数据分析决策技术在城市道路运输业一经应用就得到了迅速的拓展。大数据分析决策技术对城市运输业所反馈的数据包、日志、资产数据以及诸如漏洞信息、配置信息、身份与访问信息、用户行为信息、应用信息、业务信息、外部情报信息等信息的分析、处理和决策带来了极大的便捷。

2.2 大数据分析决策技术应用面临的挑战

2.2.1 行业标准缺乏统一性

行业标准缺乏统一性是大数据分析决策技术应用面临的挑战之一，众所周知，地区经济发展不平衡是我国经济发展的重要现状之一，在这样的背景下，致使我国道路运输业发展也存在着地区发展不平衡的问题，这样一来，很难在全国实行统一的行业标准，致使很多地区的城市运输数据系统相对独立，没有在全国范围内形成统一、完整的智慧交通系统。

智慧交通运输系统的不完整，导致了各个城市之间的道路运输的信息和数据的衔接与配合达不到一定的标准，进而严重影响交通数据的收集和处理，并阻碍了城市\输线路的分析和统计。

2.2.2 基础设施缺乏稳定性

基础设施缺乏稳定性也是大数据分析决策技术应用所面临的挑战之一，大数据决策分析技术在城市道路运输业得以应用的目的在于建立完整度和成熟度较高的智慧城市道路交通系统，而这样智慧交通系统必将是整合度和复杂度较高的系统，如果想要建立这样的智慧交通系统不仅仅需要成熟的大数据分析技术，更需要完整、稳定的基础设施作为建立这一系统的平台。但是，当前在建立这一系统的过程中却面临着城市运输系统硬件设备功能滞后、老化的现状，这些问题都可能会引起引起数据的泄露，甚至丢失，为大数据的统计和处理带来了极大的威胁。

2.2.3 数据统计缺乏真实性

数据统计缺乏真实性同样也是大数据分析决策技术应用所面临的问题和挑战。作为数据统计和数据整合的重要技术，数据的真实性和精确性是其存在的最重要的基础。大数据分析决策技术在道路运输行业得以应用的重要标准，如果数据的真实出现了问题，将使得智慧交通系统失去其应用价值。目前由于道路运输设备老化等问题，致使其性能得不到根本的保证，造成了信号获取的不稳定，由此可能会出现数据统计缺乏真实性的问题。

3 大数据分析决策技术在道路运输业应用问题的解决措施

3.1 加强交通平台资源整合，推进数据标准化

为了解决行业标准缺乏统一性的问题，相关人员应当加强交通大数据应用基础设施建设。正如上文所说的我国经济发展的不平衡导致了城市交通运输业发展的不平衡，而交通运输系统又是极为复杂的系统，如果每个城市之间交通平台不能形成很好的衔接，将会极大地影响交通运输业的发展，问题解决措施如下。

首先，需要相关部门建立完整的道路交通运输标准，对各个城市的交通运输情况进行严格的管理，努力建立一个统一度高、完整度高的现代化、标准化行业标准。

其次，还需要加强对各个交通平台资源的分配和整合，加强各个地区的兼容性。

最后，还应当实现各个地区各个交通的相互合作，相互联系，推动交通运输标准化、统一化的实现。

3.2 加强交通大数据应用基础设施建设

为了解决基础设施缺乏稳定性的问题，相关人员应当加强交通大数据应用基础设施建设。正如上文介绍的我国道路运输系统的设备因使用时间较长，设备老化度较高，这严重影响了大数据决策分析技术的应用，为解决这一问题，应当加强基础设施建设，及时对设备进行更新和维护，从而实现信息数据的安全有效。

3.3 严格控制交通运输的数据真实度

为了解决数据统计缺乏真实性的问题，相关人员应当严格控制交通运输的数据真实度。

正如上文所介绍的因种种原因大数据决策分析技术的数据真实度有待考证，为了解决这一问题，需要相关人员做到的是通过严格的监控措施和测试手段保证数据的真实性和可靠性，严禁因人为原因而对数据的真实性造成影响。

4 结语

综上所述，智慧交通时代的大门已经逐渐向大家打开，在城市化速度不断加快的今天，城市居民对舒适的交通环境和便捷快速的城市道路运输有着十分迫切的渴求，而在大数据分析决策技术基础上智慧交通是大的发展趋势，将为解决城市道路运输问题提供新的思路。智慧交通时代是高效便捷运输的时代，也是现代化的重要标志，通过大量数据汇集融合，能够有效地解决城市交通存在的问题。现阶段，大数据分析决策技术和智慧交通系统发展得还不够成熟，需要在相关人员的不懈努力下，使城市居民能够更早地进入便捷的现代生活中，期待那一天的到来。

数据分析分析技术实用13篇

篇1

篇2

篇3

篇4

篇5

篇6

篇7

篇8

篇9

篇10

篇11

篇12

篇13

相关精选

相关文章

相关期刊

数据