欢迎来到杂志之家!发表咨询:400-888-7501 订阅咨询:400-888-7502 股权代码 102064

大数据技术论文实用13篇

大数据技术论文
大数据技术论文篇1

1.2云计算的发展

云计算可以像电力资源一样提供弹性的按需服务,事实上它是集合了一系列的服务提供给用户。云计算的核心可分为三个层次,分别为基础设施层、平台层、应用层,如图2所示。云计算将基础设施、软件运行环境、应用程序抽象成服务,具有可靠性高、可用性强、规模可伸缩等特点,满足了不同企业的发展需求,各个云服务提供商根据各自服务对象的差别分别开发了各具特色的云服务。(1)基础设施即服务层基础设施即服务(InfrastructureasaService,IaaS)层通过部署硬件基础设施对外提供服务,用户可以根据各自的需求购买虚拟或实体的计算、存储、网络等资源。用户可以在购买的空间内部署和运行软件,包括操作系统和应用程序。消费者不能管理或控制任何云计算基础设施,但能控制操作系统的选择、存储空间、部署的应用,也有可能获得有限制的网络组件(如防火墙、负载均衡器等)的控制。云服务提供商为了使硬件资源得到更有效的利用,引入了Xen、KVM、VMware等虚拟化技术,使得云服务商可以提供更个性化的IaaS服务。亚马逊弹性云计算(AmazonElasticComputeCloud,AmazonEC2)是亚马逊Web服务产品之一,AmazonEC2利用其全球性的数据中心网络,为客户提供虚拟主机服务,让使用者可以租用云服务运行所需应用的系统。(2)平台即服务层平台即服务(PlatformasaService,PaaS)层是指云计算应用程序开发和部署的平台,包括应用设计、应用开发、应用测试和应用托管,都作为一种服务提供给客户。开发者只需要上传代码和数据就可以使用云服务,而无需关注底层的具体实现方式和管理模式。鉴于PaaS平台的重要意义,国内外厂商根据各自的战略提出了相应的PaaS平台,国外的如GoogleAppEngine(GAE),通过GAE,即使在重载和数据量极大的情况下,也可以轻松构建能安全运行的应用程序。国内也有新浪的SAE(SinaAppEngine)、阿里的ACE(AliyunCloudEnginee)等。(3)软件即服务层软件即服务(SoftasaService,SaaS)层是为云计算终端用户提供基于互联网软件应用服务的平台。随着Web服务、HTML5、AJAX、Mashup等技术的成熟与标准化,SaaS应用近年来发展迅速,典型的SaaS应用包括GoogleApps、SalesforceCRM等。国外云计算平台比较成功的应用案例有:亚马逊电子商务网站根据用户的购买行为和搜索技术搭建Hadoop集群,构建推荐系统;Twitter社交网站搭建Hadoop分布式系统用于用户关联的建立。国内云计算平台的成功案例有:阿里巴巴目前整个集群达到1700个节点,数据容量达到24.3PB,并且以每天255TB的速率不断攀升;2013年,华为推出国内首个运营云平台,目前为止与该平台签订协议的ISV有3000多家。

1.3云计算相关技术

(1)分布式文件系统分布式文件系统(GoogleFileSystem,GFS)[3]是Google公司针对云计算过程处理海量数据而专门设计的。一个GFS集群由一个主节点和多个从节点组成,用户可以通过客户端访问文件系统,进行正常的文件处理工作。在云计算中,海量数据文件被分割成多个固定大小的数据块,这些数据块被自动分配到不同的从节点存储,并会在多个节点进行备份存储,以免数据丢失。主服务器管理文件系统记录文件的各种属性,包括文件名、访问控制权限、文件存储块映射、块物理信息等数据。正是通过这个表,文件系统可以准确地找到文件存储的位置,避免数据丢失,保证数据安全。图3是GFS的体系结构示意,每一个节点都是普通的Linux服务器,GFS的工作就是协调成百上千的服务器为各种应用提供服务。(2)分布式并行数据库BigTableBigTable[4]是一个为管理大规模结构化数据而设计的分布式存储系统,可以扩展到PB级数据和上千台服务器。很多Google的项目使用BigTable存储数据,这些应用对BigTable提出了不同的挑战,比如对数据规模的要求、对时延的要求。BigTable能满足这些多变的要求,为这些产品成功地提供了灵活、高性能的存储解决方案。BigTable采用的键是三维的,分别是行键(RowKey)、列键(ColumnKey)和时间戳(Timestamp)。行键和列键都是字节串,时间戳是64位整型;值是一个字节串,可以用(row:string,column:string,time:int64)string来表示一条键值对记录。(3)分布式计算框架MapReduceMapReduce[5]是Google公司提出的大数据技术计算框架,被广泛应用于数据挖掘、海量数据处理以及机器学习等领域,由于其并行化处理数据的强大能力,越来越多的厂商根据MapReduce思想开发了各自的云计算平台,其中以Apache公司的Hadoop最为典型。MapReduce由Map和Reduce两个阶段组成。用户只需要编写简单的map()和reduce()函数就可以完成复杂分布式程序设计,而不用了解计算框架的底层实现。MapReduce的数据分析流程如图4所示。分布在不同服务器节点上的海量数据首先通过split()函数被拆分成Key/Value键值对,map()函数以该键值对为输入,将该键值对进行函数处理,产生一系列的中间结果并存入磁盘。MapReduce的中间过程shuffle()将所有具有相同Key值的键值对传递给Reduce环节,Reduce会收集中间结果,并将相同的Value值合并,完成所有工作后将结果输出给用户。MapReduce是一个并行的计算框架,主要体现在不同的服务器节点同时启动相同的工作,并且在每个独立的服务器节点上又可以启动多个map()、reduce()并行计算。

2基于云计算的大数据处理

目前大数据处理的基本流程如图5所示,整个流程经过数据源的采集,用不同的方式进行处理和加工,形成标准的格式,存储下来;然后用合适的数据计算处理方式将数据推送到数据分析和挖掘平台,通过有效的数据分析和挖掘手段,找出大数据中有价值的信息;最后通过可视化技术将信息展现给人们。

2.1数据采集存储

大数据具有不同结构的数据(包括结构、半结构、非结构),针对不同类型的数据,在进行云计算的分布采集时,需要选择不同的数据采集方式收集数据,这也是大数据处理中最基础的一步。采集到的数据并不是都适合推送到后面的平台,需要对其进一步处理,例如来源不同的数据,需要对其进行加载合并;数据存在噪声或者干扰点的,需要对其进行“清洗”和“去噪”等操作,从而保障数据的有效性;数据的格式或者量纲不统一的,需要对其进行标准化等转换处理;最后处理生成的数据,通过特定的数据库,如NoSQL数据(Google的BigTable,Amazon的Dynamo)进行存储,方便进行下一步的数据读取。由于传统的数据仓库无法适应大数据的存储要求,目前基于云计算的数据仓库都是采用列式存储。列式存储的数据具有相同的数据类型,可以大大提高数据的压缩率,例如华为的云存储服务MOS(MassiveObjectService)的数据持久性高达99.9%,同时提供高效率的端到端保障。

2.2数据计算模式

这一环节需要根据处理的数据类型和既定目标,选择合适的计算模型处理数据。由于数据量的庞大,会消耗大量的计算资源,因此,传统的计算技术很难使用大数据的环境条件,取而代之的是分而治之的分布式计算模式,具有代表性的几种计算模式的特点见表1。采用批处理方式计算的Hadoop平台,例如,Facebook拥有全球最大规模的Hadoop集群,集群机器目前超过3000台,CPU核心更是超过30000个,可以存储的数据量能够达到惊人的40PB;采用流处理方式计算的Storm平台分布式计算的时延比Hadoop更小;实时处理方式计算的Spark是一种基于内存的计算模式,例如,Yahoo运用Spark技术在广告营销中实时寻找目标用户,目前在Yahoo部署的Spark集群有112台节点和9.2TB内存;交互处理方式计算的Dremel在处理PB级别的数据时耗时可以缩短至秒级,并且无需大量的并发。

2.3数据分析挖掘

数据分析挖掘环节是从海量数据中发现隐藏规律和有价值信息的过程,这个环节是大数据处理流程最为有价值和核心的部分,传统的数据分析方法有机器学习、商业智能等。传统的数据挖掘十大算法[6](其中有K-Means、Na觙veBayes、SVM、EM、Apriori等)在云计算环境下都得到了大幅度的并行优化,在大数据的背景下,计算速度得到了很大程度的提升。现在新兴的深度学习是原始机器学习的一个新领域,动机是在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,这种新的数据分析挖掘技术已经在计算机视觉、语音识别、自然语言处理等领域有了成功的应用。

2.4数据解释展现

将挖掘出来的复杂信息进行数据解释和展现是整个大数据处理流程的最后一个环节,数据分析的结果需要向客户进行恰当的展现。与传统的数据输出和文本展示等方式不同,现在绝大部分的企业都通过引进“数据可视化”技术来展示大数据分析的结果信息,这种方式以图像、动画等方式,形象地向客户展现数据处理分析的结果,也容易被客户理解和接受,更为先进的是,现在逐步形成的“交互式可视化技术”,大大地方便了数据与人之间的“亲密交流”。目前面向大数据主流应用的可视化技术见表2。

3大数据和云计算的未来挑战

大数据需要超大存储容量的计算能力,云计算作为一种新的计算模式,为大数据的应用研究提供了技术支持,大数据和云计算的完美结合,相得益彰,发挥了各自的最大优势,为社会创造了巨大的价值。虽然国内大数据和云计算的研究还是处于初步阶段,但随着研究的不断进行,所面临的问题也越来越多。在大数据向前不断迈进的阶段里,如何让我们对大数据的研究朝着有利于全人类的方向发展成为了重中之重。

3.1重要战略资源

在这个信息社会里,大数据将会成为众多企业甚至是国家层面的重要战略资源。国家层面要将大数据上升为国家战略。奥巴马在2012年3月将“大数据战略”上升为最高国策,像陆权、海权、空权一样,将数据的占有和控制作为重要的国家核心能力。大数据资源也会成为各种机构和企业的重要资产以及提升企业社会竞争力的有力武器。在大数据市场里,客户的各种数据信息都会为企业创造价值,也会在促进消费水平、提高广告效应等方面扮演重要的角色。

3.2数据隐私安全

大数据如果运用得当,可以有效地帮助相关领域做出帮助和决策,但若这些数据被泄露和窃取,随之而来的将是个人信息及财产的安全问题得不到保障。2011年索尼公司遭到黑客攻击,造成一亿份客户资料泄露,经济亏损约1.71亿美元。为了解决大数据的数据隐私安全问题,Roy等在2010年提出了一种隐私保护系统,将信息流控制和差分隐私保护技术融入到云计算平台中,防止MapReduce计算过程中的数据泄露问题。在数据更新飞速的情况下,如何维护数据的隐私安全成为大数据时代研究的重点方向。

3.3智慧城市

人口的增长给城市交通、医疗、建筑等各方面带来了不小的压力,智慧城市就是依靠大数据和云计算技术,实现城市高效的管理、便捷的民生服务、可持续的产业发展。在刚刚结束的“两会”的政府工作报告中,总理也特意强调了智慧城市发展的重要性,目前国家智慧城市试点已遍布全国各地,多达409个。智慧安防、智慧交通、智慧医疗等都是智慧城市应用领域。智慧城市的建设也趋使大数据人才的培养。据预测,到2015年,大数据将会出现约100万的人才缺口,全球将新增440万个与大数据相关的工作岗位来填补这个空缺。

大数据技术论文篇2

会议文献是指在各类学术会议上宣读的论文、论述、总结等形式的文献,包括会议前参加会议者预先提交的论文文摘、在会议上宣读或散发的论文、会上讨论的问题、交流的经验和情况等经整理编辑加工而成的正式出版物[1]。文献是进行学术交流的重要知识资源,大多数会议文献都具有独到的学术见解和新颖的学术观点,学术质量较高。许多会议文献还公布科研人员取得的新进展与新成果,并提出新的研究课题和新的研究设想。因此,会议文献往往具有专业性强、学术水平高、内容新颖、信息量大、可靠性强、出版速度快及发行方式灵活等特点[2]。

会议论文作为仅次于科技报告的十大情报源之一,代表了一个国家或地区在某一时期,在相关学术领域内取得的最高学术水平,是进行科学研究的文献信息保障,具有较高的学术价值和情报价值,是推动人类社会发展、科技进步的必备文献之一。

近年来,随着数字化加工、处理技术及信息检索技术的迅猛发展,各大图书馆以及数据库商开始将会议论文数字化,以期为受众提供更加便捷的数据服务。目前,国内综合性学术会议论文数据库主要有三个:CNKI的 《中国重要会议论文全文数据库》、万方数据的《中国学术会议文献数据库》、上海图书馆的《全国学术会议篇名数据库》。

本文通过对这三个数据库的统计调查,对国内主要学术会议论文数据库的建设和利用状况进行了初步分析,特别关注了所面临的共同问题,分析其产生原因并给出了相应对策与展望。

二、国内主要学术会议论文数据库开发所处的环境

(一)政治环境

近年来,政府在工作报告中指出,要“引导科研机构、高等院校的科研力量为企业研发中心服务,提高原始创新能力”。坚定不移地实施“国家知识产权战略”“倡导学术诚信、鼓励独立思考、保障学术自由、弘扬科学精神”。在政策的保障和推动下,学界的主动性明显增强,学术交流活动日见活跃,呈现出蓬勃发展的态势。

(二)经济环境

目前,整个市场经济正步入转型升级的阶段,各领域之间的渗透交融越来越明显。科研人员、教育界人士、政府机构对学术会议转化的成果需求日益旺盛,愿望日益迫切。传统图书情报机构对于会议文献的揭示已经难以满足受众的需求,需要寻求更为高效、精确的揭示途径和呈现模式。

(三)社会环境

《中国重要会议论文全文数据库》和《中国学术会议文献数据库》的总部在北京,《全国学术会议篇名数据库》总部在上海。京沪两地历史悠久,文化积淀深厚,在上海能感受到海纳百川的思想碰撞,北京更是汇聚了大量优质的教育文化资源,国内高质量的学术会议有很大部分都选择在这两地召开,办会条件成熟度高,具备明显的资源优势。

(四)技术环境

数字化加工技术的进步,互联网技术的快速发展为会议文献的揭示和服务提供了良好的支持,数据库开发者得以运用这些成熟的技术,来构建会议论文资源,成为采集、加工、保存、服务的技术平台。并通过互联网向全国乃至全世界提供学术会议论文数据服务,实现资源共享。

三、学术会议论文数据库建设和利用的现状

《全国学术会议篇名数据库》由上海图书馆上海科技情报所制作。该库建库时间早,早在1958年零星的资料收集就已出现。该数据库正式始建于1982年,最初以微缩胶片形式全文,1998年开始建立光盘及网络版数据库。《中国学术会议文献数据库》由北京万方数据有限公司制作,始于1983年,于1995年建光盘库,1997年通过Chinainfo出网络版文摘库,2002年网络版全文库。万方数据有限公司成立于1993年,是一家以中国科技信息研究所为基础,直属科技部的股份制高新技术有限公司。《中国重要会议论文全文数据库》由清华同方知网(北京)技术有限公司制作,教育部主管,该数据库始于1999年,能实现多库并行检索,具有强大的综合优势。(参见表1)

(一)会议论文收录量

万方《中国学术会议文献数据库》以250多万篇的数据量独占鳌头,CNKI《中国重要会议论文全文数据库》以200多万篇紧随其后,上图《全国学术会议篇名数据库》为120万篇,数据量较少。

(二)z索功能比较

基本的字段检索、高级检索和专业检索功能均无太大差异。万方和CNKI 均提供相似文献推荐服务,万方还提供与互动百科的词条链接服务;CNKI的分类导航、论文集导航和会议导航均做得较为出色,使用体验较佳。

(三)全文服务

万方和CNKI 均提供会议论文全文下载,会议论文索引免费获取,上图库仅提供篇名服务,需线下联系以获取全文。

学科导航(大类数量) 基本按照中图法,A大类不单列 分为十大专辑:基础科学、工程科技Ⅰ、工程科技Ⅱ、农业科技、医药卫生科技、哲学与人文科学、社会科学Ⅰ、社会科学Ⅱ、信息科技、经济与管理科学。十专辑下又分为168个专题。 无

(四)数据库收录会议情况抽样比较

通过对三个数据库5年内的收录数据进行统计,在此基础上对相关类目进行抽样比较分析得出如下结果。

(五)会议论文收录情况比较(参见表2)

2008~2012年,万方收录论文集12593种,年均2546个会议;CNKI收录7897种,年均1379个会议;上图收录3076种,年均613个会议。

(六)会议论文收录学科分布情况比较

万方会议论文收录科技类占总量的83.58%,其中工业技术比例最大,占39.07%;CNKI科技类占总量的73.80%,其中工业技术占30.00%;上图科技类占总量的68.40%,工业技术占30.92%。万方会议论文科技类占比是三个库中最高的,工业技术也是三个库占比最高的大类。上图会议论文中社科类占比为三个库中最高。

(七)收录会议重复情况比较

从5年内的抽样统计结果看,万方收录的会议论文集数量与上图收录的论文集数量重复率在大约是上图的50%。同时,万方和CNKI的重复量也基本上占CNKI的二分之一。

从上述调研及统计中发现,在建设力度方面,公益机构(上图)对会议文献数字资源的建设力度并不大,开展的服务力度非常有限,利用率不高;在加工深度方面,仅仅停留在对文献的数字化扫描的数字化还原层面,远未达到资源的深度揭示。相比较公益机构的迟缓,嗅觉灵敏的商业机构却在资金技术人力方面加大投入,采用全文扫描识别技术,力图深度揭示文献内容的内在关联,为受众提供更加人性化、个性化的服务。

四、存在的问题与对策

通过以上分析比较,我们发现,目前三个国内主要会议论文数据库之间数据体量差异较大,有一定的重复率。同时,因为数据库制作者的不同,制作标准不一,对同一种会议文献,不同的单位可能按不同的文献类型来处理,规范程度也不尽如人意[3]。由此影响了会议论文数据的查全率和查准率,给受众的正常使用带来诸多不便。学术会议是新研究成果的重要场所。据统计,有近1/3的学术成果是在相关会议上首次公布的;学术会议对本学科领域重大事件的首次报道率也是最高的。可以这么说,只参考期刊文献,不参考会议文献,科研的开创性将不复存在。因此,各大数据库应以读者的利益为出发点,达成共识,分工协作,不断提高兼容性,才能更好地为读者提供优质服务。

(一)增进沟通,统筹规划

会议文献数量巨大,任何一家机构都不可能独立收全所有的学术会议文献。这就首先需要全国各文献情报机构精诚协作,整合分布在各高校图书馆、公共图书馆、情报机构、数据公司中的会议文献资源,将资源进行充分的梳理、组合;其次要借鉴运作模式相对成熟的数据公司的力量,依托公益机构专业的分类标引手段,将公众资源和商业力量进行统一的运作规划,联合共建从而合理分配使用社会资源。如此,必然可以减少重复建设,从而提供更丰富优质的服务。

(二)规范制作,深度揭示

在数据库建设过程中,有必要建立规范的会议文献数据库,将不同出版形式的会议文献统一纳入该数据库,按照会议文献的特征和著录规范进行著录。同时,对会议文献的开发不能停留在全文提供的层面,应认真调研,做好深层次开发的准备,以深度标引为基础,提高资源揭示的深度与内在关联性,进一步完善会议文献的数字化建设工作。在服务平台相关功能上,论文数据的精准定位、深度标引以及全文的可检索途径已成为服务平台不可或缺的功能之一,必须充分考虑并挖掘这一功能。

(三)丰富内容,深化服

新一代的会议论文服务平台,不应当仅仅是提供论文检索的数据库,更应当以满足用户多样化需求为着力点,将服务延伸至会前、会中和会后。从会议预告到相关新闻,从篇目揭示到文献传递,从单向提供会议信息到支持用户相关信息,资源共享、开放协作将是未来会议文献数据库的发展趋势。

【参考文献】

大数据技术论文篇3

摘要:通过中国知网,从年量等七个方面,对咸阳职业技术学院(以下简称咸阳职院)自升格高职以来发表的期刊论文进行了

>> 基于Web of science数据库竞争情报论文的统计分析 渭南职业技术学院科研论文计量分析 陕西财经职业技术学院科研论文计量分析 基于iHistorian的实时数据库工业报表自动统计分析系统的研究 基于组织机构代码数据库的应用统计分析初探 2006~2012年SCIE数据库收录扬州地区二、三级医院科技论文的统计分析 咸阳职业技术学院物流实训中心建设的构想 数据库在乙型肝炎血清免疫标志物统计分析中的应用 电视机基板品质信息统计分析系统数据库设计 咸阳职业技术学院校园主要绿地植物病害调查初报 咸阳职业技术学院通过微课比赛提升教师信息化水平 基于数据仓库技术的保险业统计分析系统设计 管理数据的统计分析 信息技术在教育科研问卷调查及数据统计分析中的应用 科研院所统计分析中数据的可比性 天津电子信息职业技术学院2009―2013年计量分析 职业院校的科研定位及特色――以宁夏职业技术学院为例 基于BYOD的职业技术学院信息化建设的部署策略 基于web的泸州职业技术学院毕业设计监控平台研究 基于Web of Knowledge Web服务的机构论文统计分析系统 常见问题解答 当前所在位置:.

[3] 秦丽萍, 桂云苗. 基于CNKI的安徽工程大学学术文献计量分析[J]. 安徽工程大学学报,2013,28(3):91-95.

[4] 杨聪, 孙宾宾. 基于CNKI的陕西工业职业技术学院科研论文统计分析[J].电子制作,2015(2):93-94.

[5] 容敏华. 广西高等医学院校发表教育教学论文的统计分析[J]. 卫生职业教育, 2014(23):104-105.

大数据技术论文篇4

非物质文化遗产是人类文明发展的重要组成部分,早在20世纪70年代,相关研究者和学者已采用摄影技术、录音技术等技术对文化遗迹、考古发现等多种非物质文化遗产进行记录和保存。而在实际工作中,这些资料却无法由于相对局限的技术手段得以长存,例如图像的失真、录音的老化等等。计算机技术和互联网技术的发展使数字化保护走入非物质文化遗产保护的范畴,并在当前取得一定的成绩。本文试从剪纸非物质文化遗产的数字化保护出发,对相关理论研究和实现手段进行探讨,为相关非物质文化遗产数字化保护提供一种新思路。

一、相关理论和技术

在非物质文化遗产保护的技术上,当前主流的技术有两种。其中一种是使用信息技术手段对非物质文化遗产所具备的信息进行采集、转换并使其适应存储环境。再之则是对其所具备的信息或做简单处理或直接不处理进行存储。后者在实现上较为简单,却为后续工作带来不少麻烦。例如信息的简单编码处理如若深度不够,后期将花费更多的资源和人力参与研究延续非物质文化遗产的内容,对非物质文化遗产的传播和原生态环境的重构也是一个困难。

相关文献指出,对于非物质文化遗产,其信息与数据的区别在于前者在于对数据进行精简之后取得的更容易被计算机或相关第三方所理解,而后者是某种物理量的真实反映。因此数据处理在某种程度上代表了处理者对信息处理的主观意愿。在此之前,英国学者提出了知识资产研究中的信息空间,即被业界广泛所知的“I模型”。I模型的出现也为非物质文化遗产的数字化保护提供了一个理论基础。I空间的三个坐标分别代表编码、抽象以及扩散。编码程度在非物质文化遗产保护上是用于衡量表达方式在多大的程度上可以为计算机所理解接受;抽象则用于对其理论的综合描述和特征提取;扩散则在另一方面体现了非物质文化遗产的传播以及后续的信息恢复和原生态构建。通过I空间,理论研究可以对非物质文化遗产的价值与传播、形式与存储、保护及其目标进行进一步讨论,此处不再赘述。

剪纸艺术是2006年国家公布的518项非物质文化遗产之一,是广大人民群众的艺术积累和结晶,品种多、分布广。在对剪纸的技术保护上,信息的采集点在于制作的技术手法和作品的表现形式。特别是作品的表现形式,是对剪纸非物质文化遗产的主要概括。当然,两者也是联系紧密的,根据上述的I空间理论,剪纸保护可以根据其在I空间的位置进行讨论。

二、剪纸的数字化保护

(一)数据库的设计

综上所述,剪纸的种类多,且表达方式多、表现效果丰富,如何对其进行数据上的信息提取是实现数字化保护的关键,结合当前计算机技术,数字化保护的基础在于数据库的设计。在实现上必须对剪纸的艺术特点进行数字化抽象提取。其中基本元素和典型符号库的设计是数据库设计的根本所在。因此首先对覆盖较为完整的剪纸图案进行收集和分析,提取出常用的元素。例如剪纸中的曲线、直线、多边形、花样、小孔、月牙形、水滴形等等。其次,对图像进行归纳,形成图像数据库。对收集的剪纸图案,可以分为动物、人物、植物、风俗、服饰和建筑等多种类别,并在软件后台数据库中建立相应的表与其对应。再之,根据应用目的,可以将其分为美化环境类、礼仪喜庆类、祭祀信仰类和服饰佩戴类四大类,四大类进行下一级的分类,通过多重分类实现库的搭建,此处亦不再赘述。

(二)软件设计

在数据库构建完毕后,软件设计可以分为图像处理模块、数据库管理模块、查询模块、数据存储模块。实现上可以通过VISUAL2010和SQL SERVER 2008进行搭配设计。

各模块功能在实现上可以由如下进行:首先图像处理模块提供了图形编辑器,人机交互界面提供给操作者绘图平台,绘制完毕的图像将进入数据存储模块中的基本图像数据库和基础元素数据库。

三、结语

本文结合非物质文化遗产的数字保护对剪纸艺术的数字保护做了理论浅析和探讨,并借此简单阐述对剪纸艺术的数字保护技术实现方式,包括数据库的搭建和软件的设计,为剪纸文化的保护与开发提供一种实现思路。

参考文献:

[1]许中美.民间剪纸里的动物图形寓意[J].菏泽学院学报,2007(04).

大数据技术论文篇5

一、元数据档案整理技术

“元数据档案整理技术”是西方档案界提出的一种档案整理技术。而西方产生这种技术的实践基础是,他们利用计算机网络及其技术实现了“电子政务”,并且使“电子政务平台”成为他们日常行政管理的实践基础和管理工具。

在这种特殊的条件下,电子政务系统本身不仅能产生着电子文件、而且也能提供电子文件的实体信息(数据),并且能根据电子文件生成的具体环节,提供隐含在具体环节背后的、电子文件与社会实践及其过程之间的对应信息——元数据(数据的数据),即档案实践通常所称的“档案历史联系信息”。于是,嵌在电子政务平台中的档案整理系统就可以在电子政务的支持下,利用所采集的“元数据”完成“档案历史联系”的整理,它不但获得了“电子文件实体集合”,而且具有了足以使这一文件实体集合转化为档案的“档案历史联系的记录”。而“电子文件实体集合”和“档案历史联系的记录”这两种物质实体的获得,就构成了它所要得到的电子档案实体。因此“元数据档案整理技术”本身是一个具有科学性、高自动化程度的档案整理技术体系。

由于现在西方和我国还只是将“元数据档案整理技术”嵌入到了电子政务系统,所以有人可能误认为,元数据档案整理技术只适用于电子政务。其实不然,它不但能适应电子政务的档案整理,而且也能适应诸如电子银行、电子商务、电算化会计等等电子管理平台的应用。事实上,只要人们能为某一社会实践的管理建立电子管理的平台,那么元数据档案整理技术就能嵌入这个电子管理系统,成为适应它的档案整理技术。所以“元数据档案整理技术”本身是一种具有很宽实践范畴的实用档案整理技术。

“元数据档案整理技术”所具有的特征是,它彻底变革了传统档案实体整理的技术,成为“文件实体整理”与“档案历史联系整理”分离的技术。这种文件实体与档案历史联系整理的技术分离,使元数据档案整理技术中的“档案历史联系整理”,不再受电子文件实体的干扰,而使档案整理真正地进入了多元的时代,使档案整理原则从一维的“来源原则”,发展为具有“实践主体”、“实践客体”和“年代”的多维“历史原则”。“元数据档案整理技术”所具有的“文件实体整理与档案历史联系整理技术的分离”、“档案历史联系整理的多维化”、“档案整理原则的多元化”和“档案物质实体的双重构成”是其档案整理技术的四大特征。

二、非元数据档案整理技术

在档案整理技术中“非元数据”与“元数据”是相对存在的两种档案整理技术。从概念上说,除了“元数据”的档案整理技术之外,都属于“非元数据”档案整理的技术范畴。但本篇文章不再研究传统的档案实体整理,它包含的只是新提出的“以‘件’为单位的档案整理技术”、“双套制的档案整理技术”和“不同载体的混合档案整理技术”。

不管是“以‘件’为单位的档案整理技术”,还是“不同载体的混合档案整理技术”,它们的档案实体整理与档案历史联系整理都是相互分离的。“双套制的档案整理技术”比较特殊,从表面上看,它是用整理纸质档案的方法完成了电子档案的整理,但它同样告诉我们,也能够用整理电子档案的方法整理纸质档案。由此我们可以看出,中国档案界提出的这些非元数据的档案整理技术,具有一个共同特点,即它们都是“档案实体整理”与“档案历史联系整理”相互分离的档案整理技术。由于这些“非元数据档案整理技术”是“档案实体整理”与“档案历史联系整理”相互分离的技术,所以它们就同样都能实现档案历史联系的多维化。它的档案整理原则,也可以从一维的“来源原则”,过渡到具有“实践主体”、“实践客体”和“年代”的多维“历史原则”。它们最终都要形成由“文件的实体集合”和“档案历史联系的记录”两种物质实体共同构成档案。

于是我们发现,中国提出的非元数据档案整理技术虽然还存在着许多的缺点,但在“质”上,这些非元数据档案整理技术都具有“文件实体整理与档案历史联系整理的分离”、“档案历史联系整理的多维化”、“档案整理原则的多元化”和“档案物质实体的双重构成”的四大档案整理技术的特征。

三、两种典型档案整理技术的比较

我们的研究发现,虽然非元数据和元数据档案整理技术的技术环境、流程和操作方法有着很大的不同,但它们具有相同的四大特征,并且这两种档案整理技术具有相同的内在结构,完全可以用同一的《档案整理结构的模型》来认识和解释它们的机理和过程。或者说,是因为它们具有相同的档案整理结构,所以它们才具有它们的共同特征。所以非元数据和元数据档案整理技术这两种看似非常不同的档案整理技术,其实是同一档案整理结构的两种不同技术表现形式。

为什么会产生这两种不同的档案整理技术形式,或者说,西方为什么采用元数据档案整理技术,而中国为什么要采用非元数据档案整理技术,而这是相同的档案整理原理为适应不同国家档案实践条件而产生必然结果。在中国,其实始终存在着两种不同的档案实践和理论体系。一种是,从民国时期开始的“文档连锁法”,后来的“文档一体化”和现阶段提出的“文件中心”,与之相应的则是文件生命周期理论;而另一种则是,与文书实践分离的档案实践,在解放后,中国接受了前苏联的档案实践和“立卷人——档案室——档案馆”的档案实践体制,同时也就形成了有别于西方的档案学理论。

原理、价值和理念要过渡到实践,就需要技术的中介,由于技术离实践更近,所以它更要受到实践的约束,先进的技术并非在哪里都适用,对谁都是具有实用的价值。中国人民大学王健教授在国家社科基金项目“OA环境下的文件、档案一体化管理研究”的技术报告中就客观和直率地提出,在中国“无论是档案行政管理机构,还是档案馆,都无权指导各机构的文件工作,……因而无法具备全面的一体化功能。”①对于在中国建立文件中心的问题上她也指出“全盘否定档案室的态度是不科学的,完全撤销档案室的做法是不现实的,在保留档案室的基础上再重建一套文件中心是不必要的,简单地将档案室改名为文件中心也解决不了根本问题。”②这些认识对于认识档案整理技术的发展同样有效。

我们应特别注意,计算机化与现代化是两个不同的概念,比如,一种档案整理技术虽然没有实现计算机化,但如果它能实现多维的档案历史联系联系整理;而另一个虽然实现了计算机化,但它形成的档案历史联系却是一维的,那么我们究竟应该将哪种技术判断为现代档案整理技术呢?档案整理技术现代化的关键是档案整理技术内容上的现代化,计算机化只是档案整理现代化的一种外在的形式。

在自动化和计算机技术应用的程度上,元数据显然要高于非元数据档案整理技术。但在中国发展元数据档案整理技术,有着诸多档案界自身无法克服的现实障碍,但只要我们放弃部分元数据档案整理技术的高自动化要求,那么就可以在不改变档案工作体制、不需要实现“文档一体化”、能脱离电子政务环境、不用制定也不依赖“档案元数据集”的条件下,创造出一种可应用于文书和科技档案、并适用于纸质文件、电子文件和实物混合的、非常实用的档案整理技术。所以不要简单化地根据计算机技术的应用程度,来论档案整理技术的长短。

四、中国档案整理技术前景的展望

通过“非元数据档案整理技术”与“元数据档案整理技术”的比较研究,我们认为:

中国档案界,须在元数据和非元数据档案整理技术之间做一抉择,这是不能回避的。它不是单纯的档案理论和技术问题,而是干系到中国档案事业未来发展的一次抉择。它是档案工作者、档案学者和中国档案事业的领导者都必须倾心关注的问题。

不应该排斥元数据档案整理技术,但在相当长的一段时期内,“非元数据档案整理技术”应该是一条更适应中国国情的档案整理技术路线。我们甚至认为,它是迟早要被国人所接受的一种档案整理技术。

“非元数据档案整理技术”虽然已经有了基础,但技术整体还处于相当混乱的状态。我国应该在夯实它的档案学理论基础、简约它的技术、注重它的实用性的前提下,统一制定中国的档案整理技术规范。其结果应该是创造出一种具有中国特色的档案整理技术体系和理论。这也是中国档案界在世界有所建树的一个契机。

大数据技术论文篇6

数字图书馆(Digital Library,简称DL)是国家基础设施的重要组成部分,目前已成为国际高科技竞争中新的制高点,成为评价一个国家信息基础设施水平的重要标志,也是目前世界各国图书馆正在竞相研究和发展的重大课题。我国图书馆界和信息科学领域对数字图书馆的研究起步较晚,但近年来有了突飞猛进的发展,成为当前图书情报界研究的一个热点问题。

为了解近十年来我国数字图书馆领域的研究成果及发展趋势,比较准确的呈现我国数字图书馆的研究现状,本文以数字图书馆为检索词,对维普中国科技期刊数据库中1997—2006年发表的论文进行了检索,共得到相关论文1028篇。由于检出文献数量巨大,为便于分析,笔者筛选了图书情报工作、大学图书馆学报、情报杂志等17种图书情报类核心期刊,得到抽样论文300篇。下面就以这些论文为依据,对近十年来我国数字图书馆的研究方向及研究内容进行总体上的概括和评价。

1 基础理论研究

1.1 数字图书馆的定义

自从数字图书馆概念出现以来,始终没有一个统一、明确的定义,不同的论文作者从不同角度对其进行了各自的阐述,形成了颇具代表性的几种观点:⑴数字图书馆是采用现代高新技术的数字信息资源系统,是下一代因特网信息资源的管理模式,将从根本上改变目前因特网上信息分散不便于使用的现状。免费论文参考网。通俗地说,数字图书馆是没有时空限制的、便于使用的、超大规模的知识中心。⑵数字图书馆是超大规模的、可以跨库检索的海量数字化信息资源库。并详细解释为,所谓数字图书馆就是对有高度价值的图象、文本、语音、音响、影像、影视、软件和科学数据等多媒体信息进行收集,组织规范性的加工,进行高质量保存和管理,实施知识增值,并提供在广域网上高速横向跨库连接的电子存取服务。同时还包括知识产权、存取权限、数据安全管理等范畴。⑶数字图书馆是一个全球性的、分布式的大型知识库,即以分布式海量数据库群为支撑,基于智能技术的大型、开放、分布式信息库。综上所述,虽然对数字图书馆不能给出一个规范的、权威的定义,但是从不同的定义中我们却可以发现,数字图书馆的内涵要比传统图书馆广泛得多。数字图书馆的定义将会随着数字图书馆研究和建设的深入而不断完善。

1.2 数字图书馆的特征

关于数字图书馆的特征,主要有以下几种不同表述:

杨沛超、魏来认为,数字图书馆可以有许多不同的表现形式,但从根本上看,它就是利用网络设施将数字化的信息资源,通过多种途径快速、有效的提供给用户的一种全新的图书馆形态。其特征主要表现在三个方面:① 数字化资源;② 网络化存取;③ 分布式管理[1]。徐文伯提出数字图书馆的三个特征为:① 分布的、但在统一的标准下建设;② 可以在统一的网络平台上运行;③ 可以不断扩展[2]。罗维维指出,和传统图书馆相比,数字图书馆具有以下特征:首先,它本身并不是一个实体单位,而是虚拟的,不存在物理上馆舍的界定。其次,它不是简单的数字馆藏,数据库的数据范围要比图书馆的收藏范围大得多。第三,它的研究和实施是由计算机通讯领域的研究人员为主,参与制作数据库的人员涵盖许多不同行业,其中信息科学领域和图书馆界作出了很大的贡献[3]。综上所述,数字图书馆是21世纪图书馆的发展方向,尽管目前还不能完全准确地把握数字图书馆的所有特征,但从发达国家已经出现的数字图书馆雏形和以上学者的描述中,可勾画出它的某些特征,初步展示了未来数字图书馆的风采。

2 建设模式研究

近年来,学术界在实践的基础上,探讨了数字图书馆的三种模式:第一种是单纯化的理想数字图书馆模式,即技术指导型。它支持面向对象的分布式查询的资源库,并且通常支持基于知识内容的检索,具有人性化的人机界面。这一模式囊括了现代信息技术的大成,但依靠图书馆自身的力量,有重重困难。第二种模式,就是传统图书馆向数字图书馆转型的模式,它是传统图书馆与数字化资源有机结合的复合型图书馆,又称混合式图书馆,它不是本质意义上的数字图书馆。第三种模式是前两种模式的综合或者说是简化。

3 技术研究

数字图书馆是当今计算机、通讯、信息内容处理等高新技术之综合体现,也是目前世界上信息技术领域的前沿研究课题。免费论文参考网。目前,我国学者对数字图书馆的技术研究着墨很多。镇锡惠认为数字图书馆系统主要技术的需求包括:数字图书馆体系结构方面的技术需求;计算机系统—网络系统—存储网络系统模型的技术需求;数字资源加工编辑相关的技术需求;数字图书馆用户服务系统相关的技术需求[4]。刘锋指出CDL(China Digital Library)的关键技术是① 图象、文本、音频、视频数字化技术;② 压缩存储和还原技术;③ 元数据库技术;④ 分布式数据库技术、数据仓库技术;⑤ 知识挖掘、管理技术;⑥ 在线服务技术;⑦ 人机交互技术;⑧ 认证和网络安全技术[5]。胡昌平、吴叶葵讨论了基于Agent的个性化主动服务,并给出了具体的实现方案[6]。赵伟、郑巧英分析了其在广播式、查询式客户端程序设计和结构中的应用以及在协作网中的应用[7]。彭国莉分析了信息推送的类型、服务形式和图书馆信息推送服务的实现[8]。傅湘玲则介绍了推送技术软件和Push技术的应用前景[9]。

4 元数据研究

数字图书馆研究中,元数据研究是重要的组成部分。网络技术的发展,使得以Web形式存在的网页资源呈几何级数上升,要有效地利用这些信息资源,除了搜索引擎外,就是采用相关的著录标准对这些信息资源进行著录,元数据技术由此产生。在元数据的研究成果中,李惠较为系统地概括了元数据在数字图书馆中的应用、收集和维护。她认为元数据可用于信息资源的组织和检索,也是设计和维护数据库的工具,可以成为用户使用数字图书馆的向导。免费论文参考网。在元数据的利用方面,她还介绍了元数据与检索工具相结合的四个集成层次[10]。梁雯指出了元数据在数据仓库的重要角色:它起着定位数据仓库的目录作用,为数据仓库的创建提供必要的信息、描述和定义[11]。而宓永迪、夏勇则介绍了自行开发的网络资源元数据搜索、查询系统,包括了系统的总体结构、工作原理和实现方法。这是一个具有可操作性的实践方案[12]。在网络信息的元数据标准方面,人们已经认同元数据标准是一个网络信息的管理工具,国外的经验值得参考借鉴[13]。未来,元数据研究的侧重点应是:① 技术元数据;② 权限元数据;③ 保存元数据;④ 资源发现元数据;⑤ 元数据检索的工具和系统;⑥ 元数据的标准化问题。

5 知识产权问题研究

知识产权是指人的智力活动创造的精神财富,即智力劳动成果所享有的权利,它包括:著作权、发明专利、商标、厂商名称等等。数字图书馆的知识产权问题主要是针对著作权问题而言。所谓著作权是指著作权人对其文学、艺术和社会科学、自然科学、工程技术等作品享有的署名、发表、使用、出版以及许可他人使用和获得报酬等项权利。加强版权保护可以从多方面采取措施,如通过立法补充和修改《知识产权法中关于保护计算机网络上的版权、作品著作权》的规定,在社会上宣传和普及公众保护知识产权的观念,培养尊重他人著作权的意识,规范和管理网上版权作品的传播使用和出版发行。目前,数字图书馆管理中使用的版权保护方法主要有:⑴ 采取多种多样的技术措施:访问控制技术、数字水印技术、软件加密技术。⑵ 强化权利管理信息的管理:是强化知识产权执法措施的标志,是权利人行使版权的手段;它为版权人设定用户使用作品的条件、监控作品的传播以及追究侵权责任起着至关重要的作用[14]。

6 信息营销机制研究

数字图书馆实行信息营销,是适应时代需要、谋求自身生存发展和满足用户需求的必然要求。数字图书馆实施信息营销时,重点是迅速获取用户需求的变化趋势,整合内部微观环境,作出适应环境变化的反馈。通过信息营销,了解需求,提供服务,把最好的信息,用最方便的方法,在最好的时机送到最需要的人手中,更好地服务读者,树立形象,扩大影响,取得良好的经济效益和社会效益[15]。

7 结束语

近十年来,国内数字图书馆的研究可谓是硕果累累。我们相信,随着对数字图书馆理论研究和实践的不断深入,我国数字图书馆建设一定能够再上一个新台阶,实现我国数字图书馆的宏伟目标,整体推动我国信息化进程,为人类文明的进步做出应有的贡献。

参考 文 献

[1] 杨沛超、魏来. 论中国数字图书馆发展策略[J] . 情报资料工作,2001,(3):16—21.

[2] 徐文伯. 关于数字图书馆的几点认识[J] . 情报资料工作,2001,(3):33—38.

[3] 罗维维. 浅议数字图书馆建设中的几个问题[J] . 中国图书馆学报,2001,(3):64—.69

[4] 镇锡惠. 数字图书馆的主要技术需求[J] . 国家图书馆学刊,2000,(4):21—23.

[5] 刘峰. 国家863计划中国数字图书馆发展对策及研究动态[J] . 情报资料工作,

2001,(2):54—59.

[6] 胡昌平、吴叶葵. 基于三层Agent的个性化主动服务系统的探索[J] . 情报科学,

2001,(4):30—33.

[7] 赵伟、郑巧英. Z39.50技术在上海地区文献资源共建共享协作网中的应用[J] .

图书馆杂志,2001,(5):9—11.

[8] 彭国莉. 图书馆信息推送服务[J] . 图书馆杂志,2001,(5):41—42,53.

[9] 傅湘玲,甘利人. 面向内容的网络信息资源开发的几种新技术探讨[J] . 情报杂志,

2001,(2):37—39.

[10] 李惠. 元数据在数字图书馆中的应用[J] . 情报理论与实践,2001,(1):220—222.

[11] 梁雯. 决策支持新技术——数据仓库[J] . 情报理论与实践,2001,(2):21—22.

[12] 宓永迪、夏勇. 网络资源元数据搜索、查询系统的实现[J] . 图书馆杂志,

2001,(5):36—37.

[13] 吴慰慈,张久珍. 网络信息资源的标准化体系研究[J] . 情报科学,2001,(1):40—45.

[14] 潘芳莲. 数字图书馆管理中的知识产权问题[J],图书馆,2005,(3):66—68,76.

大数据技术论文篇7

“江苏省高校图书馆现代技术应用平台建设”是 “江苏高等学校数字图书馆(JALIS)”三期工程的项目之一,也是JALIS“十二五规划”的预研项目,由扬州大学承建、南京大学等14所江苏高校图书馆参建。该项目的目标之一是面向江苏省高校图书馆技术人员,建设大型技术资源共享的门户网站——“江苏高校数字图书馆技术联盟网络平台”[1]。

1 项目背景

数字图书馆环境建设与服务推广,已经将技术部门推到图书馆服务的前台,图书馆所有服务都依赖技术部门的工作,技术部门的保障能力、将直接关系到服务的开展。图书馆技术人员在数字图书馆建设中角色越来越类似于服务设计者,而非直接的平台构建与技术支撑维护者、软件设计者、资源生产者。

数字图书馆联盟建设经历了两个明显的阶段,即本地管理软件的同构化共建阶段与广泛的资源共知、共建、共享阶段,必将进入第三阶段,即区域范围内甚至全国性的数字图书馆技术力量协作与联盟运作阶段[2]。

“江苏省高校图书馆现代技术应用平台建设”项目的长远目标是通过对优质技术资源与技术服务的整合,发挥整合效益,迎接联盟建设第三阶段,以保持JALIS的持续创新力。通过江苏高校数字图书馆技术联盟网络平台建设,探索人才资源整合的方式;探索充分利用网络化的环境,开展更为有效紧密的业务培训方式,提升队伍的素质;探索如何发现与归纳需求,并通过需求的发现,整合图书馆技术队伍现有的优势,形成解决共性问题的组织方式;探索人才资源整合与发展过程中完善的管理机制建设。

项目的近期目标是研发一批图书馆小型应用软件,形成管理信息与技术标准库(汇集技术标准、业务规范、技术白皮书、文献采购招标相关参考文本、设备通用参数文件等),形成网络自助业务培训机制,提供技术论坛,建成江苏高校数字图书馆技术联盟网络平台。

江苏高校数字图书馆技术联盟网络平台建设,预期以先进的网络技术为依托,建设一个由JALIS所有成员馆参与,为JALIS建设、为数字图书馆发展提供基础服务的支撑平台,作为实现技术发展、人才培养、管理机制三方面创新的基础平台。依托平台建设,整合全省高校图书馆的技术队伍,使之从松散走向集中,从自发走向自觉,从而形成合力,形成互补的优势,对现有的研发、人才培养模式进行创新,以整体的合作去共同面对未来的挑战[3]。

2 需求分析

江苏高校数字图书馆技术联盟网络平台是一个大型共享资源门户网站,也是服务全省高校图书馆技术用户的综合门户。它面向江苏省高校图书馆技术人员,提供软件提交下载、技术白皮书(含规范文档、通用设备参数文档等)和技术标准的提交下载、技术专家库、自助培训模块、测评数据、技术论坛等模块等,同时反映项目动态,提供JALIS建设项目的导航服务。

来宾可在网络平台上浏览相关软件、标准、白皮书、测评数据、会议信息、技术专家库与业务培训相关课件的目录信息,但不可下载;浏览论坛帖子,但不可发言;

注册用户(实名注册)可浏览、下载、上载软件、标准、白皮书、测评数据、会议信息、技术专家库与业务培训相关课件、使用论坛,支持RSS订阅;

各图书馆管理员用户可管理、审核注册用户,浏览、下载、上载、管理审核软件、标准、白皮书、测评数据、会议信息、技术专家库与业务培训相关课件,管理论坛,管理各类资源的分类标准,上载导航与动态信息;

超级管理员用户可管理、审核注册用户及图书馆管理员用户,浏览、下载、上载、管理审核软件、标准、白皮书、测评数据、会议信息、技术专家库与业务培训相关课件,管理论坛,管理各类资源的分类标准,上载导航与动态信息。

3 系统设计

3.1 功能设计

3.1.1 共享软件

小型共享软件是指江苏高校图书馆技术部门自行研发、自己使用或小范围使用的小型可共享软件(需含软件详细文档或软件源代码),有汇文辅助、网站建设、数据库建设、其它软件等几个类型。本模块提供软件上传与下载及评论信息,分前台(浏览下载),后台(提交审核分类评级)等功能(如图1)。

图1 注册用户使用共享软件模块流图

3.1.2 技术标准

提供各类新兴信息技术与图书馆应用技术标准的上传下载服务,含文献信息加工标准规范,文献信息服务体系建设规范,文献信息服务系统建设技术标准,文献信息服务标准和规范,信息组织的元数据标准,图书馆建设相关领域的技术标准和规范等几个类型,流程同软件。

3.1.3 技术白皮书

提供各类图书馆应用技术白皮书(含服务器软硬件配置、架构方法、设备标准配置、文献电子资源招标采购附件及合同)的上传下载服务,含系统安装、数据库使用说明、操作规程等几个大类,模块设计方式同软件。

3.1.4 技术专家库

江苏高校图书馆技术部、信息技术部、系统部、数字化部工作人员,与江苏高校图书馆界有良好合作关系的IT技术公司技术人员。本模块由注册用户直接形成。

3.1.5 会议信息库

报道共享各类会议信息,包括各类图书馆业务、计算机与信息技术相关的研讨会、工作会议信息,第一步形成图书馆工作类、图书馆学术研讨类、计算机与信息科学类、其他类几种类型会议信息的提交浏览,模块流程设计同软件。下一步形成会议管理模块,涵盖会议通知、人员注册、会议进程管理、会议相关材料自助下载、会议信息归档等几个方面。

3.1.6 测评信息

提供软件(通用)、硬件、系统测评信息文本与资料的上传下载服务,并可组织测试测评活动,根据贡献度给参评人员评分。

3.1.7 自助培训

支持静态技术课件、教学录像、教学纲要、教学参考书,学员绩效考评、学业成绩评价,学习成绩证明出具等模块。第一步实现提供各类图书馆业务培训的静态课件、教学录像等提交下载、在线学习、个人课程定制、实时学习笔记、笔记保存与调用等服务,后者支持在线播放;主要类型为图书馆类、计算机类、其他类,格式支持MPG、MOV、WMV、MP3、SWF、PPT、DOC、XLS等。

3.1.8 技术交流区

采用论坛架构,是与平台主体功能部份合一的BBS系统,不需要专门注册,登入系统即可使用;分三大板块:技术讨论区、休闲娱乐区、论坛服务区,其中技术讨论区板块分技术交流、技术开发、技术服务、技术应用、技术管理、技术研究等六大模块,用于搜集需求、系统共维护、协同研发、形成成果、提供服务。

3.1.9 导航和项目动态

提供JALIS项目动态(含项目概况、管理机构、项目动态、成果展示等几个栏目)及相关新闻,博客链、会员网址自助等导航功能。

3.2 管理设计

3.2.1 对象管理

对象管理又分图书馆管理与用户管理两个模块。图书馆管理通过管理员输入或批量导入方式将江苏高校图书馆等数据录入,这是防止用户注册时输入名称不规范而采取的措施,一旦数据录入,用户注册时即可选择所在图书馆;用户管理分为三层四级制,三层是审核管理层(负责权限分配、模块调整组合、资源调度)、管理用户层(省内各高校图书馆管理员,负责本馆资源组织与提交)、普通用户层(又分为注册用户级,可享受下载服务、技术论坛、培训等模块的服务;浏览用户级,具有浏览权限)。

3.2.2 参数管理

主要是对各类型资源进行分类数据管理、下载设置管理、动态管理,管理用户层以上用户可设定资源大类小类、下载的文件类型空间限定等、动态新闻上载、导航相关网址上载等。

3.2.3 注册与登录

游客可直接浏览相关资源目录,而不能进行上载、下载、评论操作,江苏高校图书馆技术部门工作人员、IT公司技术人员可通过注册成为平台用户,注册后须通过管理用户的审核,审核后成为注册用户;因用户注册后将自动进入技术专家库,注册时需用户将有关信息填写完整,包括技术特长、项目建设经历、论文论著情况等;超级管理员可视情况将某注册用户升格为图书馆管理员,系统提供接口让管理员察看待审核用户情况。

3.3 结构设计(如图2)

图2 系统结构图

4 系统实现

江苏高校数字图书馆技术联盟网络平台的体系结构采用目前通用的B/S应用模式(浏览器/服务器模式),是一种三层的C/S(客户机/服务器)模式,即Web浏览器,Web服务器和数据库服务器。其中,浏览器是客户服务层(表示层),负责接收用户输入并向Web服务器提交用户申请,接收Web服务器返回的执行结果并显示;Web服务器是业务服务层(应用功能层),负责应用程序的开发、运行和维护;数据库服务器是数据服务层,负责提供数据的存储,执行查询和更新数据的请求。

基于B/S模式的系统结构将技术联盟网络平台的应用逻辑与用户界面和数据访问分开,方便了应用程序的开发和维护,可以使网页设计和应用逻辑设计分别由不同知识结构的开发团队完成,能加快项目的开发进度,利于各开发团队发挥各自的特长。

江苏高校数字图书馆技术联盟网络平台的硬件设备采用一台高性能的PC服务器作为Web服务器和数据库服务器,并接入校园网,对江苏省各高校开放。Web服务器端采用支持Java技术的Tomcat作为应用服务器的软件平台,数据库服务器采用Oracle公司的Oracle 8.1,客户端直接通过IE浏览器进行访问。开发语言选用SUN公司推出的JSP,JSP(Java Server Page)是一种服务器端的动态网页技术,实际上是一种基于Java的Web服务器应用技术体系。JSP的脚本语言采用Java使其完全继承了Java的所有优点,主要体现在:系统具有很好的稳定性和安全性、与平台无关性(一次编写程序各处运行)、面向对象的程序设计等,使其已成为跨平台应用开发的一种规范。

系统的安全性方面,平台对数据库中用户密码采用MD5加密方式进行加密,对常见攻击预先做好防范。对用户提交的提交给服务器的数据采用encode方式加密,服务器端接受采用decode解密,保证提交信息不泄漏。对异常提交信息进行处理,拒绝非法的提交。在容错性上,对用户输入数据有检查机制,用户输错数据都有提示信息,具有较好的容错性能。系统的封闭性较好,用户基本上在提示信息下输入数据。

5 结 语

江苏高校数字图书馆技术联盟网络平台的建设思路是首先将平台架构形成,并落实需求中所涉及的功能,使之尽快汇集资源、提供服务,当中不周到之处在所难免,恳请同行专家批评指正。下一步将深化设计,体现开放、共享、协作理念,严格遵循数字图书馆门户建设的相关规范与标准,充分借鉴数字图书馆建设中的博客、维基、知识库及远程会议支持等技术的长处,参考数字图书馆建设中新兴的WEB2.0、LIB2.0及VCASE技术,集中组织,模块化实现,保证平台的运行与实施效果。

参考文献

[1]江苏高校数字图书馆技术联盟[EB/OL].http:∥58.192.141.200:8089/jalis/,2010-07-31.

[2]周玉陶.技术联盟:图书馆数字化建设协作的新发展[J].图书情报工作,2008,(9):127-129.

[3]周玉陶.数字图书馆联盟背景下图书馆技术队伍整合[J].图书馆建设,2009,(6):91-93.

大数据技术论文篇8

中图分类号:F276.3 文献标志码:A

学术期刊办刊水平的高低最终要通过期刊评价予以检验,从一定程度上讲,期刊评价的标准决定了期刊未来发展的方向和目标,期刊评价标准的合理设立对学术期刊的健康成长至关重要。随着移动互联网、云计算、可信计算等一系列新型信息技术的迅猛发展,一个大规模数据生产、储存、分享、应用的“大数据”时代逐渐开启。“大数据”时代的到来,对我国学术期刊的未来发展将产生巨大影响,期刊的运营模式、出版流程都将发生根本性变革,如一些学者所预测的,“大数据”时代的到来将造就全新意义上的学术期刊。相应地,“大数据”也将导致学术期刊评价的革命,一方面,大数据时代学术期刊功能定位的变化要求必须确立新的、符合时展要求的评价标准,另一方面,大数据科技的应用也将为期刊评价提供新的技术手段与方法,大大提升期刊评价标准的精确性与全面性。在这一背景下,深刻把握大数据时代学术期刊发展规律,科学探析大数据时代期刊评价标准可能的创新与发展方向,对于我们有效应对大数据挑战,推动学术期刊的未来发展具有重大意义。本文拟对这一问题进行初步探讨,以期对未来期刊评价方面的研究有所启示。

1我国当前主要学术期刊评价系统及其评价标准

1.1我国当前主要学术评价系统

我国当前的学术评价体系起源于20世纪70年代,经过几十年的变革与发展,目前形成了既符合国际化评价标准要求又具有我国学术研究特色的学术期刊评价体系。根据学科和专业研究领域的不同,目前已形成了5大期刊评价权威系统并根据其系统要求定期出台期刊评价报告,这5大系统包括:南京大学研制的《中国人文社会科学引文索引》、北京大学图书馆研制的《中文核心期刊要目总览》、中国社科院文献信息中心研制的《中国人文科学引文数据库》、中国科学院文献情报中心研制的《中国科学引文数据库(CSCD)》以及中国科学技术研究所研制的《中国科技论文与引文数据库》。

1.2五大评价系统的具体评价标准及其特征

这5大评价系统的期刊评价标准主要是根据布拉德福文献集中定律和加菲尔德文献集中定律予以制定,其具体评价指标则参考了美国EI、SCI等国际期刊数据库的评价标准。所谓布拉德福集中定律,是1934年由英国学者S.L.布拉德福提出的,他在对一些特定的学科领域期刊的数量及其刊登的相关论文数量进行统计的时候,发现期刊的内容对于某一个别学科来说呈现出远近亲疏不等的情况,“如果将科学期刊按其登载某个学科论文数量的大小,以渐减顺序排列,那么可以把期刊分为专门面向这个学科的核心区和包含着与核心区同等数量论文的几个区。这时,核心区与相继各区的期刊数量成1:a:a的关系。”核心区的期刊就是刊载学科论文数量最多、包含相关信息最丰富的那部分期刊。加菲尔德文献集中定律,是20世界60年代,由美国学者加菲尔德提出的期刊分布定律,他通过对一些综合性和专业性检索工具检索和收录论文的比率进行分析,发现各学科的核心期刊主要集中在少数的期刊中,而主要的期刊则更少,大多数学科期刊的发展呈现出明显的集聚效应。这两大定律是目前国际上制定学术期刊评价标准的主要依据,我国五大期刊评价系统也主要以这2个定律为准则,并在此基础上制定了大致类似的评价标准,五大评价系统的具体评价指标,如表1所示。

这五大评价系统的评价标准具有几个共同的特征:首先,5个期刊评价系统都是采用引文分析法,即通过对期刊论文索引量、被引频次和影响因子等指标的统计分析来对期刊质量作出评价,这3个指标也是期刊评价中的核心标准;其次,期刊评价数据的采集主要依托中国知网、万方、维普等网络数据库的数据资源进行统计,不进人这些数据库的文献不计入统计;再次,期刊评价基本是围绕期刊刊载文章的影响力指标进行评价,在专业领域越有影响的期刊,其评价结果就越好。

客观来讲,当前五大评价系统的评价标准是在借鉴国际已有成功经验并结合了我国学术研究特色来设定和构建的,它通过对客观数据的严格统计分析来对期刊予以评价,在一定程度上避免了人情因素、主观偏见对期刊评价的负面影响,具有相当的客观性与科学性。但同时,以影响因子和引文分析为核心的评价标准也存在诸多局限:首先,由于不同检索数据库所收录和统计的文献及期刊种类和数量有所不同,导致同一期刊依据不同数据库数据计算出的影响因子常常产生巨大差异;其次,不同学科发展情况和设置缺陷导致期刊统计源结构不合理,一些学科的期刊统计源期刊很多,影响因子较高,而一些冷门学科的期刊统计源极少,影响因子很低;最后,当前的评价标准主要关注后的索引量、被引频次,不仅评价指标片面,而且难以避免不当引文、无效引文对统计结果的影响。

2大数据对学术期刊评价标准的影响

大数据技术的应用给学术期刊的未来发展带来巨大变革,这些变革集中体现在对学术期刊评价标准的深刻影响之中。

2.1期刊评价的可采集指标更为丰富

在大数据的背景下,期刊出版发行形态将发生巨大变化,以前以纸质印刷、定期刊发为标志的出版方式将向电子化、网络化、不定期出版方向转移。期刊论文的创作、审核、修改、编辑、发表以及发表后所产生的社会反馈和影响都将依托于数字化网络平台进行,而这整个过程中的所有数据也将通过大数据技术予以记录,除了转引率、被引频次等数据,大数据和云存储技术可以为期刊评价提供更丰富的数据资源和种类以备采集,并作为期刊评价新的指标。比如,大数据技术支持下的电子阅读终端可以记录读者对某篇文章的阅读时间、次数,甚至在某些段落的停留时间,这对于未来期刊的反馈评价将是一个重要指标;再比如,通过“云存储”、“云计算”等技术可以对前的选题热度、潜在价值做出客观评测和计算,这可以做为期刊选题价值的评价指标;除此之外,大数据还可以收集并记录期刊选题策划方案、编辑规范性、构图设计水平等方面的信息,为学术期刊的整体评价提供参照指标。

2.2期刊评价的数据统计更加全面精准

以往对评价数据的采集,主要依据知网、维普、万方等数据库统计源,但许多没有被这些数据库收录的期刊却不能进入统计范围,而且由于检索系统所收录的期刊群组成差异较大,所计算的影响因子值也会产生较大差异,导致同一刊物在不同检索系统中计算出明显不同的影响因子数。而依托大数据技术的期刊评价数据采集,不仅可以覆盖全网络信息资源并统一计算方法,避免因数据库收录不足和算法差异导致的因子计算缺陷,而且对于被何种方式引用,引用量多少,有效还是无效引用,自引还是他引,都能准确记录,实现对期刊评价相关数据更为全面和精准的统计。更关键的是,大数据能够为期刊评价提供论文编辑出版发行过程中的全数据样本,并对后的索引转载情况实时动态更新,对读者阅读评价反馈全面搜集,从而实现评价数据统计的静态与动态统一、主观与客观结合。

2.3期刊评价的读者影响力更加突出

大数据背景下,期刊评价将更加突出读者评价的地位和作用。以前的期刊评价统计实际上是注重论文引用者和转载者的评价地位,兼顾同行、专家和评价机构的综合评议。但是对公开发行的期刊论文来说,论文的引用和转载者可能只是读者中的一小部分,大多数读者在阅读后不一定会将之运用到学术创作之中,但同样会对文章质量作出心理评价,这种评价实际比单纯的引文评价更全面、更有说服力但也更难以计量。而随着数字技术的发展,大数据时代的期刊出版将逐渐进化到电子出版阶段,新的电子期刊平台将不仅是一个阅读平台,更是期刊社为读者、作者、专家提供的一个互动服务平台,在这个平台上,不仅读者的浏览偏好和阅读反馈会被储存下来,而且通过独特的互动窗口,他们还可以和作者、编辑、审稿专家进行直接讨论,他们对文章内容的意见、对刊物选题策划、栏目设计、编辑方式、服务水平甚至是办刊宗旨的建议都将被完整记录,并成为期刊评价重要的参考指标。与此同时,由于大数据技术将使评价机构进行期刊数据收集和质量评价的整个过程变得更为公开透明,无形中就降低了评价机构的控制力与影响力,相对地也就更加凸显出读者群体在期刊评价中的作用。

2.4期刊评价的创新性指标更加重要

大数据时代的期刊将进入电子出版为主,纸质出版为辅的阶段。相对于纸质载体,电子载体具有无限承载能力和丰富多样的表现形式,这必然突破原来期刊篇幅、版面、格式的限制,期刊刊载论文数量将大大增加。同时,由于期刊审稿流程的变革,期刊未来会将收到的论文经过简单编辑处理直接通过电子平台,而不再经过繁琐的审稿流程(经过读者和同行评议,获得较高评价的论文再以纸质出版),这又必然导致期刊论文质量的良莠不齐。原来以索引量和发表数的比值为计算指标的影响因子评价的缺陷将更加突出。如何从海量出版信息中发现、挖掘出具有创新价值的内容,以最方便的方式提供给读者阅读评价,将是期刊首先要考虑的问题,也是未来期刊评价中非常重要的参考指标,这也将使期刊评价中的创新性、吸引力指标凸显到更加重要的位置。

3大数据背景下学术期刊评价标准的具体指标及其计算公式

大数据彻底改变了学术期刊未来发展模式及其评价方式,同时也为未来期刊评价的发展创新提供了强大的技术支持和充足的数据资源。笔者认为,依托大数据技术,未来学术期刊评价的参照指标将发生巨大变化,与当前主要参照转引率和影响因子来评价不同,未来期刊评价的指标将更加多元、更加精细,而且也将在很大程度上弥补当前评价指标的局限与不足。具体来说,未来大数据背景下,学术期刊的评价指标将可能包括以下几个方面:

3.1关注度评价指标

依靠大数据的技术支持,未来期刊评价可以尝试将期刊论文的关注度列入评价标准之中。电子化阅读终端和云计算技术可以准确记录读者在阅读期刊时的阅读量、点击量、阅读时间、阅读段落甚至是可能的阅读字数,有效记录并计算读者阅读的关注点与精细程度,阅读之后在学术社交网络和开放存取平台中被讨论的次数,并实现对期刊论文受关注度地量化统计,这将为期刊评价提供重要的参考指标。客观来讲,期刊的受关注度并不能直接反映期刊刊载文章的水平和深度,尤其对一些相对冷门的学科和研究领域,文章的专业性比较强,读者比较小众,关注度也较低。因此,在将关注度作为期刊评价指标时,必须避免单纯的量化统计,而应结合学科在不同时期的纵向对比,以及文章在稳定读者群体中关注度的变化来具体衡量,笔者认为,可以尝试在不同学科之间设置合理的浮动系数,以统计数据乘以浮动系数来计算期刊真实的关注度水平。

3.2创新观点评价指标

大数据技术论文篇9

引言 

随着社会的不断发展,人们的生活水平不断提升,各种工程项目也越来越多。在工程项目建设过程中,必须要加强对地质条件的了解。例如有的地区地质比较松软,以软土地基居多,对工程施工安全和质量带来了影响。再比如在采矿过程中,首先要对地质环境进行了解,才能采取合适的采矿技术,提高采矿过程中的安全性。由此可见,测绘测量在地质勘探过程中有十分重要的意义,能够加强对地质情况的了解,提高各种工程建设的安全性和稳定性。随着我国经济水平的提升,各种工程项目越来越多,我国的测绘技术研究也越来越深入。在测绘工程中,准确性是一个重要的因素。為了提高测绘准确率,必须要强化测绘工程质量管理和控制,对测绘测量技术进行控制,提高测绘人员的综合能力水平,减少测绘测量过程中的误差。 

1 地质测绘技术现状 

地质勘探是对地质、地层情况进行了解的重要过程。在地质测绘过程中,测绘人员必须要具备专业的知识技能,一方面是对地质学有一定的了解,另一方面要对测绘技术有研究。在地质勘探过程中,测绘过程应该要完成对地质勘探项目中的各种地面、地表、地层等地质情况的勘测,并且将测绘得到的数据反映出来,为工程项目提供相应的施工方案和信息。地质勘探项目的测绘的技术含量较高,而且测绘过程具有一定的难度。当前,我国经济建设水平不断提高,工程项目越来越多,工程项目质量受到外界地质因素的影响较大,尤其是在一些地质条件不太好的地区。如一些软弱地层,对工程项目施工带来的阻碍较大。在工程项目建设过程中,必须要加强对地质测绘的重视,减少很多不必要的损失。另外,地质勘探不仅是工程建设的基础,也是我国经济社会发展过程中的一个重要环节。加强地质勘探,有助于地理国情普查。对我国的地理情况进行掌握,有助于对各种资源进行充分开发和利用,提高我国经济发展水平。 

2 测绘测量技术在地质勘探中的应用 

常见的测绘测量技术有GPS技术、RTK技术、RS技术等。在地质勘探施工过程中,必须要积极加强对各种测绘测量技术的研究和分析,对测绘测量技术进行更新,从而不断提高测绘数据的准确性。 

2.1 GPS技术在地质勘探中的应用 

随着测绘测量技术的不断发展,传统的测绘测量技术的缺点也暴露得越来越明显。例如传统测绘过程中受到仪器设备以及测绘技术水平的影响,一般都采用常规测绘。测绘效率较低,而且测绘的数据不准。有的地区地势环境险峻,不利于测绘人员亲自前往测量。随着测绘技术的不断发展,GPS技术在地质测绘中的作用越来越明显。GPS技术主要进行定位和导航,可以通过定位设备对工程项目进行定位,对测绘工程的完成起到辅助作用。在地质勘探测绘过程中,主要通过GPS接收机以及相关的软件对地质勘探项目的位置信息数据进行收集和分析。GPS测绘测量技术的应用可以减少测绘过程中的人工投入,实现自动化采集和分析。尤其是对于一些地理位置比较偏僻的地区,人工测绘十分不便,必须要采用机械设备进行测绘,GPS技术正好可以解决这一问题。随着测绘技术的不断发展,GPS技术还与其他技术进行结合。比如GPS-RTK技术,是GPS技术与RTK技术结合产生的一种新技术,能够实现定位和实时传输,将测绘得到的数据及时传回信息控制中心,对数据进行分析和整理。 

2.2 RS测绘测量技术在地质勘探中的应用 

RS测绘技术又称为遥感技术,其主要功能是实现远距离监测。原理是基于电磁波理论,使用传感设备,对各种地质信息数据进行传输,并且由相应的设备对数据信息进行接收,再进行整理分析,用于各类工程施工。遥感仪器能够探测到的范围比较广泛,与传统的测绘手段相比较而言,其时效性也更高,能够获得同一时段的遥感数据,这些数据能够从各个不同的角度揭示地面上的各种物体之间的关系。当数据收集完成之后,还可以借助相应的软件对遥感影像进行分析,并且对探测区域内的地形、地质等情况进行基于影像的地物识别。对遥感图像进行处理之后,可以准确地提供出地面上的物体信息,也可以提供准确的几何位置。根据测绘得到的数据,在工程项目施工过程中,设计人员可以根据地质数据信息对施工方案进行设计。施工人员再按照准确的施工方案进行施工,减少盲目施工带来的影响。同时,RS技术的应用还可以完成对施工场地的动态检测,对施工状态进行把握。随着工程施工进程的不断推进,可能会出现各种新的地质问题,通过RS技术可以实现对施工场地的实时监控,及时得到最新的地质信息。 

2.3 GIS技术在地质勘探中的应用 

地质勘探过程中加强对GIS技术的应用,可以有效地提高测绘水平,可以将地理环境的具体位置、空间信息等详细信息结合在一起,为工程施工的相关部门提供可视化信息,使得施工人员能够做到心中有图有信息,有助于工程项目的顺利开展。另外,在未来的发展过程中,还可以加强对互动操作地理信息系统的应用,该系统是GIS系统的集成化平台。相对于GIS系统而言,其功能性得到了相应的拓展,能够实现在多个地理信息系统以及其他相关系统在异构环境下的互相通信、合作。对相关的任务进行完成,提高地质勘探水平。 

3 结束语 

综上所述,测绘是工程项目施工过程中的重要环节,可以为工程项目提供准确的数据支持。当前,地质勘探已经成为我国经济社会发展过程中的一个重要项目。为了提高地质勘探效果,必须要积极加强对地质测绘的重视。要结合地质勘探项目的实际情况,对各种测绘技术进行综合利用。根据不同测绘技术的特点,得到相应的数据。并且要借助计算机软件,及时对各种数据进行分析,对相关数据进行汇总,得到清晰、准确的地质勘探图表,为工程项目施工提供准确的信息数据。 

参考文献 

[1]石伟卿.GPS-RTK测绘技术在地质勘察测绘中的应用[J].建筑工程技术与设计,2014(28). 

大数据技术论文篇10

随着科学技术的飞速进步与发展,计算机技术已经发展到了一个新的阶段。各类信息极度丰富,数字化信息技术和网络技术高速发达,使得在计算机应用已经普及并不断发展的今天,掌握计算机基本技术和具备应用计算机技术的能力是当今人们必须具备的基本素质之一。而计算机数据库技术是计算机科学技术中发展最快、应用最广的技术之一,它已成为计算机信息系统与应用系统技术的核心和基础,本文就计算机数据库管理技术中存在的问题进行了分析与讨论。

1 计算机数据库管理技术存在的问题

计算机数据库系统是实现数据存储、组织和管理的有效形式,而计算机数据库管理可以实现数据库的建立和使用,是数据库系统安全使用的保障。但是,在使用数据库的过程中其安全性至关重要,在一个网络化和信息化的系统中,数据很容易被用户非法越权使用、盗取、更改甚至破坏险,无论发生哪一项,都将严重损害数据库的安全性并造成严重的后果。所以,保证数据库的安全使用是数据库管理技术中至关重要的问题。下面从三方面阐述计算机数据库系统的安全问题。

1.1 操作系统的问题

数据库操作系统的主要风险来源之一就是计算机操作系统,计算机病毒和木马程序、服务器操作系统后门以及操作系统和数据库系统的关联方面都是操作系统中存在风险的地方。

第一,病毒是最常见的风险,由于操作不当可能会导致木马程序的产生,这种病毒会对数据库的安全性构成极大的威胁。木马程序可能会修改计算机程序的密码,这样系统的新密码可以随时被入侵者盗走,进而篡改数据库信息,大大地破坏了数据库的信息内容。

第二,我们在设置操作系统时,不可避免地会在在服务器操作系统中留有一个后门,这是伴随着数据库系统的特征参数设置的,它使得数据库的信息通过这个途径可以被电脑黑客们盗取,极大程度地破坏了数据库的安全性。

第三,数据库系统和操作系统有着很大的关联性,因为硬件设备和操作系统所提供的环境在一定程度上决定了数据库系统的安全性,所以一旦问题出现在操作系统环节上,例如操作系统允许直接存取数据库文件,这样子无论数据库管理系统采用怎样的措施都无法保证数据库的安全。

1.2 管理方面的问题

一般网络用户只注意获得网络资源的时候网络是否方便、高效,这样的情况下当使用数据库管理系统的用户缺少网络信息安全意识时,也就是保密意识薄弱,且对实际存在的风险与后果不能够正确认识,从而忽视了网络安全问题。这样子一旦安全管理方面出现问题,又或者安全防范措施落实的不够充分,就会发生安全事件,都是管理工作失职的表现。

1.3 数据库系统自身的问题

随着时代的进步和发展,关系数据库的特征已经取得了一定的发展与应用,近十几年已广泛被人们所使用,各方面技术已趋于成熟。但是在如今的计算机时代,存在的网络信息安全问题与十几年已经不可同日而语,如今的网络操作环境和应用系统对于数据库安全提出了更高的要求。显然,关系数据库系统所具备的安全特征不够充分,系统的安全特征还不能得到有效发挥与实现,这也是数据库系统中不成熟的一部分。

2 计算机数据库管理技术分析

本文从以下三个方面对数据库管理技术进行了技术分析,来解决数据库管理系统存在的问题。

2.1 加密技术

现今数据库里存储着重要的机密数据,一些网络黑客却出于特殊目的,通过非常规手段非法窃取他人的用户名和密码,越权打开其偷取数据库文件和篡改信息,这样尤为重要的机密文件与信息就会外露,造成不必要的损失进而可能会导致严重的后果发生。针对上述情况,可以采用的数据库技术―加密技术,通过对重要数据的加密处理,就可以保护数据库里存储的数据。当一些重要的信息数据存储在数据库后,加密技术可以阻止数据在未授权下被访问,这样子就算数据库管理系统崩溃了,数据的安全性也不会受到影响与威胁。例如,一些重要文件如商业机密、金融数据或是网络游戏的虚拟财产等,在数据库系统中对它们进行加密,这样就能防止数据在未授权的情况下被访问,哪怕整个系统崩溃了,也不用担心其安全性,因为加密技术在保护着数据的安全致使不会被非法盗取。

2.2 存取管理技术

存取管理技术是数据库技术的重要组成部分,包括访问控制技术和用户认证技术两大部分。其中访问控制技术是指对已经进入系统的用户的控制,涵盖了数据的修改控制和浏览控制,在计算机系统处理功能方面对数据进行保护,在最前方保护数据的安全性。数据库管理系统一般采用两种方法进行访问控制:第一种是将数据库系统的使用权限交给用户,一般使用的是基于角色的访问控制,以达到加强访问控制和身份认证的效果;第二种是利用数据功能模块设置用户使用权限,并且针对不同的用户设置不同的使用权限。而用户认证技术相对访问控制技术而言是由系统提供的最外层安全保护方式,来达到是阻止用户的越权访问的目的,因此系统必须在用户每次请求进入数据库前对用户身份进行合法身份的识别和认证以确保安全性。目前,最常用的方法是设置口令法,近几年也发展出像指纹、虹膜、智能卡认证技术等高技术身份验证方法,达到了更高的安全标准。

2.3 备份与恢复技术

计算机系统发生故障是不可避免的,经常会损坏或丢失数据,这样以来提前做好数据库备份,即使系统突然发生故障或崩溃,数据库中的文件与信息也不会遭到破坏,数据库还是可以完整地恢复到原来的水平和状态。数据库常用的备份方法主要有三种:一是逻辑备份,即通过软件实现原始数据的镜像拷贝;二是静态备份,即在结束数据库系统时将其备份;三是动态备份,即在数据库系统使用过程中将其备份。

4.结论

数据库管理技术如今已经得到了广泛的发展与应用,几乎涉及社会各行各业,为人们的生活和工作带来了很大的方便,与此同时,数据库管理技术也有着它的不成熟性正待提高与改善,数据库系统安全问题一直是数据库管理技术最为重要的核心问题,是计算机数据库管理技术亟待重点解决与提高的地方。本文对数据库管理技术的安全问题和应对技术进行了分析与讨论,相信不久的将来,计算机数据库技术将会更加成熟与完善,为人们带来更多的便利与服务。

参考文献

大数据技术论文篇11

1 引言

当数据和黄金一样,成为一种新的经济资产[1],当科研处于以数据为基础进行科学发现的第四范式[2],当数据开始变革教育[3],这些无不宣告着我们已经进入了大数据(big data)时代。不同的学科领域,正在不同的层面上广泛地关注着大数据对自己的研究和实践带来的深刻影响,情报研究领域也不例外。

大数据,顾名思义是大规模的数据集,但它又不仅仅是一个简单的数量的概念,IBM公司指出,大数据的特点是4个V:Volume(大量)、Velocity(高速)、Variety(多样)及Veracity(真实),它提供了在新的和正在出现的数据和内容中洞悉事物的机会,使业务更加灵活,并回答以往没有考虑到的问题[4]。Gartner公司的报告也提出,大数据是大容量、高速和多样化的信息资产,它们需要新的处理方式,以提高决策能力、洞察力和流程优化[5]。

由此可见,大数据强调的不单纯只是数据量多少的问题,其背后隐藏了更为复杂和深刻的理念,这些理念包括:①将对数据和信息的分析提升到了前所未有的高度。这里的分析不是一般的统计计算,而是深层的挖掘。大数据时代,如何充分利用好积累的数据和信息,以创造出更多的价值,已经成为企业管理者、政府机构以及科研工作者首要关注的问题。“业务就是数据”、“数据就是业务”、“从大数据中发掘大洞察”等意味着对数据分析提出了新的、更高的要求。可以这么说,大数据时代就是数据分析的时代。②多种数据的整合和融合利用。大数据时代,数据的多样性是一种真实的存在,数据既包括结构化的数据,也包括非结构化的数据,表现方式可以是数据库、数据表格、文本、传感数据、音频、视频等多种形式。同一个事实或规律可以同时隐藏在不同的数据形式中,也可能是每一种数据形式分别支持了同一个事实或规律的某一个或几个侧面,这既为数据和信息分析的结论的交叉验证提供了契机,也要求分析者在分析研究过程中有意识地融集各种类型的数据,从多种信息源中发现潜在知识。只有如此,才能真正地提高数据分析的科学性和准确性。③更加广泛地应用新技术和适用技术。数据量大(Volume)、类型多样(Variety)、增长速度快(Velocity)是大数据的突出特点,这必然会带来数据获取、整合、存储、分析等方面的新发展,产生相应的新技术或者将已有的技术创新地应用于大数据的管理与分析。同时,大数据的这些特点也决定了传统的、以人工分析为主的工作模式将遇到瓶颈,计算机辅助分析或基于计算机的智能化分析,将成为大数据时代数据与信息分析的主流模式。

对于在数据分析领域扮演重要角色的情报研究工作而言,大数据的理念和技术既带来了机遇,也带来了挑战。一方面,在大数据时代,情报研究工作正在得到空前的重视,大数据为情报研究的新发展提供了机会,从更为广阔的视野来看待情报研究的定位,研究新技术新方法,解决新问题,将极大地促进情报研究理论与实践前进的步伐。另一方面,大数据时代本身也要求各行各业重视情报研究工作,这就必然使得众多学科有意识地涉足到以往作为专门领域的情报研究之中,并将其作为本学科的重要组成部分加以建设。文献分析(本质是文本分析)不再为情报研究所独占,以往情报研究领域积累的相关理论和方法很有可能优势不再。因此,如何把握住自身的优势,并抓住机会有所拓展,是情报学在大数据时代需要思考的问题。

2 大数据环境下情报研究的发展趋势

大数据带来的新观念,正在引报研究的新发展,而且,研究人员也在不断地从情报研究的实践中总结经验教训,引导情报研究的未来走向。英国莱斯特大学的Mark Phythian教授在2008年10月作 了题为“情报分析的今天和明天”的报告[6],指出:①获知情境是至关重要的。忽略战略环境、领导风格和心理因素等更为广泛的问题,将导致情报研究的失误;②要加强信息之间的关联。美国政府部门内部的信息共享障碍,致使分析人员无法获取充足的信息来支持分析活动,导致情报研究中的预测失败;③要汲取更多外界的专业知识。这一举措虽然不能保证分析的成功性,但将是竞争分析的重要信息来源。

综合大数据背景的要求和以往情报研究的经验教训,结合国内外同行的研究成果,本文将情报研究的发展趋势总结为以下五个方面:单一领域情报研究转向全领域情报研究;综合利用多种数据源;注重新型信息资源的分析;强调情报研究的严谨性;情报研究的智能化。

2.1 单一领域情报研究转向全领域情报研究

随着学科的深入交叉融合及社会发展、经济发展与科技发展一体化程度的增强,情报研究正从单一领域分析向全领域分析的方向发展。

首先,表现在各领域中的情报研究从视角、方法上的相互借鉴。从方法上看,社交网络分析方法、空间信息分析等其他学科的分析方法,广泛应用于军事情报、科技情报等领域,心理学等领域的理论也用于情报分析的认知过程,以指导情报分析及其工具的研发。同时,情报学中的引文分析等文献计量方法也被借鉴用于网站影响力评估。从技术上看,可视化、数据挖掘等计算机领域的技术,为情报研究提供了有力的技术视角,情报研究获得的知识反过来又给予其他技术领域的发展以引导。可见,无论从思想上、方法上、技术上,各领域之间的交叉点越来越多,虽然这种相互借鉴早就存在,但现在意识更强、手段更为综合。

其次是分析内容的扩展,这也是最为重要和显著的变化。在情报研究过程中,不仅仅局限于就本领域问题的分析而分析,而将所分析的内容置于一个更大的情景下做通盘考虑,从而得出更为严谨的结论。联合国的创新倡议项目Global Pulse在其白皮书“Big Data for Development: Opportunities & Challenges”[7]中指出,情境是关键,基于没有代表性样本而获得的结论是缺乏外部合法性的,即不能反映真实的世界。在情报研究领域,一些数据往往因为一些不可抗力的原因而不完整,如早期的科技数据,可能由于国际形势等外部因素,导致一些国家的科技信息无法获取,基于这样缺失的分析样本来评估该国的科技影响力,如果仅就数据论数据,无疑是会得“正确”的错误结论,这时应针对这样的异常情况,将研究问题放置在当时的时代背景下,揭示背后的原因,从其他方面收集信息来补充,才能得出符合实际的结论。也就是说,必须要考察不同时间戳下的相关信息,再对分析内容加以扩充,这实质是一种基于时间轴的扩展。另外,将内容扩展至本领域的上下游则是一种更为重要的扩展。例如,考察某项技术的发展前景,如果仅就该技术本身来讨论,可能会得出正面的结论,但如果结合特定地区人们对该技术的态度、当地的技术水平、物理条件、发展定位等,却可能会得出相反的结论。这就说明,在很多领域中,环境不同,发展程度不同,要解决的问题也就不同。一些地区当前关注的问题不一定就是其他地区要关注的问题,某些欠发达地区当前不一定就必须照搬另一些所谓发达地区的当前做法。这需要通盘考察,分析相关思想、观点和方法产生的土壤、使用的条件,结合当前环境再做出判断,否则可能会对决策者产生误导。

2.2 综合利用多种数据源

综合利用多种信息源已经成为情报研究的另一大发展趋势。Thomas Fingar[8]从军事情报角度指出,军事情报界需要综合利用人际情报、信号情报、图像情报和外部情报,进行全资源分析(all-source analysis),即利用多种不同的信息资源来评估、揭示、解释事物的发展、发现新知识或解决政策难题。科技情报界也是如此,如利用科技论文和专利,发现科技之间的转换关系、预测技术发展方向,综合利用政府统计数据、高校网站、期刊、报纸、图书等来评估大学等科研机构。可见,综合利用多种信息源是从问题出发,系统化地整合所有相关信息资源来支持情报研究,信息源可以是学术论文、专利等不同类型的文献集合、文本和数据的集合也可以是正式出版物与非正式出版物的集合等。

这一发展趋势是由几大因素决定的。一是情报研究问题的复杂性。在大数据背景下,情报不再局限在科技部门,而成为全社会的普遍知识。公众对情报的需求使得情报研究问题更为综合,涉及要素更为多元,同时也更为细化。这导致单一数据源不能满足分析的要求,需要不同类型的信息源相互补充。例如要分析科技之间的转换关系,就避免不了涉及科技论文和专利这两种类型的信息源。二是各种信息源的特性。不同信息源可以从不同角度揭示问题,如专利、研究出版物、技术报告等,可以较为直观地反映研究者对某科技问题的理解与描述,而评论文章、科技新闻、市场调查等,可以反映出社会对该科技的观点、认知情况[9]。因此,各类信息自身的特性就说明他们之间可以、也需要相互补充。此外,从现实角度来看,通常会遇到某些信息无法获取的情况,这就需要别的信息加以替代,这就从实践角度说明了综合利用多种信息源的必要性。三是分析结果的重要性。以评估大学为例,评估的结果会引导各学校在比较中发现自身优势和差距,指导未来发展定位,同时也为广大学生报考提供参考。可见,研究结果对社会的影响是广泛而深远的,要做到分析结果的可靠性、科学性,必然先要从源头上,即分析数据上加以丰富完善。

综合利用多种信息源也意味着诸多挑战。首先分析人员要熟悉每一种信息资源的特性,了解相似信息在不同资源类型中是如何表现的,不同信息源相互之间的关系是怎样的。其次,针对待分析的问题,要选择适合的信息,并不是信息越多越好,类型越全越好,尤其是当问题含糊不清时,可能需要不断地调整信息源。再次,情报研究人员要能有效地综合、组织、解释不同信息源分析出的结果,特别是当结论有所冲突的时候,识别不当结果、保证分析结果的正确性是很重要的。

2.3 注重新型信息资源的分析

随着网络应用的深入,出现了许多新型的媒体形式。Andreas M. Kaplan等人将构建于Web2.0技术和思想基础上,允许用户创建交换信息内容的基于网络的应用定义为社会化媒体(Social Media),包括合作项目(如维基百科)、博客、内容社区(如YouTube)、社交网站、虚拟游戏世界和虚拟社会世界(如第二人生)等六种类型[10]。这类媒体形式依托于Web2.0等网络技术,以用户为中心来组织、传播信息,信息可以是用户创造性的言论或观点,可以是围绕自己喜好收集的信息资源集合等。由于社会化媒体的易用性、快速性和易获取性等特点,它们正迅速地改变着社会的公共话语环境,并引导着技术、娱乐、政治等诸多主题的发展[11]。这些通过庞大的用户社区来传播的高度多样化的信息及其网络结构,为洞悉公众对某一主题的观点、研究信息扩散等社会现象[12]、预测未来发展方向[11]等提供了机会,有助于发现有共同兴趣的社群、领域专家、热点话题[13]等,带来了网络舆情分析等研究内容。此外,这类信息结合其他类型的数据,产生了新的情报研究领域。例如,智能手机的普及和GPS的广泛应用,使得可以从社交网络和网络交互数据、移动传感数据和设备传感数据中获取社会和社区情报(social and community intelligence,SCI),揭示人类行为模式和社群动态[14]。

此外,机构知识库等作为一种反映组织或群体知识成果的智力资源,也正引报界的重视。网络信息联盟的执行董事Clifford A. Lynch[15]从大学的角度指出,成熟完整的机构知识库应包含机构和学生的智力成果(包括科研材料和教学材料)以及记录机构自身各项事件和正在进行的科研活动的文档。这暗示着学术界从过去只关心科研成果正逐步转向关注科研过程。从机构知识库中,可以发现隐藏其中的科研模式、揭示目前科研状况的不足,引导机构未来科研的发展走向等。但现有的机构知识库工具还缺乏帮助人们理解和分析这些资源的机制[16],在大数据环境下,加强这方面的研究也是必然趋势。可以预见,随着科技的发展和应用的深入,还会不断的有新型资源出现,并不断促进情报研究的发展。

2.4 强调情报研究的严谨性

情报研究活动在宏观层面上是一种意义构建(sensemaking)[17],依赖于分析人员根据已有知识构建认知框架(frame),通过对认知框架的不断修正来达到理解的目的[18]。这意味着情报研究活动本身带有很大的不确定性,很多因素影响着情报研究的有效性。如何使情报研究工作更加严谨,减少情报分析的不确定、提升情报成果的质量,正成为学术界当前普遍关注的问题。情报研究严谨性(rigor)不等同于分析结果的正确性,它衡量的是情报研究的过程,是指在情报研究过程中“基于仔细考虑或调查,应用精确和严格的标准,从而更好地理解和得出结论”[19]。美国俄亥俄州立大学的Deniel Zelik[20][21]从评估角度,给出了8个指标来衡量分析过程的严谨性:假设探索、信息检索、信息验证、立场分析、敏感度分析、专家协作、信息融合和解释评价。从这几项指标看,信息检索和融合是从分析信息源上消除不全面性;假设探索是要使用多种视角来揭示数据和信息;信息验证侧重于数据的溯源、佐证和交叉验证;立场分析强调分析的情境性;敏感度分析指分析人员要了解分析的局限性,目的是从分析方法上消除主观影响;专家协作是防止分析结果受分析人员自身的学科背景或经验带来的偏差;解释评价是要正确对待分析结论。可见,情报研究的严谨性意在消除人的主观偏见,用更为客观的视角对待情报研究。如果说之前的情报研究活动依赖专家的个人判断,带有较为强烈的主观色彩,那么走向严谨性的情报研究活动正逐步转变为一门科学。

在大数据背景下,情报分析的严谨性,不仅体现在理念上,还暗含了对技术的要求。面对海量数据,自动化的技术手段必不可少。当信息的检索更多的是借助检索系统,而不是人工的收集,信息融合更多依赖数据仓库等技术手段,如何在这样的分析环境中将情报研究的科学性落到实处,是需要关注的问题。可以看到,利用技术本身已经在一定程度上避免了人的主观性,但面对同样一个问题,可以有不同的技术手段,也可能产生不同的结果,如何避免由技术产生的偏见,也许通过多种技术手段或采用不同的算法,全方位地展示信息内容及其之间的关系,从而避免产生信息的误读,是一个解决方案。可见,在大数据时代,情报研究需要多种手段来加强其分析过程的科学性,而这又需要多种技术方法加以支持。

2.5 情报研究的智能化

大数据背景下的情报研究,对技术提出了更高的要求。正如美国国家科学基金会(NSF)的报告[22]所说,美国在科学和工程领域的领先地位将越来越取决于利用数字化科学数据以及借助复杂的数据挖掘、集成、分析与可视化工具将其转换为信息和知识的能力。对于情报研究来说,应用智能化技术能自动进行高级、复杂的信息处理分析工作,在很大程度上把情报研究人员从繁琐的体力劳动中解放出来,尤其在信息环境瞬息万变的今天,及时收集信息分析并反馈已经变得非常重要,这都需要智能化技术加以支撑。从信息源来讲,情报研究对象得以扩展,其中可能包含微博等社会化媒体信息,可能包含图片、新闻等,大量非结构或半结构化数据的涌入,必然需要技术将这些数据转化为结构化数据,以供后续分析。同时,多元化的信息,需要根据分析需求加以融合,这可能需要语义层面上的技术支持。从分析需求来讲,简单的统计分析已不能满足现在社会的决策需求,需要从大量信息中发现潜在模式,指导未来的发展,这就涉及数据挖掘、机器学习等技术。此外,要寻求情报研究的客观性,摒除过多的主观意愿,也需要多种技术来支撑。可见,这一发展趋势是大数据时代下的必然。而各国在积极建设的数字化基础设施,也在推动着情报研究的智能化,如欧洲网格基础设施(European Grid Infrastructure,EGI)[23]项目就致力于为欧洲各领域研究人员提供集成计算资源,从而推动创新。

目前,对情报研究中的智能化技术没有统一的界定,但概观之,可以将情报研究智能化的本质概括为定量化、可计算、可重复。定量化是针对过去情报研究更多的是依赖人的主观判断,即基于已有文字材料或数据,根据研究人员的经验等给出粗略的结论,如果说这是一种定性化分析,现在更多地依赖通过计算机自动化处理原始材料并获得潜在数据,并在此基础上辅以人的判断,可以说是一种定量化的分析。可计算是指将各种信息资源转化为计算机可理解、处理的形式,如从新闻、论文、专利等中,提取出科研组织、科研人员等实体,再基于这些结构化的、富有语义的信息,采用统计、数据挖掘等方法加以计算,获取隐含的知识。可重复是指自动化分析技术消除了许多主观因素,从理论上讲,如果分析数据等条件一致,分析结论也应该是一致的,这也体现了智能化技术为情报研究带来客观性的一面。

3 情报研究中的技术问题

情报研究的上述发展走向,决定了情报研究既不能仍然停留在定性分析上,也不能仅仅靠简单的统计替代情报研究中的计算技术,由此对情报研究技术提出了新的要求。美国McKinsey Global Institute在2011年5月了研究报告“大数据:创新、竞争和生产力的下一个前沿领域”(Big data: The next frontier for innovation, competition, and productivity)[24]。报告分六个部分,其中第二部分讨论了大数据技术,并围绕大数据分析技术、大数据技术和可视化三方面进行了阐述。在大数据分析技术中,列举了26项适用于众多行业的分析技术,包括A/B测试、关联规则学习、分类、聚类分析、众包(Crowdsourcing)、数据融合和数据集成、数据挖掘、集成学习、遗传算法、机器学习、自然语言处理、神经网络、网络分析、优化、模式识别、预测建模、回归、情感分析、信号处理、空间分析、统计、监督学习、模拟、时间序列分析、无监督学习和可视化。这些技术绝大部分是已有的技术,也有部分是随着互联网的发展以及对大规模数据挖掘的需求,在原有技术的角度发展起来的,如众包就是随着Web2.0而产生的技术。

根据我们的理解,这些技术大致可以划分为可视化分析、数据挖掘以及语义处理三大类。这三大类技术也是当前情报分析领域应予以关注和深入研究的技术。

3.1 可视化分析

可视化分析(Visual Analytics)是一门通过交互的可视化界面来便利分析推理的科学[25],是自动分析技术与交互技术相结合的产物,目的是帮助用户在大规模及复杂数据内容的基础上进行有效的理解,推理和决策[26]。它不同于信息可视化,信息可视化关注计算机自动生成信息的交互式图形表示,关注这些图形表示的设计、开发及其应用[27],而可视化分析在此基础上加入了知识发现过程,关注自动分析方法及其选择,以及如何将最佳的自动分析算法与适当的可视化技术相结合,以达到辅助决策的目的。

目前的情报分析系统,虽然也提供了多种视图来揭示信息,但更多的是一种分析结果的呈现,系统内部分析、处理的机制对分析人员来讲是个黑匣子,分析人员无法了解分析方法、分析结果的局限性或者有效性,这无疑不符合情报研究严谨性这一发展要求。同时,现有的分析工具需要分析人员输入各种繁杂的参数,又缺乏对情报分析认知过程的支持,这就对使用人员的专业化程度提出了较高的要求,增加了分析的难度。而可视化分析则可以较好地解决这一问题,它整合了多个领域包括采用信息分析、地理空间分析、科学分析领域的分析方法,应用数据管理和知识表示、统计分析、知识发现领域的成果进行自动分析,融入交互、认知等人的因素来协调人与机器之间的沟通,从而更好地呈现、理解、传播分析结果[28]。佐治亚理工学院的John Stasko等人应用Pirolli 等人提出的情报分析概念模型[29],建立了一个名为Jigsaw(拼图)的可视化分析系统[30],并将其应用于学术研究领域(涉及期刊和会议论文)以及研究网络文章(如网络新闻报道或专题博客)领域,也说明了将可视化分析技术应用于情报研究的可行性。

将可视化分析技术应用于情报研究领域,有众多问题要解决。首先,在情报研究工具中,是以自动化分析为主,还是以可视化为主?Daniel A. Keim等人将待分析的问题分为三类,第一类是在分析过程中可视化和自动化方法可以紧密结合的问题,第二类是应用自动化分析潜力有限的问题,第三类是应用可视化分析潜力有限的问题。在研究这三类问题中交互程度对分析效率影响的基础上,Daniel A. Keim等人指出,应分析如何通过考虑用户、任务和数据集特点,来确定可视化和自动分析方法的优化组合,从而达到最佳的效果[31]。可见,要将可视化分析技术应用于情报研究领域,需要明确每类问题适用哪种组合方式。其次,情报研究领域适合使用哪些可视化交互手段?这可能包括原始分析数据、析取出的关系数据、深层挖掘的模式数据等的可视化手段,分析人员与系统交互的方式,分析过程的可视化展示等。第三,情报研究领域中的认知过程是什么样的,关注哪些问题,涉及哪些实体,在大数据环境下面临哪些认知困难,需要在哪些环节加以支持,这些困难能否通过技术来解决。此外,从现有的可视化分析技术来看,主要是将各个相关领域的技术以优化的方式整合起来,但在将来会产生一体化的可视化分析解决方法[32],这种一体化的方法可能是什么形式,又会对情报研究带来怎样的影响等等,都是在情报研究中引入可视化分析技术需要关注的。

3.2 数据挖掘

广义的数据挖掘指整个知识发现的过程,是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它涵盖了数据分析和知识发现的任务,从数据特征化与区分到关联和相关性分析、分类、回归、聚类、离群点分析、序列分析、趋势和演变分析等,吸纳了统计学、机器学习、模式识别、算法、高性能计算、可视化、数据库和数据仓库等领域的技术,并可以用于任何类型的数据,包括数据库数据、数据仓库等基本形式,也包括数据流、序列数据、文本数据、Web数据、图数据等其他类型的数据[33]。

从数据挖掘的涵义看,它与情报研究有着天然的联系;从数据挖掘的方法看,有其特定的含义和实现过程,可以有效地解决情报研究的问题。例如,情报研究可以借鉴关联规则发现的成功案例——超市的“啤酒+尿布”,尝试用关联规划来分析研究主题的相关性,从科技论文与专利的关联中发现科技的转换关系等等。但从目前的情报研究成果看,许多还仅仅停留在简单的频率统计、共词计算层次上,在知识发现的过程中,这些工作仅仅是数据挖掘的数据准备,还有待于更为深入的发掘。可见,数据挖掘能够也应该应用于情报研究领域,这不仅是数据挖掘应用扩展的结果,也是情报研究自身发展的需求。此外,由于较少有专门针对情报研究领域研发的挖掘工具,现有情报分析通常借助于其他工具,不同工具的功能不同,这就导致常常同时使用好几个分析工具,如在使用SPSS进行聚类分析的同时,还使用Ucinet分析社会网络。这带来的问题是,分析缺乏完整性,可能社会网络和其他信息之间有关联,因为工具的分割性,就导致潜在模式的丢失。由此,研发适用于情报研究的挖掘工具,是必要也是紧迫的,尤其是面对大数据的挑战,智能化地辅助分析人员,减少认知压力,是亟待解决的问题。

要解决以上的问题,首先需要研究情报分析任务,分析哪些问题是可以使用数据挖掘技术来支持的,这类问题有哪些共同点、特殊性,能否对未来可能的情报分析问题进行扩展,哪些问题不适用于数据挖掘技术,原因是什么等。其次,对于某类或某个分析问题,使用哪种数据挖掘技术或几种技术的组合才能有效地解决,涉及的算法是否需要针对该问题进行适应性改造,如何评价挖掘的结果等。第三,数据挖掘出现了交互挖掘这一发展趋势,即构建灵活的用户界面和探索式挖掘环境[33],这与可视化分析在某些方面上也不谋而合,这样的趋势会对情报研究带来哪些影响,如何在这一背景下,探索情报研究工具的新发展,寻找情报分析的新模式,值得我们关注。

3.3 语义处理

语义是关于意义(meaning)的科学,语义技术提供了机器可理解或是更好处理的数据描述、程序和基础设施[34],整合了Web技术、人工智能、自然语言处理、信息抽取、数据库技术、通信理论等技术方法,旨在让计算机更好地支持处理、整合、重用结构化和非结构化信息[35]。核心语义技术包括语义标注、知识抽取、检索、建模、推理等[34]。语义技术可以为信息的深层挖掘打好基础,即通过对各类信息的语义处理,在获取的富有语义的结构化数据上使用各种数据挖掘算法来发现其中的潜在模式。数据的语义性支持了机器学习等技术的内在功能[36]。

从现有的情报研究实践和工具看,语义支持的缺失是一个普遍问题,这其中又可划分为两个层次。对于传统的情报研究对象,如科技论文、专利等,有较为成熟的分析工具,但这些工具往往缺少深层次的语义支持。例如,要分析论文的内容主题时,需要从摘要等自由文本中提取出主题信息,在数据处理时,常常无法识别同义词、近义词等,需要人工干预。一些工具虽然在语义方面做了努力,但仍然存在诸多不足,例如在形成的主题聚类结果上,缺乏有效的主题说明,自动形成的主题标签不具有代表性,需要分析人员深入其中重新判断等。这在小数据集环境下,还可以接受,当面对大数据的冲击,这种半自动化的处理方法无疑是耗时又费力的。此外,对于新型情报研究对象,如网络新闻、博客等,已有如动态监测科研机构等的系统工具,但总体来说还处于起步状态,目前较多的还是依赖人工筛选出所需信息,并整理成结构化的数据,同样也不利于大规模的数据分析。这些问题的存在,使得消除语义鸿沟(semantic gap)[37],应用语义技术成为广泛需求及必然。

将语义技术应用于情报分析,需要关注以下几方面的内容。首先,分析情报研究任务的特点,了解它的语义需求,是否存在规律性的准则以供指导分析工具的研发,这既需要原则性和方向性的准则,也需要为针对多维度划分出的各类任务给出详细的规范,例如,对微博等社会化媒体,其中既存在高质量的信息,也存在辱骂等低质量的信息,区分这些信息并筛选出高质量信息,就成为在分析社会化媒体中的语义任务之一。其次,语义资源建设问题,即在情报分析领域中,要实现语义层面上的理解,是否需要建设语义资源,如果不需要,哪些技术手段可以代替,如果需要,哪种类型的语义资源可以便捷、快速、高效地构建,并且这种语义资源应该如何构建,如何使用才能有效地服务于情报研究工作。第三,信息抽取问题。科技信息涉及众多学科的专业术语、各种科研机构、组织等,如何使用语义技术将这些信息准确地提取出来并加以标注,尤其是针对不同类型的信息源,采用什么样的抽取策略等。第四,信息整合问题,即如何使用语义技术,把不同来源的数据对象及其互动关系进行融合、重组,重新结合为一个新的具有更高效率和更好性能的具有语义关联的有机整体,以便后续分析。

4 结语

正如本文引言中所谈到的那样,大数据的理念和技术为情报学领域中情报研究的理论和实践带来了机遇,也带来了挑战。机遇巨大,挑战更大,需要我们对此有清醒的认识。本文分析了大数据背景下情报研究的若干发展趋势,总结了情报研究中值得关注的技术问题,以期能为促进情报研究的理论和实践的发展添砖加瓦。

参考文献:

[1]Big Data,Big Impact[EB/OL].[2012-09-06]..

[27]Chaomei Chen. Information visualization[J]. Wiley Interdisciplinary Reviews:Computational Statistics,2010,

2(4):387-403.

[28]Daniel A. Keim, et al. Challenges in Visual Data Analysis[C]. Information Visualization, 2006:9-16.

[29]P.Pirolli. The Sensemaking Process and Leverage Points for Analyst Technology as Identified Through Cognitive Task Analysis[EB/OL]. [2012-09-16].http://vadl.cc.gatech.edu/documents/2__card-sensemaking.pdf.

[30]John Stasko, et al. Jigsaw: supporting investigative analysis through interactive visualization[EB/OL]. [2012

-09-16].http:///fil

es/Sandbox/victor/jigsaw-VAST07.pdf.

[31]Daniel A. Keim, Florian M., and Jim Thomas. Visual Analytics: How Much Visualization and How Much Analytics?[J]. ACM SIGKDD Explorations Newsletter,2009,11(2):5-8.

[32]Aigner, et al. Visual Methods for Analyzing Time-Oriented Data[J]. Transactions on Visualization and Computer Graphics, 2008, 14(1) :47-60.

[33]Jiawei Han, Micheline Kamber, Jian Pei. Data Mining concepts and techniques third edition[M]. Morgan Kaufmann,2011.

[34]John Domingue, et al.Handbook of Semantic Web Technologies[M]. Springer Publishing Company,2011.

[35]Dieter Fensel,et mon Value Management-based on Effective and Efficient On-line Communication[EB/OL].[2012-09-17].http://wiki.iao.fraunhofer.de/images

/studien/proceedings-common-value-management.pdf#page=19.

大数据技术论文篇12

[文献标识码]A

[文章编号] 1673-5595(2015)03-0021-07

一、引言

20世纪80年代以来,随着中国对外开放程度的不断扩大,中国以优惠的外资政策、巨大的市场潜力以及日益改善的投资环境,特别是实施以“市场换技术”、“市场换管理”等引资战略以后,吸引了大量外资的流入并且呈逐年快速增加的趋势,FDI在外资中占有很大的比重,成为中国引进外资的主要来源。从1993年开始,中国FDI流入量就在发展中国家位居第一,2002年首次超过美国成为世界第一,截至2014年第三个季度,中国实际利用FDI额为87348亿美元,处于世界领先地位。虽然FDI在中国经济增长中发挥了巨大促进作用并得到了经济学家们的广泛认同,但是目前就有关FDI对中国技术创新的影响效应的研究,学者们还存在分歧。在当今充满挑战与机遇的经济全球化背景下,FDI是否促进了中国技术创新水平的提高?还是仅仅促进了经济的增长而没有技术方面的进步?如果存在影响,那么影响技术创新的途径和机理是什么?为了使FDI在中国更有效地发挥技术溢出效应,政府应该制定怎样的政策?基于以上背景,本文希望通过对FDI与中国技术创新之间相互关系的研究,为上述问题提供理论和实践的指导。

二、文献综述

自从1960年Macdougall分析外商直接投资的一般福利效应第一次明确提出FDI对东道国存在技术溢出效应之后[1],许多学者对此进行了大量的理论和实证研究。从国外学者的研究结论来看,主要存在三种观点:第一种观点认为,FDI会促进东道国的技术创新。Blomstrm等认为FDI通过给东道国带来先进的技术和管理经验而产生正向的技术溢出效应[2];Feinberg等通过实证研究发现,外商在印度制药业的研发投资活动促进了其相关行业的技术创新水平的提高[3];Gorg等认为东道国通过对外商企业研发创新活动的研究分析和模仿,能使其企业技术创新水平得到提高[4];Lee通过计量研究发现从日本流入美国的FDI促进了美国本土的自主创新能力的提高。[5]第二种观点认为FDI会抑制东道国的技术创新。Young通过对新加坡的研究后发现,FDI的流入使得该国人力资本从研发部门转移到了最终产品部门,从而抑制了该国的技术创新水平的提高[6];Koings选用波兰1993―1997年的面板数据,研究发现FDI对当地企业的外溢效应为负[7];Bevan等对欧洲处于经济转型时期的国家实证研究发现,FDI的流入量与国内的技术创新存在负相关关系[8];Jonathan等选用英国1973―1992年的制造业面板数据进行分析后发现,由于外商的进入加剧了行业内的竞争,使得FDI溢出效应为负[9]。第三种观点认为,FDI与东道国的技术创新之间的关系不明显。Kathuria对印度的制造业企业进行研究后认为,FDI对其国内的技术进步效应并不明显[10];Damijan等选取8个处于经济转型时期的国家1994―1998年的制造业面板数据研究后发现,FDI对上述国家的溢出效应不明显[11];Harris等利用面板计量模型对英国制造业进行实证分析后发现,由于外资流入所导致的行业内溢出效应、集聚导致的溢出效应以及行业间的溢出效应均不显著[12]。

近年来,国内外学者就FDI对中国技术创新的影响也进行了大量的研究,研究结论大致包括上述的三类:何洁选取中国28个省市的面板数据实证研究后发现,FDI对中国各省市工业部门存在明显的正的技术溢出效应[13];Hu等以广东省大中型企业为对象,研究了FDI对制造业技术创新的影响,发现FDI对国内企业具有正的外溢效应[14];王红领等选取中国1998―2003年工业数据进行实证分析后认为,FDI对中国民族企业的技术创新具有显著的促进作用[15];谢光亚和李洋基于C-D生产函数理论模型,并选取中国工业部门的面板数据进行研究后发现,FDI有效地促进了中国工业部门的技术进步[16];王滨选取中国1999―2007年的制造业面板数据进行计量研究后发现,FDI在中国存在显著的正向外溢效应[17]。Fan等选取中国998个企业面板数据对FDI和内资企业技术创新的关系进行回归分析,结果表明FDI在总体上抑制了中国内资企业的研发投入[18];范成泽等选取世界银行的相关调查数据并运用计量模型进行研究,发现FDI对中国国内的研发投入的效应为负[19];蒋殿春等针对FDI在市场化改革过程中对中国内资企业技术创新的影响进行了微观分析,结果表明FDI对内资企业的技术溢出效应是负的[20];徐亚静等选取中国1999―2008年30个省市的面板数据并通过引入制度因素研究FDI对中国技术创新的影响,结果表明FDI对中国西部地区存在明显的负外溢效应[21]。黄静波等对FDI与广东技术进步之间的关系进行了实证分析,认为FDI对技术进步并没有明显的作用[22];平新乔等选用中国第一次全国经济普查数据检验FDI对中国制造业是否存在技术外溢效应,结果发现FDI投资额并没有明显地缩小中国企业与国际先进技术水平之间的差距[23];王文治对中国1996―2005年制造业面板数据计量分析后发现FDI不存在显著的技术溢出效应[24];许和连等选用中国2001―2006年35个工业行业的面板数据计量研究发现FDI对中国内资企业技术创新能力的影响不显著。[25]

通过对已有文献的回顾可以发现,目前国内外就有关FDI与技术创新之间关系的研究极大地促进了相关理论的发展,但这些研究一方面缺乏对FDI与技术创新之间相关关系理论模型的研究,另一方面忽略了中国各区域之间的技术创新有可能存在空间相关性。本文在现有研究基础上基于Romer提出的内生经济增长模型[26],对FDI与技术创新关系进行理论分析,并通过引入人力资本与FDI等交互变量,选取中国31个省、市、自治区2000―2012年的面板数据,运用空间面板计量模型实证研究FDI对中国技术创新的影响。

三、理论模型

类似于Romer提出的内生经济增长模型,本文对由最终产品部门、中间产品部门和研发(R&D)部门组成的经济系统进行了考察。假设只有一种最终产品,由最终产品部门提供;人力资本既可以投入到最终产品部门,也可以投入到研发部门从事技术研发活动,且总量保持不变。

(一)模型描述

1.最终产品生产部门

根据Romer提出的把不同类型的最终产品i看作一个连续变量的情况下,将其产出水平写成如下扩展的D-S形式:

式中,Y为产出水平;HY、L分别为投入到该部门的人力资本与劳动投入量;x(i)表示最终产品部门生产产品i时对中间产品的使用量;A为中间产品的种类数,其衡量国内自有技术知识存量水平的高低。

2.中间产品生产部门

该部门通过购买设计方案,并利用物质资本进行生产。假设生产任何一单位的中间产品所需要的资本量为η,该部门的生产函数为:

3.研发部门

借鉴Romer的研究思路,研发部门发明新专利、设计新方案、产出水平等取决于该部门的人力资本投入量和具有的总知识存量。总知识存量由两部分组成:国内已有的技术知识存量,通过对外资企业先进技术进行消化、吸收所获得的技术知识。因此,该部门的生产函数可以表示为:

式中,为知识增量,是各种专利受理数量;δ、HR分别为该部门的生产率参数和人力资本的投入量;A为国内已有的技术知识存量;γ为技术外溢系数。由式(3)可以得出:首先,研发部门投入越多的人力资本,将会拥有越高的技术研发水平;其次,国内本身已有的技术知识存量越多,研发部门的研发人员将会具有越高的生产率,因此国内自身的自主创新对其技术创新水平的提高有着非常重要的作用;最后,国内的技术研发产出水平由于FDI的技术外溢作用而提高,其中,技术外溢系数γ的大小主要取决于FDI技术外溢程度以及国内企业对FDI技术外溢的吸收能力,国内企业要想有效地利用FDI技术外溢,必须要有较高水平的技术吸收能力。

(二)竞争性均衡分析

1.最终产品生产部门

最终产品生产部门中的生产企业通过选择式(1)中的x(i)、HY和L来实现利润最大化的目的。

根据式(21),在经济对外开放的条件下,我们可以提出以下推论:

推论一:国内的技术创新水平取决于人力资本总量(H)、国内已有的技术知识存量(A)、FDI流入量、技术外溢系数γ以及其他参数(δ、α、β、η、r)等因素。

推论二:国内的技术创新水平与FDI技术外溢效应存在正相关关系。

推论三:国内的技术创新水平与人力资本存量存在正相关关系。

四、变量选取和数据说明

技术创新(patent):已有的实证研究中通常将专利申请受理数量或者专利授权数量作为对技术创新水平的度量,但是本文考虑到专利授权受专利局认定等人为因素的影响以及存在较长的时间滞后,因此本文选取各地区的专利申请受理数量来表示其技术创新水平。

外商直接投资(FDI):本文采用外商直接投资实际利用外资金额来对其进行度量,以检验其对中国各省域技术创新是否具有正向的影响。

科研活动人员数(l):用研究与试验发展(R&D)人员全时当量来对其进行度量。

科研投入经费(k):用研究与试验发展(R&D)经费内部支出来对各地区的技术创新投入经费进行衡量。

经济发展水平(pgdp):考虑到各地区的不同经济发展水平可能会影响其技术创新水平,本文在模型中的经济发展水平用各地区的人均实际国民生产总值表示。

人力资本(hc):国内外学者普遍认为人力资本是影响FDI技术溢出效应的重要因素。本文借鉴李谐、齐绍洲的做法,用地区平均教育年限来衡量人力资本水平[27]。平均教育年限公式为:

人力资本与FDI的交叉项(lnhc×lnFDI):参考马章良的观点[28],本文认为FDI技术创新外溢作用的发挥需要与人力资本相结合,因此在实证模型中引入这两者的交互作用。

此外,为了进一步分析中国在2001年加入WTO以及在2004年实施专利法后是否对FDI的技术外溢效应产生了影响,本文设置了虚拟变量WTO(是否加入WTO)和law(是否实施专利法),并将其定义为:

WTO=0,year≤20011,year≥2002, law=0,year≤20031,year≥2004

并分别构建了虚拟变量与FDI的乘积WTO×lnFDI和law×lnFDI。

本文选取的样本为2000―2012年中国31个省市、自治区的面板数据,数据主要来源于国泰安数据库、国家统计局网站和《中国科技统计年鉴》。为了消除价格因素对数据的影响,本文采用CPI指数对相关数据进行了平减处理。本文的实证研究主要借助于MATLAB 2012A软件完成。

五、计量检验与结果分析

(一)空间相关性检验与计量模型选择

由表1可见,MORANI值虽然在2000―2006年间介于005~01之间,但其基本上呈现上升的趋势,2009年以后一直在02以上波动,各年份的MORANI值均通过了1%显著水平的检验,这反映出中国邻近省市自治区的技术创新存在正向的空间相关性。由此可知,运用空间计量模型对本文进行研究较之传统计量方法更为适宜。

空间计量模型一般包含空间滞后模型(SAR)和空间误差模型(SEM),本文通过拉格朗日乘数检验(LMLAG、LMERR)和稳健的拉格朗日乘数检验(R-LMLAG、R-LMERR)来判定SAR、SEM的适用性,检验结果见表2。

由表2可知,LMERR大于LELAG的检验统计量值,而且R-LMERR大于R-LMLAG的检验统计量值,这表明本文采用SEM模型更为合理。通过Hausman检验可知,其统计值为-253693,且在1%的显著水平上拒绝“随机效应有效”的原假设,接受“固定效应模型有效”的备择假设,因此,我们选择固定效应面板模型。综上所述,下面采用空间误差固定效应面板模型对本文进行实证分析。

(二)空间面板模型的估计结果与讨论

为了比较空间计量模型与一般线性回归的优劣,本文将分别采用普通固定效应模型(OLS)和空间误差固定效应面板模型(同时包含地区固定、时间固定以及地区和时间双固定三种形式)对本文所采用的样本数据进行回归和检验,并对其结果(见表3)进行比较。

根据空间相关性检验的结果以及表3中空间误差回归系数λ在1%的显著性水平上为正的结果,可得到中国各地区的技术创新具有正的外部性,说明中国技术创新存在显著的空间溢出效应,在以往研究中常常被忽略的区域间外部性也是决定技术创新的一个重要因素。因此,对中国技术创新进行研究时,不能忽略地理因素和空间效应的影响。

空间计量回归模型中由于自变量存在内生性,因此若采用OLS对模型的系数进行估计会有偏差或无效,利用基于残差平方和分解的拟合优度R2作为对模型优劣的判断标准可能会得到不理想的结果,因此本文采用自然对数似然函数值(Log likelihood,Log-L)来判断模型的拟合程度效果,其绝对值越大,则模型的拟合程度越好。由表3可知,SEM地区固定效应模型对应的Log-L绝对值最大,表明本文选择SEM地区固定效应模型的估计结果进行分析是比较合理的。估计结果显示:FDI强度在1%的显著水平上对中国的技术创新具有显著的正向作用,FDI的流入量每增加1%就会促进129%技术创新水平的提高,这不仅验证了本文在理论模型中提出的推论2,也验证了王滨、谢光亚、王红领、Hu等人的观点。科研投入经费、科技活动人员数和各地区经济发展水平对技术创新都呈现显著的促进作用,并且都通过了1%水平的显著性检验,这说明,在中国当前阶段,这三者仍是影响中国各地区技术创新水平的主要因素。人力资本对技术创新也具有显著的促进作用(这验证了本文在理论模型中提出的推论3),相对于其他因素而言,它对技术创新的作用最大,弹性系数为386。自2001年中国加入WTO以来,FDI对中国技术创新的外溢水平有了显著提高,但2004年开始实施的专利法对FDI技术溢出的发挥效应带来了一定程度的负面冲击。这一结论与刘政等的研究结果相反,[29]这可能是刘政等的研究与本文的研究相比,没有考虑技术创新的空间效应的原因所致。FDI与中国的人力资本相结合可以更好地发挥FDI的技术创新外溢作用,这一结论与马章良得到的结果较为接近。

六、结论与政策建议

本文基于Romer提出的内生经济增长模型,通过理论研究推导出FDI对东道国存在正向技术溢出效应的结论,阐述了FDI发挥技术溢出效应的作用机理,并利用中国2000―2012年31个省市自治区的数据,运用空间面板计量模型实证研究了FDI对中国技术创新的影响,结果发现:第一,中国邻近省市自治区的技术创新存在显著的正向空间相关性;第二,FDI显著地促进了中国技术创新,支持了本文在理论研究中得到的结论,说明中国为引进外资和技术而推行的“以市场换技术”的战略是正确的;第三,FDI借助于人力资本能提高技术外溢的水平;第四,中国加入WTO对FDI在中国发挥技术外溢起到了促进作用,而实施专利法则减弱了FDI在中国的技术外溢水平。

为了提高中国的技术创新水平,根据以上结论,笔者提出以下政策建议:(1)由于技术创新在中国相邻省域之间具有显著的空间溢出效应,因此中国各省市自治区、各企业之间应该积极地进行科研信息的交流和科研成果的传播,使各省市自治区的技术创新协同发展,从整体上提升中国的技术创新水平。(2)FDI是资金、技术和管理经验的载体,中央政府一方面应该提升改革开放水平,制定FDI引进的优惠政策,加大吸引力度,创造有利于FDI在中国充分发挥正向技术溢出效应的外部环境;另一方面,要进一步提高利用FDI的质量,建立科学的招商引资质量考评体系,注重引进技术创新型、生态环保型和资源节约型的项目,加强先进技术和管理经验的引进。(3)人力资本水平的高低是一个国家对外资先进技术进行消化、吸收以及本身进行自主创新的决定性因素,政府要加大教育投入,重视高等教育对人才的培养,合理规划高技术人才的培养机制,制定相应的优惠政策、创造良好的科研环境吸引外资企业优秀人才的流入,减少高科技人才的流失,加快人才市场的建设步伐,提高中国整体人力资本水平,保障人力资本的合理配置,为FDI进入中国充分发挥技术外溢效应提供高水平的人力资本。

[参考文献]

[1] Macdougall A.The benefit and costs of private investment from abroad:a theoretical approach[J].Bulletin of the Oxford University Institute of Statistics,1960(22):189-211.

[2] Blomstrm M,Siholm F.Technology Transfer and Spillovers?Does Local Participation with Multinationals Matter?[J].European Economic Review,1998(43):915-923.

[3] Feinberg E, Majulndar K.Technology Spillovers from Foreign Direct Investment in the Indian Phannaeeutieal Industry[J].Journal of International Business Studies,2001,32(3):421-437.

[4] Gorg H,Strobl E.Spillovers from Foreign Firms through Worker Mobility:An Empirical Investigation’ Scandinavian[J].Journal of Economics,2005(4):693-709.

[5] Lee R.Is foreign direct investment a channel of knowledge spillover?Evidence from Japan’s FDI in the United States[J].Journal of International Economics,2008(68):28-42.

[6] Young A.Growth without Scale Effects[J].Journal of Political Economy,1998(106):41-63.

[7] Koings J.The Effects of Foreign Direct Investment on Domestic Firms:Evidence from Finn level Panel Data in Emerging Economics[J].CERP Discussion Paper,2001(2586):1-24.

[8] Alan Bevan,Saul Estrin,Klaus Meyer.Foreign investment location and institutional development in transition economics[J].International Business Review,2004,13(1):43-64.

[9] Jonathan E,Haskel.Does Inward Foreign Direct Investment Boost the Productivity of Domestic Firms?[J].The Review of Economics and Statistics,2007(15):482-496.

[10] Kathuria V.Productivity Spillovers from Technology Transfer to Indian Manufacturing Firms[J].Journal of International Development,2000(12):343-369.

[11] Damijan J P, Knell M, Majcen B, et al. The Role of FDI,R&D Accumulation and Trade in Transferring Technology to Transition Countries:Evidence from Firm Panel Data for Eight Transition Countries[J].Economic Systems,2003(27):189-204.

[12] Harris R, Robinson C.Productivity Impacts and Spillovers from Foreign Ownership in the United Kingdom[J].National Institute Economic Review,2004(187):58-75.

[13] 何洁.外商直接投资对中国工业部门外溢效应的进一步精确量化[J].世界经济,2000(12):29-36.

[14] Hu A,Jefferson G.FDI,Technological Innovation,and Spillover:Evidence from Large and Medium Size Chinese Enterprises[D].Waltham:Brandeis University,2001.

[15] 王红领,李稻葵,冯俊新.FDI与自主研发:基于行业数据的经验研究[J].经济研究,2006(2):19-21.

[16] 谢光亚,李洋.经济发展的后发性与FDI的技术溢出效应――基于工业部门面板数据的分析[J].科技管理研究,2007,27(3):73-75.

[17] 王滨.FDI技术外溢、技术进步与技术效率――基于中国制造业1999―2007年面板数据的经验研究[J].数量经济技术经济研究,2010(2):93-117.

[18] Fan Simon,Yifan Hu.Foreign Direct Investment and Indigenous Technological Efforts:Evidence from Provincial Data[J].China Economic Review,2007,15(1):25-47.

[19] 范成泽,胡一凡,郑洪亮.FDI对国内企业技术创新影响的理论与实证研究[J].经济研究,2008(1):89-101.

[20] 蒋殿春,张宇.经济转型与外商直接投资技术溢出效应[J].经济研究,2008(7):26-38.

[21] 徐亚静,王华.开放条件下的外商直接投资与中国的技术创新[J].国际贸易问题,2011(2):136-145.

[22] 黄静波,付建.FDI与广东技术进步关系德尔实证分析[J].管理世界,2004(9):81-86.

[23] 平新乔,关晓静,邓永旭,等.外国直接投资对中国企业的外溢效应分析:来自中国第一次全国经济普查数据的报告[J].世界经济,2007(8):3-23.

[24] 王文治.外商直接投资后向关联效应的经验分析――基于我国制造业的研究[J].中央财经大学学报,2008(4):57-61.

[25] 许和连,禄雪焕.外商直接投资对技术创新能力的影响效应――基于我国工业行业数据的实证研究[J].财经理论与实践,2008,29(155):88-93.

[26] Romer P.Endogenous Technological Change[J].Journal of Political Economy,1990,98(5):71-102.

[27] 李谐,齐绍洲.贸易开放、经济增长与中国二氧化碳排放[J].经济研究,2011(11):60-72.

[28] 马章良.FDI对技术创新能力的培养――基于长三角地区[J].技术经济与管理研究,2012(3):30-33.

大数据技术论文篇13

一. 研究背景及意义

近十几年来,随着数据库系统的广泛流行以及计算机技术的快速发展,人们利用信息技术生产和搜集数据的能力大幅度提高。千万个数据库被用于商业管理、政府办公、科学研究和工程开发等,特别是网络系统的流行,使得信息爆炸性增长。这一趋势将持续发展下去。大量信息在给人们带来方便的同时也带来了一大堆的问题:第一是信息过量,难以消化;第二是信息真假难以辨认;第三是信息安全难以保证;第四是信息形式不一致,难以统一处理。面对这种状况,一个新的挑战被提出来:如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?这时出现了新的技术——数据挖掘(Data Mining)技术便应用而生了。

面对海量的存储数据,如何从中发现有价值的信息或知识,成为一项非常艰巨的任务。数据挖掘就是为迎合这种要求而产生并迅速发展起来的。数据挖掘研究的目的主要是发现知识、使数据可视化、纠正数据。

二. 概述

1,数据挖掘

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这些数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本,图形,图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的,可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以进行

数据自身的维护。数据挖掘借助了多年来数理统计技术和人工智能以及知识工程等领域的研究成果构建自己的理论体系,是一个交叉学科领域,可以集成数据数据库、人工智能、数理统计、可视化、并行计算等技术。 2,数据挖掘技术

数据挖掘就是对观测到的数据集进行分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。它利用各种分析方法和分析工具在大规模海量数据中建立模型和发现数据间关系的过程,这些模型和关系可以用来做出决策和预测。

数据挖掘的过程就是知识发现的过程,其所能发现的知识有如下几种:广义型知识,反映同类事物共同性质的知识;特征型知识,反映事物各方面的特征知识;差异型知识,反映不同事物之间属性差别的知识;关联型知识,反映事物之间依赖或关联的知识;预测型知识,根据历史的和当前的数据推测未来数据;偏离型知识,揭示事物偏离常规的异常现象。所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。

数据挖掘是涉及数据库、人工智能、数理统计、机械学、人工神经网络、可视化、并行计算等的交叉学科,是目前国际上数据库和决策支持领域的最前沿的研究方向之一。

3,数据挖掘的功能

数据挖掘通过预测未来趋势及行为,做出预测性的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,按其功能可分为以 下几类。

3.1 关联分析(Association Analysis)

关联分析能寻找到数据库中大量数据的相关联系,常用的一种技术为关联规则和序列模式。关联规则是发现一个事物与其他事物间的相互关联性或相互依赖性。

3.2 聚类

输入的数据并无任何类型标记,聚类就是按一定的规则将数据划分为合理的集合,即将对象分组为多个类或簇,使得在同一个簇中的对象之间具有较高的相似度,而在不同簇中的对象差别很大。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。

3.3 自动预测趋势和行为

数据挖掘自动在大型数据库中进行分类和预测,寻找预测性信息,自动地提出描述重要数据类的模型或预测未来的数据趋势,这样以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。。

3.4 概念描述

对于数据库中庞杂的数据,人们期望以简洁的描述形式来描述汇集的数据集。概念描述就是对某类对象的内涵进行描述并概括出这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。

3.5 偏差检测

数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。这常用于金融银行业中检测欺诈行为,或市场分析中分析特殊消费者的消费习惯。

三.目前的研究现状及存在的主要问题

自KDD一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议以来。迄今为止,由美国人工智能协会主办的KDD国际研讨会已经召开了13次,规模由原来的专题讨论会发展到国际学术大会,人数由二三十人到超过千人,论文收录数量也迅速增加,研究重点也从发现方法逐渐转向系统应用直到转向大规模综合系统的开发,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。其他内容的专题会议也把数据挖掘和知识发现列为议题之一,成为当前计算机科学界的一大热点。

与国外相比,国内对DMKD的研究稍晚,没有形成整体力量。1993年国家自然科学基金首次支持我们对该领域的研究项目。目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究,这些单位包括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。其中,北京系统工程

研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开展对数据立方体代数的研究,华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造;南京大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的知识发现以及Web数据挖掘。

四. 研究内容

1,数据挖掘的过程

数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的、有效的、可实用的信息,并使用这些信息做出决策或丰富知识。

数据挖掘的一般过程如下流程图所示:

图1,数据掘的一般过程

2.1 神经网络

神经网络方法是模拟人脑神经元结构,以MP模型和Hebb学习规则为基础。它主要有三种神经网络模型:前馈式网络、反馈式网络、自组织网络。为

2.2决策树

决策树学习着眼于从一组无次序、无规则的事中推理出决策树表示形式的分类规则。它采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较并根据不同的属性值判断从该结点向下的分支,在决策树的叶结点得到结论。

2.3 遗传算法

遗传算法是一种优化技术,是模拟生物进化过程的算法。基于进化理论,并采用遗传结合、遗传变异以及自然选择等设计方法。由三个基本算子组成:繁殖、交叉、变异。

2.4 传统统计分析

这类技术建立在传统的数理统计的基础上。在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用判别分析、因子分析、相关分析、多元回归分析及偏最小二乘回归方法等。

2.5 关联规则

关联规则是发现一个事物与其他事物间的相互关联性或相互依赖性。关联规则是展示属性: 值频繁地在给定数据集中一起出现的条件,是数据挖掘中作用比较广泛的知识之一。

2.6 可视化技术

可视化技术是利用计算机图形学和图像技术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。可视化数据挖掘技术将可视化有机地融合到数据挖掘之中,使用户对于数据挖掘有一个更加直接直观清晰的了解,提供让用户有效、主动参与数据挖掘过程的方法。

3,数据挖掘的应用领域

数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计,分析,综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。

一般Data Mining较长被应用的领域包括金融业、保险业、零售业、直效行销业、通讯业、制造业以及医疗服务业等。更广义的说法是:数据挖掘意味着在一些事实或观察数据的集合中寻找模式的决策支持过程。

4,数据挖掘的发展方向

目前,数据挖掘的研究方面主要有:数据库知识发现方面,将知识发现(KDD)与数据库系统、数据仓库系统和Web数据库系统紧密结合,力图充分利用Web中的丰富资源;机器学习方面,进一步研究知识发现方法,希望克服现存算法的计算性瓶颈,如注重对Bayes(贝叶斯)方法以及Boosting算法的研究和提高;统计领域,加大传统统计方法在数据挖掘中的应用。数据挖掘研究正蓬勃开展,在今后还会掀起更大的波澜,其研究焦点集中到以下几个方面:研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化;寻求数据挖掘过程中的可视化方法,使得知识发现的过程能够被用户理解,也便于在知识发现过程中的人机交互;研究在网络环境下的数据挖掘技术,特别是在Internet上建立数据挖掘服务器,与数据库服务器配合,实现数据挖掘;加强对各种非结构化数据的挖掘,如文本数据、图形图像数据、多媒体数据。

5,数据挖掘的新技术

Web数据挖掘技术首要解决半结构化数据源模型和半结构化数据模型的查询与集成问题。这就必须要有一个模型来清晰地描述Web上的数据,而寻找一个半结构化的数据模型是解决问题的关键所在。除此之外,还需要一种半结构化模型抽取技术,即自动地从现有数据中抽取半结构化模型的技术。

XML可看作一种半结构化的数据模型,可以很容易地将XML的文档描述与关系数据库中的属性对应起来,实施精确地查询与模型抽取。利用XML.Web设计人员不仅能创建文字和图形,而且还能构建文档类型定义的多层次、相互依存的系统、数据树、元数据、超链接结构和样式表。

6,数据挖掘面临的问题和挑战

虽然数据挖掘技术已经在各方面都得到了广泛的应用,但数据挖掘技术的研究还不够成熟,在应用上有很大的局限性。正是这些局限性,促使数据挖掘技术进一步的发展:

(1)挖掘的对象 数据库更大,维数更高,属性之间更复杂,数据挖掘处理的数据通常十分巨大。

(2)数据丢失问题 因大部分数据库不是为知识发现而定做的,那么它就有可能会存在一些重要的数据和属性丢失的问题。

(3)多种形式的输入数据 目前数据挖掘工具能处理的数据形式有限,一般只能处理数值型的结构化数据。

(4)网络与分布式环境的KDD问题 随网络的发展,资源的丰富,技术人员各自独立处理分离数据库的工作方式应是可协作的。

五.研究达到的预期结果

系统的介绍数据挖掘技术,使更多的研究人员在数据库中发现有用的,有潜在价值的数据知识。

六.小结

通过各方面资料的查找,理解了基本的数据挖掘概念、数据挖掘技术、数据挖掘的实际应用及国内外现状。在论文中将对数据挖掘的概念以及发展概况进行介绍,并总结数据挖掘中使用的技术,主要结合当前的研究成果,分析了数据挖掘领域的。研究领域方面,可能主要集中在网络信息中的主要应用。

七.毕业论文进程安排

序号 论文各阶段安排内容 日期

1 资料调研及方案设计 1.4-1.10

2 数据挖掘的概论研究 1.11-1.25

4 数据挖掘常用技术研究 1.26-2.15

5 数据挖掘的应用研究 2.15-3.1(中期检查)

6 数据挖掘的新技术研究 3.1-3.10

7 数据挖掘的发展方向 3.11-3.16

在线咨询
了解我们
获奖信息
挂牌上市
版权说明
在线咨询
杂志之家服务支持
发表咨询:400-888-7501
订阅咨询:400-888-7502
期刊咨询服务
服务流程
网站特色
常见问题
工作日 8:00-24:00
7x16小时支持
经营许可
出版物经营许可证
企业营业执照
银行开户许可证
增值电信业务经营许可证
其它
公文范文
期刊知识
期刊咨询
杂志订阅
支付方式
手机阅读