文化自信的特征实用13篇

文化自信的特征
文化自信的特征篇1

在经济高速发展的今天,各种遥感卫星相继运行,多时态遥感数据不断积累,多时相遥感影像变化检测已经在土地利用、环境监测等各个领域得到广泛应用。目前,遥感影像变化检测技术正处于结合人工解译和计算机自动发现的阶段。

1 特征库设计与建立

建立多源特征库以辅助实现影像变化检测。该特征库主要包括感兴趣区域类别特征,感兴趣区域变化信息数据库,感兴趣区域图斑特征,光谱特征,纹理特征以及指数特征。

(1)感兴趣区域类别特征――通过分类体系来表达。将已建立的分类体系存放在特征库中,采用分类后比较进行变化检测时,调用特征库中的分类体系,方便快捷的进行遥感影像的分类,提高变化检测效率。

(2)感兴趣区域变化信息数据库――通过影像类别及其类别信息来表达。采用比较后分类的方案进行变化检测时,手绘变化图斑进行图斑地类判别,调用特征库中已存放的感兴趣区域变化信息数据库,方便快捷的进行前后时相变化图斑地类划分,提高变化检测效率。

(3)感兴趣区域图斑特征――感兴趣区域分类库,通过感兴趣区域表达。将比较后分类及分类后比较两种方法产生的不同地类变化图斑矢量层保存在特征库中,供用户查询不同区域地类变化信息。

(4)光谱特征――针对每一类别的光谱信息,统计每一类别地物的均值与方差等。光谱特征可用于影像信息提取,影像分类等方面。

(5)纹理特征――针对每一类别的纹理,利用共生矩阵计算纹理信息。

(6)指数特征――植被指数、水体指数等。指数特征应用广泛,是进行图像分割,影像信息提取等不可或缺的条件,因此,将指数特征入库管理,将大大提升遥感影像处理的效率。

该特征库主要实现三方面功能:一是,存放已建立分类体系与样本图斑,供变化检测导入使用。二是,存储变化地类矢量图层。三是,采取分类建立索引的方法,解决了查找速度慢的问题。可通过行政地名、行政境界、图层数据编码等方式进行快速定位搜索变化图斑,提高了数据库管理的效率。

2 变化检测流程设计

遥感影像变化检测由影像几何配准、辐射校正、变化信息提取及后处理等几大部分构成。本文采用自动一体化流程,实现计算机对同一地域多时相遥感图像的分析和比较,得出变化数量及类型,为决策者提供必要的参考信息。

2.1 数据输入

在以环境与灾害监测预报小卫星星座为主要数据源的基础上,结合气象卫星、海洋卫星、资源卫星等数据。

2.2 变化影像产生

不同时相影像通过基于直方图曲率的CVA变化检测方法得到变化掩膜,将掩膜影像与原影像进行叠加,利用MaskFilter滤波,得到变化影像。

基于直方图曲率的CVA分析法主要思路包括三个方面:

1)在已知的变化强度特征基础上,以两期影像每个像元的相关系数作为一个新的特征,采用两个特征来判断最佳阈值;

2)对变化强度图和相关系数图的直方图进行数值分析,计算直方图的曲率,从而确定初始分割阈值的上下限范围,在阈值上下限内计算Kappa系数,选取Kappa系数最大的变化强度值为最佳分割阀值,对变化强度图进行二值化分割,确定变化范围;

3)在发生交化的区城内,提取分类信息。

2.3 掩膜后处理

计算相应的错判误差,漏判误差,检测精度,总体精度,以及Kappa系数等精度评价指标。

2.4 变化检测

文采用分类后比较的方法,首先导入特征库中的感兴趣区域类别特征,即分类体系,利用已存放的各地类图斑,采用极大似然分类方法进行变化影像的分类处理。优化分类图斑边界。对各前后时相分类影像分层矢量化文件进行矢量叠置分析,得到不同地类变化矢量图层,系统将自动保存变化地类矢量图层,即感兴趣区域图斑特征到特征库中。

3 结论

本文研究遥感影像变化检测方法研究以环境卫星数据为基本数据源,实现了图像预处理、变化信息提取及后处理等一体化的技术流程,可以高效的进行变化信息的检测;特征库中的感兴趣区域类别特征可以辅助进行变化检测,其它特征具有实时查询、更新变化图斑数据库的功能;但是,基于地物的高强度变化,变化信息检测算法框架有待进一步细化与改进,使其达到更高的精度,得到更广泛的应用。

【参考文献】

[1]孙家.遥感原理与应用[M].武汉:武汉大学出版社,2006(4):115-116.

[2]汤国安,张有顺,等.遥感数字图像处理[M].北京:科学出版社,2004(1):270-271.

文化自信的特征篇2

引言

人脸识别技术具有很大的实际应用价值,目前已广泛应用于金融、交通、身份识别等领域,人脸识别的关键在于对特征的提取。由于图像采集时光照、姿势、表情、遮挡变化等会使得人脸图像存在差异,这将给后续的识别阶段造成很大困难,如何能在非理想环境下提取出鲁棒性强的人脸特征是解决人脸特征识别的关键。本文提出了一种基于SIFT的优化人脸特征提取方法,能够更加细节地描述分块的边缘信息,并且充分考虑到了各分块的贡献度。

1 基于SIFT的分块加权人脸描述

1.1 图像分块处理

设样本图像为I,维数为,首先计算出分块模板的大小。其中,,b为重叠的范围,本文取10。之后根据分块模板对图像进行,,,边缘部分重叠分块,,分块结果如图1所示:

1.2 分块SIFT人脸特征提取

SIFT算法通过从不同的图像尺度空间上对图像的特征点进行检测与提取,确定关键点的方向信息。利用SIFT算法提取的关键点不会随着光照,缩放,仿射以及噪声等的变化而变化,图像特征提取的步骤为:

(1)建立尺度空间:利用高斯卷积核来获得高斯尺度空间金字塔并产生高斯差分尺度空间金字塔。

(2)对关键点进行检测:主要是通过将采样点处的像素值与其相邻的像素值进行比较,检测采样点处的像素值是否大于或者小于其图像域或尺度域中相邻的像素点的像素值。

(3)极值点中不稳定的极值点进行去除:去除不稳定的极值点主要利用三维二次的拟合函数来进行去除,通过删除不稳定的极值点以准确的对关键点的位置以及尺度进行确定。

(4)删除边缘效应:高斯差分算子有较强的边缘响应,去除边缘响应主要通过求Hessian矩阵的主曲率来去除。

(5)对关键点方向信息进行确定:方向信息的确定主要通过计算关键点周围的像素点的梯度方向的分布特性来实现的。

(6)特征点向量描述:特征点的描述有位置,尺度,方向信息,其中通过特征点周围的像素所形成的种子点的方向信息来对特征点的进行描述,形成128维的方向描述信息。

1.3 DICA优化降维处理

本文针对SIFT算法提取的特征向量维数过高的问题,利用DICA降维算法对传统的128维SIFT特征描述符进行降维。该降维方法很好的考虑到了人脸图像中的高阶统计特性,而人脸图像的高阶统计量中包含很多对人脸识别来说很重要的信息。

该降维方法首先用PCA方法对特征向量进行降维,并求取白化矩阵,之后用ICA来提取出特征矩阵中的独立的成分。经过DICA降维处理后的特征值向量从之前的128维降到20维,并且提取的特征向量对人脸图像更具有代表性,大大减少了后续进行分类识别的时间。

1.4 自适应加权

人脸图像进行重叠分块后,有些分块所含的信息量很大,而有些分块所含信息量确很少,本文考虑到每个分块的特征在进行识别时的贡献度不同,对分块图像提取的特征向量赋予权值,对提取的SIFT特征依据局部特征贡献度CM对其进行自适应加权处理,最后得到加权后的图像SIFT特征向量。

(1)

其中代表了第个子块中处的像素值。

2 试验结果

部分遮挡情况相当于在图像中添加了非常大的一个噪声,本文从ORL人脸库10个人的人脸图像中,每人选取1幅正面且姿势变化不大没有遮挡的人脸图像作为训练样本,测试样本为有部分遮挡的人脸图像。将本方法与LBP,PCA以及未改进的SIFT方法的识别效果进行比较,结果如图2所示:

3 总结

本文以提高人脸识别系统的识别率为目标,提出一种基于SIFT的改进分块自适应加权的人脸特征提取方法,重点对人脸识别系统中的特征提取方法进行改进研究。并在ORL人脸库中进行人脸识别实验,结果表明本算法用于非理想环境下具有良好的识别率。对姿态,表情,遮挡,光照的变化具有很好的鲁棒性,能达到理想的识别效果。

参考文献

[1]黄令允.基于自适应阈值的SIFT算法研究及应用[D].大连理工大学硕士学位论文,2010.

[2]刘佳,傅卫平,王雯,李娜.基于改进SIFT算法的图像匹配[J].仪器仪表学报,2013,05:1107-1112.

文化自信的特征篇3

支持向量机是一种在统计学习理论的基础上发展而来的机器学习方法,通过学习类别之间分界面附近的精确信息,可以自动寻找那些对分类有较好区分能力的支持向量,由此构造出的分类器可以使类与类之间的间隔最大化,因而有较好的泛化性能和较高的分类准确率。由于支持向量机具有小样本、非线性、高维数、避免局部最小点以及过学习现象等优点,所以被广泛运用于故障诊断、图像识别、回归预测等领域。但是如果缺少了对样本进行有效地特征选择,支持向量机在分类时往往会出现训练时间过长以及较低的分类准确率,这恰恰是由于支持向量机无法利用混乱的样本分类信息而引起的,因此特征选择是分类问题中的一个重要环节。特征选择的任务是从原始的特征集合中去除对分类无用的冗余特征以及那些具有相似分类信息的重复特征,因而可以有效降低特征维数,缩短训练时间,提高分类准确率。

目前特征选择的方法主要有主成分分析法、最大熵原理、粗糙集理论等。然而由于这些方法主要依据繁复的数学理论,在计算过程中可能存在求导和函数连续性等客观限定条件,在必要时还需要设定用来指导寻优搜索方向的搜索规则。遗传算法作为一种鲁棒性极强的智能识别方法,直接对寻优对象进行操作,不存在特定数学条件的限定,具有极好的全局寻优能力和并行性;而由于遗传算法采用概率化的寻优方法,所以在自动搜索的过程中可以自主获取与寻优有关的线索,并在加以学习之后可以自适应地调整搜索方向,不需要确定搜索的规则。因此遗传算法被广泛应用在知识发现、组合优化、机器学习、信号处理、自适应控制和人工生命等领域。

基于改进遗传算法的特征选择

遗传算法是一种新近发展起来的搜索最优化算法。遗传算法从任意一个的初始生物种群开始,通过随机的选择、交叉和变异操作,产生一群拥有更适应自然界的新个体的新一代种群,使得种群的进化趋势向着最,优的方向发展。图1中所示的是标准的遗传算法的流程框图。

传统的遗传算法存在早熟收敛、非全局收敛以及后期收敛速度慢的缺点,为此本文提出了一种能够在进化过程中自适应调节变异率,以及利用模拟退火防止早熟的改进遗传算法,同时该算法利用敏感度信息可以有效地控制遗传操作。图2是改进遗传算法的流程框图。

染色体编码和适应度函数

所谓编码是指将问题的解空间转换成遗传算法所能处理的搜索空间。在特征选择问题中,常常使用二进制的编码形式,使得每个二进制就是一个染色体,其位数长度等于特征的个数。每一位代表一个特征,每位上的1表示选中该特征,0则表示不选中。每一代种群都由若干个染色体组成。

适应度函数是整个遗传算法中极为重要的部分,好的适应度函数能使染色体进化到最优个体,它决定了在整个寻优过程中是否能够合理地协调好过早收敛和过慢结束这对矛盾。由于本文针对的是支持向量机的特征选择问题,所以考虑以分类正确率和未选择的特征个数这两个参数作为函数的自变量。将分类正确率作为主要衡量标准,未选择的特征个数为次要标准。由此建立以下的适应度函数:式中c为分类正确率。为未选择的特征个数,a是调节系数,用来平衡分类正确率和未选择的特征个数对适应度函数的影响程度,同时该系数也体现了用最少的特征得到较大分类正确率的原则,在本文中a取0.00077。由上式可知,分类正确率越高,未选的特征个数越多,染色体的适应度就越大。

选择操作

选择操作需要按照一定的规则从原有的种群中选择部分优秀个体用来交叉和变异。选择原则建立在对个体适应度进行评价的基础上,目的是避免基因损失,提高全局收敛性和计算效率。本文首先将整个种群中最优的前40%的个体保留下来,以确保有足够的优良个体进入下一代,对剩下的60%的个体采用算法进行选择,这样做可以弥补保留前40%个体而带来的局部最优解不易被淘汰的不利影响,有利于保持种群的多样性。

基于敏感度信息量的交叉、变异操作

独立敏感度信息量Q(i)指的是对在所有特征都被选中时计算所得到的适应度值Allfitness以及只有特征i未被选中时计算得到的适应度值Wfitness(i)按式(2)进行计算得到的数值。独立敏感度信息量刻画了适应度对特征是否被选择的敏感程度。

互敏感度信息量R(i,j)由(3)式可得,互敏感度信息量体现了特征与特征之间对适应度的近似影响程度。

交叉操作的作用是通过交换两个染色体之间的若干位从而生成含有部分原始优良基因的新个体。由式(3)可知互敏感度信息量可作为不同特征之间含有相似分类信息的一种度量,所以可以将互敏感度信息量代入式(4)计算出染色体在第一位发生交叉的几率β(j),在式(4)中i和j分别代表特征和特征j,是染色体的长度。β(i)是特征,相对于其他所有特征在互敏感度信息量上的归一量,反映了特征与其余特征在相似信息量上的总和。由此对应到染色体上,β(i)就可以认为是染色体的第i位与整个染色体在基因信息上的相关性,β(i)越小则说明相关性越大,第i位与整个染色体所含的基因信息越接近,此位为分裂点的几率越小。由于β(i)是归一化量,故可采用算法来选择一个交叉点。

变异操作是引入新物种的重要手段,可以有效地增加种群个体的多样性。本文中的变异率Pm采用相邻两代之间的最优适应度增幅比作为自变量进行自适应调节,如式(5)所示。当适应度增幅比正向增大时,较小的增幅比可以使变异率维持在中等水平,并且变异率随着增幅比的增大而缓慢降低,这样既能够拥有一定数量的新个体也可以抑制过多不良染色体的产生,保证优秀染色体的进化足够稳定;而当适应度增幅比反向增大时,由较小增幅比则可以获得较高的变异率。并且变异率也伴随增幅比同比缓慢升高,确保有足够的染色体发生变异,稳定地加快进化速度。 式中dis指新生种群的最优适应度相对于原种群的最优适应度的增幅比,尚k均是区间(0,1)上的调节系数。文中的j与k分别取0.65和0.055。

独立敏感度信息量在一定程度上体现了单个特征所含有的分类信息量,如果独立敏感度信息量小,则说 明该特征所含信息大部分对分类没有帮助,即该基因位发生突变后对整个染色体的优异性影响不大,突变的概率也就相应减小。因此将独立敏感度信息量归一化后所得到的q(i)作为特征i被选为变异点的概率。变异点的具体选择方法为:针对一个染色体按照染色体的位数进行循环遍历,在该循环中由变异率Pm判定是否产生变异位。若需要产生变异位,则依据q(i)按照算法进行选择。

模拟退火选群

在每一轮进化完成后都需要决定进入下一轮进化的种群。如果过多地将较优种群作为父代,就会使算法过早收敛或搜索缓慢。文献中指出模拟退火算法能够以一定的概率接受劣解从而跳出局部极值区域并最终趋于全局最优解。因此可以将上文提到的最优适应度增幅比作为能量函数,运用模拟退火的Meteopolis准则来选择待进化的种群。为了使每个种群得到充分地进化,预防最优解的丢失,这里采用设置退火步长的策略来实现模拟退火选群。该策略具体为:使退火步长对同一种群作为父代的次数进行计数,一旦产生更优种群则退火步长就置零并重新计数。若退火步长累计超过一定的阈值时,就进入模拟退火选群阶段。退火步长累计到一定数量意味着原有种群的进化已经停滞,需要用模拟退火算法摆脱这种停滞状态。如果增幅比大于零,则说明新生种群优于原有种群。这时完全接受新种群进入下一轮进化:否则新生种群劣于原有种群,并以一定的概率p接受较劣的新生种群进入下一轮进化。接受概率lp由式(6)和式(7)共同决定,其中dis为增幅比,T(s)指温度参数,To和s分别是初始温度和迭代次数。

以上两式的参数要满足进化对接受概率的要求。即增幅比负增长越大,接受概率降低越迅速,但接受概率随迭代次数的增加应缓慢下降。这样做能够保证在有限的迭代次数内有一个适应度较优的新生种群进入下一轮进化,以达到减少计算量和优选待进化种群的目的。在本文中To=0.2,A=0.9,m=0.5。

实例的验证与分析

UCI数据库常用来比较各种方法的分类效果,因此可以用其验证本算法对支持向量机作用后的分类效果。文献㈨采用了UCI数据库中的German、Ionosphere和Sonar三种数据作为实验对象,为了便于与文献中所用的几种方法进行对比,本文也采用这三种数据进行实验,并按照文献中所述的比例将各类数据分成相应的训练样本和测试样本。

在种群规模为30,交叉率为0.8、起始变异率为0.1的条件下使用支持向量机作为分类器(惩罚参数为13.7,径向基核函数参数为10.6)对所选数据进行分类,表1中显示了本文算法与文献中几种算法在分类效果上的对比,表2给出了三种数据的最终选择结果。表1中共出现了四种方法:方法1:使用本文算法:方法2:使用NGA/PCA方法;方法3:使用PCA方法;方法4:使用简单遗传算法。

由于本文算法旨在用最少的特征个数最大化分类正确率,因此从表1中可以看出本文算法在特征选择个数和分类正确率上均比其他三种方法更具优势。由于NGA/PCA算法是针对简单遗传算法和主成分分析法的不足而做的改进,其性能优于简单遗传算法和主成分分析法,所以本文算法的分类效果优于NGA/PcA算法这一事实更能说明该算法可以较好地解决支持向基机的特征选择问题。

结语

通过与其他方法的比较,本文算法的分类效果得到了充分的验证,也说明了该算法具有极好的泛化能力以及在敏感度信息量地指导下遗传操作的有效性。

文化自信的特征篇4

关键字:Teager能量算子;离散余弦变换;缺失特征;高斯混合模型

中图分类号:TN911.7-34 文献标识码:A 文章编号:1004-373X(2015)12-0012-04

收稿日期:2014-12-22

0 引言

环境中存在这样一类特殊的声音:瞬态声,它具有持续时间短、短时平稳、能量集中、宽频带广等特点,如敲门声、汽车短促的喇叭声、舰船及其中设备的启动声等,这类声音很容易被环境噪声所污染。瞬态声识别在军事及民用领域有极其广泛的应用,如潜艇识别、道路脱空检测及医学上对新生儿的听力诊断等,因此,对其研究具有重要的实用价值[1]。

目前,对于瞬态声的自动识别在实验室环境中效果很好,但是在噪声环境下,其识别性能会明显降低。因此,如何减小噪声的影响,是构建自动目标识别(Auto-matic Target Recognition System,ATR)系统的关键环节之一。本文分别在ATR的前端和后端进行降噪和缺失特征处理,以进一步提高系统对噪声干扰的鲁棒性。

在ATR 前端,需要通过一定的降噪处理以提高系统的抗噪性能,如谱减法[2](Spectral Subtraction)、维纳滤波(Wiener Filtering)法、最小均方误差(Minimum Mean Square Error)法等,这些方法都是基于离散傅里叶变换方法。基于小波变换的降噪技术也可以达到很好的效果,如由Bahoura等提出的基于Teager能量算子(Teager Energy Operator,TEO)的小波去噪[3],其在不同阈值上的变化是自适应的,但它的计算量较大,且小波基和分解层数的选择不容易。基于Teager能量算子[4]的离散余弦变换(Discrete Cosine Transform,DCT)降噪相对于基于离散傅里叶变换(DFT)的降噪方法有以下优势:DCT相比于DFT有更好的能量压缩特性;在相同的窗条件下,DCT比DFT有更好的频率分辨率。

本文将DCT和TEO相结合实现瞬态声信号的降噪[5],既克服了离散傅里叶变换的缺点,也降低了计算量,该方法被称为TEO-DCT方法。

在ATR 后端,可以通过缺失特征(Missing Feature)方法,通过对不同时间或频率段的特征进行处理,进一步提高系统的识别性能。缺失特征技术[4]的主要原理是根据噪声对信号的不同时间、不同频带的影响不同,确定可靠特征和缺失特征,然后根据可靠特征进行识别或者通过其对缺失特征部分进行重构。

1 TEO-DCT 的阈值选择及其改进

传统的降噪方法[6-7]需要事先估计噪声幅值或信噪比,而基于TEO 的小波降噪算法在不同尺度上的阈值是自适应变化的,克服了固定阈值的不足,但是小波变换的计算量较大。DCT有相应的快速算法,可以有效降低计算复杂度,将其与TEO相结合,可以获得自适应阈值,并降低计算量。图1给出了实现TEO-DCT的框图。首先,对输入的含噪声的瞬态声信号进行DCT,然后根据DCT 系数计算TEO,再根据TEO 计算DCT 域的自适应性阈值。根据计算的阈值,对信号进行逆离散余弦变换(Inverse DCT,IDCT)就可以得到降噪后的信号。

(1)DCT模型

正如上面提及,相较于DFT,DCT 有更好的能量压缩性能,同时和小波变换相比,有更少的计算量。设y(n) 是一个长度为N 的含噪声信号,其一维DCT为:

式中:k=0,1,2,…,N-1;α 由式(2)定义:

(2)TEO的计算

对于离散信号,TEO的计算公式如下:

式中n 是离散信号的序列。DCT系数的TEO可以通过式(4)获取:

然后通过对其进行IIR滤波,获得其平滑效果:

不同于传统的DCT降噪的阈值选择方法,TEO可以有效地抑制噪声的DCT系数,而保留信号的DCT系数。

(3)阈值的获取

对式(4)获取的Tk 进行如式(6)的归一化处理,并将归一化后系数较小的部分视为噪声,而接近于1的部分视为信号,有:

为了将噪声部分的阈值设置的高,而将信号部分阈值设置的较低,需要对阈值的设置进行设置,自适应阈值可以通过式(7)得到:

式中τ 是由Donoho 和Johnstone 在1995 年提出的标准阈值[8],可根据式(8)获得:

式中:N 表示采样窗长度;σ 表示该帧信号的噪声估计值,其由式(9)获得:

式中:MAD 表示绝对中位差,即先求出给定数值中位数,然后再求取原数值和求出的给定数值中位数的绝对差值的中位数。

(4)DCT系数的获取

根据式(7)获得的软阈值threshk 对DCT系数Yk 进行处理,一旦获取threshk ,就根据软阈值函数得到经过降噪的DCT系数Yk′ :

此时,Yk′ 即是经过降噪处理后的DCT系数。

(5)信号的还原

对得到的DCT系数Yk′ 进行逆DCT,得到经过降噪后的信号帧yk′ :

图2 为截取的一段铝板敲击声信号的波形及降噪结果,其中(a)为原始信号波形;(b)加载噪声为高斯白噪声、SNR 为5 dB 的带噪信号;(c)为经过TEO-DCT 降噪处理后的波形。

2 基于异常点的缺失特征检测

对于经过降噪处理的声信号,它并不能完全消除噪声的影响,其识别性能有待进一步提高,因此可以通过缺失特征的方法进一步降低噪声的影响,进而提高ATR的性能。

缺失特征技术主要由缺失特征检测和缺失特征处理两部分构成。

缺失特征检测[9-10]是缺失特征技术的重点和难点问题,恰当的缺失特征检测准则可以有效提高缺失特征技术的效果。环境声鲁棒性识别中,人们提出了大量缺失特征检测方法:

(1)根据每个时频域的SNR 估计估计缺失特征的可靠性,如理想掩蔽和局部SNR掩蔽估计;

(2)对声目标特征进行建模,例如,提取声目标特征,然后据此训练分类器确定特征可靠性,如基于分类器的掩蔽估计及基于异常点的掩蔽估计方法。

缺失特征处理主要有2种方法:

(1)缺失特征边缘化方法,该方法主要通过舍弃缺失特征进行识别,其需要在识别段对分类器进行修改;

(2)缺失特征重构方法,该方法通过先验知识,根据可靠特征部分重构出完整特征进行识别,其不需要对分类器进行修改。

异常点的缺失特征检测:这里采用基于聚类的异常点算法检测出异常点数据并将之视为缺失特征,该方法首先对数据集进行聚类分析,然后根据一定的准则(距离、密度等)选择出一定数目的点,然后在对这些检测出的数据进行进一步的分析。

缺失特征边缘化:缺失特征边缘化方法主要考虑到缺失特征部分受到噪声的污染比较严重,如果直接使用,可能会对识别效果产生消极影响,所以仅仅依靠可靠特征,而舍弃缺失特征部分进行分类,这样可以排除受噪声污染比较严重的特征影响,在一定程度上提高识别性能。

本文将TEO-DCT降噪技术和缺失特征边缘化相结合[11]构造ATR 系统,图3 给出了所用算法流程。先用TEO-DCT 对噪声信号进行降噪处理,利用降噪后的瞬态声信号提取Mel子带特征,然后根据缺失特征检测技术,确定可靠特征和缺失特征,根据可靠特征进行识别。

3 实验结果及分析

本文以矩形板冲击声为声样本,通过TEO-DCT 降噪技术和缺失特征边缘化方法的结合,提高ATR 系统的性能。另外,将本文算法和基准系统和理想边缘算法进行对比,验证该方法的有效性。

实验中,基准系统是指未经任何处理的ATR 方法。TEO-DCT表示经过Teager能量算子和DCT相结合的降噪方法进行识别。边缘化表示直接进行边缘化识别的方法。本文算法是指将TEO-DCT和边缘化相结合的方法。

3.1 实验样本的获取

在消声室环境下分别录取不同尺寸(边长分别为42 cm,30 cm,22 cm),调节小球不同高度(分别距离敲击位置1 cm,2 cm),敲击不同位置(分别距边3 cm、对角线距角8 cm以及中心位置)的木板、玻璃板和铝板的敲击声,而噪声分别选取Noise-92噪声库中的高斯白噪声和粉红噪声,分别对消声室环境下的录音加载0 dB,5 dB,10 dB,15 dB,20 dB,25 dB,将之作为待识别的声样本。

3.2 理想掩蔽的估计

缺失特征理想掩蔽的阈值判决过程中,设置SNR阈值,把阈值之下的特征部分作为缺失特征,反之则为可靠特征。而阈值选取的不同会造成识别效果的差异,如果其设置过高,则会把特征可靠部分误判为缺失部分,从而对识别造成负面影响;阈值过低,又会把噪声部分视为可靠特征,同样对识别不利。此处通过设置不同的阈值验证在不同SNR 条件下对识别性能的影响,实验结果如图4所示。

3.3 结果分析

表1和表2分别表示在高斯白噪声和粉红噪声条件下的识别率,高斯白噪声在无限频率宽度上具有均匀的连续谱,在时域上幅度分布为高斯分布,粉红噪声作为是自然界中最常见的噪声,其频率分量功率主要集中在中低频部分。

由表1和表2可以看出,TEO-DCT降噪方法在高斯噪声和粉红噪声条件下可以有效地提高系统的识别率,但是在粉红噪声条件下且较低的SNR时,由于Teager能量算子对低频的保护作用,而粉红噪声的能量主要集中在低频区域,所以该噪声下的识别性能提高并不明显。边缘化算法在各种噪声条件下均可有效提高系统的识别效率。

而本文算法通过将两种算法相结合,在高斯白噪声条件下,其相比于单纯的降噪技术和边缘化算法可以显著地提高声目标识别系统的性能;而在粉红噪声条件下,本文算法在高SNR 条件下识别性能虽然比降噪方法好,但是却不如单纯的边缘化算法。造成这种现象的原因是:由于对粉红噪声的降噪处理在高SNR 时造成的特征矢量失真情况比带噪信号特征矢量的失真现象更为严重。

4 结语

本文首先利用TEO 与DCT 相结合,设计出DCT 的时间自适应阈值降噪技术,可以有效地提高系统的降噪性能,同时,该方法也不像谱减法那样需要对噪声进行估计且避免了基于DFT变换降噪技术的相位问题。在后端,又根据缺失特征边缘化算法,将受噪声污染严重的特征剔除出去,在一定程度上提高了系统的性能。实验结果表明,仅仅利用缺失特征边缘化算法可以提高瞬态声目标系统性能,但将之与TEO-DCT结合的方法可以有效地提高低信噪比下ATR的识别性能。

作者简介:李亚兵(1989—),男,河南许昌人,硕士。研究方向为声目标识别。

参考文献

[1] 陈克安.环境声的听觉感知与自动识别[M].北京:科学出版社,2014.

[2] 张雪英.数字语音处理及Matlab仿真[M].北京:电子工业出版社,2010.

[3] 高亚召,赵霞.基于Teager能量算子的自适应小波语音增强[J].电声技术,2009,33(1):58-62.

[4] SANAM T F,IMTIAZ H. A DCT-based noisy speech enhance-ment method using Teager energy operator [C]// Proceedings of5th International Conference on Knowledge and Smart technolo-gy. [S.l.]:Burapha University,2013:16-20.

[5] RAJ B,STERN R M. Missing -feature approaches in speechrecognition [J]. IEEE Signal Processing Magazine,2005,22(5):101-116.

[6] 李雪耀,谢华,张汝波.基于离散余弦变换的语音增强[J].哈尔滨工程大学学报,2007(2):198-202.

[7] 李潇,李宏.一种改进的基于DCT变换的语音增强算法[J].计算机仿真,2010(12):376-380.

[8] DONOHO D L. De - noising by soft - thresholding [J]. IEEETransactions on Information Theory,1995,41(3):613-627.

文化自信的特征篇5

1.通用人脸模型及人脸关键特征点的选取

本文提出的真实感人脸重构技术以面部的正面图像为数据,通过自动进行特征定位而得到关键特征点的位置,进而对通用人脸模型进行个性化调整,获得特征人脸的几何模型。

1.1通用人脸模型

由单张正面照片重构人脸的三维模型,只能获取头部的脸部数据,因此本文采用CANDIDE-3[2]人脸模型作为通用人脸的三维几何模型。CANDIDE-3人脸模型共有113个顶点和168个三角面片(如图1所示),它是一个标准的人脸参数化模型。CANDIDE-3人脸模型兼容MPEG-4标准中的人脸定义参数和人脸动画参数[3],因此在人脸的三维建模和动画领域被广泛采用。

1.2选取的面部关键特征点

面部的关键特征点需挑选最能表示人脸个性化特征的位置。我们以CANDIDE-3模型的顶点为主要参考,选取了面部26个(左右眼各9个特征点,鼻子3个,唇部5个)关键特征点进行自动定位(如图2所示)。为了更好地反映眼部特征,选取特征点时增加了右眼和左眼的眼珠中心点。

2.人脸关键特征点的定位方法

获取关键特征点的位置有两方面作用:根据定位出的人脸特征可以得到面部的一些重要数据,比如面部特征器官所在位置和形状,面部区域的大小等,这些数据是恢复人脸三维几何模型的基础。另外特征点的位置信息建立了面部特征与通用人脸模型的联系,从而为后期从图像上获取纹理信息建立了对应关系。我们首先对人脸图像进行人脸检测以确定人脸所在区域,然后在人脸区域内搜索各关键特征点。人脸检测部分我们采用AdaBoost人脸检测方法。图3给出人脸特征点提取的全过程。

2.1提取眼部特征点

通过人脸检测确定人眼所在区域后,本文采用特征区域灰度极小检测法[4]检测人眼特征点所在位置。下面对该方法作简要介绍。

假设眼珠直径为d=(d≈l),l为人眼的宽度,可通过人脸区域的大小来估计。然后设计尺寸为(-d,d)×(-d,d)的掩模,在左眼所在区域逐像素地移动该掩模,假设掩模覆盖的区域为A,此时掩模所在的位置可由区域A的中心位置(x,y)确定。令:

M(x,y)=I(P)(1)

其中P为眼睛区域中的像素点,I(P)=1?摇P∈A0?摇P?埸A,μ(A)为区域A的面积,即区域A中像素的个数。以(1)式作为卷积核与左眼图像区域做卷积,卷积结果最小的位置就是左眼眼珠中心。

检测到眼珠中心点的位置后,根据眼珠中心点和人眼其他特征点的位置关系可以检测出其余的人眼特征点。

2.2提取唇部特征点

唇部特征提取是先确定唇部区域,然后在该区域中分割出唇部,进而对嘴唇各关键特征点进行提取。在人脸区域中,唇部区域的边缘不如其他特征(如眼睛)的边缘明显,故不能利用唇部边缘定位特征点。目前对唇部进行检测的常用方法是利用唇色和肤色颜色分量的差异来检测。本文首先运用BR加权G色对比法[5]分割出唇部,进而提取唇部特征点。

2.3提取鼻子特征点

根据照片中人脸所在的位置估计出鼻子所在的区域,鼻孔的位置可以通过寻找灰度较深的区域来获得,搜索过程与检测眼珠中心类似。检测到鼻孔特征点后,设两特征点的距离为d,则在两特征点连线中心上方d/2处即可作为鼻尖点。

本文采用的人脸关键特征点的定位技术,提取特征点的准确性较理想,为后期的真实感三维人脸建模做了较好的基础性工作。图4是运用以上方法对正面人脸图像进行特征定位的结果。

3.真实感建模

对输入的人脸正面图像自动定位特征点后,就可根据特征点的信息进行三维人脸建模。真实感人脸重建是要恢复面部的三维几何模型和纹理特征,分为下述两个步骤:(1)恢复人脸的三维几何模型:利用定位出的关键特征点的位置信息,对一般人脸三维模型(CANDIDE-3模型)进行个性化调整,从而得到特定人脸的三维模型;(2)真实感建模:利用纹理映射技术将照片中的面部纹理投影到调整好的人脸几何模型上,获得目标人脸的真实感三维模型。

3.1三维人脸几何模型重建

恢复人脸的三维几何模型的过程是对通用人脸模型(CANDIDE-3模型)进行个性化调整的过程。模型顶点的调整主要包括模型的整体调整和局部特征调整。整体调整的目的是使人脸模型在平面上投影的大小和方向与照片中的人脸相一致,因此主要是对CANDIDE-3模型进行旋转和缩放;局部调整是利用定位出的特征点的位置信息来调整CANDIDE-3模型对应的顶点,使他们的位置在平面上相吻合。图5是目标人脸几何模型恢复的示例。中图为目标人脸图像,左图为通用人脸模型(CANDIDE-3模型),右图为调整后的目标人脸模型。

3.2真实感建模

得到个性化的三维人脸几何模型后,这时的人脸模型是由一些三角面片构成的网格模型,缺乏面部真实感,需要恢复面部纹理信息。我们采用纹理映射技术进行真实感建模,它是一种将图像上的纹理信息直接映射到3D模型上的技术,且获取真实感效果时不会改变模型的几何信息,实现起来也不需要过多的计算开销。对图5中调整后的人脸模型进行纹理映射,最终得到真实感的三维人脸(如图6)。

4.结语

本文提出了一种从二维人脸照片到三维人脸模型的构造方法。该方法具有如下优点:建模过程基于单张人脸照片,输入要求简单;建模速度较快,只需几秒钟时间就可建一个模型;三维人脸的建模过程完全自动化。本文提出的建模技术,尚有需要改进的地方。由于二维人脸图像的缺乏面部的深度信息,要更准确地恢复人脸三维模型,需进一步估计模型的深度信息,这是我们需要进一步研究的地方。

参考文献:

[1]胡永利.真实感三维人脸建模及其应用研究[D].北京工业大学博士学位论文,2004.

[2]Ahlberg,CANDIDE-3―anupdated parameterized face[R],Report No.LiTH-ISY-R-2326,Dept.of Electrical Engineering,Linkǒping University,Sweden,2001.

[3]IgorS,Pandzic,Robert Forchheimer.MPEG-4Facial Animation.The Standard,Implemen-tation and Applications[M].USA:John Wiley & Sons,2002:18-22.

文化自信的特征篇6

人类运用图形符号来传达信息比运用文字要早。简练独特的图形符号,能在瞬间给人留下深刻的印象。进入信息社会后,通过产业化进程和国际化影响,标志已被注入了企业理念和企业形象等视觉表现的内容,从国家到政府部分,从企业到个人,从商务活动到体育活动会,标志符号到处可见,成为人们生活中不可缺少的一部分。

标志以各种精炼的形象表现一定的含义,将组织机构或企业精神面貌、行业特征充分体现出来,传达明确信息。由于其特有的社会功用,标志具有识别性、时代性、简明性、个性化、艺术性、文化性、象征性等特征。

一、标志的特征

1.识别性

显著、易识别是标志最基本的特征。标志能给企业一个特别的身份证明,人们正是通过标志传达的信息来预定或购买商品。现代社会商品种类繁多,商品信息量大,消费者完全凭借商品的标志来寻找自己的品牌。在这里商标的识别商品的作用特别突出。为区别其他标志,显示标志自身的独特特征,设计者要在标志的题材、要素表现形式、视觉构成中选择具有独特明显视觉特征的图形符号作为标志。避免因标志相互雷同、混淆而产生错觉,从而影响标志的识别。

如索尼公司下属品牌电脑VAIO标志(图1)是一个很好的例子,VAIO标志有两个概念:

一是代表基本的模拟信号和数字信号,二是与自然同行。

这个标志代表了电脑模拟技术和数码技术的特点。V和A字母呈正弦波,是最基本的模拟信号。I和O字母就好像1和0,象征二进制代码中的数字信号。很显然,VAIO的名字和标志体现了索尼公司的一贯风格并且寓意丰富,那就是索尼产品致力改变生活方式的新理念。它也使人回想起象形文字,追忆起古时人类与自然和谐相处的情景。与其说VAIO标志只是结合了数码科技,代表了一个家用电脑产品的品牌,不如说设计师精心创造了能象征VAIO电脑功能和揭示其自然本质的标志。这个标志给人们带来一种无限永恒的感觉,而这种感觉恰能使产品在以后得到无穷发展。

图1 索尼公司下品牌电脑VAIO标志

很多标志在投入使用后为了使本身更加容易识别,会不断进行改造,如百事可乐公司在最初的标志设计中字体的颜色是红色的,与可口可乐非常接近(图2)。在经过几次标志改造中为了能很好地区别于竞争对手,使消费者容易识别本品牌,字体颜色由红色逐渐转变成蓝色为主色调,从颜色识别入手进行改造。

图2 百事可乐公司标志的变化

2.时代性

随着时代的发展,标志也处在不断的变化中。社会经济的飞速发展,商业竞争的日益激烈,传播媒体制作技术的不断提高,应用领域推广的需要和流行时尚的变化都推动了标志为体现时代精神而不断进行调整、修改,变更自身形象,而采用清新、简洁、单纯、醒目的新形象。

如“壳牌石油”(图3),“百事可乐”的标志演变都是成功的例子。现代标志在不断完善发展的过程中体现出以下几个特征:保留原来标志部分的题材、形式,提炼精华,加强造型符号的视觉传达效果,并保证标志的信赖感不受损害;标志图形简洁,明确,易识别;采用构成的表现形式,改变旧的写实复杂的具象图形;为适应国际商业发展的需要,标志的字母形式有增加的趋势。

图3 壳牌公司标志的演变

3.简明性

标志应以简洁、生动、鲜明的形象传达信息,只有用最简洁明了的形象,人们才能在很短的时间内识别标志形象,利于记忆。在各种形形的标志中,我们可以看到其中大多数品牌设计手法简洁明了,如此高比例的相同的设计方法说明了标志设计的趋势――简洁明了。

如图4,耐克公司的标志由圆滑流畅的弧线组成,可谓简洁到了无以复加的程度。

4.个性化

一个标志如果失去了个性就无法建立起以标志为核心的识别差异,个性化是标志可识别性的一个重要特征。只有具备了强烈的个性化特征,才能使标志从众多的同类者中脱颖而出,并给人以深刻印象。标志的个性化主要是通过新颖的形式和强烈的视觉效果体现出来。

图5是墨西哥门铃产品的标志,手法的质感洋溢着生命力与直觉感,让人不再关心僵硬的线条和圆滑的笔触。这个标志能运用简单明了而切中要害的方式唤起人们的情感反应。采用幽默而不是严肃的表达方式是标志设计中常用的创意手法,它能使作品让人过目不忘。

图5 墨西哥门铃品牌标志

5.艺术性

艺术性是标志作品必须承载的又一主要特征,完美的艺术表现能塑造良好的标志形象,突出标志鲜明的视觉特征。标志作品让观众产生愉悦的审美感受,标志的信息才能更有效地传递。同时,高度艺术化也是时代和文明进步的需要,是人们提高文化素养和满足审美心理需要。

标志创意设计必须符合设计形式美法则,充分展现其艺术特征,满足大众的审美心理。表现在构图美观,简洁明了,视觉冲击力强与企业定位或商品的形象风味相符,具有强烈的时代感,并遵循设计美的规律,创造性地探索理想的表现形式。如第九届全国运动会标志(如图6),标志以阿拉伯数字“9”作为造型,体现九运会的信息和主办地市的首字母,色彩搭配为红、黄、蓝三种色,代表着富于情感、活泼开朗,充满着喜悦和希望,热情奔放,坚韧不拔。标志视觉冲击力强,宛如一位身手矫健、充满朝气、奋发向上的运动员,健步跨进新世纪。

图6 第九届全国运动会标志

6.文化性

标志作为一种十分重要的社会形象,是一种社会文化沉积,一种深厚文化的符号积累。文化世界实质上是一个符号的世界,这种象征符号不但传递了某一商品、劳务或企业的有关信息,而且传播着文化,成为社会文化的象征。许多消费者选择某种名牌商品,不仅仅是出于对商品本身的信赖,更在于他们认同了品牌中传达出来的深层含义。在标志设计中体现国家性质的影响,在全世界各种体制的国家都很普遍。如美国的许多不同行业的标志形象中都有红蓝色彩与五星的图形因素,鹰的造型也频频出现(如图7);在日本的众多设计中,富士山形象亦频频出现(如图8);韩国的太极图更是几乎充斥着各个领域。此外,加拿大的枫叶、瑞士的红十字等都在告诉我们这种影响的深远。

图7 美国一家保险公司标志

图8 富士银行标志

我国是四大文明古国,有着丰厚的文化遗产和人文气息,它为我们设计提供了肥沃的土壤,很多创意都可以源源不断地得到源泉。如凤凰是吉祥平安的化身,所到之处无不祥和安康,这个传统正与航空业要求的安全、舒适、快捷的服务理念相吻合,于是中国航空公司凤凰形象的标志就自然而然产生(图9)。现代标志设计中很重要的是将标志内含的理念,抽象精神,通过视觉符号表达出来。

图9 中国航空公司标志

7.象征性

象征性是标志的本质特征,标志设计大多通过比喻、暗示、隐喻、象征等较为抽象的形式表达出来,这是由标志的信息化特征和个性特征所限定的。对一件标志作品,我们必须善于从自然物中寻找其意念的对应物,通过强烈的视觉形象,运用暗示、联想、隐喻等手法来表达美好的寓意和特定的象征。只有这样,标志的信息化特征和个性化特征才能得到发挥。雀巢公司标志通过象征性表现使传达的信息对用户产生了深刻的影响(如图10)。

图10 雀巢公司标志

二、标志创意策略

展开创意的思路进行设计,策略是多种的。同一个主题标志,可以有不同的设想和思维方式,最初阶段创意元素可以用横向、纵向、求异的思维方式来进行创意,尽可能地对创意进行多方面思考,从不同的侧面、不同的角度去发现和捕捉素材中较具典型意义的某些创意切入点。

1.以直接表现事物的特征为切入点

从事物形象特征方面,应抓住其表现对象的特点,寻找标志创意设计的切入点。如表现音乐的特征,表现节日喜庆的特征,表现动物形态的特征,表现体育运动的特征等。

如美能达照相机标志(图11),该标志是由椭圆形构成,象征照相机的镜头,椭圆中有一组凸透镜,并运用超现实的视觉形式,表达了美能达相机拍摄画面的清晰度及灵敏度。流动的波状极富有弹性,形成内动的视觉趣味中心,体现了产品制作时技术精良而优越的性能。

图11 美能达照相机标志

2.以项目主题及精神理念为切入点

凡是优秀、内涵丰富的标志,都是以项目的标题、主题及精神理念作为切入点来挖掘创意的,也有根据不同项目的具体主题精神理念来进行创意。

如彪马运动鞋标志设计(图12)运用一只向前一跃的虎和品牌名称的形象结合,虎的腾空飞奔,寓意穿上此品牌运动鞋的运动健将将不畏艰难与阻挡,勇往直前,直至夺取胜利终点,颇具豪迈气概。

图12 彪马运动鞋标志

3.以历史文化和地域特征为切入点

每个国家、民族、地区都有文化沉积和人文气息,文化常成为设计者灵感发源地,有意无意体现在标志的设计中,使标志更加具有独特性和文化意蕴。

中国银行标志(图13)以中国古老的古钱币造型为基础,以结了红绳的“中”字互相结合,古钱币象征银行服务的内涵,上下连贯的直线寓意联营服务。标志之意准确,形象逼真,既体现了民族特色,又具有现代气息,古今结合,造型简练,带给人们古朴淳厚、组织严整、稳健有力的视觉感受,显示出极强的中国气派。

图13 中国银行标志

4.以象征物为切入点

标志创意思路可以从象征物或代表物等方面去考虑,借用具体的物象去表现或代表某种特殊意义和事物。如龙象征中国,鸽子象征和平,火炬象征光明等。美国以鹰和星条旗为象征物,法国则以高昂的公鸡为象征物。以象征的手法进行创意和找到恰当的象征物,可以使标志设计更加富有内涵和深度。如纽约时尚中心标志设计(如图14)用钮扣来做创作标志,一个点引出一面。

图14 纽约时尚中心标志

参考文献:

[1]凯瑟琳・费希尔.2000个世界顶级标志设计.广西美术出版社,2006.12,第1版.

文化自信的特征篇7

一、引言

随着互联网技术的不断发展,web网已经成为一个巨大的信息源,成为人们获取信息的重要来源。由于Web网页中蕴藏的信息资源内容广泛,形式各异,有效组织和管理这些资源尤为重要,通过网页的自动分类可以更好地对其进行组织和管理,加快信息检索的速度。然而,web页面中存在着大量的HTML格式的无结构数据和少量XML格式的半结构数据。一方面,这些结构性信息常是页面中包含的非主题信息的内容,网页必须剔除这些无用的信息后才能形成有用的文本信息。另一方面,这些结构性信息又包含着重要的分类信息,利用好这些信息能有效提高分类效果。

本文对网页的标记进行了分类,对位于不同标记内的特征项赋予不同的权重系数,在分类过程中重新调整其权值,以期改善分类器的性能。

二、网页特征分析

与纯文本数据不同,网页数据是一种半结构化的数据。在HTML文档中,正文信息是嵌入在HTML标记中的,HTML文档的标记具有嵌套结构。仔细分析HTML文件的格式,可以发现其中有一些标记信息对分类是有益的。(1)页面的标题,无论哪种类型的文本,一般都会有标题,通常标题部分特征信息的量都比文章其余部分要大,标题一般是网页内容的精炼概括,字数较少,除很少的一些虚词外基本上都是网页的特征词;(2)分级标题,分级标题是网页内容的基本框架,是网页局部内容的概括和提炼,在一定程序上强调了网页内容;(3)字体格式,在一些网页上,常对重要的文本加以修饰,突出其重要性,如将关键词句的字号加大,对其加粗、加下划线及加斜,或者附以不同的颜色。

为了精确表示网页的结构,定义标记集S={TL,HD,FS,FL,FC,UR}。

TL:标记为TL的特征项是文中的标题部分;

HDi:标记为HD的特征项是文中的分级标题;

FSi:标记为FS的特征项为非基准字号;

FL:标记为FL的特征项被字体格式化处理;

FC:标记为FC的特征项为非基准颜色。

说明:标题部分可以看成是零级标题,因此TL和HDi的权重系数可统一处理;FSi的权重系数为字号减去基准字号的绝对值,其中,基准字号l是文本长度最长的标签部分所用的字号;FL权重系数为3;FC的颜色值为非基准值u时取2,其中,基准值u为文本长度最长的标签部分所用的颜色值。

三、关键技术

1.特征项抽取

本文的特征提取分两步进行,第一步按常规方法去除结构性标签,获取纯文本内容,用成熟的特征选择方法互信息MI得到一个初始特征集合T。互信息MI公式为:(1)

其中:A为t和c同时出现的次数;B为t出现而c没有出现的次数;C为c出现而t没有出现的次数。N为所有文档数。如果t和c不相关,则MI(t,c)值为0。如果有m个类,于是对于每个t会有m 个值,取它们的平均,就可得到特征选取所需的一个线性序。互信息值大的特征被选取的可能性大。

第二步对格式化文本进行提取,抽取格式特征项集合,并按表1模板对特征项进行标记,以备后续处理。

2.特征权重计算

(1)特征表示

文本分类中的文本表示主要采用向量空间模型(vector space mode,VSM)。向量空间模型的基本思想是以(W1,W2,W3,…,Wm)向量来表示文本,其中Wi为第i个特征项的权重 。n个文本组成的文本集合D={d1,d2,…,dn}被m个特征项W1,W2,W3,…,Wm索引,可表示成一个m×n的特征项文本矩阵A,A={d1,d2,…,dn},其中di=(W1,W2,W3,…,Wm),如下所示: (2)

其中:每一列di代表一个文本;一行Yj 代表特征项在各个文本中的权值.特征项权重的计算方法主要运用TF-IDF公式: (3)

式中:W(t,d)表示特征词t在文本d中的权重,tf(t,d)为特征词t在文本d中的词频,N为训练集中文本的总数,nt为训练文本集中出现词t的文本数,分母为归一化因子。

(2)特征加权

考虑Web网页的描述信息中出现的关键字包含网页的重要信息,对分类有较大的作用。因此,对这部分特征项进行加权处理。依此权值信息表,我们对特征词t在文档d的权重计算公式(1)做如下改进。

(4)

其中,表示特征项t被k个HTML标记修饰权重之和。

3.特征选择算法描述

Step One:对网页预处理,进行分词及分词后的预处理,获取初始特征集;对网页进行格式特征抽取,获取格式特征集合;

Step Two:对于初始特征集中的每个词,利用式(6)计算特征项和类别的互信息值;

Step Three:对互信息值进行排序, 根据设定阈值T对每个类别提取若干个贡献最大的特征项,删除大部分对分类意义不大的特征项,得到特征项的最终集合T=(t1,t2,……,tm)(m

Step Four:根据式(4)计算每个特征项的权值wi;

Step Five:生成特征向量表,每篇文档表示为向量(tl,wl;t2,w2;……;tn,wn),ti为特征项,wi为对应的权值。

四、试验分析与结果

1.分类算法

本文采用KNN分类算法进行实验,该算法的是在给定新文本后,考虑在训练文本集中与该新文本距离最相近的K篇文本,根据这K篇文本所属文本所属的类别判定新文本所属的类别。计算公式为: (5)

其中,相似度计算公式为:(6)

为类别属性函数,定义为:(7)

2.实验结果

实验数据是从新浪网、雅虎网等多个网站上采集的中文网页数据集,从中选取了政治、交通、环境、经济、艺术、娱乐等六个类别共1800篇文章,其中每个类别300篇文章;每类选取200个网页作为训练集,其余100个网页作为测试集。

在相同环境下,我们分别对两种特征选择方法进行了对比实验,结果见表1。其一是采用传统TF-IDF特征选择方法直接进行训练,计算权重;其二是考虑网页结构特征的重要性,将位于网页某些结构标签的特征项进行加权,并将加权处理融合到TF-IDF方法中。实验结果表明,第二种方法能取得良好的分类效果。

五、结束语

网页的自动分类在信息检索领域中均占有十分重要的意义。然而,网页分类不同于普通文本的分类,网页中包含大量的网页标记信息,这些标记信息包含重要的分类信息,充分挖掘这些信息有利于提高网页的可分性。本文正是在对这些标记对信息研究的基础上实现正文信息的选取和表示的。实验已表明所用方法的有效性和可用性。在后续的研究中,将对网页特殊描述信息中的特征项权值系数确定方法进行研究,以求更加合理的加权方法。

参考文献:

[1]Wang Lian,David Wai-lok Cheung.An efficient and scalable algorithm for clustering XML documents by structure [J].IEEE Trans on Knowledge and Data Engineering,2004,16(1):82~96

[2]初建崇 刘培卫 王卫玲:Web文档中词语权重计算方法的改进[J].计算机工程与应用,2007,43(19): 192~194,198

文化自信的特征篇8

一、档案的概念、性质

(一)档案的定义

对于档案的定义,说法很多,也产生了很多的争辩,到底哪一个科学,现在还难统一,有待于进一步研究。下面我们引用的是最权威的说法,也就是《中华人民共和国档案法》中的说法:“档案是指过去和现在的国家机构、社会组织以及个人从事政治、军事、经济、科学、技术、文化、宗教等活动直接形成的对国家和社会有保存价值的各种文字、图像、声像等不同形式的历史记录。”

这一定义包括以下几个要素:

1、档案的来源

档案是各机关,社会组织和个人在其自身活动中形成的。档案形成者大致可以分为三类:一是官方性质的各种机关;二是半官方的各种社会组织(社会团体、宗教、公司等);三是一定的个人(著名人物,著名家庭和家族)。

档案又是来源于形成者特定的实践活动。国家机关、社会组织和个人,在其实践活动中,为了相互交往,上传下达和记录事情,必然产生和使用许多文件。日后经过整理保存起来,就成为档案。丰富的社会实践活动,决定了档案来源和内容的广泛性,一定来源和内容的档案又具有内在的联系性。

2、档案形式的多样性

任何档案都以一定的物质形式存在和运动,长期的社会实践,使档案的形式不断发展和变化,丰富多彩。从载体材料上看,有龟甲兽骨、竹片木板、丝织缣帛、纸张、磁带、磁盘、胶片;从信息记录的方式上看,有手写、刀刻、印刷、摄影、录音、录像等;从表达方式上,可归纳为文字、图像、声音。

3、档案的本质属性

档案是人们社会活动的原始记录,原始记录性是其最本质的属性。主要表现在档案是形成者在自身职能活动中形成的各种文件材料转化来的,不是事后另行编写和随意收集的间接材料。它具有记录和反映机关、组织和著名人物活动的原始性品格,是历史的真迹和凭证,有着重要的查考使用价值。这也是档案区别于图书资料的主要特点之一。

(二)档案的性质

原始记录性(或第一手资料、历史真迹)是档案的本质属性,除这一本质属性外,还有两个一般属性:知识属性和信息属性。

1、档案的知识性

知识是人类对主、客观世界的认识。它源于人类的社会实践。档案是人类认识和改造世界的记录,是知识的一种载体。

档案记载了人类社会各个历史时期,在政治、经济、军事、外交、科技、文化艺术、教育和卫生等各方面的实践经验,是古往今来人们积累起来的知识宝库。这就决定了档案具有积累、存储知识的职能。

2、信息性

档案是一种信息。什么是信息?目前尚未有统一的见解,《辞海》上说:“信息是指对消息接受者来说预先不知道的报道。”信息论的创始人之一维纳认为,信息是事物存在的方式或运动状态以及这种方式或状态的直接或间接的表述。根据这种理解,档案当然是一种信息,是国家信息资源的重要组成部分。

作为信息,档案信息与其它类别的信息具有共同的特征:可扩充性(随时间的变化将不断扩充)、可压缩性(可加工使之精练、浓缩,便于存贮而内容不会磨损和丢失)、可传播性和可分享性。

当然档案信息也有自己特有的个性:

(1)产生的特征――原始性

信息,按其形成特点可分为原生性信息和派生性信息。档案是原始记录,是没有经过加工处理的原始信息,可作为其他信息进行再加工的原材料,而产生情报、图书和资料等派生信息。

(2)价值特征――真实性

档案是历史真迹,记载了当事人的印章、签字、笔迹等。它最原始、最真实、最具体地反映了事物的本来原貌,是令人信服的真凭实据。因此具有重要的凭证作用和广泛的参考作用,这就决定了档案信息的有益性和实用性,所以可称作价值特征。

(3)来源特征――广泛性

人类的社会实践历史悠久,丰富多彩,多种多样。因此档案具有从古到今、门类众多、内容广泛、形式多样、数量浩瀚的特征。社会实践的延续不断,无穷无尽,又使档案信息具有取之不尽、用之不竭的特点。档案来源的广泛性,决定了档案信息的广泛性。

二、档案编纂的特征

在详细论述了档案的性质与定义之后,我们再来细细研究档案编纂的特征,只有了解了档案的性质和定义,才能够理解和研究档案编纂的特征。先就其特征作如下表述:

(一)档案编纂具有社会性特征

从事档案编纂工作的主体是档案工作人员。档案编纂人员是以社会公众代表的身份参与档案信息的加工、创作活动的。因此,编纂主体在档案信息的选择过程中,不能以自己的主观意志或社会个体的价值观作为判断、使用档案信息的标准,更不能庸俗地迎合某些社会思潮,而应该以广大社会公众对文化的需求、原始文件信息传播的难易程度等社会价值为标准来选择档案信息。把握档案编纂主体的社会性,有助于让编纂主体树立社会责任感,增强政治敏锐性,提高自身素质,防止在选择档案信息的文化方向时,因主观因素而出现偏差。

(二)档案编纂具有从属性特征

首先,档案编纂要从属于党和国家的意志,为党和国家生存与发展总结历史经验。其次,它从属于社会公众,为公众服务是编纂工作的宗旨和目的。档案编纂的从属性决定了它如果脱离了社会和公众,就不可能被广大群众所认可,就丧失了存在的基础,而档案编纂工作只有适应社会公众需要才能发展繁荣。档案编纂信息的价值最终是要由社会公众来认可的,档案编纂人员只有贴近社会、贴近公众、贴近实际,才能创造出符合科学发展观要求的档案编纂信息和文化产品。

(三)档案编纂具有相对自主性特征

在社会生活中,人们对于一种文化信息的理解和接受,往往习惯于根据自身实践经历、认识能力、心理感受等来判断其优劣。由于产生的主观反映不同,档案编纂人员从档案信息中选择材料时,也难免要受自身主观意识、经验、情感等因素的制约。即便是水平很高的档案编纂人员,也会受到一些行业潜规则或范式方法的影响而产生不同程度的心理定向因素。这些因素将给档案编纂人员在文化发展创新方面带来潜移默化的影响。尽管我们不希望带来负面影响,但实际上编纂人员在选择某一档案信息时,都要或多或少地受到自身主观意识的制约。由于个人价值观和素质的差异,可能会导致某些珍贵档案信息被编纂人员自觉不自觉地予以剔除或误解的情况发生。为此,一方面我们要承认编纂人员的自主性;另一方面当这种主观性与档案编纂的基本原则、社会公众需求相违背时,要坚决予以克服,使其负面影响限制到最低程度。

(四)档案编纂富有时效性特征

档案编纂是档案动态管理中的一个过程。它是否有价值及价值的大小也与时间密切相关。许多档案信息在恰当的时机选出就有价值,错过了时机就失去了原有的价值;有的档案信息在这个时间内的价值就很大;错过这个时机其价值就会大大降低。这一点尤其表现在档案文献中的科技信息、经济信息、决策信息和社会动态信息方面,其社会价值和效应与时间的关系更为密切。此外,公众对档案信息内容的需求也在随着时间的推移而发生变化。如公众对档案信息的喜好、期望、习惯等,都会随着思想观念、社会风尚、经济水平以及个人年龄、素质的转变而表现出不同的需求。因而,档案编纂信息是否具有时效性,直接影响着档案信息产品的价值和社会效果。

(五)档案编纂具有系统性特征

档案编纂是一项满足多方面需求,具有综合性特点的系统工程。这反映了公众对档案信息日益多样化的客观要求。为了收到良好的传播效果,档案编纂必须根据不同公众的需要,遵循“系统管理,统一分类,有效利用”的要求,有针对性地开展编纂活动。显然,档案编纂得越系统,类型越丰富,利用就越有效,就越容易开发出档案的内在信息价值。此外,档案编纂不能片面强调原始性,或只满足少数公众的档案信息需求,而忽视了广大公众对档案信息编纂多类型、多层次的文化需求。档案编纂工作应根据国民整体文化素质状况和社会文化发展趋势以及当地实际情况,按照不同要求和标准,编纂出不同层次、不同类型的档案信息成果,以便于全体社会公众吸收和利用。

(六)档案编纂具有实用性特征

利用是档案编纂成果实现其价值的最根本目的和途径。编纂成果能否发挥重要的参考作用和服务作用,主要取决于所编纂的档案信息是否具有实际利用的价值。档案编纂社会价值和效应,只有在满足公众社会活动的需要中才能得以实现。特别是在全面实施国民经济和社会发展“十一五”规划,全面建设小康社会宏伟目标的大环境下,档案编纂工作一定要顺应社会发展的需要,充分发挥档案编纂成果在创新文化、传播知识、社会教育、社会效益和经济效益等实用功能。通过自身功能的发挥,赢得全社会对档案编纂工作的重视和认可。

结束语:档案编纂工作是基于档案之上的,其工作对象是档案,其工作目标也是档案,因此在论述档案编纂工作的特征之前,就需要搞清楚档案的定义以及性质。在档案的性质的论述之中,我们可以发现档案的特征以及存在形式,最重要的是能够发现其中的内在规定性,从而在对档案有一个深刻的理解。只有在理解档案的基础上,才能够对其进行必要的解构,从而理解档案编纂的特征。档案编纂的特征,需要需要结合档案的定义与性质来论述,从而客观的对编纂工作作必要的研究。档案编纂的特征由档案的性质决定,因为档案室本,编纂是末。只有认识了本,才能够了解末。

作者单位:南通职业大学

参考文献:

[1]董秀梅.从文化选择的角度解析档案编纂的价值[J].山东档案,2007,(04).

[2]王保国.档案编纂新思维[J].中国档案,2005,(04).

[3]杨洁.档案文献编纂工作机制在档案资源整合中的运用[J].兰台世界,2008,(16).

[4]王惠敏.关于做好企业档案编纂工作的几点思考[J].兰台内外,2007,(01).

[5]张文元.档案编研成果的宣传利用[J].档案时空,2007,(10).

[6]何佩婷.档案管理中的问题分析及其安全防范措施[J].建筑安全,2010,(02):53―54.

[7]李颖,王洪凯.网络环境下企业档案信息传播之探讨[J].兰台世界,2010,(02):35―36.

[8]王小云,蓝少华.档案信息质量评价之指标权重分析及运用――基于层次分析法[J].档案学通讯,2010,(01):41―45.

文化自信的特征篇9

纪实性是新闻信息基本的传播特征 它是衡量信息是新闻还是 旧闻的惟一尺度 ,也是新闻的价值所在从一定意义上讲,新闻信息就是事物存在的方式或运动的状态 以及这种方式或状态的及 时的表述 新闻的纪实性有 多层涵义 其一 ,它要求 新闻所传递 的信 息新颖、及时,能够引起受众的关切和兴趣 .对受众产生吸引力。

其二 ,纪实性意味着新闻传播价值是由时间法则决定的。新闻的时间法则要求传者努 力缩短信息流通时间 ,将新闻报 道和 的时间规定在离 事实发 生或发现 的 “最近点 ”,以适应信息社会快节奏文化的需要。

其三 ,从新闻的宣传价值 ,从体现一定 时代 、一定社会集 团利益的新 闻文化观看来 ,新闻的纪 实性还标志着报道时间~—更准确地说 ,应是新闻面世 时间——恰 到好处地适应了社会的需要 人们把新闻的这种“纪实性”称之为“时直性”。新闻的时宜性往往表现为某一具有特殊意义 (或称文化意义的时间,客观事实只有适应这一时间的事态变动 ,才能成为新闻,或成为更具传播价值 的新闻。

二、新闻信息的事实性及其文化特征

如果说纪实性是新闻的时间特性的话 ,事实性则更 多地体现为新 闻的空间特性 新闻不仅要快速反映新 闻对象在时间中的运动状态 .还要反映它在空 间结构上的存在状态。新闻对象在空间结构上的存在状态 即以人的实践活动为中介的事实的发展和变动。

需要注意的是 .新闻所报道的事实都具有~定时空环境 ,时空含量是事 实的映像。同样的事实 ,很可能由于时空条件的不同.而带来截然不同的社会效应 这便是新闻事 实的相对性所蕴含的文化意义 美国哥伦 比亚大学 新闻学教授麦尔文.曼彻尔说 “新闻显然是一个相对的概念 ,它随着地理、人 口和时间而变化 一个世纪以来 ,80%的美国人 以农业为主 .所以农业新 闻是重要 的 今天 ,只有不到百分之八 的人 1:3干农业 .那么 在农 业区以外 .只有 当农业 的结 果影响到城市居民生活的时候 ,农业新 闻才是重要 的。 ”在我们这个由农业大国向 工业 大国过渡的国家,也会遇到类似的情况。

三、新闻信息的真实性及其文化特征

新闻学学者刘建明认为 :“新闻中每个事实必须完全符合客观实际 而一系列报道又能如实地反映客观世界 的整体 ,叫新 闻的真实性。”新闻对客观事实的报道是否真实,实际上往往取决于报道主体的认识水平和观察角度.这在很大程度上又是一个文化观念问题 就事实而言 ,真 实性应该像一个擦得通 明透亮的三棱镜 ,能够让 受众通过它的折射一览无余地看到事实的真相。然而 ,生活在一定文化价值体系中的报道主体,总是 自觉或不 自觉地让 “三棱镜 ”蒙上某种阶级 或集 团的色彩 ,使 它游离 于客 观范畴之外 .而呈现 出形形的文化特征。所 以说 ,新闻的真实性具有两面性一面是它的客观性 ,或日“非文化形 ” 另一面是 它的主观性 .或日“文化形”。那就是,我们 不得不承认 ,新闻真实性包含有主观因素 ,显示 出文化特征 。因为新闻的真实与否毕竟是通过人的认知和反映来实现的

文化自信的特征篇10

幼儿教师是幼儿教育实施的主体,幼儿教师的教育信念内隐于教师的教育教学行为与价值取向当中,指导和支配着教师在教学计划制定、教学实施、教学评价各个环节中的选择和决策。随着市场经济体制和应试教育制度的逐渐深入,幼儿教师的教育信念面临着严峻考验。幼儿教师教学效能感、认知类信念、教学活动信念、自我感知与评价观和自我效能感等方面在幼儿教育非义务性、市场化、形式化的背景下逐渐产生动摇。同时,幼儿教师自身的自我建构和相关社会文化因素也使其教育信念呈现出一定的特征。

1 幼儿教师教育信念的基本特征

1.1 幼儿教师的教育信念具有一定的整合性:无论从中文的字面含义、英文对应词汇的用场还是从信息系统的构成要素来看,“整合”一词都被一般性地理解为:按照统一标准,实施数据集中,在此基础上进一步使有交叉的工作流彼此衔接,通过一体化的举措而实现信息系统资源共享和协同工作。换句话说,整合的精髓就是将分散的要素组合在一起,以形成一个有效率的整体。教师在自己人生经历和教学生活中拥有许许多多的信念,这些信念相互接纳、紧密相连,形成一个协调统一,具有个人意义的信念系统[3]。这种与教育教学相关的,以“簇”的方式储存的个人信息库若要保持稳定且高效地引导教师的实践行为便需要各方面信念间的整合和各方面信念内部的整合:一方面,各方面信念间的整合,即信念系统的整合。虽然已有文献对教师信念基本结构的观点尚未统一,但关于教育者自身的信念、关于教育教学的信念和关于受教育者的信念等是教师们普遍拥有的信念。这三方面的信念不仅有针对性地引导着教师某一方面的行为,而且相互影响与改变,通过整合形成一个有机的层次结构,提高了教师信念引导教学行为的有效性。另一方面,各方面信念内部的整合。无论是关于教师自身的信念,还是关于教育教学的信念都不是分散而凌乱的。每一方面信念内部的逻辑关系也有助于教师单个信念的形成、巩固与完善,以全面地引导、监督和规范教师的实践行为。

1.2 幼儿教师的教育信念体现开放性的特征:“开放”的原意是解除封锁、禁令、限制等,后被引申为认识或接受外来事物,关注外部世界。教师信念是教师知识和观念的一部分,是教师在教育教学实践中的取向或假定。根据已有文献,教师的教育信念来源于很多方面。教学经验、教育理想、生态环境、学校文化、学校同事等因素均会在不同程度上影响教师信念的形成与转变。然而,信念的转变是教师的主动行为,只有教师愿意关注外部世界的种种变化,接受各种因素的影响,其信念才会随着转变消极信念意识的产生和冲突的发生而发展、转变与完善。教师对先进教育教学理念的学习和对自身教育教学实践的反思是其教育信念开放性的表现:一方面,终生学习的观念使教师时刻处于继续学习的状态中。教师只有开放性地吸收和借鉴先进的教育教学知识和观念,将其内化到自身的观念中,成为其教育信念的一部分,才能更好地指导自身的教育教学实践;另一方面,随着实践性知识的不断积累和工作环境、任务的不断变化,教师对学生、教育教学、工作环境、自我以及人际关系的认识也逐步发生变化,原有的信念在多重因素的影响下面临冲突。这也需要教师在综合考虑上述因素后开放性地接纳实践的变化,调整和转变消极的教育信念,以提高教育教学的质量和水平。

1.3 教育教学的信念是教师信念系统的中心:信念系统是教师信念的存在方式。“它是个体持有的一套相互一致、相互强化或者相互支持的信念和证据所组成的系统,既有认知性的也包括情感性的”[4]。原子物理学中的原子聚散学说不仅使“教师信念”的研究者们发现信念系统的存在,也使其形成了每个人的信念系统中都包含了无数信念的观点,发现了教师信念是以“中心-边缘”的方式聚合在一起的簇状结构这一本质。他们认为,教师的教育信念包括基本信念和派生信念两大部分。每种信念的重要性不同,对行为的影响也各不相同。中心的教育信念是最强烈的信念,它一旦发生改变会导致其他方面的教育信念发生改变,且直接影响着整个教师教育信念系统的变化[5]。对教师而言,教师的主要工作是教育教学。教师对自身教育教学目的、内容、方式和评价等方面的认识和看法不仅直接影响着教师对教育目的的确定、教学内容和教学方式的选择、教学评价的实施等的实践行为,也影响着教师对学生、自身角色、环境创设以及人际关系等其他方面信念的形成与转变。因此,教育教学的信念是教师信念系统的中心。幼儿教师关于幼儿的信念、关于教师角色的信念、关于环境创设的信念以及关于人际关系的信念等不仅被教师个人因素和社会文化因素所影响,也在一定程度上受到其教育教学信念的影响与制约。

1.4 个人宣称信念与隐蔽行动信念存在潜在冲突:“由于支配任意行为的信念都是多元而复杂的,以至于很容易使人误解为信念与行为的不一致。然而,之所以会出现‘个人行为’与‘所持信念’间的矛盾是因为一个人同时持有许多不同心理重要性的信念,且这些信念在不同的情境中占据着不同的主导地位。其实质并非‘信念与行为之间存在不一致’,而主要表现为不同类型信念间的分离,即个人宣称信念与隐蔽行动信念的不一致”[6]。根据已有研究,教师在具体的教学实践中将受到两类理论的影响,即外显的“倡导理论”和内隐的“运用理论”。外显的“倡导理论”是教师所认同的信念,它存在于意识水平,不能对教师的教学行为产生直接的影响。而内隐的“运用理论”是教师行动中的信念。这种知识深深地植根于教师的潜意识中。它虽直接对教师的教育教学行为产生重要影响,却不容易受新信息的影响而产生变化[7]。外显的“倡导理论”即个人宣称信念,是指被研究者在访谈过程中通过语言符号陈述的理念,是被研究对象意识到的信念。而内隐的“运用理论”即隐蔽行动信念,是指在被研究者的教育教学行为背后体现出的教育信念,通常不被研究对象意识到。个人宣称信念与隐蔽行动信念的潜在冲突是对教师教育信念及教学行为不一致的有力解释。

2 幼儿教师教育信念的影响因素

2.1 实践性知识是教师教育信念的主要来源:教师实践性知识是指“教师在面临实现有目的的行为中所具有的课堂情景知识以及与之相关的知识。这些知识是教师教学经验的积累[8],是“个体知识向智慧转化的中介,也是生成信念、提升教养的中介”[9]。学科内容知识、学科教学法知识、一般教学法知识、课程知识和教师自我知识是其主要的构成要素。它们在实践中相互联系、密不可分,使教师定位于自己的教学情境并在情境中行动[10]。教师在长期的教育实践中积累了丰富的知识和经验,并将其与先前的教育理念进行对比和思考,再通过同化和顺应使其成为自身观念的一部分,形成个体独特的实践性知识体系。教师正是通过对这些实践性知识的反复运用和思考明晰自身对学生、教育教学、学科课程、自身角色等的种种观点和看法,在不断地验证中形成和发展自身的教育信念,建构和完善自身的教育信念系统,为后继的教育教学行为提供启迪和参考。因此,正确而合理的实践性知识为教师教育信念的形成奠定了基础,成为教师教育信念的重要来源之一,影响着教师各方面教育信念的形成、发展和完善。

2.2 幼儿园文化是完善教师信念的内在动力:信念既是现实生活在人的精神世界的某种内化,也是群体性文化因素的选择性积淀。阿布鲁、毕晓普和庞佩尤(Abreu,Bishop和Pompeu)的研究表明,“信念植根于一个非常基本的层面,是社会生活的产物,因为信念是由所在的社会文化决定的”[11]。任何观念和知识的形成和发展都离不开特定的社会文化背景。一定时期内的经济和文化发展会在无形中参与到信念的形成和转变过程中来,使教育信念体现出时代性和个人化的特征。“学校文化是孕育教师信念的主要温床”[12]。由教师的假设、价值观和做事方式等组成的整体联动的隐性或显性的学校文化不仅直接影响着教师信念的形成,也推动着教师群体文化和共同愿景的形成,在潜移默化中影响着个体教师教育信念的发展和转变。幼儿教师社会生活的场所主要是幼儿园,幼儿园隐性的文化贯穿于幼儿教师教育信念形成、发展和转变的始终,对教师教育系统的调整或重建具有引导、监督和评价的作用。因此,幼儿园文化是完善教师信念的内在动力。

2.3 性格特征赋予教师教育信念个人化色彩:性格特征是影响一个人对现实的态度和行为举止的认识、情感和意志活动等方面的本质特征,包括性格的态度特征、性格的意志特征、性格的情绪特征和性格的理智特征等几个方面[13]。性格特征作为人类行动的指南不仅可以直接影响人的处事方法和生活方式,也会影响个体对于人、自然和社会的基本认识、理解和假设,赋予其个人化的色彩。教师的教育信念是教师在专业成长历程中形成的,与教育教学有关的,以“簇”的方式储存的具有个人化和情景化的个人信息库,而教师教育信念的个人化色彩正是受到教师自身性格特征的影响而逐渐凸显的。因此,教师的性格特征也是影响教师教育信念的主要因素之一。

首先,态度特征对信念的影响。个人与社会、集体、个人的关系以及对待自己的态度等是性格态度特征的主要表现。小雨老师为人热情,喜好交友。这一性格促使她常常主动与家长和同事进行交流,并逐渐形成“家长和老师是合作伙伴”、“同事即‘战友’”的信念。而对工作兢兢业业却不爱张扬的个性也使其逐渐巩固了“领导毕竟是领导”的观念,在实际工作中尽量服从领导的安排,并与之保持一定的距离。

其次,意志特征对信念的影响。意志特征即人在对自己行为的自觉调节方式和水平方面的特征。小雨老师关于自身专业发展的信念—“我离‘骨干教师’还有些差距”正是受到自身积极上进等意志特征的影响。她不仅自觉主动地反思自身专业发展中存在的问题,还能够自觉控制其继续学习的行为。

第三,情绪特征对信念的影响。一个人稳定的经常表现的特点就是他性格的情绪特征。小雨老师对学前儿童始终持有一种由衷的欣赏和热爱。这种爱不仅促使她形成并巩固了自身的幼儿观,而且还间接影响着其对自身角色和任务的定位,影响着关于教育教学方式和评价的观念。

最后,理智特征对信念的影响。性格的理智性是指人在认知过程中的性格特点。在小雨老师的教育信念系统中,大部分的信念均来源于科学的教育教学理念。如“‘环境’是孩子的第一位老师”、“‘生活化’是环境创设的主要内容”、“家长和老师是合作伙伴”等都是经过她本人对教育理论的认识、了解、认同和逐步内化而形成的较为理智的看法。

2.4 家长因素是教师信念存在潜在冲突的根本原因:家长是幼儿园教育获得广泛理解和支持的重要桥梁,是幼儿教师的重要合作伙伴。正如苏霍姆林斯基所言:“儿童只有在这样的条件下才能实现和谐的全面发展,就是两个‘教育者’(学校和家庭)不仅要一致行动,要向儿童提出同样的要求,而且要志同道合,抱着一致的信念,始终从同样的原则出发,无论在教育的目的、过程和手段上,都不要发生分歧”,否则“没有这种一致性,学校的教学和教育过程就会像纸做的房子一样倒塌下来”[14]。因此,家长的支持和配合成为幼儿教师开展工作的前提条件,成为影响幼儿教师教育信念的关键因素。积极和谐的家园关系不仅有利于为教师营造舒适的心理氛围,尽职尽责地完成自身的教育教学工作,同时也有利于教师主动对内隐的应用理论进行反思,有意识地将外显的倡导理论应用到教学中去。相反,不和谐的家园关系则将迫使教师在实践中过多地迎合家长的要求,令原有的教育信念停留在意识水平,加重了个人宣称信念与隐蔽行动信念的潜在冲突。

参考文献

[1] 赵昌木.教师成长论[M].兰州:甘肃教育出版社,2004.25

[2] Pajares F. Teachers’ Beliefs and Educational Research:Cleaning up a Messy Construct [J]. Review of Educational Research,1992,62 (3):307-332

[3] 赵昌木.教师成长论[M].兰州:甘肃教育出版社,2004.36-39

[4] 谢翌.教师信念:学校教育中的“幽灵”[D]:[博士学位论文].长春:东北师范大学,2006

[5] 林一钢.教师信念研究述评[J].浙江师范大学学报(社会科学版),2008,33(3):79-84

[6] 谢翌.教师信念:学校教育中的“幽灵”[D]:[博士学位论文].长春:东北师范大学,2006

[7] 严明.建构主义视野下的教师信念体系—从概念建构到情境效性[J].西北师大学报(社会科学版),2008,45(2):61-65

[8] 林崇德,申继亮,辛涛.教师素质的构成及其培养途径[J].中小学教师培训(中学版),1998(1):10-14

[9] 肖川.教育的理想与信念[M].长沙:岳麓书社,2002.274

[10] 姜美玲.教师实践性知识研究[M].上海:华东师范大学出版社,2008.145

[11] 谢翌.教师信念:学校教育中的幽灵[D]:[博士学位论文].长春:东北师范大学,2006

文化自信的特征篇11
文化自信的特征篇12

信息时代的今天,无线电装备得到大量的应用,尤其是在飞机上,大量的机载电子设备得到广泛的应用。在机载电子设备的教学中,涉及到各种类型的信号和信号处理方法,理论讲解很难达到较好的效果。为了提高教学效果,提出了采用信号可视化的教学手段。信号可视化的主要目的是借助图形化手段,更高效和清晰地交流信息。为了让思想能有效地传递,良好的外观和内在功能性都缺一不可。从信号特征可视化和信号处理可视化两个方面进行可视化教学。给出了信号可视化的定义和信号可视化实现方面的原则,并给出了信号可视化的实例,对电子类教学具有启发意义。实际教学活动表明本教学方法获得较好的教学效果。

1.可视化研究进展

信号可视化与信息可视化的概念类似,但研究的对象不同。首先来回顾一下信息可视化(Information Visualization)的概念,信息可视化是包括数据可视化(Data Visualization)在内的,是科学可视化的具体实现。而数据可视化起源于1960年计算机图形学,人们使用计算机创建图形图表,可视化提取出来的数据,将数据的各种属性和变量呈现出来。

信号可视化的对象是信号,而信息可视化的研究对象是数据的可视化。根据信息论的定义,信号是信息传输的载体。因此,信号的复杂度与信息传输方式有很大关系。如同一个信息,既可以通过无线电波发射出去,也可以通过有线网络、光纤发射出去。因此,信息可视化是与专业领域密切相关的,信号可视化的难度远大于信息可视化。

文献[1]探索了信号与线性系统中可视化教学方法的应用。该文采用Matlab作为可视化工具,给出了傅里叶分析的可视化实现方法。文献[2]对经过小波变换滤波后的语音信号进行特征编码形成语音的组合特征,将该组合特征作为一个新的特征量来表小语音信息,并将这种特征用简中的图形表示出来。文献[3]着重介绍了可测性辅助设计与分析软件的图形化建模软件平台的方案设和具体实现。该文采用Visio绘图控件进行二次开发来构建图形化建模环境,允许建模人员创建系统的多信号分层可测性模型图,用于可测试评估。文献[4]为满足水声对抗的实时可视化需求,采用基于OpenGL的三维图形编程语言和多线程技术,实现了对水声信号类型、频谱的嵌入和单独绘制,并且将OpenGL绘制的图形嵌入到OpenGVS软件中,实现了视景的同步显示。文献[5]利用Surfer绘制等值线和Java语言实现了无线电台信号覆盖范围的地图可视化。以上文献对信号可视化进行了广泛的研究,但在可视化的定义、原则与使用方面研究不够深入。本文就信号可视化的定义,可视化的原则和实现方法方面进行深入的研究,探索信号可视化的内涵和实现方面的原则。

2.信号可视化的定义与原则

2.1 信号可视化的定义。电子装备按照处理信号的不同可以分为有线电子装备和无线电子装备。其中,无线电子装备用于接收和发射无线电信号,其功能和原理更为复杂。在无线电子装备中,信号处理是核心。对信号处理的理解可以从两个方面进行。一个是信号的特征,也就是信号在时域、频域、时频域的特征;一个是信号处理对信号特征的改变。如滤波将会去除信号附加的噪声,调制将会根据信号的幅度、频率或者相位改变载波的响应特征。

图1 信号可视化的含义

因此,机载电子设备教学中信号可视化包括两个方面,一个是信号特征的可视化,一个是信号处理的可视化。信号特征的可视化是基础,信号处理的可视化是核心。机载电子设备中的信号来源包括两种:一种是直接采集人工信号,如语音、图像、文字等。一种是由电子设备自身产生信号,包括雷达信号、高度表信号、导航信号等。因此,信号特征的可视化主要指以上信号具有的特征的可视化。机载电子设备中,主要的信号处理过程包括滤波、检波、调制与解调、检测、匹配等,因此信号处理的可视化主要包括滤波、检波、调制与解调、检测、匹配等多种操作前后信号特征的变化。总之,信号特征的可视化可以使学生便于认识各种不同特征的信号,而信号处理的可视化可以使学生便于掌握不同信号处理方法对信号特征的改变,进而掌握信号处理的本质。

信号可视化包括两个方面的内容:信号特征可视化和信号处理可视化。其中,信号特征可视化包括信号时域可视化、信号频域特征可视化、信号能量域可视化和信号空域可视化四个方面。信号时域可视化是指信号时域波形的可视化,如无线通信信号在时域上是密集的,而雷达信号在时域是稀疏的。信号频域可视化指的是信号频谱可视化,如单音信号与多音信号,在频域具有单峰和多峰的不同特点。信号能量域可视化是指信号功率的可视化,主要用于表现某个频段内不同频点信号强度之间的差别。信号空域可视化指的是将某一空域内的信号进行可视化表现,如某一战场区域内雷达信号的强度进行可视化显示。需要指出的是,信号特征的可视化在使用时不仅仅局限于某一单一特征的可视化,应该是两个或者两个以上特征的可视化。例如,由于空域的不同,信号的能量会发生变化。

信号处理是电子设备工作的核心,其种类繁多。信号处理的可视化是指各种信号处理结果的可视化。信号处理前后,信号的特征必然发生变换,因此信号处理的可视化主要用于表现信号处理前后信号特征的改变。如调频前后载波频率的变化,滤波前后信号频率成分的变化等等。信号处理可视化的主要内容包括信号滤波可视化、信号调制可视化、信号解调可视化、信号变换可视化、信号混频可视化等。由于信号处理的手段和方法发展很快,信号处理可视化的内容也将不断发展变化。

2.2 信号可视化的原则

2.2.1 功能与外观统一的原则。信号可视化的目的是将复杂的理论直观表现出来。表现的目的是有效地传递图形或图像所携带的信息。因此,传递信息的正确性在很大程度上依赖于信号可视化的表现方法。信号可视化需要注意功能与外观统一的原则。若采用不合适的方法表现信号的外观,会误导学员,反而起到不好的效果。

2.2.2 比较性原则。信号可视化的目的是将表现信号的特征,而信号特征的表现一般通过比较得到。如频率的高低,需要同时将两个频率高低不同信号的频率同时进行显示,才能直观表现频率特性。在信号处理可视化中,要表现滤波对信号的改变作用,可以通过比较滤波前后信号波形的变化或者频谱的变化来进行表现。比较性的目的是使信号特征更为明显,使信号处理的作用更加直观。

2.2.3 可控化原则。可控指的是对信号和信号处理参数的可控。在教学中,开发可视化软件时,尽量使各种参数可控。如在信号频率可视化时,可以将信号频率设为可变参数,学员可以通过改变产生信号的频率,观察实际信号频谱和波形的变化。又如,在低通滤波可视化时,需要将低通滤波器的参数可控,学员可以通过改变低通滤波器的各个参数,实现对不同频率成分的过滤。总之,可控的可视化软件,可以使学员体会参数改变对信号特征和信号处理的影响,形成较深入的理解。

2.2.4 动态与静态兼顾的原则。现实中,信号是动态的,但若将信号动态表现,难度大,且不易观察。因此在信号可视化中,可以根据需要,将信号特征和信号处理动态或静态进行表现。如在表现信号多普勒效应时,使用动态表现比较合适。在表现信号频域特性时,动态与静态结合,可以获得不同的体验。在跳频信号可视化时,采用动态的表现形式,可以将频点随时间变化的特性较好地表现出来。

3.信号可视化实例

3.1 信号特征可视化实例。信号的频率与相位是信号最基本的物理特性。为了将信号频率特性在时域的差别合理地表现出来,通过产生3个不同频率的信号,并在同一个图上显示出来。从图中可以明显看到,随着信号频率的升高,信号的重复的"密度"也越来越高。右图给出了随着初始相位不同,信号时域波形的变化情况。从右图可以看出,初始相位的变化影响着正弦信号波峰的位置,也就是信号超前或者滞后均为相位延迟或者超前造成的。

图2 正弦信号频率(左)与相位(右)的可视化表现

3.2 信号处理可视化实例。信号处理的方法比较多,典型的信号处理方法包括调制、解调、滤波等等。而调制又分为模拟调制和数字调制。滤波又分为低通滤波、高通滤波、带通 滤波等。为简便起见,这里给出了模拟调幅(AM)调制(左)和模拟调频(右)的可视化图形。从图3左图可以看出,模拟调制信号的包络随着输入信号幅度的变化而变化。也就是说输入信号改变了载波的幅度。从图3右图可以看出,调频信号的频率随着输入信号幅度的增大而增大,随着输入信号幅度的降低,已调信号的频率变低。通过图3很容易理解调幅和调频的原理。

图3 模拟调幅的图形化表现

图4中的两个图分别给出了高通滤波和低通滤波的频域图形。从左图可以看出,当白噪声通过高通滤波器后,输出的频谱成分中只有高的频率成分,低频率成分被滤除。而在右图可以看出,当白噪声通过低通滤波器后,输出信号的频谱成分中只有低频率成分,高频率成分被滤除掉。通过图4,可以使学员理解滤波器的工作原理。

4.小结

将复杂的信号进行直观化的表示,是现代电子设备教学中一件重要而难于实现的事情。本文首先通过调研近期信号可视化的研究成果,在此基础上给出了信号可视化的定义和信号可视化必须遵循的原则。接着介绍了几种信号可视化的实现方法,最后通过几个实例说明信号可视化的应用方法。本文对电子设备的教学方法研究方面有一定的借鉴作用。

参考文献

[1] 郭宝龙,朱娟娟,吴宪祥,闰允一."信号与系统"课程可视化教学的实践探索[J]. 电气电子教学学报. 2010年10月。32卷,第5期。62-64.

GUO Bao-long, ZHU Juan-Juan,WU Xian-xiang,YAN Yun-yi. Practice and Application on Visual Teaching of Signals and Systems Courses[J].Journal of EEE. 2010,10.Vol(32),5:62-64.

[2] 王旭,薛丽芳,杨丹,韩志艳..基于小波变换的语音信号可视化研究[J]. 计算及应用研究.2009年1月。第26卷第1期。94-96.

WANG XU, XUE Li-fang YANG Dan, HAN Zhi-yan. Speech visualization based on wavelet transform [J].Application Research of Computers. 2009,1.Vol(26),1:94-96.

[3] 高旭. 电子系统多信号建模可视化技术的研究与实现[D].电子科技大学。2011年5月。

GaoXu. Research and Implementation of electronic system based on multi-signal Modeling[D]. University of Electronic Science and Technology of China. 2011.5.

[4] 马天,黄建国,张群飞,王汝夯.水下仿真中声信号可视化研究[J].计算机仿真.第27卷,第6期.44-48.

文化自信的特征篇13

文本的表示与特征提取是文本挖掘领域中的基本问题。目前通常采用向量空间模型生成文本向量来表示非结构化的文本数据。但直接通过分词与词频统计得到的高维度文本向量作为文本表示,不仅给文本理解等后续任务,比如:文本分类、聚类等,带来巨大的计算开销,且精确也会受到影响。因此,研究有效的文本特征选择与压缩方法来进行降维处理,是十分必要的。

目前有P文本表示的研究主要集中在文本表示模型方法与特征选择算法方面。用于表示文本的基本单位通常称为文本的特征或特征项。在中文文本中,采用字、词或短语作为表示文本的特征项。目前大多数中文文本分类系统都采用词作为特征项。(但考虑到文本挖掘的不同具体任务,有时也会将字或者短语作为特征项。)如果把所有的词都作为特征项,那么其特征向量的维数将非常高,要高性能地完成文本分类、聚类等文本理解任务将非常困难。特征提取与压缩主要是为了保持文本核心信息表达的同时,尽量降低特征向量的维度,从而提高文本处理的效率。

特征提取主要有如下四种思路:一是用映射或变换的方法把原始特征变换为较少的新特征;二是从原始特征中选取一些最具代表性的特征;三是根据专家知识选取最有影响的特征;四是用统计方法找出最具分类信息的特征,这种方法适合于文本分类任务。下面将从文本特征评估方法、文本特征选择方法、以及基于领域语义理解的文本特征提取方法等方面,对文本表示与特征提取研究领域现有的研究成果进行综述,然后再展望未来文本特征表示与提取技术可能的研究热点。

1 主流基于统计的文本特征评估方法

1.1 词频(TF: Term Frequency)、文档频度(DF: Document Frequency)与TFIDF

(1)词频(TF: Term Frequency):即一个词在文档中出现的次数。将词频小于某一阈值的词删除,从而降低特征空间的维数,完成特征选择。该方法是基于出现频率小的词对文本表达的贡献也小这一假设。但有时在信息检索方面,频率小的词可能含有更多信息。因此,不宜简单地根据词频来选择特征词。

(2)文档频度(DF: Document Frequency):即统计在整个数据集中有多少个文档包含该词。在训练文本集中对每个特征词计算其文档频度,并且根据预设阈值去除那些文档频度超高或超低的特征词。文档频度的计算复杂度较低,适用于任何语料,常用于语特征降维。

考虑到文档频度超高或超低的特征词分别代表了“代表性弱”或“区分度低”这两种极端情况,故而需要删除。DF 的缺陷是有些稀有词可能在某一类文本中并不稀有,即可能包含着重要的类别信息,如果舍弃将可能影响分类精度。

(3)TFIDF:它是由Salton在1988 年提出的。其中IDF称为反文档频率,用于计算该词区分文档的能力。TF*IDF 的基本假设是在一个文本中出现很多次的单词,在另一个同类文本中出现次数也会很多,反之亦然;同时考虑单词含有的类别区分能力,即:认为一个单词出现的文档频率越小,其类别区分能力越大。

TFIDF算法用于特征词权值估计就是为了突出重要单词,抑制次要单词。但IDF的假设认为文本频数小的单词就越重要,文本频数大的单词就越无用,并不能有效地反映单词的重要程度和特征词的分布情况,使其无法很好地完成对权值调整的功能,导致TFIDF算法法的精度并不是很高。特别是,TFIDF算法中没有体现出单词的位置信息对其重要性的影响,对于Web文档而言,权重的计算方法应该体现出HTML的结构特征。特征词在不同的标记符中对文章内容的反映程度不同,其权重的计算方法也应不同。因此如何对于在网页不同位置的特征词分别赋予不同的系数,然后乘以特征词的词频,以提高文本表示的效果,成为了研究者关注的热点。

1.2 统计词与类别信息相关度的文本特征评估方法

互信息:互信息用于衡量某个词和某个类别之间的统计独立关系。

互信息作为计算语言学模型常用分析方法,原是信息论中的概念,用于表示信息之间的关系,即两个随机变量统计相关性测度。它被用于特征提取是基于如下假设:在某个特定类别出现频率高,但在其它类别出现频率比较低的词条与该类的互信息比较大。考虑到无需对特征词和类别之间关系的性质作任何假设,非常适合于文本分类的特征和类别匹配工作。

特征词和类别的互信息体现了特征词与类别的相关程度,被广泛用于建立词关联统计模型。它与期望交叉熵不同,它没有考虑特征词出现的频率,使得互信息评估函数更倾向于选择稀有词而非有效高频词作为文本的最佳特征。以互信息作为提取特征值的评估方法时,最终会选取互信息最大的若干特征词构成文本向量。互信息计算的时间复杂度平均值等同于信息增益,它不足之处在于权重受词条边缘概率影响较大。当训练语料库没有达到一定规模的时候,特征空间中必然会存在大量的出现文档频率很低(比如低于3 次)的词条,而较低的文档频率必然导致它们只属于少数类别。但是从实验数据中发现,这些抽取出来的特征词往往为生僻词,很少一部分带有较强的类别信息,多数词携带少量的类别信息,甚至是噪音词。

二次信息熵:将二次熵函数取代互信息中的Shannon熵,形成基于二次熵的互信息评估函数。它克服了互信息的随机性。作为信息的整体测度,比互信息最大化的计算复杂度要小,可提高分类任务征选取的效率。

期望交叉熵:也称KL距离。反映的是文本某一类的概率分布与在某特征词的条件下该类的概率分布之间距离,特征词w的交叉熵越大,对文本类的分布影响也越大。它与信息增益不同,它没有考虑单词未发生的情况,只计算出现在文本中的特征项。如果特征项和类别强相关,即:P ( Ci | w )就大,而P( Ci) 又很小,则说明该特征词对分类的影响大。交叉熵的特征选择效果都要优于信息增益。

信息增益方法:用于度量已知一个特征词在某类别的文本中是否出现对该类别预测的影响程度。信息增益是一种基于熵的评估方法,用于评估某特征词为整个分类所能提供的信息量,即:不考虑任何特征词的熵与考虑该特征后的熵的差值。根据训练数据,计算出各个特征词的信息增益,删除信息增益很小的,其余的按照信息增益从大到小排序。某个特征项的信息增益值越大,对分类也越重要。

信息增益最大的问题是:它只能考察特征词对整个分类系统的贡献,而不能具体到某个类别上,这就使得它只适合用来做所谓“全局”的特征选择(指所有的类都使用相同的特征集合),而无法做“本地”的特征选择(每个类别有自己的特征集合,因为有的词,对这个类别很有区分度,对另一个类别则无足轻重)。

其它的文本特征评估方法:比如卡方统计量方法、文本证据权、优势率等,这些方法也都是用于评估特征词与文本类别的相关性。其中,在卡方统计和互信息的不同在于, 卡方统计其评估权重只对在同类文本中的词是可比的, 另外,它对低频词评估实用性不高。

2 主流的文本特征选择方法

2.1 N-Gram算法

其基本思想是将文本内容按字节流进行大小为N的滑动窗口分段,形成长度为N的字节片段序列。每个字节片段称为一个N-Gram单元,对全部N-Gram单元的出现频度进行统计,并按照事先设定的阈值进行过滤,形成关键N-Gram列表,作为该文本的特征向量空间。由于N-Gram算法可避免中文分词错误的影响,适用于中文文本处理。中文文本处理大多采用双字节进行分解,即:bigram。但是bigram切分方法在处理20%左右的中文多字~时,会产生语义和语序方面的偏差。而对于专业领域文本数据,多字词常常是文本的核心特征,处理错误将导致负面影响。于是有研究者提出改进的基于N-Gram文本特征提取算法,即:在进行bigram切分时,不仅统计bigram的出现频度,还统计某个bigram与其前邻bigram的共现情况。当共现频率大于预设阈值时,将其合并成为多字特征词。该算法,较好地弥补N-Gram算法在处理多字词方面的缺陷。

2.2主成分分析算法

该算法通过搜索最能代表原数据的正交向量,建立一个替换的、较小的特征集合,将原数据投影到这个较小的集合。主成分分析(PCA)按其处理方式的不同,又分为数据方法和矩阵方法。矩阵方法中,所有数据通过计算方差-协方差结构在矩阵中表示出来,矩阵的实现目标是确定协方差矩阵的特征向量,它们和原始数据的主要成分相对应。考虑到矩阵方法的计算复杂度随着数据维度n的增加,以n的二次方增长,有研究者提出了使用Hebbian学习规则的PCA神经网络方法。

2.3遗传算法与模拟退火算法

(1)遗传算法(Genetic Algorithm, GA):是一种通用型的优化搜索方法,它利用结构化的随机信息交换技术组合群体中各个结构中最好的生存因素,复制出最佳代码串,并使之一代一代地进化,最终获得满意的优化结果。如果将文本看作是由若干个特征词构成的多维空间,那么将文本特征提取问题就转化为了文本空间的寻优过程。有研究者已经将遗传算法应用于这个寻优过程中。首先对文本空间进行编码,以文本向量构成染色体,通过选择、交叉、变异等遗传操作,不断搜索问题域空间,使其不断得到进化,逐步得到文本的最优特征向量。

基于协同演化的遗传算法使用其它的个体来评价某一特定个体。个体优劣的标准是由在同一生存竞争环境中的其它个体决定。这种协同演化的思想与处理同类文本的特征提取问题相吻合。同一类别文本相互之间存在着相关性,各自所代表的那组个体在进化过程中存在着同类之间的相互评价和竞争。因此,每个文本的特征向量(个体)在不断的进化过程中,不仅受到其母体(文本)的评价和制约,而且还受到其它同类个体的指导。基于协同演化的遗传算法不仅能反映其母体的特征,还能反映其它同类文本的共性,从而有效地解决同一类别的多个文本的集体特征向量的提取问题,获得反映整个文本集合最佳特征向量。

(2)模拟退火算法:将特征选取看作组合优化的问题,因而可以使用解决优化问题的方法来解决特征选取的问题。模拟退火算法(Simulating Anneal,SA)就是其中一种方法。将模拟退火算法运用到特征选取中,理论上可以找到全局最优解,但在初始温度的选取和邻域的选取时,需要找到有效的策略来综合考虑解的性能和算法的速度。

3 词向量(word embedding)

深度学习(Deep Learning)中一般用到的词向量是用词向量(Word Embedding)或分布式表达方法( Distributed Representation)所表示的一种低维实数向量。维度以 50 维和 100 维比较常见。这种向量的表示不是唯一的。词向量的提出,为的是将相关或者相似的词,在距离上更接近。向量的距离可以用最传统的欧氏距离来衡量,也可以用 cos 夹角来衡量。比如:用这种方式表示的向量,“麦克”和“话筒”的距离会远远小于“麦克”和“天气”。可能理想情况下“麦克”和“话筒”的表示应该是完全一样的,但是由于有人会把英文名“迈克”也写成“麦克”,导致“麦克”一词带上了一些人名的语义,因此不会和“话筒”完全一致。该方法很好地解决了传统的文本特征向量用于文本挖掘任务时可能出现的维数灾难问题,因而被很多研究者广泛地用于各类文本挖掘的任务当中。

4 基于领域语义理解的文本特征提取方法

4.1基于语境框架的文本特征提取方法

有研究者发现,单单依靠统计无法完成语义分析。没有考虑句子的语义以及句子间的关系的情况下,无法提取准确的文本特征向量来表达文本语义。因此,研究者提出将语义分析与统计算法相结合的语境框架算法,并获得了丰富的研究成果。可以将语境框架看作是一个三维的语义描述框架,即:把文本内容抽象为领域(静态范畴)、情景(动态描述)、背景(褒贬、参照等)三个模块。在语境框架的基础上,从语义分析入手,实现了四元组表示的领域提取算法、以领域句类为核心的情景提取算法、以对象语义立场网络图为基础的褒贬判断算法。该算法可以有效地处理语言中的褒贬倾向、同义、多义等现象,表现出较好的特征提取能力。

4.2基于本体论的文本特征提取方法

有研究者提出了应用本体论(Ontology)模型,有效地解决特定领域知识的描述问题。比如:针对数字图像领域的文本特征提取问题,可以通过构建文本结构树,给出特征权值的计算公式。算法充分考虑特征词的位置以及相互之间关系的分析,利用特征词统领长度的概念和计算方法, 能够更准确地进行特征词权值的计算和文本特征的提取。

4.3基于Z义网络的概念特征提取方法

文本挖掘,特别是中文文本挖掘,处理的对象主要有字、词、短语等特征项。但字、词、短语更多体现的是文档的词汇信息,而非语义信息,因而无法准确表达文档的内容。目前的大多数关于文本特征提取的研究方法只注重考虑特征发生的概率和所处的位置,缺乏语义方面的分析。向量空间模型(VSM)最基本的假设是各个分量相互正交,但事实上,作为分量的特征词间存在很大的相关性,无法满足模型的假设。基于概念的特征提取方法是在VSM的基础上,对文本进行部分语义分析,利用英文的WordNet或中文的知网等语义网络获取词汇的语义信息,将语义相同的词汇映射到同一概念,进行概念聚类。用概念作为文档向量的特征项, 这样就能够比一般词汇更加准确地表达文档内容,减少特征之间的相关性和同义现象,从而有效降低文档向量的维数,减少文档处理计算量,提高特征提取的精度和效率。

5 总结与展望

本文对近年来文本特征提取研究领域所取得的研究成果进行了全面的综述。随着人工智能深度学习技术的发展,在未来几年中,将可能从以下几个方面取得突破:(1)文本特征提取及文本挖掘在专业领域,比如:金融领域、军事领域等的应用研究。(2)新的文本特征表示模型,比如考虑使用层次结构的向量对文本进行建模,关键词向量能快速定位用户的兴趣领域,而扩展词向量能准确反映用户在该领域上的兴趣偏好。结合领域知识,采用概念词、同义词或本体来代替具体的关键词成为特征词,体现语义层面的需求和分析。(3)改进分词算法。比如针对特征提取的需要,应用深度学习算法框架,建构高性能的分词系统。(4)改进特征评价函数。比如考虑将表达文本结构的特征提取与表达文本语义的特征提取进行交叉解码,即对特征词的权重从表达文本结构与文本语义两个层面进行评价。

责编/魏晓文

参考文献

[1] Bengio Y, Schwenk H, Senécal J, et al. Neural Probabilistic Language Models[J]. Journal of Machine Learning Research, 2003, 3(6):1137-1155.

[2] Salton G, Buckley C. Buckley, C.: Term-Weighting Approaches in Automatic Text Retrieval. Information Processing & Management 24(5), 513-523[J]. Information Processing & Management, 1988, 24(5):513-523.

[3] 刘健, 张维明. 基于互信息的文本特征选择方法研究与改进[J]. 计算机工程与应用, 2008, 44(10):135-137.

[4] 成卫青, 唐旋. 一种基于改进互信息和信息熵的文本特征选择方法[J]. 南京邮电大学学报(自然科学版), 2013, 33(5):63-68.

[5] Cavnar W B, Trenkle J M. N-Gram-Based Text Categorization[C]// In Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval. Las Vegas, US. 1994:161--175.

[6] 陈素芬, 曾雪强. 中心修正增量主成分分析及其在文本分类中的应用[J]. 中文信息学报, 2016, 30(1):108-114..

[7] 郝占刚, 王正欧. 基于潜在语义索引和遗传算法的文本特征提取方法[J]. 情报科学, 2006, 24(1):104-107.

在线咨询