摘要:将傅里叶变换红外光谱法和人工神经网络用于鉴别和非大黄样品。在对神经网络训练前用小波变换对测量的红外光谱进行压缩,将原700个数据点的光谱压缩到44个变量,因此加速了神经网络的训练速度。52个大黄样品被用于网络模型的建立,其中包括25个大黄和27个非大黄的样品。文章还对隐含层神经元数目和动量参数的影响做了考察。结果表明,在优化的条件下用该方法对大黄样品的鉴别正确率达到98%。这种方法可被用于含大黄中药生产的质量控制。
主题词:大黄;红外光谱;神经网络;小波变换
引 言
大黄是我国*的特产药材,大黄只产于中国。药典规定的大黄只有药用大黄R.officinale Bail1.、掌叶大黄Rheum palmatum L.和唐古特大黄R.tanguticm Maxim.Ex Balf三种。由于国内外对大黄的需求日益增多,不少地区将同属其他种大黄如华北大黄、波叶大黄混入商品,充当大黄使用。多年来大黄生药鉴定主要依靠宏观与微观特征,利用化学反应和在紫外光下观察颜色来区分大黄和非大黄。常规的光谱分析方法则需对药材进行分离提取,利用红外光谱法直接鉴别中药材也已有报道,但采用光谱法保持药材原性状(无损伤)鉴别同名药材则较少报道。
大黄中含有多种有效成分,其中包括大黄素、大黄酸、大黄蒽醌、芦荟、土大黄甙、大黄素甲醚、大黄酚及其葡萄糖苷等,这些成分在中红外区都有比较明显的吸收峰出现。比如,大黄酚含有苯环和羟基,因此在红外光谱图中就能检测到苯环的骨架振动和羟基的吸收峰;如果有大黄酸,就能检测到羧基的存在,另外大黄素甲醚的存在,就能够出现醚的官能团所*的吸收峰。但是这些物质都存在于大黄样品中,而在测试的时候只是将大黄样品进行直接红外测试,而不是先通过色谱进行分离,因此得到的光谱图将含有各种成分的吸收峰,而不是其中某一种成分的特征光谱。因此,用红外光谱进行扫描,只能检测出样品中含有哪些基团,通过比较谱图的差异也很难对和非大黄样品做出识别。
人工神经网络(Artificial Neural Network,ANN),有时简称为神经网络,是在现代生物学研究人脑组织时所取得成果的基础上提出的,它是利用大量简单的处理单元广泛连接组成网络,用来模仿人脑神经网络结构和功能而建立的一种信息处理系统。目前应用zui广泛的网络是BP网络,它采用误差反传播算法,即沿误差负梯度的方向调整处理单元间的权重值来实现,该算法可以实现由输入到输出的非线性映射。用该学习算法对网络进行训练时,可分为两个步骤:*步(正向传播阶段)是对于给定的网络输入,通过正向传播得到各个单元的实际输出;第二步(误差反向传播过程)是计算输出层各单元的输出误差项,然后根据这些误差逐层向输入层方向逆向传播,以调整各连接权值。两个步骤交替重复进行,直到代价函数或输出层的输出误差项zui小。
本文利用红外光谱法和人工神经网络对52个同科属、不同种、不同产地、不同采集时间的大黄属植物样品进行了测试和鉴别,结果可以区分其中的大黄和非大黄。此鉴别方法与常规的鉴别方法相比具有更直接、快速、不破坏样品等特点,因此是一种科学性的鉴别中药材的方法。
1 实验部分
1.1 仪器与测试条件
仪器设备:傅里叶变换中红外光谱仪为PE1730型光谱仪,DTGS检测器。
测试条件:光谱分辨率4/cm。测量范围:4000-400/cm。温度控制在22℃ 。
1.2 样品来源及简单制备
本工作选用的52个不同品种和不同产地的大黄样品。根据我国药典的要求,我们将这些样品分为大黄和非大黄两类,其中25个为样本(~25),27个为非样本(No.26~52)。大黄样品经干燥后粉碎成60目的粉末后直接测定。采用压片法对大黄样品进行测量,取l~2mg大黄样品,研细,加入100-200mg的溴化钾,在压片机上压成厚度为0.1mm透明的薄片进行测量。
1.3 数据的采集和处理
每个样品在测试之前*行背景扫描,背景扫描的目的主要是减少空气中水蒸气和二氧化碳对测试带来的影响。背景的扫描次数为30次。为了保证样品数据的代表性,用红外光谱仪对样品扫描30次,然后取其平均值。
数据处理:将测试结果以ASCII码储存,用另一台计算机处理。为了减少光谱的变量,从而提高神经网络的训练速度,我们利用小波变换方法将二阶导数NIR光谱进行压缩。经小波压缩后的光谱变量点由原来的700个减少为44个。利用小波变换数据压缩技术既能地减少数据的变量数目,又能保持原光谱的特征。为了更好地对大黄样品的红外光谱图进行观察和比较,我们对所测得的数据进行归一化处理。因为红外吸收峰的强度一方面取决于键的极性,极性越强,红外吸收峰就越强;另一方面还和被测物质的量有关,在这一点上符合朗伯一比尔定律,即被测样品的含量越高,吸光度越强,透光率越低。进行归一化处理避免了由于被测样品的量的不同对吸收峰强弱造成影响。经过归一化处理后的样品光谱更具有可此性。用经过归一化的含44个变量的大黄NIR光谱作为神经网络的输入。
本工作使用误差反向传播算法的神经网络(BP-ANN)建立大黄样品的分类模型。神经网络的输入层单元为44,输出层单元为1个,以1.0代表大黄,0.0代表非大黄。对隐含层单元进行优化选择。
为了简化计算步骤,本工作首先使用Matlab 5.0(Mathworks,Inc.,uSA)的内部函数appcoef进行一维小波变换,对光谱进行压缩。然后使用Trainbpx(快速BP算法的函数)进行网络的训练和建模。为了验证神经网络建立的分类模型,本文采用交叉验证方法。使用n中取1的方法选取检验样本。即每次选取一个样本作为检验样本,其余样本作为训练样本。这样,每个样品作为检验样本1次,作为训练集样本n-1次。预测结果的判定阈值设为0.5,即当输出值大于0.5判为大黄,当输出值小于0.5判为非大黄。
2 结果与讨论
2.1 大黄的红外光谱
将不同的大黄样品的红外光谱放在一起进行比较,可以看出样品间的细微差别。对于吸收峰出现得比较多的区域,可以对该区域进行放大。比较在同一位置是否都出现了吸收峰,不同样品的吸收峰的强度是否相同,同一样品在不同位置的吸收峰的相对强度是否相同。这样可以比较出样品之间的一些差别。
大黄的红外谱图在4000~1800/cm范围内,差别很小,很难找出谱图之间的差别。而从1 800-400/cm这个范围谱图之间的差别就相对要大一些。所以,我们选择了波数从1800~400/cm的范围。
2.2 隐含层结点的影响
在这项试验中,我们用BP-ANN鉴别大黄和非大黄。实际上,隐含层的结点数决定着BP网络的复杂性。因此,我们必须选择一个*的隐含层结点数。我们把隐含层个数从1到8逐个进行比较。
可以看出,随着隐含层结点数的变化,BP-ANN网络的识别正确率也在变化。当隐含层结点数为1时,识别正确率zui低,为90.38%。当隐含层结点数为3时,识别正确率zui高,达到98.08%。
2.3 动量因子的影响
动量因子和学习速率是影响BP神经网络训练速率和收敛度的两个重要因素。到目前为止,还没有严格的系统的理论规则来选择动量因子和学习速率。对于特定的问题,这些参数通常根据实验来选择。在这项实验中,我们使用的是Matlab软件中的内部函数Trainbpx,其中学习速率一项是由函数自我调整的。因此,在实验中我们只需要选择合适的动量因子。我们把动量因子从0.1到0.9逐个比较,zui后,我们确定zui合适的动量因子为0.9。
我们可以看出,BP网络对大黄的识别正确率随着动量因子的变化比较平稳,都达到了92%以上。调节动量因子,可以使我们找到zui高的识别正确率,但是如果动量因子太大了,BP网络就不能收敛了。
可以发现,BP-ANN网络对大黄样品的识别只有一个大黄样品被识别错误。第30个样品输出值为0.9936,这个样品为鉴别错误的样品。其他51个样品的鉴别是正确的。从总体来看,使用BP网络鉴别大黄样品识别正确率达到了98.08%。
3 结论
通过对52个大黄样品的测试和鉴别可以看出,大黄样品红外谱图比较相似,根据谱图的差异并通过BP-ANN网络可以识别大黄和非大黄。傅里叶变换红外光谱技术快速、准确,不需对样品进行分离、提取而直接测定植物类药材。利用人工神经网络与之相结合可以对药材进行真伪的鉴别。这种科学的评价体系可以避免经验鉴定的人为性和一些其它方法的复杂性,从而加快中药现代化研究的进程。
参 考 文 献
[1] SUN Su-qin,ZHANG Xuan,QIN Zhu et al(孙素琴,张宣.秦竹等).Spectroscopy and Spectral Analysis( 谱学与光谱分析),1999,19(4):542.
[2] SUN Su-qin ,YU Jian-yuan,HU Xin-yao(孙素琴,郁监源,胡鑫尧).Spectroscopy and Spectral Analysis( 谱学与光谱分析),1999,19(6):841大黄素_search11()' onmouseover=this.style.cursor='hand' id=芦荟大黄素 value=芦荟大黄素>芦荟大黄素