相關(guān)鏈接: 中國安全網(wǎng) 中國質(zhì)量網(wǎng) 中國論文網(wǎng) 中國資訊網(wǎng)
李 響1 呂 勇1 張倩 喧2
(北京信息科技大學(xué)儀器科學(xué)與光電工程學(xué)院1,北京100192;北京雪迪龍科技股份有限公司2,北京102206)
摘要:對葉片生化參數(shù)檢測模型的簡潔性和穩(wěn)健性進(jìn)行探討,提出了一種多層次特征信息提取算法。在進(jìn)行特征信息提取時,首先應(yīng)用后向間隔偏最小二乘法進(jìn)行特征波段選擇,先選擇有用信息波段,剔除無用信息,然后從有用信息里消去信息的共線性。實(shí)驗(yàn)結(jié)果表明,多層次特征信息提取算法不僅可以有效地提取光譜的特征信息,選擇易于解釋的變量,而且提高了檢測精度。
關(guān)鍵詞:光譜分析特征提取信號處理生化參數(shù)檢測無損檢測最小二乘法
中圖分類號:TH -3;TP2 DOI:10. 16086/j. cnki. issnl000 - 0380. 201603008
0引言
葉片作為植物機(jī)體最重要的組成部分,不僅是光合作用的主要場所,而且在果實(shí)成熟過程中充當(dāng)了重要的角色。植物葉片生化參數(shù)(葉綠素和水分)無損檢測在精細(xì)農(nóng)、林業(yè)等領(lǐng)域具有重要的意義。光譜檢測技術(shù)以其快速、無損、實(shí)時等優(yōu)點(diǎn)在各個研究領(lǐng)域發(fā)揮著重要的作用。
植物葉片在可見/近紅外波段(400~1100 nm)的吸收特征沒有近紅外波段復(fù)雜,尤其是在可見區(qū)域,主要受到色素即葉綠素吸收的影響。雖然葉綠素吸收峰相對比較明確,但對于活體檢測時,物質(zhì)的吸收之間存在相關(guān)干擾,再加上散射等物理因素的影響,會使這些特征峰發(fā)生漂移或重疊。另外,隨著季節(jié)的變更,植物生長期以及健康狀態(tài)的改變,其自身機(jī)體的保護(hù)機(jī)制也會使色素的特征吸收波長發(fā)生藍(lán)移或者紅移。因此針對不同目的的校正模型(數(shù)據(jù)自身特點(diǎn)和物質(zhì)結(jié)構(gòu)特點(diǎn)),需要選擇不同的建模波長,從而說明波長選擇算法對于葉綠素含量的檢測具有重要的意義。
本文對葉片生化參數(shù)檢測模型的簡潔性和穩(wěn)健性
進(jìn)行探討,提出了一種多層次特征信息提取算法。
1 多層次特征信息提取方法
對于多變量校正方法,為不丟失光譜信息,可用全部光譜數(shù)據(jù)建模,但這樣不僅計(jì)算量大,校正模型的預(yù)測精度也未必能達(dá)到最佳值。波長優(yōu)選的目的是從光譜中提取最有效的譜圖特征信息,建立最佳的校正模型,簡化運(yùn)算,并降低模型維護(hù)的復(fù)雜性。因此選擇包含最佳信息的特征波長是建立多變量校正模型的關(guān)鍵。
本文所述多層次特征信息提取方法,在進(jìn)行特征信息提取時,首先應(yīng)用后向間隔偏最小二乘法進(jìn)行特征波段選擇,先選擇有用信息波段,實(shí)現(xiàn)無用信息的剔除。然后再在有用信息里消去信息的共線性。
1.1 特征信息提取理論依據(jù)
傳統(tǒng)的校正模型可以表達(dá)為:
式中:C為樣本的濃度信息矩陣;R為光譜響應(yīng)變量矩陣;B為估計(jì)的回歸系數(shù)矩陣;E為誤差矩陣。為了不失一般性,R和C均為歸一化的矩陣(即零均值標(biāo)準(zhǔn)方差)。
光譜測量的基本原理是通過式(1)估計(jì)回歸系數(shù)B,然后可對未知樣本進(jìn)行預(yù)測,得到濃度C的信息。
相關(guān)研究證明,回歸系數(shù)B的無偏估計(jì)為:
假設(shè)誤差服從獨(dú)立同分布,模型的預(yù)測均方根誤差m e s p可表達(dá)為:
由式(2)和式(3)可知,增加光譜數(shù)據(jù)的變量個數(shù)可提高模型的預(yù)測誤差。但實(shí)際過程中,這個是不可能實(shí)現(xiàn)的,還需要考慮到光譜R和濃度C的誤差。
假設(shè)光譜與濃度的誤差獨(dú)立同分布,考慮R和C的誤差,將式(3)表達(dá)為一階形式:
假設(shè)原來的回歸系數(shù)的估計(jì)誤差受后添加的變量的影響不大,因此式(6)近似為:
從式(7)可看到,增加的波長變量有兩方面特點(diǎn)。一方面,第一項(xiàng)一定為負(fù),這是因?yàn)閷υ黾拥牟ㄩL變量進(jìn)行擬合,變量個數(shù)多的原始波長處的回歸系數(shù)的平方和一定小于沒有增加之前的;另一方面,可類似求得后面兩項(xiàng)必定為正。因此,當(dāng)增加了變量處的光譜數(shù)據(jù)誤差較大或者增加的變量處的回歸系數(shù)的誤差較大時,m e s p會隨著變量的增加而增加。
選擇具有較大SNR的波長以及對回歸系數(shù)估計(jì)誤差小的變量(不確定度。,可提高模型的精度。波長變量的不確定度大是指波長處包含著一些不能夠用目前的校正集樣本校正的因素。這些因素可能受測量中的各種非線性影響,如實(shí)驗(yàn)條件、儀器漂移物理屬性導(dǎo)致的漂移或較大的隨機(jī)誤差等。波長處大的不確定度是指波長的增加會明顯增加模型的復(fù)雜度,說明該波長包含了與目標(biāo)濃度無關(guān)的信息,需要更多的主成分來提取信息。
1.2特征波段的選擇
間隔偏最小二乘(interval partial least squares,iPLS)由Nfrirgaard等人提出,其克服了與化合物無關(guān)的因素,使得校正模型穩(wěn)定,依賴模型精度最小化選擇最佳波長間隔組合,能夠有效地消除無用信息。其主要原理為:將整個光譜范圍分割成為許多小的等間距區(qū)間,然后在每個區(qū)間構(gòu)建PLS模型,通過驗(yàn)證計(jì)算各子區(qū)間的預(yù)測均方根誤差( root mean square error ofcross validation,RMSECV)。當(dāng)RMSECV最小時,對應(yīng)的因子為該區(qū)間的最佳因子,因此可建立局部最優(yōu)PLS模型。
iPLS的主要目的是優(yōu)化PLS模型的預(yù)測能力,并提高模型的解釋能力。
間隔偏最小二乘可有效地將物質(zhì)的特征波段選擇出來,消除那些無用波段,減少不確定度大的波長,從而提高模型的精度。但同時會導(dǎo)致另一個問題的出現(xiàn),當(dāng)物質(zhì)的特征波段不止一個時,如水分,其理論吸收峰在760 nm和970 nm附近,為提高模型的精度,這兩個特征波段應(yīng)該均被選人。因此需要對間隔偏最小二乘選擇好的波段進(jìn)行組合,組合的方式有很多種,如前向逐步選擇、后向逐步選擇、基于GA算法的選擇等。雖然方法不同,但結(jié)果是類似的,這里采用后向逐步選擇法( backward intervalpartial least squares,BiPLS)。后向選擇的方式,逐漸減少建模的區(qū)間間隔數(shù),直到RMSECV減少后又開始增加。這時的間隔組合即為最佳區(qū)間組合,其原理如圖1所示。
1.3特征波長的提取
在選取了有用信息波段之后,再選擇特征波長來消除波長變量之間的共線性。連續(xù)投影算法( successiveprojection algorithm,SPA)是Araujo M C U等人于2001年提出的一種變量選擇方法,它可最大程度地消除變量之間的共線性,以有效地進(jìn)行特征波長的選擇。由于該方法對噪聲的敏感性較大,因此一些微弱吸收的波長會被忽略掉。本文將其應(yīng)用在不確定度小的波段范圍內(nèi)進(jìn)行選擇,克服了該缺點(diǎn)。
連續(xù)投影算法是一種向前選擇變量方法,開始時選擇一個變量,然后通過投影算法,每迭代一次增加一個新變量,直到選定最佳的Ⅳ個變量為止。SPA的目的是選擇具有最少冗余信息的變量,解決變量間的共線性問題。SPA選擇變量的過程基本原理是,在未選出的剩余變量集中,找到一個新變量,且該變量在上一個已選出變量的正交子空間中具有最大投影值。需要注意的是,進(jìn)行初始設(shè)置時,開始變量Xstart及選擇變量個數(shù)Ⅳ的選擇很關(guān)鍵N在校正集樣品數(shù)之間變化,通?蓪γ恳粚(Xstart,N)參數(shù)進(jìn)行多元回歸分析,具有最小的預(yù)測均方根誤差的(Xstart,N)參數(shù)就是初始設(shè)置的最優(yōu)值。其算法為:
將前述優(yōu)選的特征波段數(shù)據(jù)采用SPA投影算法消除變量的非線性因素,得到最終的特征變量用以建立校正模型,可有效地選擇反映目標(biāo)參數(shù)的特征信息,同時還可有效地提高模型的精度。
2 葉片光譜特征信息提取實(shí)驗(yàn)
將本文提出的多層次特征信息提取算法應(yīng)用于植物葉片光譜數(shù),并與目前主流波長選擇算法進(jìn)行比較,研究本算法的有效性。
2.1實(shí)驗(yàn)部分
采集6片綠色水平不同的綠蘿葉片,所選樣本均是健康的、顏色均勻、無花青素或明顯損傷的葉子。分別采集每個樣本在6個不同位置上的光譜,共測得36條光譜,原始光譜如圖2所示。所獲36個樣本的葉綠素含量范圍為8. 79~38.4 mg/kg,均值為22.7 mg/kg,標(biāo)準(zhǔn)差為12.8 mg/kg。
儀器采用海洋光學(xué)的USB4000便攜式光譜儀,用直徑為400μm 的反射光纖和PRH -1光纖支架,以及陶瓷標(biāo)準(zhǔn)反射板,儀器的有效波長范圍為450~1050 nm波段,共計(jì)3 149個波長。
2.2數(shù)據(jù)預(yù)處理
在對數(shù)據(jù)建模之前,采用小波分析的方法對其進(jìn)行去噪,并采用OPLEC方法校正。由于樣本位置差異引起的光譜差異,校正后的光譜圖如圖3所示。
2.3實(shí)驗(yàn)結(jié)果分析
將各種波長選擇算法和本文提出的多層次特征信息提取算法分別應(yīng)用在葉綠素含量模型中,從模型的精度、復(fù)雜度以及變量的可解釋性3個方面進(jìn)行分析。
波段選擇前后葉綠素含量模型的精度對比和各種波長選擇算法在葉綠素數(shù)據(jù)的應(yīng)用曲線分別如表1、圖4所示。
從表1中可看到,基于物理意義選擇波長的算法(除了SIMPLISMA)選出的波長數(shù)目都很多,大約是原《自動化儀表》第37卷第3期2016年3月始光譜的三分之一。從圖4中可發(fā)現(xiàn),VIP類算法即圖4(a)和4(b)中被選出的波長集中在幾個波段內(nèi),450~500 nm、520~570 nm、620~ 800 nm,以及1 010~1050 nm范圍內(nèi),葉綠素兩個特征峰(450 nm、670 nm)被選出。UVE類算法即圖4(c)和圖4(d)不同于、V0IP類算法的波段是720~ 890 nm和960 ~1 010 nm,除了前面葉綠素的吸收峰和反射峰之外,UVE選出的波段主要集中在短波近紅外區(qū)域(760~1100 nm),在精度方面,VIP類算法對模型精度的提高是有效的,尤其是Bootstrap - VIP,RMSECV從2.29降低為2.07,RMSEP從3. 13降低到3.01,分別降低了9.6%和3.8%。但
UVE類算法的效果卻不理想,減少了建模的復(fù)雜度,同時也丟失了一部分信息,使得PLS模型的主成分個數(shù)也降為4。UVE類算法考察的是波長回歸系數(shù)的穩(wěn)定性,因此一些不是目標(biāo)因素引起的變異較大的波長可能被選出,反而不利于模型精度的提高。
圖4(e)所示SIMPLISMA算法,雖然大大地降低了光譜的復(fù)雜性,但精度沒有提高,這是所列幾種方法中模型精度最差的一種;貧w點(diǎn)位移( regression pointdisplacement,RPD)只有1.99,表明該模型是不可預(yù)測的。SIMPLISMA算法考察的是光譜自身的差異,與被測參數(shù)自身無關(guān),將波長按所包含的變異信息從大到小依次排列。因此,其對光譜的質(zhì)量要求很高,當(dāng)光譜質(zhì)量不高時,就無法選出真正與目標(biāo)濃度相對應(yīng)的波長。
圖4(f)是采用本文提出的BiPLS - SPA混合波長選擇算法選出的10個波長,分別是483. 84 nm、512.4 nm、513.24 nm、513. 86 nm、555. 21 nm、581.7 nm、694.65 nm、706.83 nm、910. 92 nm、913. 76 nm。這些波長涵蓋了葉綠素a的吸收峰(690 nm,700 nm)和葉綠素b的吸收峰(480 nm)。其余的波長是葉綠素a和b吸收都很小的波長,如圖5所示。
圖5說明BiPLS - SPA選出的波長具有明確的物理意義,可解釋性強(qiáng),對選出的波長建立PLS模型。由表1可知,與原始PLS模型相比,新建模型不僅提高了模型精度,RMSECV降低了26.3%,而且增強(qiáng)了模型的預(yù)測能力,RMSEP降低了24.0%。
2.4實(shí)驗(yàn)結(jié)論
對于本組數(shù)據(jù),VIP和UVE兩種方法是較有效的波長選擇方法,但前者是選擇有效的,后者是消除無用的,因此從效果上來看,二者不僅減少了波長個數(shù),而且還在一定程度上提高了預(yù)測精度或者和原始模型的精度維持一致。SIMPLSIMA方法無論是葉綠素數(shù)據(jù)還是水分?jǐn)?shù)據(jù)模型精度都較差,這與光譜質(zhì)量的噪聲大有關(guān)系。研究表明,該算法對噪聲異常敏感,因此在使用之前,應(yīng)該采用相應(yīng)的去噪措施。PLS模型自身具有抑制噪聲的作用,因此SIMPLSIMA算法在本文的數(shù)據(jù)應(yīng)用中不是最佳的波長選擇算法。Bootstrap -VIP及EMCUVE,多次重復(fù)VIP和MCUVE方法,期望在統(tǒng)計(jì)上給出某些波長的重要性,但并未取得期望的效果。在參數(shù)相同的情況下,兩者期望相同,但前者比后者所需要的波長要多。如進(jìn)行波段優(yōu)選,VIP方法要較UVE方法略勝一籌,前者選擇的波長都集中于一些固定的區(qū)域,而后者所選的波長在整個波段范圍內(nèi)散開,但物理原因不明確。這幾種方法的共同特點(diǎn)是確定所需閾值較困難,需要不斷嘗試,給出最佳參數(shù),因此,計(jì)算量較大且復(fù)雜。
本文所述多層次特征信息提取算法,物理意義明確,不需要參數(shù)設(shè)置,有效地選出了各生化參數(shù)的特征吸收波段,剔除了不相關(guān)波段的無用信息或冗余信息。采用連續(xù)投影算法消除選出波段內(nèi)的共線性,最大程度地降低建模的復(fù)雜性。
3結(jié)束語
特征信息提取是建立高精度校正模型的一個重要環(huán)節(jié),減少模型復(fù)雜度的同時也增加模型的穩(wěn)定性。最佳的波長選擇算法不僅要求改善校正模型的精度,還要求容易解釋,以更加真實(shí)地反映物質(zhì)的相應(yīng)特性。本文在比較了常用的波長選擇算法的基礎(chǔ)上,提出了一種多層次特征信息提取算法。該方法首先消除與目標(biāo)濃度無關(guān)的無用信息,突出光譜中的微弱信號,然后極大地消除剩余光譜變量之間的冗余信息,降低其共線性。該算法選出的波長具有較強(qiáng)的可解釋性,物理意義明確。與常用的幾種波長選擇算法即VIP、UVE、SIMPLISMA以及由它們衍生的相關(guān)算法進(jìn)行對比,結(jié)果表明,多層次特征信息提取算法不僅可有效地提取光譜的特征信息,而且選擇的變量易于解釋,可有效提高建模效率并提高模型精度和穩(wěn)定性。