紅外光譜分析技術作為一種綠色分析技術,在許多領域中已得到廣泛應用。
隨著應用的深入和拓展,近紅外光譜的數據類型逐漸從傳統數據變成近紅外光譜大數據。
本文總結了近紅外光譜的預處理、奇異樣本篩選、多元校正和模型轉移等技術及其在相關領域的應用。
對近紅外光譜大數據分析技術的初步研究,包括近紅外光譜在工業品在線檢測、不同批次產品鑒別中的應用以及近紅外光譜物聯網系統等也進行了綜述。
此外,對于近紅外光譜大數據未來的發展及近紅外光譜大數據云平臺的基本功能、軟硬件的設計與開發、建設過程中需要解決的問題等進行了詳細闡述。
隨著數字時代的到來,人類對自然和社會認識的進一步加深,人類的活動空間得到進一步擴展。
高度數字化的生活使得人類在科學研究、互聯網應用、電子商務、移動運營等諸多領域均出現了大規模的數據增長,大數據時代已經來臨。
與傳統的數據集合相比,大數據可以通過挖掘和應用創造出巨大的價值,因此迅速發展成為工業界、學術界乃至世界各國政府高度關注的熱點。
大數據以其顛覆性的技術對國家治理模式、企業決策、組織和業務流程以及個人生活方式等均產生了巨大的影響。
作為一個新興的概念, 大數據問題得到了學術界、工業界乃至政府機構的密切關注,并對其產生濃厚的興趣。
Nature于2008年針對大數據推出了專刊“Big Data”。
Science于2011年推出專刊“Dealing with Data”,圍繞科學研究中大數據的問題展開討論,從互聯網技術、互聯網經濟學、超級計算、環境科學、生物醫藥等多個方面討論了大數據處理面臨的各種問題,說明了大數據對于科學研究的重要性。
2012年,美國奧巴馬政府發布了“大數據研究和發展倡議”,宣布投資2億美元啟動“大數據研發計劃”。
這一計劃使大數據上升到了國家戰略層次,使之成為各國關注的熱點,之后與大數據相關的研究成果呈現出爆炸性的增長并一直持續至今, 2012年也因此成為大數據的元年。
雖然大數據的重要性得到各行各業的一致認同,但對大數據本身至今尚無確切統一的定義。目前普遍認為,大數據具有“ 4 V ” 特點 , 即數據體量(volumes)巨大、數據類別(variety)繁多、產生與處理速度(velocity)快、價值(value)密度低但可挖掘價值高。
目前,大數據的研究內容主要集中在大數據采集、處理與集成、分析和解釋的過程中產生的一系列熱點和難點問題。
在數據采集技術迅速發展的同時,數據的集成與整理技術也得到發展。通過數據集成,將結構復雜的數據轉換為便于處理的數據結構,通過對數據的整理保證數據的質量及可靠性。
數據分析是大數據處理流程中的核心部分,通過對數據進行分析,可以發現數據的價值。傳統的數據處理分析方法,包括聚類分析、因子分析、相關分析、回歸分析等仍然可以用于大數據分析。
但由于大數據本身數據量大、實時性強的特點,使得傳統方法在處理大數據時也存在眾多局限性。
因此,出現了許多專門針對大數據的分析方法,如散列法、布隆過濾器(Bloom Filter)、Trie樹等。
同時,針對不同類型的大數據,也存在不同的分析方法。如對文本進行分析的自然語言處理(NLP)技術,對 Web 進行分析的 Page Rank法和CLEVER法,對多媒體進行分析的摘要系統以及對社交網絡進行分析的概率法和線性代數法等。
基于分布式文件系統、分布式數據庫、批處理技術及開源平臺的云技術為大數據分析奠定了基礎。
通過云技術實現了海量數據的高效存儲、大數據的分布管理以及大數據分析的技術與平臺。同時,可視化技術在大數據分析中也得到發展并發揮了重要作用。
大數據目前已廣泛應用于生命科學、醫療、商業、金融等行業中。在醫療領域中,大數據分析用于復雜疾病的早期診斷、心血管病的遠程治療、器官移植、HIV抗體的研究等,均取得了較好的效果。
在生命科學領域,大數據技術用于基因組學、生物醫學、生物信息學等方向。商業是大數據應用最廣泛的領域, 各種大數據的經典應用均來自此領域。
如利用大數據關聯分析,更準確地了解消費者的使用行為,挖掘新的商業模式; 利用大數據進行庫存優化、物流優化、供應商協同等工作,緩和供需之間的矛盾、控制預算開支、提升服務等。此外,大數據技術還用于溫室氣體排放的檢測、政府信息管理等公共領域。
近紅外光譜技術
近紅外光譜分析技術作為一種綠色分析技術,有分析速度快、操作簡單、不需要樣本預處理、可實現原位、無損、在線的定性定量分析等優點。
實踐證明,以近紅外光譜分析為主的過程分析技術為工業信息化與自動化的深度融合起到了決定性的作用,它所提供的快速、實時測量信息可以使工農業生產過程保持最優化的控制,在顯著提高產品質量的同時,降低生產成本和資源消耗。
然而,由于近紅外光譜存在吸收強度弱、光譜重疊嚴重等缺點,要想進行準確的定性定量分析,必須借助化學計量學方法所建立的高質量的模型。
因此,基于化學計量學的近紅外光譜的數據處理技術研究得到了廣泛的研究。 目前,近紅外光譜的數據分析技術研究主要集中在光譜預處理(包括變量篩選)技術、建模樣本篩選技術、多元校正技術和模型轉移技術等方面。
實驗采集到的原始近紅外光譜除了包含與樣品相關的有用信息外,往往伴隨隨機噪音、背景干擾、雜散光等干擾信息,對校正模型的質量和未知樣品預測的準確度將產生嚴重的影響。
因此,在建立校正模型之前,通過光譜預處理技術消除各種類型的干擾顯得十分關鍵和必要。
常用的光譜預處理技術包括多元散射校正(MSC)、正交信號校正(OSC)、凈信號分解[40]、連續小波變換(CWT)等。
如圖1所示, MSC可以有效地消除樣本顆粒分布不均勻及顆粒大小不同而產生的散射對其光譜的影響,而CWT可以有效地對樣品光譜進行背景扣除。實踐證明,光譜預處理技術可以有效地消除光譜中的變動背景及散射干擾,處理后的光譜可以有效提高校正模型的質量和未知樣品預測的準確度。
波長篩選技術對于得到代表樣品信息的重要波長、刪除冗余波長、提高模型預測精度和簡化模型均具有重要意義, 因此針對波長篩選開展了大量研究工作。
常用的波長篩選技術包括模擬退火算法(SA)、遺傳算法(GA)、粒子群算法(PSO)、連續投影算法(SPA)、無信息變量選擇(UVE)、競爭性自適應重加權算法(CARS)[53,等。
我們在之前的工作中也提出了基于蒙特卡洛的無信息變量選擇算法(MC-UVE)、隨機檢驗算法(RT)、強影響變量算法(IVs)、基于特征投影圖(LPG)的變量選擇算法[58]和基于局部線性嵌入的變量選擇算法等。
圖2是LPG方法用于變量選擇的示例,其中圖2(a)為光譜數據集的特征投影圖,其中實心三角形的點為特征投影圖拐點處的變量,即根據共線性原則選擇的變量; 圖2(b)中標出了選擇的變量在實際光譜(經過連續小波變換處理)中的位置。
可以看到,根據LPG法選出的變量均處于光譜的拐點位置,具有很強的共線性,對于建模的貢獻較大,可以進行穩定的建模。
在實驗和實際生產生活采集到的光譜之中,總會存在一些落在總體樣品分布之外的樣本,該類樣品被稱作奇異樣本(outlier)。