痛點:對影響甜瓜産量和品質的特征進行相關分析和預測可以促進農民或植物育種者的早期決策,或使生産者能夠在作物收獲前預測融資。本研究還比較了模型在使用所有特征變量和僅使用縮減特征變量時的預測效果。本文提出的GBDT預測模型以約簡特征為輸入對甜瓜産量、含糖量、硬度進行預測,模型R2可達90%以上。
應用場景:在甜瓜的采收過程中,果實的重量和成熟度被認為是銷售過程中的綜合評價名額,成熟度的檢測可以保護消費者的利益,提高甜瓜的加工品質和生産檔次,增加市場競争力。
簡介
中國已成為世界第一大甜瓜生産國和消費國。2020年世界甜瓜産量的48.7%,人均消費量是世界平均水準的2.6倍
左右。北京、天津、河北是大陸著名的瓜類産區,瓜類脆、水、甜,深受人們喜愛。北方早晚溫差大,有利于瓜類積累糖分。三地氣候條件和生産設施各具特色,在産品供銷、技術合作等方面合作空間廣闊。
在培育新品種時,生長、開花、結實、果實大小、顔色等性狀都關系到優良個體的選擇。它們與産量和品質密切相關。在甜瓜生長期間,品質不僅取決于其形狀和外觀特征,還取決于其可溶性固形物含量、硬度、總酸度和成熟度等因素。在甜瓜的采收過程中,果實的重量和成熟度被認為是銷售過程中的綜合評價名額,成熟度的檢測可以保護消費者的利益,提高甜瓜的加工品質和生産檔次,增加市場競争力。有着強烈的需求。對影響甜瓜産量和品質的特征進行相關分析和預測可以促進農民或植物育種者的早期決策,或使生産者能夠在作物收獲前預測融資方面。
機器學習是 AI(人工智能)的一個分支,是一種基于多種特征提供更好産量和品質預測的實用方法。它可以自動處理輸入和輸出變量之間的關系,并從示例樣本中挖掘隐式模式,以“學習”這些資料的結構描述機器學習算法可以自動解決重大的非線性問題,并支援在現實場景中更好地進行決策和操作,而無需人工幹預。
梯度提升決策樹作為一種成熟的內建學習算法,着重于有效降低預測值與實際值的偏差。它将多個回歸樹模型串聯起來形成一個強學習器,其base-learner回歸樹模型具有效率高、缺失值不顯著的特點。通過不斷拟合前一棵樹的殘差來提高性能,更側着于學習模型的準确性。它還具有效率高、預測準确、對原始資料不敏感、模型可解釋性高等優點。梯度提升決策樹模型已被用于預測農業中的脅迫、土壤含水量和遙感圖像識别等。
利用GBDT模型建立了玉米早期脅迫高分辨率圖像中14個特征的兩階段識别模型,不僅可以很好地應用于無損測量中的水分脅迫檢測,而且可以很好地應用于田間。
本文記錄了甜瓜生長過程中果實物候特征、形狀特征(包括外觀和内部特征)、顔色特征(包括外果皮和内果皮顔色特征)的資料。GBDT算法用于分析和預測影響甜瓜果實産量、糖度和硬度值的特征的重要性。綜合比較了支援向量回歸(SVR)和随機森林(RF)這兩種經典回歸模型的預測性能和結果。并且比較了模型在所有特征變量和僅減少特征變量時的預測結果,使得模型可以更好地應用于現場的無損檢測任務。
材料和方法
該研究在天津市農科院試驗基地進行。位于天津市北辰區,地處亞歐東海岸,中緯度,N:39°18′53.32″ E:117°13′23.73″。試驗在天津地區夏秋季進行,8-10月氣溫16-25℃,平均降水量214毫米,該地區日照率59%。8月5日播種,10月16日收獲。
試驗作物為天津市農業科學院蔬菜研究所提供的厚皮甜瓜品種“232”。該品種在花後35天左右和瓜膨大期後15天左右成熟。瓜苗長出2片真葉和1個頂芽時移栽,定植密度為33945株/公頃。定植前施足有機肥和高鉀複合肥,拌施、旋耕。
我們确認文章中使用的植物是在現場生産期間進行采樣和測量的,并符合國際、國家和機構對本研究的指導方針。
所有名額均在收獲時進行評估。重量名額采用電子秤稱重,形狀名額采用遊标卡尺,果肉硬度名額采用硬度計,糖度名額采用糖度計,色度名額采用色度計進行名額測量,人工記錄物候資訊。
本研究中使用的測量儀器和規格主要有小量程精密天平(ZG-TP203),規格5 kg/0.01 g,上海冉豪電子有限公司;遊标卡尺(量程:0~150mm,精度:±0.02mm),上海壽喜工具有限公司;3 NH(NR110型,測量孔徑:8mm)全自動便攜式色度計,深圳市三恩施(3 NH)科技有限公司 GY-4數顯水果硬度計,北京金科利達電子科技有限公司;PAL-1水果數顯測糖儀,日本ATAGO公司,如圖1所示。
圖1:瓜果形态特征
每個完整樣品采集3次,權重指數取平均值。取種子腔和内果皮邊緣處的含糖量值,各取一半樣品3次,取平局值。在内果皮中央采集硬度值,左右兩側同時采集各半樣,取平均值。瓜果由花托和子房發育而成。果實可分為果皮和種腔。果皮由外果皮、中果皮和内果皮組成,中果皮和内果皮沒有明确的界限。兩者均由富含水和可溶性糖的大型薄壁細胞組成。形狀名額用遊标卡尺測量相應的位置名額。
表1:特征變量的相關描述
梯度提升決策樹模型
Gradient Boosted Decision Tree是一種以CART分類回歸樹(CART)為基礎模型的內建學習算法,由決策樹和Gradient Boosting兩部分組成。它的主要學習者是回歸樹,它通過構造一個函數來拟合資料集中的元素來最小化均方誤差。使用組合政策組合多元回歸樹模型以獲得GBDT內建學習器。
将物候特征、形狀特征、顔色特征與甜瓜果實産量、含糖量、硬度相結合,建立了GBDT學習模型。
其中,是對應的準則參數;是回歸樹模型中對應的葉節點。D={()}是包含m個訓練樣本的資料集,是每個訓練樣本由d個特征屬性描述。
1:初始化基礎學習器:
其中,L()是損失函數,1式子表示确定在損失函數最小值。
2: 建構了一系列 CART 回歸樹,使用梯度提升技術在其上拟合殘差。在第次 (k= 1,2,…K) 疊代中,對于每個樣本(),GBDT 指定負梯度損失價值作為剩餘估計數。在本文中,我們選擇最小均方誤差作為損失函數。
殘差估計為:
确定殘差估計後,對CART回歸樹進行拟合,得到第k棵樹的葉節點區域,對于每個葉節點區域,确定最小化相應損失函數的最佳拟合值。
4:更新學習器:
其中,n是學習率
5:疊代結束後,形成一個GBDT強學習器,其可以表示成下面的式子:
6: 特征重要性計算的原理可以用下面的方式表示:在近似的F(x)描述中,個體輸入對F(x)變化的相對影響在上聯合輸入變量的分布可以表示為:
一個特征的全局重要性是通過該特征在單棵樹中的平均重要性來衡量的:
其中,M表示的是樹的數量,單顆樹中特征的重要性如下表示:
這個式子當中,L表示樹的葉子節點個樹。L-1是樹的非葉子節點個樹(構造的樹為左右葉子的二叉樹,,一節點分裂後平方損失的減少值。
實驗結果和分析
對于 GBDT,本文使用 GS(網格搜尋方法)在模組化資料集上優化四個超參數。最大疊代次數為 750,最大深度為 5,學習率為 0.05,最小葉子數為 1。評價名額
使用(R平方,拟合優度)對每個模型的預測結果進行評估和比較。同時,使用MAE(平均絕對誤差)和RMSE(均方根誤差)名額來綜合比較各個模型的預測效果。模型計算的TIME(Consumption time)用來評價模型計算的效率。其中,MAE反映預測值與實際值的偏差,RMSE反映預測值與實際值之差的标準差。
其中,表示目标的平均值,表示标注的果實重量,含糖量和硬度值,表示個體樣本的預測值。
特征變量重要性分析
根據特征重要性原則計算各特征變量在甜瓜産量、含糖量、硬度值預測過程中的重要性,如圖2所示。
圖2:與産量,含糖量和硬度相關的特征變量的重要性順序
根據三個目标特征變量和類别的重要性進行重要性分析。對于産量:果實寬度 (FW)、果實長度 (FL)、種子腔長度 (SCL)、總果皮厚度 (TPT) 以及與内果皮和種子腔相關的内部性狀參數對産量具有決定性作用。對于糖含量,參數内果皮厚度(ET)、種子腔寬度(SCW)、外果皮和中果皮果實寬度之和(SWI)和總果皮厚度(TPT),這些參數與可食部分的大小有關果,關系密切。對于硬度,内部特征總果皮厚度(TPT)、内果皮厚度(ET)、外果皮和中果皮果實寬度之和(SWI)和外果皮顔色特征對硬度名額有顯着影響。與産量和硬度相比,物候特征對含糖量的影響更為關鍵。顔色名額中,與外果皮黃藍色特征空間相關的XC_Hb*和XC_b*與含糖量和硬度均顯着相關,外果皮顔色對所有三個名額的重要性均高于内果皮顔色。
根據圖3。産量、含糖量和硬度的基本特征是果實寬度 (FW)、内果皮厚度 (ET) 和總果皮厚度 (TPT)。果實寬度(FW)對産量和含糖量的影響大于其他特征,而ET對含糖量和硬度均有影響。産量名額的影響因素主要集中在外觀特征上,糖度和硬度名額的影響因素主要集中在内部特征上。同時,外果皮的顔色特征對其也有比較顯着的影響。
圖3:産量、含糖量和硬度等特征變量的重要性。
預測效果分析
本文開發的 GBDT 學習模型預測了 32 個特征變量的甜瓜産量、含糖量和硬度值,分别包括物候特征、外觀特征、内部特征、外果皮顔色特征和内果皮顔色特征。學習模型在得到255個樣本後,通過在訓練和測試階段設定随機種子數,按照7:3的比例随機劃分訓練集和測試集。評估名額如表2所示。預測結果如圖4所示。
表2:預測名額
圖4:GBDT預測有效性
讨論
為了友善種植戶能夠在田間作業,幫助他們在種植初期進行預估,建構并讨論了以甜瓜物候特征、外觀特征和外果皮顔色特征為輸入的降維特征預測模型。目的是比較非破壞性條件下利用甜瓜産量、含糖量、硬度預測模型的可行性。
同時,為了評估和測試GBDT學習模型對甜瓜産量、含糖量和硬度的預測效果,本文同時建立了GBDT、SVR和RF,輸入輸出特征參數和樣本資料集劃分不變。綜合分析比較預測結果如圖 5所示,評價名額如表3所示。R2、RMSE、MAE 和 TIME 用于預測每個模型的結果。RF參數:疊代次數為750,最大深度為5,最小葉節點數為1。SVM參數:核心使用'RBF',C為100,學習率為0.001。
圖5: 以降維特征為輸入,不同模型的産量(a)、含糖量(b)、硬度(c )預測結果對比。
表3:以減少的特征作為輸入的預測名額
比較這些資料表明,由于決策樹的生長過程是不斷選擇和劃分特征,是以由大量決策樹組成的GBDT具有先天優勢,即特征重要性排序容易獲得,解釋性強。Support Vector Regression(SVR)模型是利用支援向量機(Support Vector Machine,SVM)的思想進行回歸,與傳統回歸模型相比,允許模型的預測值和真實值之間存在ε距離,以提高泛化能力,并且具有非線性。Gradient Boosted Decision Tree 和 Random Forest (RF) 最終結果是由多棵樹共同決定的,與 RF 不同的是訓練 base learner 的思想。RF使用Bagging方法,無法改善bias。相比之下,GBDT采用了Boosting方法,每次疊代都根據前一次疊代的預測結果對樣本進行權重。随着疊代的不斷進行,可以保證低偏差,進而提高模型的泛化能力。
如圖6所示,通過比較三個模型以所有特征變量和降維特征變量為輸入的R2名額,可以看出GBDT模型對産量預測的R2高于特征前後的糖度和硬度模型減少。在使用三種不同模型預測産量時,與所有特征變量作為輸入相比,減少特征的使用提高了模型的 R2。相反,減少特征作為輸入降低了所有三個預測模型預測糖分和硬度的R2,SVR模型預測R2顯着降低超過30%。它與前面讨論的預測模型中所有特征變量的重要性有關,其中減少的特征大多位于産量預測模型中變量重要性排名的頂部,FW 和 FL 在特征重要性得分中接近 100%。相比之下,含糖量和硬度預測模型中更多的内部特征,如 ET、TPT 和 SCW,具有更高的重要性分數。添加一些内部水果措施可以進一步提高糖度和硬度的預測準确性。
圖6:不同模型降維前後拟合優度的對比
采用本文提出的GBDT預測模型,以約簡特征為輸入對甜瓜産量、含糖量、硬度進行預測,模型R2可達90%以上。是以,利用無損特征資料集預測甜瓜果實産量、含糖量和硬度可以達到較高的預測精度,方法可行。
結論
在本文中,我們針對中國北方甜瓜品種提出了一種使用 GBDT 和 GS(網格搜尋方法)優化搜尋超參數方法的機器學習方法,以分析影響甜瓜産量、含糖量和硬度的特征變量的重要性,并成功地預測測試資料。早期預測的一個顯着好處是,它允許參與新品種培育、生産決策和尋求财務支援的人員進行早期評估和準備。為了提高模型的實用性,結合田間使用的硬體裝置不破壞果實本身,本研究篩選了甜瓜果實的非破壞性特征,包括甜瓜物候特征、外觀特征和外果皮顔色特征,建構了一個非破壞性的模型。破壞性預測模型。通過對研究的分析,與用作輸入的所有特征相比,該模型仍然具有可接受的預測結果。同時,模型訓練時間減少,運作效率因特征變量的減少而提高。是以,未來通過将預測模型嵌入到視覺檢測裝置中,很容易在現場實作無損、準确、快速的預測和評估工作。
參考
stribution changes and driving factors of watermelon and melon production in China. Chin. J. Agric. Resour. Region. Plan. https://kns.cnki.net/kcms/detail/11.3513.S.20220705.1954.008.html. (2022).
Wang, K. High efficient cultivation techniques of muskmelon in winter and spring in solar. J. Agric. Catastrophol. 11(3), 1 (2021).
Schwarzacher, H. H. Domestication, genomics, and the future for banana. Ann. Bot. 100(5), 1073–1084 (2007).
Sun, J. T. Study on Nondestructive Dection of Hami Melon Maturity Based on Information Fusion of Spectrum and Image (Shihezi University, 2017).
Lv, C. et al. Research progress of melon ripeness detection technology. Jiangsu Agric. Sci. 42(1), 244–246 (2014).
Zhang, X., Chen, Y. & Xiao, G. A review of crop yield prediction based on machine learning. Anhui Agri. Sci. Bull. 27(03), 1 (2021)
Soares, J., Pasqual, M., Lacerda, W. S., Silva, S. O. & Donato, S. Utilization of artificial neural networks in the prediction of the bunches’ weight in banana plants. Sci. Hortic. 155, 24–29 (2013).
Klompenburg, T. V., Kassahun, A. & Catal, C. Crop yield prediction using machine learning: A systematic literature review. Comput. Electron. Agric. 177, 105709 (2020).
McQueen, R. J., Garner, S. R., Nevill-Manning, C. G. & Witten, I. H. Applying machine learning to agricultural data. Comput. Electron. Agric. 12(4), 275–293 (1995).
Chlingaryan, A., Sukkarieh, S. & Whelan, B. Machine learning approaches for crop yield prediction and nitrogen status estimation in precision agriculture: A review. Comput. Electron. Agric. 151, 61–69 (2018).