DTEmpower——數據建模平臺

QQ截圖20181031162056.png 基本介紹

工業企業均擁有大量的數據,如何從數據中挖掘知識,并有效服務于自身的業務是各企業非常關注的話題。隨著人工智能和數據挖掘技術的發展,市場上已存在有大量開源的和商業的數據建模解決方案,但是對于工業企業,要想建立高質量的模型,并應用于自己的業務場景,仍存在著一定的門檻,數據荒廢或投入產出失衡的現場屢見不鮮。在此背景之下,南京天洑軟件有限公司通過對工業企業數據建模需求的深度挖掘,研發了一套針對工業用戶的數據建模平臺DTEmpower。

數據建模平臺DTEmpower圍繞數據清理、特征提取、特征選擇和模型訓練等數據建模的各個環節,提供有大量算法,通過針對特定場景下算法的深度研發,利用智能調度引擎和超參優化等技術,提高模型質量的同時,降低了對用戶數據建模經驗的需求。同時DTEmpower提供一套圖形化的建模開發環境,所有算法均可通過拖拽的方式進行調用,通過連線的方式進行數據的傳遞,極大的降低了用戶的使用門檻。依托強大的算法和簡便的操作,零基礎用戶也可以利用DTEmpower快速挖掘到優秀的模型。

模型是可復用的知識,DTEmpower秉承這一理念,定義了一套模型交換格式(簡稱DT模型),挖掘得到的模型可以直接存儲為單個模型文件,DT模型可以在DTEmpower的模型運行模塊DTEmpower Run(簡稱DTRun)、天洑優化平臺AIPOD等軟件中直接調用,服務于優化設計和實時預警等各種應用。

“降低數據建模的門檻、強化模型的知識屬性”,DTEmpower針對典型的工業應用場景,提供了從建模到模型管理應用的一站式解決方案,讓工業用戶可以聚焦于業務而不是疲于數據分析,充分發揮數據的價值。


6367366249803765609748431.jpg 主要功能及優勢

1)零編碼建模

DTEmpower提供了圖形化的數據建模流程搭建功能。所有的數據及模型操作,均以工具箱中模塊的形式提供,用戶無需具備編碼能力,通過簡單的節點拖拽與節點連接即可完成復雜的數據建模流程的構建。

首圖.png

圖 1 零編碼的數據建模流程搭建

2)豐富的算法

DTEmpower圍繞數據清理、特征提取、特征選擇和模型訓練等數據建模的各個環節,在工具箱中工具的形式提供有大量算法,其中模型訓練算法包括,AIAgent、MLP、AdaBoost等數十種算法,所有這些訓練算法都應用了天洑自主研發的超參學習引擎TFAutoML,實現超參自動尋優。

產2.png

圖 2 豐富的算法

3)智能數據清理算法

數據中的異常點極大的影響著模型的質量,因此數據清理至關重要??紤]到工業設計數據集的特性,天洑研發了智能數據清理算法AIOD。相較于傳統的數據清理算法,它具有以下特點:

①通過自研的智能調度引擎,管控數十種數據清理算法,包括,Global Outliers Detection、Local Outliers Detection、Contextual Outliers Detection、Regression based OD、Hybrid Auto OD、Cluster Analysis、Classification Analysis等等,綜合考慮數據的整體分布,更精準的挖掘出數據集中的“潛在異常點”;

②使用門檻低,無需任何先驗知識,一鍵完成異常點推薦;

③靈活的異常點剔除規則定義,用戶可遞進式地觀測隨著異常點剔除個數的增加而帶來的代理模型精度的顯著提升,更全面的掌握數據的質量情況。

產3.png

圖 3 異常點智能識別

4)針對小規模數據集的AIAgent訓練

針對工業設計數據的“小數據集”、”數據分布不均“等特點,天洑研發了一套智能訓練算法AIAgent,其主要特點包括:

①使用集成算法提升模型精度和穩定性;

②通過智能分層分類,級聯使用不同置信度來源數據,極小化代理構建成本;

③通過超參優化,解決參數調節難題,用戶無需介入訓練過程,一鍵得到“最優”模型。

產4.png

圖 4 船舶興波阻力數據集AIAgent訓練同其他算法訓練的效果對比

5)機理模型融合

DTEmpower支持用戶在數據建模流程中融入機理模型,以改善模型的精度和提高模型的可解釋性。具體包括:

①在特征提取環節添加新的自定義特征;

在訓練環節使用自定義的參數化模型取代黑盒模型,由DTEmpower提供優化算法對未知參數進行擬合;

③DTEmpower提供模型聚合功能,可以將用戶提供的公式模型和數據訓練的模型組合,作為單個DT模型導出。通過上述功能的結合,最終實現數據挖掘與機理模型的融合。

4改1.png

圖5 機理模型融合

 6)與AIPOD的無縫集成,輕松開展優化

DT模型的一類典型應用場景是,將建立的DT模型用于產品的優化設計、設備運行優化等各類優化問題中。DTEmpower建立的模型可直接導出,同時AIPOD V2.0支持在計算流程中一鍵導入DT模型,并且可以和腳本、可執行程序進行耦合,實現任意復雜的設計計算流程的搭建。之后便可以借助于SilverBullet算法,進行優化問題求解。

產6改1.png

6 AIPOD中一鍵導入DT模型,耦合建模,進行優化

7智能預警訓練

DTEmpower 是一個開放式的數據建模平臺,提供了針對不同場景的定制工具箱,針對設備預警場景的PHM擴展工具箱正是其中之一。PHM擴展工具箱在在DTEmpower強大的數據建模能力的基礎之上,提供了一套針對時間序列的智能預警算法,可以輕松固化專家的判斷邏輯,從參數的波動、變化趨勢,以及參數和預示模型預測值的相對偏差等多方面對參數進行健康度評估,實現異常早期預警。PHM工具箱目前提供有單參數預警、組合參數預警兩大控件。

DTEmpower訓練得到的預警模型可以直接導入模型運行模塊DTRun中,DTRun可實時接收傳感器數據,調用DT模型進行數據分析,返回分析結果,實現在線預警。

產7.png

7 識別時間序列中的異?,F象,并給出異常原因,輔助用戶快速處置

產8.png

8 DTRun中調用DT模型對實時數據進行分析,實現在線預警


6367366249803765609748431.jpg DTEmpower的案例展示

1數據清理與AIAgent訓練

本案例采用一個基于Styblinski-Tang函數的仿真數據集,來展示在DTEmpower中進行數據清理和數據訓練的效果。Styblinski-Tang函數如下所示:

產公式1.png

其中,輸入為5維,x1至x5的取值范圍均為-5到5,隨機生成300組樣本,無噪聲,同時在第一個數據中增加偏置800,來模擬異常點,作為建模數據集。數據建模的目標是獲取從x(x1至x5)到y的預測模型。

構建的訓練流程如下所示,數據讀取之后,首先指定輸入輸出變量,然后將數據集隨機分割,75%的數據用于訓練,剩余數據用于測試,分別利用AIAgent和GDBT算法對訓練數據集進行訓練,之后利用測試數據集來進行模型對比測試。AIAgent算法訓練耗時約8小時。
測試結果表明:

①異常清理控件可以準確識別出預先放置的異常點;

②由于數據集沒有添加噪聲,采用AIAgent算法訓練得到的模型的響應面基本完全貼合理論值,精度遠高于AdaBoost算法。

首圖.png

圖 9 數據建模流程搭建

產10.png

圖 10 異常點清理

產10-1.png

產10-2.png

AIAgent的響應面,測試精度99.99%Adaboost的響應面,測試精度79.9%


2機理融合案例

利用用戶已知的參數間的部分機理關系,可以在有限數據集的條件下,建立精度更高,可解釋性和遷移性更好的模型。本案例也采用一個仿真數據集,仿真函數如下所示:

產公式2.png

其中,自變量x1,x2的取值范圍均為[0, 1]。 給定a=7,b=-0.4,c=1,噪聲10%,隨機采樣50組,作為建模數據集。數據建模的目標是建立從變量x1,x2到變量y的預測模型。

假設用戶已知上述關系,就可以利用DTEmpower特征提取中的”自定義提取“工具,定義一個新的特征x3=x1*x2,然后再利用給定的參數多項式來擬合,來構建x3y之間的函數關系,之后通過模型聚合工具,將自定義的特征提取模型和擬和的多項式模型組合,即可以得到從x1,x2預測yDT模型。

在DTEmpower中搭建的建模流程如下,作為對比,同時采用了不經過特征提取,直接使用多項式回歸和AdaBoost回歸的訓練算法同時訓練,訓練集占比50%。
基于25個有10%噪聲的訓練樣本,機理模型訓練得到的參數為,a=7.83,b=-0.05,c=1.16,與仿真模型基本吻合。融合了機理的DT模型的測試精度為99.68%,相對于其他算法有所提高,證明了DTEmpower在機理融合方面的強大能力。

產11.png

11 機理聚合的建模流程

產12.png

圖 12 聚合模型的響應面

產12-1.png

產12-2.png

融合機理訓練效果,測試精度99.68%

多項式訓練效果,測試精度94.89%

產12-3.png

AdaBoost訓練效果,測試精度98.90%

3和AIPOD相結合進行優化

DTEmpower建立的模型可直接導入到AIPOD 中,利用SilverBullet算法,進行優化問題求解。本案例直接采用案例1中構建的DT模型來進行優化過程展示,Styblinski-Tang 函數的全局最優點如表所示,此時y=-195.82995。

將訓練得到的DT模型導入AIPOD中,然后使用Silverbullet算法開展優化,關閉BoundBreak特性,設置優化步數為200,經過169步優化后,算法提前中止,得到最優解如表所示,此時y=-195.826,校驗誤差2.5e-4%,基本貼合理論最優解。使用相同設置,基于GDBT算法訓練得到的DT模型進行優化,129步后Silverbullet算法提前中止,得到的最優解如表所示,此時y=-151.172,預測誤差8.3%。這也進一步印證了AIAgent訓練算法的可靠性。

表 1 基于AIAgent和GDBT訓練的DT模型進行優化的優化結果對比

產表1.png

產13.png

圖 13 將DT模型導入AIPOD

產14.png

圖 14 AIPOD中的尋優結果

4)智能預警

DTEmpower提供了從參數的波動、參數變化趨勢,參數相關關系以及參數和動態基準值相對偏差等多方面對參數進行全面的健康度評估,本案例將展示其中基于動態基準值模型的預警效果。某設備有3個參數,其中參數1和參數2均隨參數3而變化。某一時刻開始,參數3開始異常抬升,但是其變化仍在正常范圍內,如下圖所示,這種異常情況在傳統的報警系統中是無法被發現的。

產15.png

圖 15 異常數據集

使用DTEmpower構建如下所示的預警建模流程,對于導入的數據集,首先使用一個回歸模型構建以參數3為輸入,參數1和參數2為輸出的預測模型,然后將該預測模型傳入智能預警控件,作為預警參數的基準值,預警限值設定為4。流程構建完成之后,啟動訓練,得到如下所示的兩個參數的異常評分圖,可以看到,建立的DT模型可以成功識別出參數2的異常,并準確告知異常原因,這對于運值人員快速處理故障具有重要意義。DTEmpower訓練得到的預警模型可以直接保存導出,供DTRun在線調用,用于實時預警和故障診斷。

產最后.png

圖 16 預警模型訓練流程

產17.png

產18.png

圖 17 參數1的異常預警結果圖 18 參數2的異常預警結果


凯时手机app