<span id="vww6j"><ruby id="vww6j"><blockquote id="vww6j"></blockquote></ruby></span>
  • <bdo id="vww6j"><ins id="vww6j"><menu id="vww6j"></menu></ins></bdo>
  • 2022/03/02

    【技術】DTEmpower核心功能技術揭秘(1) - HierachicalStratify分層分類技術


    概述


    智能工業設計是一種非常重要的現代設計方法, 能從眾多的設計方案中找出最佳方案,從而大大提高設計的效率和質量?,F代工業設備的復雜性使得工業設計變得越來越困難,利用新的科學理論探索新的智能工業設計方法是該研究領域的一個重要方面。

    工業設計的數據價值呈現單點價值密度高、數據集規模小的情況,這些特性為面向工業的優化設計技術提出了挑戰。從發展歷史來看,工業設計方法可以分為傳統優化設計理論方法和現代優化設計理論方法。

    圖1.png

    圖1  智能工業設計方法的發展歷程,現代優化設計方法需要比傳統優化方法更好地解決工業設計中“維度高、求解問題不可導、計算昂貴”的問題

    代優化設計路線中往往大量采用了數據驅動的方式構建代理模型,用以解決傳統優化設計方法適用性低、代價昂貴等問題,并在實際工程中有了一定規模的成功應用。

    但數據驅動的技術路線普遍存在著data-hungry數據規模依賴和dimension-curse維度詛咒問題,即算法非線性表達能力越強,對于訓練數據規模和多樣性需求也就越高;而非線性表達能力一般的算法,又無法有效提取訓練數據集中復雜的映射模式,訓練得到的模型難以勝任復雜應用。

    由于工業設計端數據集規模較小的客觀限制,諸如深度學習等復雜模型無法得到有效的使用,而相較于深度學習,機器學習算法對于數據集的規模依賴較低,故而成為實際工業應用中的常用類型算法。常見的機器學習開源算法,非線性表達能力有限,疊加考慮工業設計數據常存在多種模式混合、數據分布一致性差異大等因素,基于開源機器學習算法的建模效果將被進一步削弱。

    圖2.png


    圖2  DTEmpower的HierachicalStratify分層分類技術有效緩解工業設計段數據規模小、分布不一致等導致的模型精度差的問題

    基于以上思考,天洑軟件通過自研的HierachicalStratify分層分類技術作為數據前處理功能,輔助用戶通過挖掘訓練集內部的多種混合模式,單一模式下的子數據集的分布一致性將得到較大提升,而后用戶即便使用常見的開源機器學習算法,也可以得到性能更好的模型。通過這種分而治之的解構方式,HierachicalStratify分層分類技術可有效均衡“數據規模投入”和“訓練模型精度”之間的矛盾,為在實際工業應用中落地數據驅動技術掃清了障礙。該技術目前已集成于天洑DTEmpower軟件之中。


    HierachicalStratify分層分類技術模塊解構



    HierachicalStratify分層分類技術模塊采用無監督聚類算法、有監督分類算法和回歸算法作為組合解決方案,其中數據處理的順序如下:

    第一步,采用無監督聚類算法用于前置分割用戶提供的數據集,根據用戶指定的參數配置,形成相應的數據子集分割方案;

    第二步,采用有監督分類算法作為中段的分類器,用于判別新進數據樣本的子類歸屬,從而決定要激活的回歸模型;

    最后,使用機器學習回歸算法,在用戶提供的數據集上驗證HierachicalStratify分層分類技術是否可以有效地提升當前建模效果。

    HierachicalStratify分層分類技術模塊的參數如表1所示:

    表1 HierachicalStratify分層分類技術模塊的參數名稱和含義

    參數名稱含義
    input_csv源csv數據集路徑
    output_path分割后子csv數據集的輸出路徑
    y_name/x_names分別為目標參數名稱、建模輸入變量參數名稱
    n_split用戶用于指定調用分層分類進行分割的層數
    n_jobs分層分類模塊支持并行計算,用戶用于指定并行規模
    activate_automl啟動該選項將在更準確的機器學習模型上進行分割獨立建模工作
    random_state隨機數種子


    基于DTEmpower的HierachicalStratify分層分類建模實驗


    1. 實驗過程和結果

    選用某測試數據集進行實驗驗證,此數據集的設計參數為(x1, x2, x3),目標參數是y。采用圖3所示的建模方法,其中HierachicalStratify節點為DTEmpower集成的分層分類技術模塊,基元算法選擇Bagging算法。

    圖3.png

    圖3  基于DTEmpower的HierachicalStratify分層分類技術建模流程,HierachicalStratify節點使用簡單,通過節點拖拽即可搭建完整的建模流程

    選擇MAPE為評價指標,設置數據集劃分子類個數n_split=2對兩種算法的建模方案結果進行對比,對比結果如表2所示。

    表2 基于HierachicalStratify分層分類技術方案的回歸模型誤差,在不增加數據規模和改變機器學習算法的情況下,僅通過引入HierachicalStratify分層分類技術便可以將原先近10%的預估誤差降低到3.64%

    表1 基于分層分類技術方案的回歸模型誤差

    算法

    評價指標(MAPE)

    Bagging9.81%
    HierachicalStratify(n_split=2)3.64%

    圖4.png

    圖4  固定回歸算法為Bagging,未采用和采用HierachicalStratify分層分類技術處理數據集的兩種建模方案的對比效果,采用HierachicalStratify分層分類技術方案的模型更逼近真實值

    表3開啟HierachicalStratify分層分類的智能分割功能后,系統自動判定最佳分類數為n-split=3, 可以發現相較于用戶手動設置n_split=2的分割方案,開啟智能分割的方案可以得到更進一步的性能提升。

    算法

    評價指標(MAPE)

    Bagging9.81%
    HierachicalStratify(n_split=2)3.64%
    HierachicalStratify(n_split=3)2.79%

    圖5.png

    圖5  對數據集采用HierachicalStratify(n_split=2)分層分類技術后,模型誤差有大幅下降,MAPE從9.81%下降到3.64%,采取優選分割功能(n_split=3)后,MAPE誤差進一步下降到2.79%

    通過圖6所示的數據集的可視化結果也可發現,數據集中明顯存在多種子類模式,分層分類技術方案成功地捕獲了數據集內部的混合模式情況,并通過“分而治之”的方式為后續的回歸訓練提供了有效的處理支持,并大幅地提高了數據建模的精度。

    通過圖7所示的測試數據集的可視化結果也可發現,數據集中明顯存在多種子類模式,分層分類技術方案成功的通過“分而治之”兩種子類模式提高了數據建模的精度。

    圖7.png

    圖6  采用天洑DTEmpower的HDDV(高維數據集可視化)模塊對數據集可視化觀察,可以發現數據集中明顯存在兩個不同的子類模式

    2. 實驗結果分析

    ① 智能工業設計通常采用數據驅動的機器學習方法,但是工業設計段數據集規模小限制了復雜模型的應用,數據分布不一致又進一步消減了常見開源機器學習算法的代理精度。

    ② HierachicalStratify分層分類技術通過挖掘樣本訓練集內部的多種混合模式,HierachicalStratify分層分類技術可有效均衡“數據規模投入”和“訓練模型精度”之間的矛盾,為在實際工業應用中落地數據驅動技術掃清了障礙。

    ③ 針對某測試數據集的實驗結果表明,在該測試數據集內部存在多種模式的情況下,HierachicalStratify分層分類技術的應用可以輕松地將模型的MAPE誤差從10%降低到3%。

    基于DTEmpower的分層分類建模實驗


    數據驅動的建模方法對數據不僅有“量”的要求,也有“質”的要求,而工業設計段的數據集規模小、數據集的分布又不一致,這成了工業設計通往數據驅動、智能化的一大障礙。

    DTEmpower致力于為工業數據研究者掃清各種陷阱、提供易用可信賴的技術支撐!平臺不僅提供了數據建模一站式的解決方案,還提供了強大的分層分類、高維可視化、異常點提取等探索數據的支撐技術,可以幫助用戶快速、便捷的深入認識數據,為建立高精度的數據模型提供了一條高效可落地的實現路徑。



    爱如潮水高清视频,人妻中字视频中文乱码,老师好大好硬好深好爽想要小说
    <span id="vww6j"><ruby id="vww6j"><blockquote id="vww6j"></blockquote></ruby></span>
  • <bdo id="vww6j"><ins id="vww6j"><menu id="vww6j"></menu></ins></bdo>