【技术】DTEmpower核心功能技术揭秘(4)- MDI/MDA特征选择技术
好酷屋教程网小编为您收集和整理了【技术】DTEmpower核心功能技术揭秘(4)- MDI/MDA特征选择技术的相关教程:概述 “DTEmpower核心功能技术揭秘”系列文章分享了天洑软件多年来工业数据实战所遇到的难题挑战和针对性的技术解决方案,如HierarchicalStratify分层分类技术、AIOD
概述
“DTEmpower核心功能技术揭秘”系列文章分享了天洑软件多年来工业数据实战所遇到的难题挑战和针对性的技术解决方案,如HierarchicalStratify分层分类技术、AIOD智能异常点检测技术和HDDV高维数据可视化技术。
本系列的第四篇主题将介绍“特征工程”,正所谓“数据和特征决定了机器学习模型的上限,算法则是在不断逼近这个上限”,数据建模分析中,设计数据问题的输入输出特征是非常关键的环节。DTEmpower集成了互信息、灰度矩阵、皮尔逊积矩相关系数、MRMR熵增益分析等常见的特征分析手段。除此之外,为了降低用户特征选择所需的专业要求,天洑进一步针对性地研发出低门槛的MDI/MDA特征重要性功能,用户可以清晰的看到每个特征对输出变量的“贡献”,通过自由设置重要性阈值,可以轻松筛选出对建模增益贡献最大的特征子集。图1 MDI(Mean Decrease in Inpurity)属于嵌入类方法,适用于大规模数据集,MDA(Mean Decrease in Accuracy)属于包装类方法,计算成本稍高但可以找到性能优秀的特征子集。重要性评分结果以水平柱状图的形式显示每个的重要性,用户可以自由设置重要性阈值进行特征子集截取
基于DTEmpower的MDI/MDA特征选择实战
1. 电厂水处理系统参数预测(MDI)
① 数据集介绍:来源于某电厂污水处理系统的流量、压差、浊度等时序数据,含有50 特征变量,共21000个样本,目标是预测水处理设备未来一段时间内的出口浊度。
② 建模和实验方法:采用图2所示的建模流程,选取MDI节点作为特征选择工具,并使用ExtraTrees极限随机树算法用以训练出口浊度预测模型。
图2 基于DTEmpower软件平台的水处理设备出口浊度的参数预测建模方案,选取MDI节点作为特征选择工具。利用MDI节点,通过简单的参数配置即可选取不同的特征进行建模
③ 实验分析:考察不同的MDI重要性阈值截断选择对于建模的影响,设定不同的MDI重要性阈值,选取模型的R2和MAPE指标观测模型效果。每组MDI阈值参数做20次独立重复计算,取指标统计值得到分析图3。
实验结果表明,随着无用特征的不断剔除,模型精度在不断提高。
图3 设备出口浊度预测模型的精度指标随MDI阈值的变化趋势,当不进行特征选择(MDI重要性阈值为0)时,R2≈0.90,MAPE≈0.08;MDI重要性阈值设置为0.010时,剔除明显的无用特征,此时的模型精度显著提高,R2提高到0.92,MAPE下降至接近0.07;进一步增大MDI重要性阈值,模型精度也有了进一步的提高。但是当阈值设置过大时(本实验中设置为0.020),部分对预测结果有贡献的特征也会被剔除,这会导致模型精度下降
2. 风机测点结构应力快速评估(MDA)
① 数据集介绍:某头部风机制造商提供的结构应力评估数据集,含有15维输入特征,含有2400个样本,目标是快速评估测点的结构应力。 ② 建模方法:采用图4所示的建模流程,采用Random Forest随机森林、GBDT(Gradient Boosting Decision Tree)梯度提升树、ExtraTrees极限随机树和Bagging共4种算法进行对比实验。 ③ 实验分析:设定不同的MDA重要性阈值,对不同阈值对应模型的R2和NRMSE指标进行统计对比,分析结果见图6、图7。图4 DTEmpower提供了一站式的数据建模解决方案,通过简单的节点拖拽即可搭建完整的建模流程。MDA作为特征选择工具,能够剔除“无用特征”,为搭建高精度模型提供支持
图5 使用MDA功能模块计算出15个特征变量的重要性值并进行排序后的实验结果。可以看到:V14、V3、V4等特征的重要性较低;V12、V2等特征的重要性较高;V11、V10等处于中间水平,对于目标变量也有一定的“贡献度”
图6 随着MDA阈值的不断增加,4种模型的R2指标出现了明显的上升趋势。但是当阈值增大到一定程度时(实验中为0.0450),对目标变量有“贡献”的特征V11被删除,此时模型的精度开始下降
图7 4种模型的NRMSE指标随MDA阈值的变化趋势,结合图6可以看出:不断删除“无用特征”可以有效的帮助用户提升模型精度,降低模型的预测误差。但是当MDA阈值设置的过大时,“有用特征”也会被删除,建议用户此时应停止特征筛选
总结
数据和特征决定了模型的上限,因此,在进行具体的模型训练之前,进行精细化的特征工程是搭建高精度模型的必要条件。常用的诸如相关性、灰度矩阵分析法等手段存在一定的交互限制和使用门槛。
DTEmpower集成了低门槛的MDI/MDA特征重要性选择功能。通过实际工业场景中的应用案例和对比实验,证明了MDI/MDA功能模块能轻松、有效地辅助用户提前优秀的特征子集,和建模流程的无缝连接,可高效地辅助用户搭建高精度模型。
以上就是好酷屋教程网小编为您收集和整理的【技术】DTEmpower核心功能技术揭秘(4)- MDI/MDA特征选择技术相关内容,如果对您有帮助,请帮忙分享这篇文章^_^
本文来源: https://www.haoku5.com/IT/63a47637bc08510b53070032.html
相关推荐
热门专题
PS快捷键_PS快捷键大全
经典的Photoshop快捷键大全,如果你是入门阶段的水平,熟读此文并掌握,马上进阶为中级水平。matlab怎么换行?matlab换行教程
今天小编为大家带来的是matlab换行的教程,想知道怎么换行的小伙伴来看看接下来的这篇文章吧,相信一定会帮到你们的。matlab怎么换行?matlab换行教程1、首先在matlab主页面板中点击【Matlab求矩阵的乘积的操作方法
很多用户在使用Matlab的时候,不是很熟悉其中怎么求矩阵的乘积的?本期为你们带来的教程就描述了Matlab求矩阵的乘积的操作方法。Matlab求矩阵的乘积的操作方法打Matlab,在命令行窗口分区工具diskgenius强制删除文件的具体使用流程
很多人不知道分区工具diskgenius如何强制删除文件?今日为你们带来的文章是关于分区工具diskgenius强制删除文件的具体含义讲解,还有不清楚小伙伴和小编一起去学习一下吧。分区工具diskggoldwave怎么启用延迟录制计时器?goldwave启用延迟录制计时器教程
很多小伙伴在使用goldwave的时候,想知道怎么启用延迟录制计时器,下面小编就为大家分享教程,感兴趣的小伙伴不要错过哦!goldwave怎么启用延迟录制计时器?goldwave启用延迟录制计时器教pycharm使用技巧
今天小编给大家讲解pycharm使用技巧,有需要或者有兴趣的朋友们可以看一看下文,相信对大家会有所帮助的。pycharm使用技巧使用PyCharm软件需要python运行环境,这里我已经下载好。CAD看图软件哪个好用?如何使用CAD看图软件
在CAD中,大家都知道CAD图纸是使用CAD制图软件来绘制完成的,那保存的格式就是为dwg格式和dxf格式的。那需要对图纸内容进行查看的时候,就要适用到CAD看图软件。但看图软件有很多,那么CAD看图diskgenius怎么将分区中的文件复制到指定目录?diskgenius将分区中的文件复制到指定目录方法
使用diskgenius的时候,很多小伙伴不知道怎么将分区中的文件复制到指定目录,下面小编就给大家带来方法,有需要的小伙伴不要错过哦。diskgenius怎么将分区中的文件复制到指定目录?diskg分区工具diskgenius将硬盘合并分区的详细流程
说起分区工具diskgenius伙伴们都不陌生,那么使用怎么使用分区工具将硬盘合并分区呢?下面一起看看关于分区工具diskgenius将硬盘合并分区的详细流程吧。分区工具diskgenius将硬盘合MathType中公式与文字错位的处理方法
最近有很多朋友向我咨询关于MathType中公式与文字错位的问题,今天就为大家介绍MathType中公式与文字错位的处理方法,希望能够帮助到大家。MathType中公式与文字错位的处理方法方法一