【技术】DTEmpower核心功能技术揭秘(7) – ROD基于回归分析的异常点检测技术
好酷屋教程网小编为您收集和整理了【技术】DTEmpower核心功能技术揭秘(7) – ROD基于回归分析的异常点检测技术的相关教程:概述《DTEmpower核心功能技术揭秘》系列的文章围绕着如何提升机器学习模型的精度,介绍了AIOD、AIAgent、autoML等核心技术。其中AIOD异常点检测技术融合了数十种
概述
《DTEmpower核心功能技术揭秘》系列的文章围绕着如何提升机器学习模型的精度,介绍了AIOD、AIAgent、autoML等核心技术。其中AIOD异常点检测技术融合了数十种常见的异常检测算法,用以识别数据集中的异常点;AIAgent和autoML是对训练算法的提升。
本系列的第七篇文章将继续围绕如何让算法逼近模型上限的问题,介绍一种基于回归分析的异常点检测技术-Regression Based Outlier Detection(ROD)技术。不同于传统的异常检测算法,ROD方法是在模型训练的基础上后处理的进行异常点剔除的方法。所以,如何选择合适的异常点剔除个数需要较多的测试,以寻找到最适用于当前测试集的模型。
该技术模块集成于DTEmpower中的每个回归算法节点,能够帮助用户在剔除“潜在异常点”的同时,提高了模型的精度和泛化能力。
图1 DTEmpower中每个算法节点都集成有ROD异常点检测功能,用户只需要打开对应开关按钮“activate_remove_malform”,并配置异常点剔除的个数“remove_malform_top_N”和迭代次数“remove_malform_times”,即可开启算法节点的ROD异常点检测功能基于DTEmpower的ROD建模实战
1. 船舶兴波阻力回归分析
① 数据集介绍:方案中采用的数据集是经SHIPFLOW软件计算兴波阻力的数据集,该数据集中含有5个输入参数,目标参数是兴波阻力eval_CWTWC。 ② 建模方法:采用图2所示的建模方法,对输入和输出之间的映射关系进行回归分析建模。该方法采用了GBDT、Random Forest和ExtraTrees训练算法进行回归分析建模。然后对比在激活ROD和不激活ROD的情况下,模型的R2、MAE等指标。 图2 基于DTEmpower软件平台的船舶兴波阻力回归分析,选取了GBDT、RandomForest和ExtraTrees算法建立输入输出变量的映射关系。其中ROD异常点检测功能在算法节点的属性配置界面,用户需要结合“activate_remove_malform” “remove_malform_top_N”和“remove_malform_times”3个参数进行搭配使用 ③ 实验分析:针对本数据集,可以直观的发现部分样本的eval_CWTWC变量量级较大,因此在使用异常点检测模块之前,使用DTEmpower的【变量范围】节点删除量级过大的数据(结果见图3)。而图4所示的试验结果也证明了ROD在清除异常点、提高模型精度的有效性。 图3 基于DTEmpower软件平台进行数据过滤前后的数据分布,可以看到过滤后的数据集整体基本上已经处于一个合理的数据分布状态图4 随着ROD功能模块不断的删除数据集中的异常点,可以看到3种算法模型的R2指标(越大模型精度越高)呈现出明显的上升趋势,而其MAE指标呈现明显的下降趋势。这表明ROD功能模块在清除异常点、提高模型精度的优秀性能
2. 风机测点结构应力快速评估
① 数据集介绍:某头部风机制造商提供的结构应力评估数据集,含有15维输入特征,共2400个样本,目标是快速评估测点的结构应力。 ② 建模方法:根据图5所示的建模流程,采用随机森林算法进行模型训练,然后对比在激活ROD和不激活ROD的情况下模型的精度指标。图5 基于DTEmpower软件平台的风机测点结构应力快速评估建模方案,方案中选取2种常见算法进行模型的训练。DTEmpower提供了一站式的数据建模解决方案,通过简单的节点拖拽即可搭建完整的建模流程,其中ROD功能更是集成于每一个算法节点,帮助用户构建高精度的机器学习模型
③ 实验分析:实验结果如图6所示。
图6 随着ROD功能模块不断的删除数据集中的异常点,可以直观的看到模型的R2指标(越大模型精度越高)呈现明显的上升趋势(左图),MAPE指标(越小模型精度越高)呈现出明显的下降趋势(右图)。这表明ROD功能模块在清除异常点、提高模型精度的有效性总结
数据和特征决定了模型的上限,数据中的异常点会对模型的精度造成严重的影响。而DTEmpower中的ROD技术直接以提高模型的精度为目标,寻找并剔除样本中的“潜在异常点”。
实际工业场景中的应用案例和对比实验,也证明了ROD功能模块在挖掘工业数据集中的“潜在异常点”方面的优秀性能,可高效地辅助用户构建高精度模型。
DTEmpower软件平台提供的数据挖掘、特征工程和智能的异常点检测等一站式解决方案,不仅可以帮助用户快速、便捷地构建精度较高的数据模型,其技术的创新应用势必会给工业数据研究者持续带来福音。
以上就是好酷屋教程网小编为您收集和整理的【技术】DTEmpower核心功能技术揭秘(7) - ROD基于回归分析的异常点检测技术相关内容,如果对您有帮助,请帮忙分享这篇文章^_^
本文来源: https://www.haoku5.com/IT/63a43f35ea882e0ab708db16.html
相关推荐
热门专题
PS快捷键_PS快捷键大全
经典的Photoshop快捷键大全,如果你是入门阶段的水平,熟读此文并掌握,马上进阶为中级水平。matlab怎么换行?matlab换行教程
今天小编为大家带来的是matlab换行的教程,想知道怎么换行的小伙伴来看看接下来的这篇文章吧,相信一定会帮到你们的。matlab怎么换行?matlab换行教程1、首先在matlab主页面板中点击【Matlab求矩阵的乘积的操作方法
很多用户在使用Matlab的时候,不是很熟悉其中怎么求矩阵的乘积的?本期为你们带来的教程就描述了Matlab求矩阵的乘积的操作方法。Matlab求矩阵的乘积的操作方法打Matlab,在命令行窗口分区工具diskgenius强制删除文件的具体使用流程
很多人不知道分区工具diskgenius如何强制删除文件?今日为你们带来的文章是关于分区工具diskgenius强制删除文件的具体含义讲解,还有不清楚小伙伴和小编一起去学习一下吧。分区工具diskggoldwave怎么启用延迟录制计时器?goldwave启用延迟录制计时器教程
很多小伙伴在使用goldwave的时候,想知道怎么启用延迟录制计时器,下面小编就为大家分享教程,感兴趣的小伙伴不要错过哦!goldwave怎么启用延迟录制计时器?goldwave启用延迟录制计时器教pycharm使用技巧
今天小编给大家讲解pycharm使用技巧,有需要或者有兴趣的朋友们可以看一看下文,相信对大家会有所帮助的。pycharm使用技巧使用PyCharm软件需要python运行环境,这里我已经下载好。CAD看图软件哪个好用?如何使用CAD看图软件
在CAD中,大家都知道CAD图纸是使用CAD制图软件来绘制完成的,那保存的格式就是为dwg格式和dxf格式的。那需要对图纸内容进行查看的时候,就要适用到CAD看图软件。但看图软件有很多,那么CAD看图diskgenius怎么将分区中的文件复制到指定目录?diskgenius将分区中的文件复制到指定目录方法
使用diskgenius的时候,很多小伙伴不知道怎么将分区中的文件复制到指定目录,下面小编就给大家带来方法,有需要的小伙伴不要错过哦。diskgenius怎么将分区中的文件复制到指定目录?diskg分区工具diskgenius将硬盘合并分区的详细流程
说起分区工具diskgenius伙伴们都不陌生,那么使用怎么使用分区工具将硬盘合并分区呢?下面一起看看关于分区工具diskgenius将硬盘合并分区的详细流程吧。分区工具diskgenius将硬盘合MathType中公式与文字错位的处理方法
最近有很多朋友向我咨询关于MathType中公式与文字错位的问题,今天就为大家介绍MathType中公式与文字错位的处理方法,希望能够帮助到大家。MathType中公式与文字错位的处理方法方法一