博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
王茂霖:数据挖掘提分三板斧!(附PPT下载)
阅读量:4225 次
发布时间:2019-05-26

本文共 891 字,大约阅读时间需要 2 分钟。

作者:王茂霖,华中科技大学,Datawhale成员来源:Datawhale本文多图,建议阅读10+分钟本文作者与你分享数据挖掘的三把利器。

内容概括

数据挖掘提分三板斧:

1. 金斧-数据清洗和特征工程

2. 银斧-模型参数调节

3. 铜斧-模型集成

公众号(DatapiTHU)后台回复“20210420”获取完整PPT下载

视频地址:https://www.bilibili.com/video/BV1MU4y1h75G

Part 1 数据清洗和特征工程

一、关于数据清洗

1.缺失值处理:

2.异常值处理:

3.数据分桶:

4.数据标准化:在不同的问题中,标准化的意义不同

  • 在回归预测中,标准化是为了让特征值有均等的权重;

  • 在训练神经网络的过程中,通过将数据标准化,能够加速权重参数的收敛;

  • 主成分分析中,需要对数据进行标准化处理;默认指标间权重相等,不考虑指标间差异和相互影响。

数据清洗的示例:

二、关于特征工程

1.特征构造:

2.特征选择:

特征工程的示例:

Part 2 模型参数调节

一、关于建模调参

1. 理解模型

2. 性能验证

3. 模型调参

Part 3 模型集成

一、关于模型集成

1. 加权融合

2. Boosting/Bagging

3. Stacking/Blending

模型集成示例:

本文作者

王茂霖,Datawhale重要贡献成员,Datawhale&天池数据挖掘学习赛开源内容发起人,全网阅读超10w。

参赛30余次,获得BCIC-数字中国创新创业大赛亚军,全球城市计算AI挑战赛,Alibaba Cloud German AI Challenge等多项Top10。

访问下方地址或点击"阅读原文"查看分享:

https://tianchi.aliyun.com/specials/promotion/allcompetition

更多学习资源大家可以前往天池学习平台查看,完成从AI小白到AI新手、AI工程师和AI科学家的进阶学习。

学习地址:https://tianchi.aliyun.com/course

编辑:黄继彦

校对:王欣

转载地址:http://fwfqi.baihongyu.com/

你可能感兴趣的文章
MappedByteBuffer基本使用与优点
查看>>
java注解
查看>>
serialVersionUID的作用
查看>>
数据库添加索引
查看>>
UDP小谈
查看>>
可靠数据传输原理
查看>>
微服务构建
查看>>
Mysql分区
查看>>
EXPLAIN分析SQL的执行计划
查看>>
MySQL索引
查看>>
常用SQL的优化
查看>>
史上最简单清晰的红黑树讲解
查看>>
B树B+树的原理和操作
查看>>
常用SQL的优化
查看>>
mysql索引
查看>>
微服务构建
查看>>
Java深拷贝与浅拷贝
查看>>
可靠数据传输协议之选择重传
查看>>
面向连接的运输:TCP
查看>>
ConcurrentHashMap原理分析
查看>>