1
cclin 2020-11-25 10:28:21 +08:00 via Android
举个例子,你用 l2 距离,北京是 0,上海是 1,广州是 2,不做 onehot 意味着在这个维度广州和北京距离是广州到上海的二倍,然而实际上他们的距离应该相同
|
2
galileo1214 OP @cclin 类型过多会离散化
|
3
levylll 2020-11-25 11:04:02 +08:00
图省事儿可以做特征 hash,压缩特征到同一个 hash 空间
|
4
Escapist367 2020-11-25 11:11:27 +08:00
有的模型不需要 one-hot
|
5
TimePPT 2020-11-25 11:21:05 +08:00
one-hot encoding 不是万能的,这些分类变量编码方法你值得拥有
https://www.jiqizhixin.com/articles/2020-09-16-6 机器学习中的特征工程总结! https://mp.weixin.qq.com/s/RgSejEbxwhnFUKR2POmqmg 一文讲解特征工程!经典外文 PPT 及中文解析 https://mp.weixin.qq.com/s/GWMZ1jwbchE8O0r6EduYtQ |
6
galileo1214 OP @TimePPT #5 谢谢
|
7
TimePPT 2020-11-25 11:56:29 +08:00 via Android
|