云脑科技徐昊:AutoML 工程实践与大规模行业应用( 五 )
图5/10
样本难度也是影响样本效率的重要因素,提高模型精度的关键在于获得更多的复杂样本。其次,需要去掉噪声样本。那么如何分析样本的难度?一般使用模型预测值和真实标签 cross entropy。保持原有数据的分布对样本训练过程来说非常重要。
特征效率
特征(尤其是稀疏特征)对训练数据的效率影响很大。在项目工期紧张的时候,把所有的特征扔进模型学习是不实际的,因此我们进行定量分析。维度大的特征对训练的影响非常大。稀疏特征也需要重点分析。对过于稀疏的特征值截断处理也可以提高特征效率。我们现在比较重视变长特征的处理。变长特征通常是在嵌入以后取平均值或求和,变长特征长的样本对 batch 的影响较大。
图6/10
推荐阅读
- 永劫无间|国产游戏优化都不行?永劫无间更新“黑科技”,玩家:丝滑般体验
- 吕蒙|三国志战略版:吕蒙、关银屏黑科技联动,技穷、缴械全都有
- 黄忠|三国志战略版黄忠蜀盾黑科技,蜀盾内战和打弟弟一样!
- ai|EDG夺冠,虎牙斗鱼B站直播间AI字幕黑科技比拼亮眼,虎牙的最准确
- 一加科技|钱小佳签约后平台未定,神豪“A皇”爆料,他复播不会选择斗鱼
- 地下城与勇士|DNF:堆满暴击率的4种方法!土豪靠“科技”,平民靠“变异”
- 主机掌机类游戏|我的世界:mc“穿越事件”,第一天还在砍树,数月后科技拉满!
- t1|LOL:T1黑科技时光辅助锁定赛点,六神跑酷烬DK毫无办法!
- 动视|巾帼不让须眉,新赛季女将黑科技十分惊艳,硬刚T0吴枪麒麟弓
- 剑网3|《英雄联盟手游》小法成为黑科技,打野发挥很重要