我们主要用采用3种模型,GBDT, DNN与RNN (Seq2Seq-GRU) 模型。由于数据分布差异很大,我们对于不同城市以及不同污染物分别建模。针对时间序列问题我们一共有 2 种建模方式,序列模型 (RNN) 是每条样本未来 48 小时的空气质量为 48 个label,而常规回归模型(GBDT/DNN)是将一条序列样本根据预测未来的 48 小时序列数展开为48条样本,每条样本预测一个状态,48 条样本间历史统计特征相同,存在二个区别:1)用hour flag标识是第几个样本;2)天气预报特征。 [好文分享:www.11jj.com]
[好文分享:www.11jj.com]
GBDT模型用 LightGBM 两种模型,主要用于特征迭代。针对问题特点对 DNN 模型和 RNNSeq2Seq-GRU 模型进行了优化。
DNN模型相对于 GBDT 模型有更强的特征交叉关系学习能力,并且可以学习到一些在训练集中没有出现的交叉关系,下图为 DNN 模型的结构图。
基于DNN模型,我们有如下调整与优化:
对特征进行标准化处理,计算均值和方差的时候对缺失值暂不做处理
标准化后进行特征值clip,减少离群特征值对模型的影响
对缺失值填充 0,并添加缺失标志位
使用b-swish激活函数[2],其公式为 b-swish(x) = x*sigmoid(b*x),b为可训练参数;b-swish 拥有不饱和、光滑、非单调性的特征
参考 product neural network[3]概念以及 LSTM 中的 Gate 设计,对时间与位置信息 embedding 进行了 product 以及后面 sigmoid 激活,再与模型本身的统计特征进行组合
传统的回归损失函数MSE与比赛的评分函数SMAPE有较大的差异,直接优化MSE会导致与评测目标不一致。而SMAPE在0点不可导且有临近点不稳定问题,我们为了直接优化SMAPE参照kaggle web traffic prediction比赛分享进行了损失函数逼近[4],使得模型优化与评测更一致:
epsilon = 0.1
summ = tf.maximum(tf.abs(true) + tf.abs(predicted) + epsilon, 0.5 + epsilon)
smape = tf.abs(predicted - true) / summ * 2.0
由于空气质量预测特征的噪音较大,神经网络相对于树模型对于异常值更敏感,我们做了更多的数据处理(a/b/c)。并且由于传统回归模型由于基于历史统计量相同,会有序列间预测值接近问题,以及不能很好的利用其他拓扑方位的统计信息。我们针对时间与空间概念,参考了LSTM中的 Gate,通过点乘与后续连接,增强时间/空间特征在模型中的区分度,并且相对于普通全连接网络更好建模了时间/空间信息与统计特征的组合能力。最终结果序列间预测值方差显著增加,提升了模型精度与相对于树模型的模型差异性。
大家好,小美今天来为大家解答本市换工作社保怎么转以下问题,本市换工作社保转移要多久很多人还不知道,现在让我们一起来看看吧!1、劳动者
大家好,小美今天来为大家解答大卫科波菲尔人物赏析以下问题,大卫科波菲尔中人物分析很多人还不知道,现在让我们一起来看看吧!1、作者描写
「安谧内陆优质独身男女的真实相亲平台 」网站注册会员冲破40000+人线下注册用户6000+人免费注册| 实名认证 | 搜寻意中人线上线下相亲运动 | 托
大家好,小伟今天来为大家解答水瓶座女和什么座最配男生以下问题,水瓶女生和什么座最配男生很多人还不知道,现在让我们一起来看看吧!1、水
大家好,小豪今天来为大家解答十二星座精灵图片以下问题,十二星座天命精灵很多人还不知道,现在让我们一起来看看吧!1、这个是个动画片来着
重磅来袭《没有一顿暖锅解决不了的事》Hi!列位客官看这里没什么是一顿暖锅不克解决的若是有 就两顿!!!运动预告 北京片子学院将于2024年
点击蓝色字免费订阅,天天收到如许的好信息爱情分手,在现在的社会已是常态,要想本身的恋情长长久久,在还没有爱情之前,你就必需得领略这
大家好,小乐今天来为大家解答肆意以下问题,肆意沦陷全文免费阅读笔趣阁小说很多人还不知道,现在让我们一起来看看吧!1、意思是:纵情任意
Copyright 2024.依依自媒体,让大家了解更多图文资讯!