阿里发电预测模型:FusionSF
论文《FusionSF: Fuse Heterogeneous Modalities in a Vector Quantized Framework for Robust Solar Power Forecasting》
目前的研究主要依赖于历史太阳能数据或单模态格式的数值天气预报,忽略了不同模态提供的补充信息。
本文提出一个多模态融合框架,将历史电力数据、数值天气预报和卫星图像整合起来,显著提升预报性能
引入矢量量化框架,将模式与不同的信息密度对齐,在集成足够的信息和避免模型过拟合之间取得平衡,并且框架具有强大的零样本预测能力
GitHub - DAMO-DI-ML/FusionSF
历史观测输入、历史观测协变量和未来预测协变量
未来预测协变量:数值天气预报(NWP),是准确预测太阳能发电的最关键因素
历史协变量:地面全天相机图像、卫星上仪器收集的数据和遥感数据,但是会有时受到限制
基于时间序列和时空序列预测的深度网络
时空预测结合了地理信息
NWP、卫星和天空照相机通常被用作支持太阳预报的关键数据源,依赖于NWP数据的传统技术通常采用基于回归的方法,但是这些方法的有效性很大程度上取决于天气预报的准确性。
在考虑短期预报时,使用卫星图像和NWP作为异构模式是必要的
FusionSF整体框架
一个具有三个编码器的多模态框架,用于处理历史观测的太阳功率、历史观测内容、未来预测协变量。
矢量化编码器分支:用于处理大量的数据源,如具有噪声TS数据特征的卫星图像和历史观测输入,好处:降低了原始数据中的噪声,增强了提取特征的鲁棒性,而且有利于不同信息密度的模态对齐。未来预测协变量表现为更为平滑的信号,噪声更小
基于交叉转化的融合模块:融合三种模式的数据
Rotary positional encoding:模拟相对距离
Patching&masking:封装图像的小的局部区域,将卫星图像划分为多个不重叠的小块,然后用多层感知器将其进行投影,在训练阶段,屏蔽了上下文中的一部分,从均匀分布中随机抽取掩蔽比,并对相应的标记及其位置嵌入进行掩蔽,在推理期间,不应用掩码。
Vector quantization(VQ):我理解为减少特征的噪声,连续变为离散(复制梯度),使用残差VQ对编码向量进行递归量化,达到细节保留和噪声去除之间的平衡
Transformer-based encoder:首先使用vision transformer(VIT),由layer norm、self attention、MLP组成
三种数据的混合
在隐藏维度上连接,根据一天中的小时对齐
公开了多模式太阳功率数据集(MMSP)
数据集来自中国一个省份的88个地理上分散的太阳能发嗲内藏,面积为157100平方公里,该数据集从10min被降采样到60分钟的分辨率,涵盖了从1月份到9月份的时间范围
MMSP数据集由太阳能系列结合卫星图像作为背景和NWP数据作为辅助信息组成,为了方便参数调优和基准测试,选择了最初的10个地方来创建一个较小的数据集MMSP(S)
Historical satellite image modality:历史卫星图像模式,由日本气象厅运营的himawari-8/9卫星提供的卫星图像数据,卫星上的高级成像仪在16个不同的观测波段捕捉地球表面的完整视图,这些波段包括三个可见光波段,三个近红外波段和十个红外波段。每10min进行一次观测,提供0.5至2公里的空间分辨率。
NWP:欧洲中期天气误报中心提供的ECMWF,每天定期更新4次,时间分辨率为60min,空间分辨率10公里
通过fusionSF与各种时间序列极限informer、autoformer、crossformer、patchtst、film、dliner和lightts进行比较。
Eforecaster平台
后端维护了一个包含历史发电功率、ECMWF高分辨率10天预报NWP数据和himawari卫星数据的数据库
所有的数据都从来源检测,并实施推送到数据库中
在进行日前预测时,三模态数据及其额外数据,如时间或季节信息,构成原始输入
Per-processing:预处理模块,去除异常值,对缺失值进行插值
Feature engineering:提取时间和坐标特征
Modeling:选择和应用特定的预测算法
这个说明了卫星云图的重要性