Chronos: 将时间序列作为一种语言进行学习

简介: Chronos框架预训练时间序列模型,将序列值转为Transformer模型的tokens。通过缩放、量化处理,模型在合成及公共数据集上训练,参数量20M至710M不等。优于传统和深度学习模型,展示出色零样本预测性能。使用分类交叉熵损失,支持多模态输出分布学习。数据增强策略包括TSMix和KernelSynth。实验显示大型Chronos模型在概率和点预测上超越多种基线,且微调小型模型表现优异。虽然推理速度较慢,但其通用性简化了预测流程。论文探讨了优化潜力和未来研究方向。

这是一篇非常有意思的论文,它将时间序列分块并作为语言模型中的一个token来进行学习,并且得到了很好的效果。

Chronos是一个对时间序列数据的概率模型进行预训练的框架,它将这些值标记为与基于transformer的模型(如T5)一起使用。模型将序列的值缩放和量化到一个固定的词汇表,并在通过高斯过程创建的公共和合成数据集上进行训练。Chronos模型的参数范围从20M到710M不等,在已知数据集上优于传统和深度学习模型,在新数据集上表现出具有竞争力的零样本性能。

标记

为了使时间序列数据适应基于transformer的语言模型,使用了两个步骤:缩放和量化。缩放使用平均缩放将数据规范化到一个公共范围,其中每个点都通过历史上下文中绝对值的平均值进行调整。在缩放之后,量化通过将数据范围分成箱(每个箱由一个记号表示)将实值序列转换为离散标记。作者更喜欢统一的分位数分组,据说是要适应不同数据集的可变性,因为预测范围受到预定义的最小值和最大值的限制。另外就是还添加了用于填充和序列结束的特殊标记。

目标函数

Chronos是通过使用分类交叉熵损失函数将预测作为分类问题来训练时间序列数据。模型在表示量化时间序列数据的标记化词汇表上预测分布,并将该分布与真实分布之间的差异最小化。与距离感知度量不同,这种方法不直接考虑箱之间的接近程度,而是依赖于模型从数据中学习箱关系。这样就有两个优势:与现有语言模型体系结构和训练方法的无缝集成,可以学习任意的、潜在的多模态输出分布的能力,并且可以在不同领域之间通用,无需更改模型结构或训练目标。

Chronos模型通过对其预测的令牌分布进行自回归采样,对未来的时间步长进行概率预测。然后使用去量化函数和逆缩放将生成的令牌转换回实际值。

数据增广

TSMix通过组合两个以上的数据点,将Mixup数据增强概念(最初是为图像分类而开发的)扩展到时间序列数据。它从训练数据集中随机选择一些不同长度的时间序列,对它们进行缩放,并创建它们的凸组合。这种组合的权重是从对称狄利克雷分布中得出的。

KernelSynth则使用高斯过程合成数据生成。KernelSynth组装GP核来创建新的时间序列,利用一组基核来处理常见的时间序列模式,如趋势、平滑变化和季节性。通过随机选择这些核,并通过加法或乘法将其组合在一起,产生不同的时间序列数据。

实验结果

较大的Chronos-T5模型(基础和大型)超过基线模型,展示了优越的概率和点预测能力。这些模型不仅超越了AutoETS和AutoARIMA等传统统计模型,也超越了PatchTST和DeepAR等特定任务的深度学习模型。较小的Chronos变体和Chronos- gpt2也优于大多数基线,尽管PatchTST在某些情况下显示出更强的结果。季节性传统模型的竞争表现表明,这些数据集(主要来自能源和运输部门)具有很强的季节性趋势。

零样本预测概率预测方面,Chronos模型超过了局部统计模型和大多数特定任务模型,其中Chronos- t5 Large模型在点预测方面排名第三。它们的表现甚至超过了ForecastPFN和GPT4TS(微调GPT2),显示出作为通用时间序列预测器的显著前景。

微调小型模型也显示了显著的性能改进,使其在零样本设置和最佳任务特定模型中优于大型Chronos变体。

论文的一些研究

更大的型号更好;随机权重初始化比使用LLM权重更好,因为它们可能与时间预测无关;TSMix改善了零样本学习能力;使用大约10%的合成数据是最好的;

讨论

该研究证明了Chronos在各种数据集上的零样本能力,表明它有潜力通过微调技术(如LoRA或特定任务校准的保形方法)胜过特定任务模型。特定于任务的适配器或像LightGBM这样的模型的堆叠集成可以用来添加协变量并应用于多变量预测。

与特定任务的深度学习模型相比,大型Chronos模型的推理速度较慢。Chronos模型的优势在于其在不同数据集特征上的通用性,而不需要单独的特定任务训练,简化了预测流程。此外,通过优化的计算核、量化和更快的解码方法等技术也适用于Chronos,有可能提高推理速度和预测质量。处理长上下文数据的方法可以进一步提高Chronos在高频数据集上的性能,受nlp启发的方法,如温度调节和采样策略,可以提高预测的效率和准确性。

论文地址:

https://avoid.overfit.cn/post/3d2f93d490b5417d9e10ae3fad935c18

作者:Andrew Lukyanenko

目录
相关文章
|
11月前
|
机器学习/深度学习 测试技术
ChronosX: 可使用外生变量的时间序列预测基础模型
时间序列预测中,基础模型虽在单变量任务中表现出色,但引入协变量支持仍面临挑战。Chronos研究团队提出ChronosX架构,通过适配器层有效整合历史与未来协变量信息,适用于任何单变量模型。实验表明,ChronosX显著提升预测性能,尤其在复杂数据集上优势明显。消融研究进一步验证了协变量模块的重要性。尽管需要轻量训练,但其灵活性和通用性为时间序列建模提供了新思路,未来或可通过类似LLM提示机制实现更高效的协变量处理。
735 16
ChronosX: 可使用外生变量的时间序列预测基础模型
|
机器学习/深度学习 人工智能 自然语言处理
Informer:用于长序列时间序列预测的新型Transformer
Informer:用于长序列时间序列预测的新型Transformer
2597 0
Informer:用于长序列时间序列预测的新型Transformer
|
9月前
|
人工智能 自然语言处理 数据安全/隐私保护
企业AI落地开源五剑客:Open-WebUI、Dify、RAGFlow、FastGPT、n8n
在AI技术迅猛发展的今天,企业常面临数据安全、技术门槛和系统整合等难题。本文介绍了五款开源工具——Open WebUI、Dify、RAGFlow、FastGPT和n8n,它们以低成本、私有化部署和模块化扩展的优势,助力企业构建AI能力闭环,覆盖交互、生成、知识处理与流程自动化等多个环节,推动AI真正落地应用。
|
机器学习/深度学习 自然语言处理 数据可视化
MOIRAI-MOE: 基于混合专家系统的大规模时间序列预测模型
MOIRAI 是 Salesforce 开发的早期时间序列基础模型,凭借出色的基准测试性能和开源的大规模预训练数据集 LOTSA 获得广泛关注。最新升级版本 MOIRAI-MOE 引入混合专家模型(Mixture of Experts, MOE),在模型性能上实现显著提升。本文深入分析 MOIRAI-MOE 的技术架构与实现机制,对比其与原版 MOIRAI 的差异,探讨 MOE 在提升预测准确率和处理频率变化问题上的作用,并展示其在分布内和零样本预测中的优异表现。实验结果显示,MOIRAI-MOE 以更少的激活参数量实现了更高的性能提升,成为时间序列预测领域的重要里程碑。
857 12
MOIRAI-MOE: 基于混合专家系统的大规模时间序列预测模型
|
人工智能 供应链 PyTorch
TimesFM 2.0:用 AI 预测流量、销量和金融市场等走势!谷歌开源超越统计方法的预测模型
TimesFM 2.0 是谷歌研究团队开源的时间序列预测模型,支持长达2048个时间点的单变量预测,具备零样本学习能力,适用于零售、金融、交通等多个领域。
2035 24
TimesFM 2.0:用 AI 预测流量、销量和金融市场等走势!谷歌开源超越统计方法的预测模型
|
机器学习/深度学习 自然语言处理
谷歌发布时序预测基础模型TimesFM
【2月更文挑战第27天】谷歌发布时序预测基础模型TimesFM
1214 3
谷歌发布时序预测基础模型TimesFM
|
自然语言处理 搜索推荐 数据挖掘
阿里通义等提出Chronos:慢思考RAG技术助力新闻时间线总结
阿里通义等提出Chronos:慢思考RAG技术助力新闻时间线总结
614 0
|
机器学习/深度学习 测试技术
全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点
时序数据在动态系统和应用中至关重要,但其复杂性使得分析极具挑战。Time-MoE是一种基于稀疏混合专家设计的可扩展架构,旨在预训练更大、更强大的时序预测模型,同时降低推理成本。它在新数据集Time-300B上训练,包含超过3000亿个时间点,跨9个领域,显著提升了预测精度,成为解决时序预测问题的先进方案。
1013 9
|
机器学习/深度学习 存储 数据可视化
谷歌的时间序列预测的基础模型TimesFM详解和对比测试
在本文中,我们将介绍模型架构、训练,并进行实际预测案例研究。将对TimesFM的预测能力进行分析,并将该模型与统计和机器学习模型进行对比。
774 2
|
机器学习/深度学习 编解码 测试技术
TimeMOE: 使用稀疏模型实现更大更好的时间序列预测
TimeMOE是一种新型的时间序列预测基础模型,通过稀疏混合专家(MOE)设计,在提高模型能力的同时降低了计算成本。它可以在多种时间尺度上进行预测,并且经过大规模预训练,具备出色的泛化能力。TimeMOE不仅在准确性上超越了现有模型,还在计算效率和灵活性方面表现出色,适用于各种预测任务。该模型已扩展至数十亿参数,展现了时间序列领域的缩放定律。研究结果显示,TimeMOE在多个基准测试中显著优于其他模型,特别是在零样本学习场景下。
2096 64