全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点

简介: 时序数据在动态系统和应用中至关重要,但其复杂性使得分析极具挑战。Time-MoE是一种基于稀疏混合专家设计的可扩展架构,旨在预训练更大、更强大的时序预测模型,同时降低推理成本。它在新数据集Time-300B上训练,包含超过3000亿个时间点,跨9个领域,显著提升了预测精度,成为解决时序预测问题的先进方案。

时序数据是现实世界中动态系统和各种应用中的主要数据模态。时序数据的分析对于预测分析和决策制定至关重要。然而,时序数据的复杂性和分布变化使得其分析成为一个具有挑战性的任务。

在深度学习领域,时序预测已经取得了显著的进展。然而,尽管在语言和视觉领域中,大规模预训练已经取得了巨大的成功,但在时序领域中,预训练的时序模型仍然受到规模和成本的限制,阻碍了更大、更强大的预测模型的发展。

为了解决这个问题,一个由华人研究人员组成的团队发布了一个名为Time-MoE的可扩展和统一的架构,旨在预训练更大、更强大的预测基础模型,同时减少推理成本。

Time-MoE是一个基于稀疏混合专家(MoE)设计的可扩展架构。通过激活网络的子集来增强计算效率,从而减少计算负载,同时保持高模型容量。这使Time-MoE能够有效地扩展,而不会相应地增加推理成本。

Time-MoE由一组仅包含解码器的Transformer模型组成,以自回归方式运行,并支持具有不同输入上下文长度的灵活预测范围。这些模型在一个新的大型规模数据集Time-300B上进行了预训练,该数据集跨越9个领域,包含超过3000亿个时间点。

Time-MoE的创新之处在于其规模和能力。这是第一次将时序基础模型扩展到2.4亿参数,并取得了显著的预测精度改进。这一突破验证了在时序预测中,对于训练标记和模型大小的可扩展性定律的适用性。

与具有相同激活参数数量或等效计算预算的密集模型相比,Time-MoE模型在各种基准测试中表现得更好。这些改进使Time-MoE成为解决现实世界中时序预测挑战的最先进的解决方案,具有优越的能力、效率和灵活性。

Time-MoE的预训练数据集Time-300B是另一个创新点。这是最大的开放访问时序数据集,包含超过3000亿个时间点,跨越9个领域。数据集的多样性和规模为模型的泛化能力提供了坚实的基础。

在性能评估方面,Time-MoE在六个真实世界的基准测试中表现出色。与具有相似激活参数数量的其他时序基础模型相比,Time-MoE在零样本和分布内场景中分别实现了20%和24%的预测误差减少。

然而,尽管Time-MoE在许多方面表现出色,但仍有一些潜在的局限性。例如,尽管其稀疏设计提高了计算效率,但在某些情况下,密集模型可能仍然具有优势。此外,尽管Time-MoE在各种基准测试中表现良好,但其在实际应用中的泛化能力仍有待进一步验证。

论文链接:https://arxiv.org/pdf/2409.16040

目录
相关文章
|
21天前
|
XML 存储 Java
写个破解WIFI程序,以防不时之需(简易版,未成功)
本文介绍了作者尝试通过Java代码连接WLAN的过程,虽然最终未能成功,但仍提供了宝贵的实践经验。作者通过此过程对WLAN连接有了初步了解,并掌握了`java.lang.Process`和`java.lang.Runtime`两个类的使用。文中详细展示了完整的代码示例,包括生成WLAN配置文件、执行命令等步骤。尽管存在一些技术难题,如无法生成关键的`hex`参数,导致连接失败,但作者仍希望通过分享这些经验,帮助读者对WLAN连接有更深入的理解。
99 59
写个破解WIFI程序,以防不时之需(简易版,未成功)
|
7天前
|
JavaScript iOS开发
多格式、功能强大的移动端日期选择插件
rolldate是一款多格式、功能强大的移动端日期选择插件。该插件可以在移动端实现iOS样式的日期时间选择效果。支持多种时间格式,使用better-scroll作为滑动插件,支持自定义语言和回调函数等,功能非常强大。
117 63
|
7天前
|
存储 监控 数据处理
flink 向doris 数据库写入数据时出现背压如何排查?
本文介绍了如何确定和解决Flink任务向Doris数据库写入数据时遇到的背压问题。首先通过Flink Web UI和性能指标监控识别背压,然后从Doris数据库性能、网络连接稳定性、Flink任务数据处理逻辑及资源配置等方面排查原因,并通过分析相关日志进一步定位问题。
121 61
|
12天前
|
机器学习/深度学习 安全 自动驾驶
深度学习在图像识别中的应用与挑战
【10月更文挑战第41天】本文旨在探索深度学习在图像识别领域的应用,并分析其面临的主要挑战。通过介绍深度学习的基本原理和关键技术,以及其在图像识别中的实际应用案例,我们将深入理解深度学习如何改变图像处理领域。同时,文章还将讨论数据获取、模型泛化能力、计算资源需求和安全性问题等挑战,为未来的研究和实践提供方向。
|
21天前
|
传感器 物联网 机器人
定义微Python
MicroPython 是一种精简高效的 Python 解释器,专为微控制器和嵌入式系统设计,支持通过 Python 代码进行快速开发和调试。它具有低资源消耗的特点,适用于物联网设备。
99 62
|
4天前
|
监控 Java 数据库连接
详解Spring Batch:在Spring Boot中实现高效批处理
详解Spring Batch:在Spring Boot中实现高效批处理
36 12
|
7天前
|
API 调度 开发者
探索Python中的异步编程:从asyncio到Trio
本文将带你深入Python异步编程的心脏地带,从asyncio的基本概念到Trio的高级特性,我们将一起揭开Python异步编程的神秘面纱,并探讨它们如何改变我们的编程方式。
|
10天前
|
存储 C语言
C语言如何使用结构体和指针来操作动态分配的内存
在C语言中,通过定义结构体并使用指向该结构体的指针,可以对动态分配的内存进行操作。首先利用 `malloc` 或 `calloc` 分配内存,然后通过指针访问和修改结构体成员,最后用 `free` 释放内存,实现资源的有效管理。
55 12
|
14天前
|
人工智能 文字识别 运维
AI多模态的5大核心关键技术,让高端制造实现智能化管理
结合大模型应用场景,通过AI技术解析高端制造业的复杂设备与文档数据,自动化地将大型零件、机械图纸、操作手册等文档结构化。核心技术包括版面识别、表格抽取、要素抽取和文档抽取,实现信息的系统化管理和高效查询,大幅提升设备维护和生产管理的效率。
|
25天前
|
人工智能 Cloud Native 数据管理
媒体声音|重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
在2024云栖大会上,阿里云瑶池数据库发布了首个一站式多模数据管理平台DMS:OneMeta+OneOps。该平台由Data+AI驱动,兼容40余种数据源,实现跨云数据库、数据仓库、数据湖的统一数据治理,帮助用户高效提取和分析元数据,提升业务决策效率10倍。DMS已服务超10万企业客户,降低数据管理成本高达90%。
101 19