下一站AI:实时服务

简介: 随着实时解决方案的增长与人工智能技术的发展,工作负载的日益提升以及非结构化数据的爆炸式增长,数据中心的发展方向正朝着加速计算、存储与网络适应性前进。

云栖号资讯:【点击查看更多行业资讯
在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来!

随着实时服务浪潮逐渐渗透进我们的日常生活,计算基础设施也开始迎来重大变化。从使用自然语言提供即时型个人智能助手,到通过店面分析生成与客户购物行为相关的结论信息,各类实时服务的出现给服务供应商带来了前所未有的巨大市场空间。

为了从这些服务中获取价值,一大基本前提就是保证数据与洞见结论的即时可访问能力;很明显,这种能力在很大程度上需要AI技术作为基础。也正因为如此,Amazon Web Services(AWS)、微软、阿里巴巴以及SK电信等云服务巨头都在开发自己的计算基础设施,用于提供这类服务方案。

lifuHkUfZ1Qts_600

数据中心运营商现在也需要优化计算以满足实时响应要求。为此,IT架构不仅要解决持续快速变化的工作负载与算法需求(主要由AI驱动),同时必须进一步提升计算资源与存储/网络资源的集成水平。

这就给服务供应商带来了新的难题:要求他们提供一套能够实现差异化优势与卓越性能,同样具备高吞吐量、低延迟与灵活软件/硬件堆栈的基础设施平台。这套平台还必须能够处理从递归神经网络、长期/短期内存网络、卷积神经网络以及基于Apache Spark集群计算框架的查询加速等实际任务。

为了建立起这样的差异化优势,服务供应商开始自主构建与众不同的硬件与软件堆栈。例如,AWS Advanced Query Accelerator就是一套包含定制化软件与可编程硬件堆栈的数据分析平台。SK电信最近也立足自家定制化软件与可编程硬件堆栈,开发出支持AI技术的语音与视频分析方案。

下一轮计算还需要具备自适应性,将软件与硬件合并在一处,且硬件与软件都要拥有可编程性以满足业务用例对于实时性能、最高吞吐量以及低延迟/低功耗的要求。随着实时解决方案的增长与人工智能技术的发展,工作负载的日益提升以及非结构化数据的爆炸式增长,数据中心的发展方向正朝着加速计算、存储与网络适应性前进。

实时预测

学术研究人员目前正利用高性能计算(HPC)解决真实世界中存在的各类高复杂度问题。为了加快洞察处理过程与大规模HPC部署工作,原始计算能力、能源效率与适应性已经成为决定项目最终命运的先决条件。

为了回答世界上最具挑战性的科学问题之一,欧洲粒子物理实验室(CERN)约2万名科学家组成的联盟正试图重现宇宙的起源。为此,研究人员必须不断突破技术极限。

大型强子对撞机是世界上最大的粒子加速器。总长27公里的环形隧道由超导磁体组成,可将粒子加速到前所未有的能量水平。每个质子每秒绕隧道运行11000圈,速度接近于光速。环形隧道上还部署有四个定位点(质子每25纳秒经过一次),质子将在这里发生碰撞。对撞的条件将由粒子探测器捕捉并记录。

整个触发系统分两层实现——第一层触发要求AI技术在约3微秒周期内完成事件处理,这对其推理延迟提出了极高的要求。至于第二层,自然是大量的数据传输带宽。

CPU与GPU根本无法满足这样的要求。因此,研究人员在地下100米深、且不受辐射区影响的位置构建起一套用于运行分析算法的FPGA网络。该算法旨在即时过滤生成的数据并识别新型亚粒子结构,借此证明暗物质的存在乃至其他重要物理现象。这些FPGA将同时运行经典与卷积神经网络,负责接收并校准传感器数据、执行跟踪与聚类、运行机器学习对象识别并触发功能——所有操作都需要在事件数据的格式化与交付之前完成。结果就是,这套网络带来了极低的推理延迟(约100纳秒)。

为实时分析提供存储支持

高速存储方案的采用,以及现实用例对于数据密集型应用程序的更高性能要求,已经令现有CPU、内存与存储沦为瓶颈。为此,研究人员的探索重点由计算能力转向通过计算存储完成数据处理。这样的转变,也给应用程序性能与基础设施整体效率带来了深远影响。

最可行的解决方案,自然是尽可能缩小计算与数据间的距离。将数据分析与存储集成在一起,能够极大减少系统层面的数据瓶颈、提高并行度,同时降低总体功耗水平。这种方法也得到IBM及美光科技等厂商的支持,他们据此开发出加速存储与计算存储产品,保证一切处理方案紧紧围绕在数据周边。三星电子还推出SmartSSD,将闪存作为主干建立高性能加速计算体系,借此克服CPU与内存带来的限制。通过将智能元素推送至数据所在的位置,三星SmartSSD成功提高了速度与效率,同时降低了运营成本。

复杂网络

随着虚拟化计算与容器化工作负载的出现,网络也变得越来越复杂。在将这些环境扩展到单一服务器之外时,我们必须与其匹配复杂的覆盖网络。覆盖网络的本质,属于通过分组封装概念动态创建并维护的虚拟化系统。对这种封装进行监管,必然会增强操作系统或虚拟化内核的处理负担。在与传统网络任务配合使用时,这类方案会直接消耗掉近30%的服务器原始CPU周期。

目前比较常见的覆盖网络管理方法当属vSwitch(OvS)协议。基于FPGA的SmartNIC(网卡)能够把这近30%的计算负担从主机CPU转移到自身之上。简而言之,三台配备OvS协议SmartNIC的服务器,足以提供等同于四台配备标准网卡的服务器的计算能力。

基于FPGA的SmartNIC还能显著降低服务器CPU在执行安全与加密任务时面临的计算负担。目前的安全保障方案通常采取深度数据包检查的形式;一旦发现数据包中存在威胁,则将该数据包丢弃。这种方法能够增强甚至彻底取代企业在服务器上运行的传统防火墙软件。另外,SmartNIC也可以轻松承担起各类加密与解密任务。

新的世界,新的秩序

在实时服务新时代之下,考虑到成本、功耗以及纯CPU的扩展能力等各类限制性条件,单纯使用CPU或者多核心CPU来满足业务需求早已不具备可行性。对于大多数复合型工作负载而言,单纯投入更多服务器CPU已经永远无法带来必要的性能表现。

随着摩尔定律的逐步终结,下一代CPU恐怕也无法解决这些实际问题。因此,自适应计算加速器将成为一种可行的解决方案,有望在满足广泛计算需求的同时,极大提高扩展能力以帮助企业控制运营成本。

【云栖号在线课堂】每天都有产品技术专家分享!
课程地址:https://yqh.aliyun.com/live

立即加入社群,与专家面对面,及时了解课程最新动态!
【云栖号在线课堂 社群】https://c.tb.cn/F3.Z8gvnK

原文发布时间:2020-05-26
本文来自:“科技行者”,了解相关信息可以关注“科技行者

相关文章
|
9天前
|
人工智能 弹性计算 运维
AI驱动的操作系统服务评测报告
阿里云推出AI驱动的一站式免费操作系统服务套件,包含SysOM管控组件和OS Copilot智能助手,提供集群健康监测、深度系统诊断等功能。通过直观的操作界面和详尽的诊断报告,帮助运维人员优化系统性能,提高工作效率。特别针对EOL操作系统提供订阅管理服务,确保系统安全。整体体验令人满意,但在文档详细度和定制化方面仍有提升空间。
44 13
|
16天前
|
人工智能 运维 监控
|
16天前
|
人工智能 运维 数据可视化
AI驱动操作系统服务评测报告
阿里云操作系统服务套件集成AI技术,提供集群健康、系统诊断、观测分析和OS Copilot等功能,助力高效管理。安装组件流程简便,系统观测与诊断功能强大,数据可视化效果佳,支持历史趋势分析。OS Copilot智能助手回答逻辑清晰,但部分问题需增强专业性。整体评价高,建议进一步优化错误提示、自动诊断及订阅服务记录,提升用户体验。
64 25
AI驱动操作系统服务评测报告
|
9天前
|
人工智能 运维 监控
探索未来:AI驱动的操作系统服务评测
### 探索未来:AI驱动的操作系统服务评测 本文介绍阿里云新推出的AI驱动操作系统服务套件,为运维工程师和开发者提供免费、智能的操作系统管理体验。通过Alibaba Cloud Linux的实际操作,评估其安装便捷性、系统健康监控、智能助手OS Copilot等功能。该服务显著提升了工作效率约30%,并增强了服务可靠性。AI技术的融入使系统管理更加智能化,值得尝试。
49 16
|
24天前
|
人工智能 自然语言处理 监控
从数据洞察到动态优化:SaaS+AI引领智能化服务新时代
SaaS(软件即服务)结合AI(人工智能),正引领企业解决方案向智能化转型。SaaS+AI大幅提升了工作效率与决策质量。它能自动完成重复任务、简化设置流程、主动识别并解决潜在问题,还能根据用户需求提供个性化推荐和动态优化配置。
85 1
从数据洞察到动态优化:SaaS+AI引领智能化服务新时代
|
14天前
|
人工智能 运维 Linux
AI驱动的操作系统服务体验:大模型时代的运维革新
AI驱动的操作系统服务体验:大模型时代的运维革新
28 5
|
17天前
|
人工智能 运维 监控
评测报告:AI驱动的操作系统服务套件体验
评测报告:AI驱动的操作系统服务套件体验
20 3
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
Voice-Pro:开源AI音频处理工具,集成转录、翻译、TTS等一站式服务
Voice-Pro是一款开源的多功能音频处理工具,集成了语音转文字、文本转语音、实时翻译、YouTube视频下载和人声分离等多种功能。它支持超过100种语言,适用于教育、娱乐和商业等多个领域,为用户提供一站式的音频处理解决方案,极大地提高工作效率和音频处理的便捷性。
192 10
Voice-Pro:开源AI音频处理工具,集成转录、翻译、TTS等一站式服务
|
13天前
|
人工智能 运维 安全
AI 驱动,全面升级!操作系统服务套件体验评测
作为一名运维工程师,我体验了阿里云的操作系统服务套件,选择了Alibaba Cloud Linux作为测试环境。通过安装SysOM和OS Copilot组件,轻松管理集群健康数据、进行系统诊断并获得优化建议。OS Copilot智能解答技术问题,节省查阅资料时间;订阅管理帮助我及时升级操作系统,保障安全。整体功能强大,提升了约20%的工作效率,值得推广。建议增加更多系统版本支持及自动优化功能。
|
2月前
|
人工智能 安全 搜索推荐
到2028年,30%的财富500强企业将使用仅支持AI的服务渠道
到2028年,30%的财富500强企业将使用仅支持AI的服务渠道