Python 在企业级应用中的两大硬伤

简介: 关系数据库和SQL在企业级应用中面临诸多挑战,如复杂SQL难以移植、数据库负担重、应用间强耦合等。Python虽是替代选择,但在大数据运算和版本管理方面存在不足。SPL(esProc Structured Programming Language)作为开源语言,专门针对结构化数据计算,解决了Python的这些硬伤。它提供高效的大数据运算能力、并行处理、高性能文件存储格式(如btx、ctx),以及一致的版本管理,确保企业级应用的稳定性和高性能。此外,SPL与Java无缝集成,适合现代J2EE体系应用,简化开发并提升性能。

背景
关系数据库是最常见的数据存储方案,SQL自然也成为数据处理的第一选择。但随着企业级应用越来越复杂,使用SQL实现数据运算和处理也开始面临许多架构层面的严重问题。复杂的SQL(存储过程)很难移植、计算处理都压进数据库会造成数据库负担沉重而成为整个应用的瓶颈、被多应用共享的数据库容易导致应用间强耦合等等。所以,越来越多的现代应用开始采用其它技术来处理数据。

其中,Python是个不错的选择,它拥有强大的类库,支持丰富的数据源;语法灵活,能表达复杂的计算过程;可以独立存储,与前端应用服务耦合,维护简单;拥有完善的IDE环境,方便调试等等。越来越多的应用开始采用Python实现数据处理。

不过,对于企业级应用,Python也有两个重要的硬伤。

低效的大数据运算
Python处理结构化数据主要依赖于Pandas,常规的内存计算如排序、分组、聚合、连接等都有基础库函数,开发简单,性能也不错。但是,Python对内存装不下的大数据支持很不好,而这又是企业应用中的常态。

当数据无法全部放入内存时,Pandas处理起来就比较费劲了,只能分段读取,然后根据需求自己写代码完成计算任务,简单的统计汇总还好处理,面对分组、连接这些运算时,硬编码会很繁琐。

来看下大数据分组汇总运算,数据库通常会使用 Hash 分组的方案,算法的性能没问题,但Python没有提供这种算法,硬编码实现很麻烦,这个任务的难度超出一般应用程序员的能力,结果常常是退而求其次,选择一个容易实现的算法。比如先按分组列在外存排序,然后遍历排好序的文件,如果分组列值和前一行相同则对这组数据汇总,和前一行不同则新建一组继续汇总。这个算法相对简单,但性能极差。

即使有大神能完成HASH算法,在Python体系下仍然难以获得大数据运算所需要的高性能。因为Python的并行是伪并行,对于CPU来说就是串行,甚至比串行还慢,难以充分利用现代CPU多核的优势。

这是因为在 Cpython 解释器(Python语言的主流解释器)中,有一个全局解释锁(Global Interpreter Lock),执行 Python 代码时,先要得到这个锁,意味着即使是多核CPU在同一时段也只可能有一个线程在执行代码,多线程只能交替执行。而多线程涉及到上下文切换、锁机制处理等复杂事务,结果不快反慢。

Python无法在进程内使用简单的多线程并行机制,很多程序员只能采用复杂的多进程并行,进程本身的开销和管理复杂得多,并行程度无法和多线程相提并论,加上进程间的通信也很复杂,有时只好不直接通信,用文件系统来传递汇总结果,这又导致性能大幅下降。

大数据的运算性能很大程度上还和数据IO相关,如果数据的IO成本太高,运算再快也没用。高效的IO经常依赖于专门优化的存储方案,但遗憾的是,Python没有应用较广泛的高效存储方案,一般会使用文本文件或数据库存储数据,IO性能都很差。如果数据源本身就是文本或数据库,这没办法改变,忍受低速IO也就罢了,但很多复杂运算(比如大数据排序)过程中需要中间结果落地,理论上这些读写性能应该是可控的,却因为Python缺少高效存储方案,也只能选择低效的文本或数据库,导致整体性能低下;还有些运算需要用到大量历史数据,如果都从文本或数据库读取,往往会出现IO时间远远高于计算时间的尴尬局面。

混乱的版本
Python的版本混乱是很多开发者所头疼的事情,在企业应用时更是如此。Python起初是一门个人级程序语言,在设计时并未考虑太多企业级应用中协同工作的需求,个人用起来方便就行。每个开发者都有一个自己认为“好用”的版本,这在企业级应用时会有很严重的问题,比如两个开发者开发的两个应用放到同一服务器后因为Python版本不兼容,导致应用程序无法运行。

Python的版本确实比较复杂,大版本上有一次完全不兼容的升级,即Python2升级到Python3,Python2上正常运行的程序直接拿到Python3上大概率是无法运行的,所以很多企业会同时安装Python2和Python3,只为了解决这个问题。

小版本也会遇到小麻烦,比如Python3.7新增了dataclass装饰器。如果旧版本Python的程序中有一个“dataclass”的装饰器,那么直接放到Python3.7上运行就可能因为装饰器重名而报错。这种问题虽然不像Python2升级到Python3时那么严重,但版本更新多了,问题累计也就多了,也就成大问题了。

解决这个问题,似乎只要企业形成共识,找到一个“稳定版”即可,事实上很多工具软件都有类似的问题且可以采用这样的办法,但对于Python来讲却并没有那么容易。

Python之所以强大,很大程度上依赖于它丰富的第三方库包,这些库包很多是独立开发的,很少考虑和其它包的兼容性。这一方面会带来非凡的灵活性和高速的成长性,但另一方面这种野蛮生长带来的包与包不兼容、包的版本与Python版本不兼容的情况也并不奇怪。其他软件通常有一个官方的权威机构把关,一是出现不兼容的情况少,二是即使真的出现了,也会事先公布,减少不必要的麻烦。而Python的库包却没有这样的权威机构,包的开发者都很难搞清哪个库包与哪个库包或哪个Python版本不兼容,普通程序员更是无所适从。在个人开发过程中,这也不是什么大问题,自己选择兼容的库包和Python版本就行。但在企业级应用中,这一问题就会被放大,A应用依赖的库包与B应用依赖的库包不兼容,C应用又与D应用冲突…。虽然采用Docker和虚拟机等手段可以实现隔离避免互相影响,但仍然要维护着几套甚至几十套和应用对应的Python版本,不说这些技术本身带来的额外开销问题,光是维护这些Python版本也是个灾难了。

SPL 解决 Python 硬伤
esProc SPL(以下简称SPL)是一款专门用于结构化数据计算的开源程序语言,它本来就是为解决SQL的困难(复杂任务很难写且跑得慢、跨源计算难、依赖存储过程等)而设计的。和Python一样可以搞定SQL及存储过程的各类缺点,同时延续其优点,。

SPL提供不依赖数据库的计算能力,数据库更换不需要更改 SPL 计算脚本,解决存储过程的移植性问题;简洁易用的 IDE 环境编辑调试功能齐全,算法实现更加简单;SPL 体系更加开放,可以直接使用多样数据源计算;“外置存储过程”不依赖数据库,可随应用存放解决耦合性问题;借助文件系统的树状结构进一步解决管理问题;SPL 独立数据库运行,更不会带来安全问题。

SPL还能解决Python的硬伤。

高效的大数据运算
首先还是要肯定Python在内存计算时的性能,基础函数(groupby,merge等)性能并不差,尤其是纯数字的矩阵运算,更是它所擅长的。

SPL在多数内存计算场景中是优于Python的,详细的性能对比可以查看乾学院以下两篇文章。

《Python 和 SPL 数据读取与计算性能测试对比》

《Python 和 SPL 在数据处理方面的性能对比》

除此之外,SPL还拥有Python不具备的大数据运算和并行运算能力,也拥有btx、ctx二进制数据文件格式,可以大幅度提高数据读写效率,设计好的存储方式还可以减少计算量,这也是SPL所特有的优势。

SPL不仅拥有大数据运算能力,而且还力求在使用上和内存运算相同,比如:
QQ_1737448111249.png

这是一段采用游标机制对大数据进行分组汇总的代码。单看A3并不能区分是内存计算还是游标计算,因为它和内存计算时的代码是一样的。

SPL还很方便并行,并行代码也很简单,只要在A2和A3中加上@m选项即可:

A2=file(A1).cursor@mt()

A3= A2.groups@m(state;sum(amount):amount)

SPL会自动采用多路游标的方式并行读取数据并完成计算。

除分组汇总外,SPL的游标还支持各种聚合、关联以及集合运算等常见的大数据运算,不仅可以并行提高性能,还能利用游标/管道的遍历复用技术减少数据读取量,进一步提高大数据运算性能。

之前说过,大数据的运算性能很大程度上和数据IO相关,SPL为此提供了两种高性能文件存储类型:集文件(.btx)和组表(.ctx)。集文件采用了压缩技术(占用空间更小读取更快),存储了数据类型(无需解析数据类型读取更快),支持可追加数据的倍增分段机制,利用分段策略很容易实现并行计算,保证计算性能。组表支持列式存储,在参与计算的列数(字段)较少时会有巨大优势。组表上还实现了索引,同时也支持倍增分段,这样不仅能享受到列存的优势,也更容易并行提升计算性能。

一致的版本
SPL由商业公司开发维护,可以保证SPL不存在不兼容的版本,虽然版本更新时,难免会有小改动,但不会像Python那么烦,不会出现开发人员将自己代码部署到服务器后出现版本不兼容的情况。

还有更多
相较于Python,SPL还有一些其他优势,比如SPL开发更简单,也方便应用集成。

比如,计算某支股票每天的涨跌幅,Python代码:

stock_pre=stock ["CLOSING"].shift(1)

stock ["RATE"]=stock ["CLOSING"]/ stock_pre -1

用shift()偏移索引完成计算。

计算某支股票连续 5 个交易日的移动平均值,Python代码:

stock ["MAVG"]=stock ["CLOSING"].rolling(5,min_periods=1).mean()

用rolling ()生成迭代对象完成。

这两个问题其实都是获取相邻数据进行计算的问题,Python却以“一题一解”的方式完成,相似的问题完全不同的解决方式,这无形中增大了学习成本。

SPL就没有这个问题:

RATE=stock.(if(#==1,null,CLOSING/CLOSING[-1]-1))

MAVG= A2. (CLOSING[-4:0].avg())

两句代码都可以用[]来获取相邻数据,区别仅仅是获取之前一条数据CLOSING [-1]还是获取之前4条数据CLOSING [-4:0],开发者只要掌握[]的用法就可以轻松完成这类问题。

这种语法一致性问题也是由于Python缺少主管机构而“野蛮生长”的结果,适应能力虽强但缺少“规矩”,很难被开发者掌控;而SPL则是精心设计的,计算能力强且守“规矩”,很容易被掌控。

另外,Python在结构化运算方面也有所欠缺,比如有序分组,Python只能创建序相关的衍生列,然后绕到常规分组上来做,这不仅开发起来困难,而且运行效率也不高。SPL则提供了相关的方法和选项(group@o()),充分利用数据有序的特点,降低开发难度同时提高运算性能。乾学院《SPL 和 Python 应用于结构化数据处理的对比》中有关于这方面的详细论述。

对于企业级应用,还要关心集成的问题,现代应用很多是J2EE体系的,Python与Java应用配合时往往要跑成两个进程,调用性能和稳定性都不好;SPL是纯Java开发的,可以完全无缝地集成进Java应用中,从而被无数成熟的Java框架管理和运维,享受平衡负载、弹性扩展、安全控制等能力,调用性能和稳定性都很好。

SPL已开源免费,欢迎前往乾学院了解更多!

相关文章
|
15天前
|
供应链 监控 安全
对话|企业如何构建更完善的容器供应链安全防护体系
阿里云与企业共筑容器供应链安全
171335 12
|
18天前
|
供应链 监控 安全
对话|企业如何构建更完善的容器供应链安全防护体系
随着云计算和DevOps的兴起,容器技术和自动化在软件开发中扮演着愈发重要的角色,但也带来了新的安全挑战。阿里云针对这些挑战,组织了一场关于云上安全的深度访谈,邀请了内部专家穆寰、匡大虎和黄竹刚,深入探讨了容器安全与软件供应链安全的关系,分析了当前的安全隐患及应对策略,并介绍了阿里云提供的安全解决方案,包括容器镜像服务ACR、容器服务ACK、网格服务ASM等,旨在帮助企业构建涵盖整个软件开发生命周期的安全防护体系。通过加强基础设施安全性、技术创新以及倡导协同安全理念,阿里云致力于与客户共同建设更加安全可靠的软件供应链环境。
150296 32
|
26天前
|
弹性计算 人工智能 安全
对话 | ECS如何构筑企业上云的第一道安全防线
随着中小企业加速上云,数据泄露、网络攻击等安全威胁日益严重。阿里云推出深度访谈栏目,汇聚产品技术专家,探讨云上安全问题及应对策略。首期节目聚焦ECS安全性,提出三道防线:数据安全、网络安全和身份认证与权限管理,确保用户在云端的数据主权和业务稳定。此外,阿里云还推出了“ECS 99套餐”,以高性价比提供全面的安全保障,帮助中小企业安全上云。
201962 14
对话 | ECS如何构筑企业上云的第一道安全防线
|
3天前
|
机器学习/深度学习 自然语言处理 PyTorch
深入剖析Transformer架构中的多头注意力机制
多头注意力机制(Multi-Head Attention)是Transformer模型中的核心组件,通过并行运行多个独立的注意力机制,捕捉输入序列中不同子空间的语义关联。每个“头”独立处理Query、Key和Value矩阵,经过缩放点积注意力运算后,所有头的输出被拼接并通过线性层融合,最终生成更全面的表示。多头注意力不仅增强了模型对复杂依赖关系的理解,还在自然语言处理任务如机器翻译和阅读理解中表现出色。通过多头自注意力机制,模型在同一序列内部进行多角度的注意力计算,进一步提升了表达能力和泛化性能。
|
8天前
|
存储 人工智能 安全
对话|无影如何助力企业构建办公安全防护体系
阿里云无影助力企业构建办公安全防护体系
1253 10
|
10天前
|
机器学习/深度学习 自然语言处理 搜索推荐
自注意力机制全解析:从原理到计算细节,一文尽览!
自注意力机制(Self-Attention)最早可追溯至20世纪70年代的神经网络研究,但直到2017年Google Brain团队提出Transformer架构后才广泛应用于深度学习。它通过计算序列内部元素间的相关性,捕捉复杂依赖关系,并支持并行化训练,显著提升了处理长文本和序列数据的能力。相比传统的RNN、LSTM和GRU,自注意力机制在自然语言处理(NLP)、计算机视觉、语音识别及推荐系统等领域展现出卓越性能。其核心步骤包括生成查询(Q)、键(K)和值(V)向量,计算缩放点积注意力得分,应用Softmax归一化,以及加权求和生成输出。自注意力机制提高了模型的表达能力,带来了更精准的服务。
|
8天前
|
人工智能 自然语言处理 程序员
通义灵码2.0全新升级,AI程序员全面开放使用
通义灵码2.0来了,成为全球首个同时上线JetBrains和VSCode的AI 程序员产品!立即下载更新最新插件使用。
1347 24
|
8天前
|
消息中间件 人工智能 运维
1月更文特别场——寻找用云高手,分享云&AI实践
我们寻找你,用云高手,欢迎分享你的真知灼见!
658 26
1月更文特别场——寻找用云高手,分享云&AI实践
|
8天前
|
机器学习/深度学习 人工智能 自然语言处理
|
14天前
|
人工智能 自然语言处理 API
阿里云百炼xWaytoAGI共学课DAY1 - 必须了解的企业级AI应用开发知识点
本课程旨在介绍阿里云百炼大模型平台的核心功能和应用场景,帮助开发者和技术小白快速上手,体验AI的强大能力,并探索企业级AI应用开发的可能性。