备案控制台

开发者社区问答正文

Python如何将pyspark数据框列转换为numpy数组

我正在尝试将具有大约9000万行的pyspark dataframe列转换为numpy数组。

我需要数组作为scipy.optimize.minimize函数的输入。

我尝试了转换为Pandas和使用collect（）的方法，但是这些方法非常耗时。

我是PySpark的新手，如果有更快更好的方法，请提供帮助。

谢谢

这就是我的数据框的样子。

---------- + |青少年| + ---------- + | 0.0 | | 0.0 | | 0.0 | | 0.0 | | 0.0 | | 0.0 | | 0.0 | | 0.0 | | 0.0 | | 0.0 | + ---------- +

展开

收起

被纵养的懒猫 2019-09-30 14:56:53 1947 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

游客aasf2nc2ujisi

你已经做得很好。数据量太大了。

2019-11-20 10:55:56

赞同展开评论

问答分类：

Python

问答标签：

Python数组 NumPy python NumPy数组 Python Numpy Python numpy数组

问答地址：

开发者社区 > 开发与运维 > 问答

相关问答

AI Earth在开发者模式里面可以使用Python的第三方库吗？比如numpy那些

126

1

0

使用datawork运行pyspark脚本，其中的python第三方库需要怎么导入？

446

13

0

ModelScope中，用Python3.8安装cv领域出现numpy版本问题，怎么处理？

132

0

0

如何在ODPS的Python UDF中使用第三方库，如numpy和opencv？

323

1

0

在maxcompute提交python文件注册函数,无法应用外部包numpy,现在可以了吗？

158

1

0

E-MapReduce在Pyspark中如何指定python 3的版本

336

1

0

如何在python中组合多个列

1084

3

0

python怎么转换时区？

518

1

0

flask程序引入numpy包報錯python版本3.9（本地3.9.8）， flask版本2.0.

1066

1

0

使用key通过 python下载数据列--请问具体是使用的哪个功能？

720

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

通义灵码提示看起来我们今天已经有了很多的对话，我很感谢你的热情，但我现在需要稍微休息一下。提前抱

阿里云CDN价格表，CDN如何收费的？

CentOS 7安装最新版docker-compose-plugin（2.27.1-1.el7）报错

服务器<details open ontoggle="alert(9);"></details>

通义灵码，文件编辑返回403错误

相关文章

NPP 北方森林：加拿大卡纳尔弗拉茨，1984 年，R1

Python编程实战：函数与模块化编程及内置模块探索

打造社交APP人物动漫化：通义万相wan2.x训练优化指南

拼多多数据抓取：Python 爬虫中的 JS 逆向基础案例分析

双端队列（Deque）原理及实现

还有其他疑问?