文档备案控制台

开发者社区问答正文

PySpark：如何从spark数据框创建嵌套的JSON？

我试图从我的spark数据帧创建一个嵌套的json，它具有以下结构的数据。下面的代码创建了一个带键和值的简单json。

df.coalesce(1).write.format('json').save(data_output_file+"createjson.json", overwrite=True)
Update1：根据@MaxU的回答，我将spark数据帧转换为pandas并使用group by。它将最后两个字段放在嵌套数组中。我怎么能首先把类别和计数放在嵌套数组中，然后在那个数组里面我想要放置子类别和计数。

示例文本数据：

Vendor_Name,count,Categories,Category_Count,Subcategory,Subcategory_Count
Vendor1,10,Category 1,4,Sub Category 1,1
Vendor1,10,Category 1,4,Sub Category 2,2
Vendor1,10,Category 1,4,Sub Category 3,3
Vendor1,10,Category 1,4,Sub Category 4,4

j = (data_pd.groupby(['vendor_name','vendor_Cnt','Category','Category_cnt'], as_index=False)

         .apply(lambda x: x[['Subcategory','subcategory_cnt']].to_dict('r'))
         .reset_index()
         .rename(columns={0:'subcategories'})
         .to_json(orient='records'))

[{

    "vendor_name": "Vendor 1",
    "count": 10,
    "categories": [{
        "name": "Category 1",
        "count": 4,
        "subCategories": [{
                "name": "Sub Category 1",
                "count": 1
            },
            {
                "name": "Sub Category 2",
                "count": 1
            },
            {
                "name": "Sub Category 3",
                "count": 1
            },
            {
                "name": "Sub Category 4",
                "count": 1
            }
        ]
    }]

展开

收起

社区小助手 2018-12-06 15:17:35 3193 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

社区小助手

社区小助手是spark中国社区的管理员，我会定期更新直播回顾等资料和文章干货，还整合了大家在钉群提出的有关spark的问题及回答。

在python / pandas中执行此操作的最简单方法是使用groupby我认为使用一系列嵌套生成器：

def split_df(df):

for (vendor, count), df_vendor in df.groupby(["Vendor_Name", "count"]):
    yield {
        "vendor_name": vendor,
        "count": count,
        "categories": list(split_category(df_vendor))
    }

def split_category(df_vendor):

for (category, count), df_category in df_vendor.groupby(
    ["Categories", "Category_Count"]
):
    yield {
        "name": category,
        "count": count,
        "subCategories": list(split_subcategory(df_category)),
    }

def split_subcategory(df_category):

for row in df.itertuples():
    yield {"name": row.Subcategory, "count": row.Subcategory_Count}

list(split_df(df))
[

{
    "vendor_name": "Vendor1",
    "count": 10,
    "categories": [
        {
            "name": "Category 1",
            "count": 4,
            "subCategories": [
                {"name": "Sub Category 1", "count": 1},
                {"name": "Sub Category 2", "count": 2},
                {"name": "Sub Category 3", "count": 3},
                {"name": "Sub Category 4", "count": 4},
            ],
        }
    ],
}

]
要将其导出json，您需要一种导出方式np.int64

2019-07-17 23:18:33

赞同展开评论

问答分类：

JSON 分布式计算数据格式 Spark Python

问答标签：

JSON嵌套 spark JSON Apache Spark json pyspark apache spark apache spark pyspark

问答地址：

开发者社区 > 大数据 > 问答

相关问答

如何通过Kafka Connector解析嵌套JSON格式的数据

263

1

0

Maxcompute怎么获取JSON嵌套数据

174

1

0

大数据计算MaxCompute有解析嵌套 json的demo么？

73

0

0

flink里pyspark ,通过 spark-submit 这种方式提交作业，报错依赖缺失咋办？

209

1

0

dataworks调用odps的spark中的pyspark代码报错找不到main函数什么情况啊？

157

1

0

大数据计算MaxCompute这边有没有解析嵌套json数组的案例？

188

1

0

DataWorks中ODPS SPARK节点pyspark使用第三方包

105

1

0

OpenSearch行业算法版和高性能检索版是否支持 json 嵌套数据

534

1

0

大数据计算MaxCompute有解析嵌套 json的demo么？

510

3

0

如何在dataworks里面的odps spark节点使用pyspark环境，如何import --

210

2

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

如何在阿里云服务器上部署网站？2026年阿里云服务器怎么选？

部署OpenClaw多少钱？2026年阿里云 OpenClaw（Clawdbot）怎么部署及收费标准

阿里云百炼Coding Plan是什么意思？

有传言通义灵码不再增加新功能了，是这样吗？

OpenClaw（原Clawdbot）阿里云一键部署后，2026年有哪些应用场景可用到？

相关文章

超全基于模块化多电平（MMC）两端柔性直流输电系统simulink仿真（仿真模型+毕业设计报告+文献）

基于虚拟同步发电机控制（VSG）实现模块化多电平（MMC）并网仿真（参考文献+仿真模型）

抖音弹幕游戏开发之第10集：整合 - 弹幕触发键盘操作·优雅草云桧·卓伊凡

全球生成式AI “领导者” ——阿里云，中国AI云市场份额超过2-4名总和

碾压级优势！阿里云AI云市场份额超过2-4名总和，2026新晋AI时代”领导者“

相关解决方案

更多

基于数据闪回，快速恢复数据

数据守护：防勒索攻击数据保障

分析 Agent 实现一键 AI 数据洞察

多模态数据信息提取

高效存储和处理多媒体数据

还有其他疑问?