开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

如何批量将本地的excel数据上传到maxcomputer下的表?

如何批量将本地的excel数据上传到maxcomputer下的表?

展开
收起
十一0204 2023-04-04 23:07:19 193 0
2 条回答
写回答
取消 提交回答
  • 意中人就是我呀!

    先在datastudio建好mc的开发表 然后倒入数据 。 cf16271ccdf2ea6cf6736ecf9749140c.png 或者批量的方式 看看本地直接连接mc项目 tunnel 之类的 能不能实现 https://help.aliyun.com/document_detail/27968.html。此回答整理自钉群“DataWorks交流群(答疑@机器人)”

    2023-04-05 13:38:22
    赞同 展开评论 打赏
  • 公众号:网络技术联盟站,InfoQ签约作者,阿里云社区签约作者,华为云 云享专家,BOSS直聘 创作王者,腾讯课堂创作领航员,博客+论坛:https://www.wljslmz.cn,工程师导航:https://www.wljslmz.com

    在DataWorks中,可以使用MaxCompute的Tunnel工具来实现将本地的Excel数据批量上传到MaxCompute表的功能。具体步骤如下:

    1、准备Excel数据:将需要上传的数据存储在本地Excel文件中,确保数据格式正确并且符合MaxCompute表的结构要求。

    2、创建MaxCompute表:在MaxCompute中创建一个表,确保表的结构和Excel文件中的数据结构匹配。

    3、上传Excel数据到OSS:在阿里云OSS中创建一个Bucket,将Excel文件上传到OSS中。可以使用OSS控制台或者OSS API实现。

    4、使用Tunnel工具将Excel数据导入MaxCompute表:在DataWorks中使用Tunnel工具将OSS中的Excel数据导入MaxCompute表。具体操作步骤如下:

    在DataWorks中创建一个ODPS SQL节点,输入以下命令创建一个ODPS Tunnel服务对象:

    odps = context.create_odps(endpoint='http://service.odps.aliyun.com/api', project='myproject', access_id='your_access_id', access_key='your_access_key')
    tunnel = odps.tunnel
    

    使用Tunnel服务对象创建一个Excel导入通道,并执行导入操作,例如:

    import os
    schema = 'col1:string,col2:string,col3:bigint'  #表结构
    table_name = 'mytable'  #MaxCompute表名
    file_name = 'oss://mybucket/myfile.xls'  #Excel文件在OSS中的路径
    partition_spec = 'pt=20220406'  #分区信息
    task_id = tunnel.create_upload_session(table_name, partition_spec=partition_spec, schema=schema).id
    upload_id = tunnel.get_upload_id(task_id)
    record_count = tunnel.upload(upload_id, file_name)
    print('Upload %d records from %s to table %s partition %s.' % (record_count, file_name, table_name, partition_spec))
    

    5、执行ODPS SQL任务:在DataWorks中创建一个ODPS SQL节点,使用ODPS SQL语句查询并验证MaxCompute表中的数据是否已经导入成功。

    需要注意的是,Tunnel工具上传数据时的效率会受到网络带宽和文件大小的影响,如果数据量较大,可以考虑将Excel文件拆分成多个小文件分批上传,以提高上传效率。

    2023-04-05 09:19:29
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

热门讨论

热门文章

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载