开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

DataWorks有从HDFS到OSS同步数据的向导模式样例吗?

DataWorks有从HDFS到OSS同步数据的向导模式样例吗?或者脚本模式也行,现在测试数据同步,任务一直是0%不动,从文档也找不到配置向导?

展开
收起
真的很搞笑 2023-10-22 20:51:34 71 0
3 条回答
写回答
取消 提交回答
  • 在阿里云的DataWorks中,你可以使用数据同步任务来实现从HDFS到OSS的数据同步。以下是使用向导模式的步骤:

    1. 登录到阿里云的控制台。

    2. 在控制台的顶部导航栏,找到并点击"产品导航"。

    3. 在"产品导航"的下拉菜单中,找到并点击"数据工场"。

    4. 在"数据工场"的页面中,找到并点击"项目管理"。

    5. 在"项目管理"的页面中,找到并点击你想要创建数据同步任务的项目。

    6. 在项目的详细信息页面中,找到并点击"数据同步"选项。

    7. 在"数据同步"的页面中,找到并点击"创建数据同步"按钮。

    8. 在"创建数据同步"的页面中,选择"数据同步",然后点击"下一步"。

    9. 在"选择数据来源"的页面中,选择你的HDFS数据源,然后点击"下一步"。

    10. 在"选择目标存储"的页面中,选择你的OSS数据源,然后点击"下一步"。

    11. 在"配置数据同步"的页面中,你可以配置数据同步的任务。然后点击"下一步"。

    12. 在"确认信息"的页面中,确认你的配置,然后点击"创建"。

    这样,你就可以创建一个从HDFS到OSS的数据同步任务了。如果你的任务一直处于0%的状态,可能是因为你的数据源或者数据同步任务配置有问题。你可以检查一下你的配置,确保它是正确的。

    2023-10-23 11:23:29
    赞同 展开评论 打赏
  • hadoop集群和独享集成资源组是不是没有做过网络打通呀 试了一下10.20.1.210 ping不通 可以参考看下,【网络打通解决方案】 >选择网络连通方案文档
    step1:选择网络打通方式
    image.png

    step2:在配置资源组与网络连通文档中搜索对应的场景,并参考案例图示打通。

    云企业网使用场景示例,请参见云企业网。
    高速通道使用场景示例,请参见高速通道。
    VPN网关使用场景示例,请参见VPN网关。
    建议是参考这个方案做一下内网的网络打通 需要资源组和hadoop集群所有的节点都打通一下 放开50010 8010等端口号,此回答整理自钉群“DataWorks交流群(答疑@机器人)”

    2023-10-23 05:40:58
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    DataWorks提供了从HDFS到OSS同步数据的脚本模式样例,您可以在DataWorks的开发环境或生产环境中运行该样例,以实现从HDFS到OSS的数据同步。

    以下是一个从HDFS到OSS的数据同步脚本样例:

    import os
    import subprocess
    import time
    
    # HDFS文件路径
    hdfs_file_path = "/hdfs/user/user_name/data.txt"
    
    # OSS文件路径
    oss_file_path = "oss://bucket_name/data.txt"
    
    # 同步文件
    subprocess.run(["hadoop", "fs", "-copyFromLocal", hdfs_file_path, oss_file_path])
    
    # 等待文件同步完成
    time.sleep(60)
    
    # 检查文件是否同步完成
    subprocess.run(["hadoop", "fs", "-test", "-e", oss_file_path])
    

    在运行该脚本之前,您需要确保Hadoop和OSS都已经配置好,并且在DataWorks的开发环境或生产环境中可以正常运行。

    2023-10-22 22:28:47
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 热门讨论

    热门文章

    相关电子书

    更多
    DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks调度任务迁移最佳实践-2020飞天大数据平台实战应用第一季 立即下载
    基于DataWorks数据服务构建疫情大屏-2020飞天大数据平台实战应用第一季 立即下载