开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

DataWorks中如何配置分区表的内存读取数据至内存?

DataWorks中如何配置分区表的内存读取数据至内存?

展开
收起
真的很搞笑 2023-07-16 14:21:09 81 0
3 条回答
写回答
取消 提交回答
  • 北京阿里云ACE会长

    在DataWorks中,可以通过以下步骤配置分区表的内存读取数据至内存:

    创建ODPS分区表:在DataWorks中,可以使用ODPS创建分区表,以实现数据的按照分区进行存储和查询。具体操作可以参考ODPS官方文档或DataWorks相关文档。

    配置ODPS分区表的参数:在DataWorks中,可以在ODPS分区表的属性面板中配置参数,以实现内存读取数据至内存。具体参数包括:

    odps.sql.hints.memory: 用于配置内存使用量,可以设置为较大的值,以提高内存读取效率。

    odps.sql.skip.merge.block: 用于配置是否跳过合并小文件,可以设置为true,以加快内存读取速度。

    odps.sql.block.size: 用于配置块大小,可以设置为较大的值,以提高内存读取速度。

    编写ODPS SQL语句:在DataWorks中,可以使用ODPS SQL语句进行数据查询和处理。在编写ODPS SQL语句时,需要按照分区进行查询,并将查询结果保存至内存中。具体SQL语句可以参考ODPS官方文档或DataWorks相关文档。

    配置数据同步任务:在DataWorks中,可以配置数据同步任务,将ODPS分区表的查询结果同步至内存中。具体操作可以参考DataWorks相关文档和教程。

    2023-07-21 20:21:46
    赞同 展开评论 打赏
  • 在DataWorks中,配置分区表的内存读取数据至内存可以通过以下步骤完成:

    1. 登录DataWorks控制台,选择对应的项目空间。
    2. 进入数据开发功能,在左侧导航栏中选择“数据集成”。
    3. 在数据集成页面,选择需要配置内存读取数据的分区表。
    4. 点击选中的分区表,进入编辑页面。
    5. 在编辑页面的右上角,点击“高级设置”按钮。
    6. 在弹出的高级设置对话框中,找到“采用内存数据读取和处理”选项。
    7. 开启“采用内存数据读取和处理”的选项。

    开启了“采用内存数据读取和处理”选项后,DataWorks会尽可能将分区表的数据加载到内存中进行读取和处理,以提高性能和效率。

    请注意,内存读取数据至内存是一种优化配置,它适用于数据量较小且可完全放入内存的情况。如果数据量较大或超过内存容量,建议不要开启该选项,以避免内存溢出等问题。

    2023-07-18 14:26:36
    赞同 展开评论 打赏
  • 配置非分区表配置从Hologres非分区表读取数据至内存,如下所示。 {"type":"job","version":"2.0",//版本号。"steps":[{"stepType":"holo",//插件名。"parameter":{"endpoint": "instance-id-region-endpoint.hologres.aliyuncs.com:port","accessId": "", //访问Hologres的accessId。"accessKey": "", //访问Hologres的accessKey。"database": "postgres","table": "holoreader","column" : [ //字段。"tag","id","title"]},"name":"Reader","category":"reader"},{"stepType":"stream","parameter":{},"name":"Writer","category":"writer"}],"setting":{"errorLimit":{"record":"0"//错误记录数。},"speed":{"throttle":true,//当throttle值为flase时,mbps参数不生效,表示不限流;当throttle值为true时,表示限流。"concurrent":1,//作业并发数。"mbps":"12"//限流}},"order":{"hops":[{"from":"Reader","to":"Writer"}]}}Hologres表的DDL语句,如下所示。 begin;drop table if exists holo_reader_basic_src;create table holo_reader_basic_src(tag text not null,id int not null,title text not null,body text,primary key (tag, id));call set_table_property('holo_reader_basic_src', 'orientation', 'column');call set_ta
    https://help.aliyun.com/document_detail/158323.html
    ,此回答整理自钉群“DataWorks交流群(答疑@机器人)”

    2023-07-16 14:29:33
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 相关电子书

    更多
    阿里云AnalyticDB+Data Works 企业数仓构 立即下载
    DataWorks高效数据分析最佳实践-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks全链路数据质量解决方案-2020飞天大数据平台实战应用第一季 立即下载

    相关实验场景

    更多