开发者社区 > 大数据与机器学习 > 人工智能平台PAI > 正文

机器学习PAI有没有feature-generate-mr 的文档啊?

机器学习PAI有没有feature-generate-mr 的文档啊?

展开
收起
真的很搞笑 2024-01-16 12:40:03 41 0
1 条回答
写回答
取消 提交回答
  • DROP TABLE IF EXISTS test_mapreduce;
    CREATE TABLE IF NOT EXISTS test_mapreduce
    (
    pro_id STRING
    ,request_id string
    ,dt STRING
    ,click_seq STRING
    ,add_seq string
    ,buy_seq string
    ,lover_seq string
    )
    PARTITIONED BY (ds STRING COMMENT '分区')
    LIFECYCLE 7
    ;

    --@resource_reference{"feature-generate-mr-v1.5.jar"}
    jar -resources feature-generate-mr-v1.5.jar
    -classpath feature-generate-mr-v1.5.jar
    com.aliyun.pai.feature_generate_mr.SeqFeature
    -pid "pro_id"
    -pid_type "string"
    -time_stamp "dt"
    -time_stamp_type "string"
    -event "event"
    -valid_events "click,add,buy,lover"
    -valid_event_selections "click,add,buy,lover|like"
    -seq_fields "stock_number,price,event,dt,sz_stock_number,js_stock_number"
    -seq_fields_side "item,item,user,user,item,item"
    -seq_len "10,8,6,3"
    -input_table "test_seq_data"
    -output_table "test_mapreduce/ds=20211230"
    -default_v "-1024"
    -event_seq_type "split"
    -sequence_delim "?"
    -attribute_delim "*"
    -pre_seconds "300"
    -requestid "request_id"
    ;

    配置介绍

    -pid: 只能是一个,一般是userid,表示给谁创造序列
    -pid_type pid的数据类型,是string or bigint
    -time_stamp: 时间戳,用来排序,并且会保留在原表上的
    -time_stamp_type time_stamp的数据类型,是string or bigint
    -event: 表示输入表中的行为时间的名称
    -valid_events: 有效的事件类构成的序列名称,和最结果表挂钩,都好分割,分割后的数量和valid_event_selections都好分割后的数量一样多
    -valid_event_selections: 有效事件类型的具体行为名,一个事件类型可以包含多个具体行为名,例如 click 可以包含 discover_click 和 popular_click, 输入时以 "|" 分隔
    -seq_fields: 序列特征中包含哪些字段,用逗号分割;并且根据第一个子特征会在序列特征中去重
    -seq_fields_side 序列特征子特征的属性,属于user侧或者item侧
    -seq_len: 序列长度,1个值时,表示所有的序列都是这么长,多个值时则需要等于valid_events的配置数量,表示不同的事件类型有不同的序列长度
    -input_table 输入表,可以是分区表活非分区表
    -output_table 输出表,要预先存在
    -default_v 表示序列字段是空的默认值,改配置是一个值的时候则seq_fields的所有空都是改值,改值数量配置多个的时候,数量必须等于seq_fields的数量,表示对应位字段是null的填充值
    -event_seq_type 表示序列生成类型,等于all,则以上的行为事件类型会融合生成一个序列特征,如果不是all,则以上行为事件类型按照不同的事件类型会生成不同的序列特征
    -sequence_delim 序列特征之间的分割符号
    -attribute_delim 序列特征子特征的分割符号
    -pre_seconds 多少秒之前发生的行为才可以构成序列,防止穿越用的
    -requestid 行为表的请求id字段,可以不配置,则每秒输出一次结果,同时输出表应该没有请求id的字段。如果有,则每个用户,每个requestid输出一次

    ,此回答整理自钉群“【EasyRec】推荐算法交流群”

    2024-01-16 13:33:00
    赞同 展开评论 打赏

人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。

相关产品

  • 人工智能平台 PAI
  • 热门讨论

    热门文章

    相关电子书

    更多
    微博机器学习平台架构和实践 立即下载
    机器学习及人机交互实战 立即下载
    大数据与机器学习支撑的个性化大屏 立即下载