机器学习PAI有没有feature-generate-mr 的文档啊?
DROP TABLE IF EXISTS test_mapreduce;
CREATE TABLE IF NOT EXISTS test_mapreduce
(
pro_id STRING
,request_id string
,dt STRING
,click_seq STRING
,add_seq string
,buy_seq string
,lover_seq string
)
PARTITIONED BY (ds STRING COMMENT '分区')
LIFECYCLE 7
;
--@resource_reference{"feature-generate-mr-v1.5.jar"}
jar -resources feature-generate-mr-v1.5.jar
-classpath feature-generate-mr-v1.5.jar
com.aliyun.pai.feature_generate_mr.SeqFeature
-pid "pro_id"
-pid_type "string"
-time_stamp "dt"
-time_stamp_type "string"
-event "event"
-valid_events "click,add,buy,lover"
-valid_event_selections "click,add,buy,lover|like"
-seq_fields "stock_number,price,event,dt,sz_stock_number,js_stock_number"
-seq_fields_side "item,item,user,user,item,item"
-seq_len "10,8,6,3"
-input_table "test_seq_data"
-output_table "test_mapreduce/ds=20211230"
-default_v "-1024"
-event_seq_type "split"
-sequence_delim "?"
-attribute_delim "*"
-pre_seconds "300"
-requestid "request_id"
;
-pid: 只能是一个,一般是userid,表示给谁创造序列
-pid_type pid的数据类型,是string or bigint
-time_stamp: 时间戳,用来排序,并且会保留在原表上的
-time_stamp_type time_stamp的数据类型,是string or bigint
-event: 表示输入表中的行为时间的名称
-valid_events: 有效的事件类构成的序列名称,和最结果表挂钩,都好分割,分割后的数量和valid_event_selections都好分割后的数量一样多
-valid_event_selections: 有效事件类型的具体行为名,一个事件类型可以包含多个具体行为名,例如 click 可以包含 discover_click 和 popular_click, 输入时以 "|" 分隔
-seq_fields: 序列特征中包含哪些字段,用逗号分割;并且根据第一个子特征会在序列特征中去重
-seq_fields_side 序列特征子特征的属性,属于user侧或者item侧
-seq_len: 序列长度,1个值时,表示所有的序列都是这么长,多个值时则需要等于valid_events的配置数量,表示不同的事件类型有不同的序列长度
-input_table 输入表,可以是分区表活非分区表
-output_table 输出表,要预先存在
-default_v 表示序列字段是空的默认值,改配置是一个值的时候则seq_fields的所有空都是改值,改值数量配置多个的时候,数量必须等于seq_fields的数量,表示对应位字段是null的填充值
-event_seq_type 表示序列生成类型,等于all,则以上的行为事件类型会融合生成一个序列特征,如果不是all,则以上行为事件类型按照不同的事件类型会生成不同的序列特征
-sequence_delim 序列特征之间的分割符号
-attribute_delim 序列特征子特征的分割符号
-pre_seconds 多少秒之前发生的行为才可以构成序列,防止穿越用的
-requestid 行为表的请求id字段,可以不配置,则每秒输出一次结果,同时输出表应该没有请求id的字段。如果有,则每个用户,每个requestid输出一次
,此回答整理自钉群“【EasyRec】推荐算法交流群”
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。