spark MLlib中操作向量需要注意的地方有哪些?
1.向量由两种,稠密向量和稀疏向量,稠密向量把所有维度的值放在一个浮点数数组中,稀疏向量把各个维度的非0值存储下来,当最多10%元素为非零元素,考虑使用稀疏向量,减少内存,优化速度
2.创建向量的方式在各个语言中由细微差别,在python中,Numpy数组表示一个稠密向量,或者用mllib.linalg.Vectors类,的Vectors.dense([1.0,2.0])创建,数据也可以根据字典或者两个分别代表位置和值的list来传递Vectors.sparse(4,{0:1.0,2:2.0}),Vectors.sparse(4,[0,2],[1.0,2.0]),java,Scala也是用这个类,在java和scala中,MLlib的vector类只是用来为数据表示服务的。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。