在大数据计算MaxCompute中,客户在云下使用spark访问odps数据,当前如果odps中的表为oss外表(使用内网)运行报错。
分析:在云下 ping不通 这个 internal 的地址,想修改为公网试试,如果不能通过公网访问,云下的spark程序如何才能访问oss外表数据呢?
在云下使用Spark访问ODPS数据时,如果ODPS中的表为OSS外表(使用内网),运行报错的原因可能是无法通过内网访问到OSS。为了解决这个问题,你可以尝试以下方法:
CREATE EXTERNAL TABLE your_table_name (column_name column_type)
STORED AS OSS
TBLPROPERTIES (
'storage.oss.bucket'='your_bucket_name',
'storage.oss.endpoint'='your_oss_endpoint',
'storage.oss.accessKeyId'='your_access_key_id',
'storage.oss.accessKeySecret'='your_access_key_secret',
'storage.oss.location'='your_folder_path',
'storage.oss.storageType'='EXTERNAL_BUCKET_PUBLIC'
);
如果仍然无法通过公网访问OSS,你可以考虑在云下搭建一个VPN或专线,将云下的网络与阿里云VPC进行连接。这样,云下的Spark程序就可以通过内网访问OSS外表数据了。具体的网络配置需要根据你的实际情况和阿里云提供的文档进行操作。
如果以上方法都无法解决问题,你还可以考虑将OSS数据迁移到其他支持内网访问的存储服务,如阿里云的MaxCompute、Hadoop HDFS等。然后将这些存储服务作为数据源,供云下的Spark程序访问。
spark访问oss,看下这篇,有几个配置加一下:https://help.aliyun.com/zh/maxcompute/user-guide/access-oss-from-spark-on-maxcompute?spm=a2c4g.11186623.0.i61#section-3bk-kb8-lbd 此回答来自钉群“MaxCompute开发者社区1群”
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。