请问大数据平台容器化后HDFS运行在哪里?

请问大数据平台容器化之后,flink、spark等计算任务运行到容器上了,那相应原有部署模式下计算任务读写数据存储的HDFS运行在哪里?读写性能相对原有物理机部署模式有多大差异?

参与7

3同行回答

强哥之神强哥之神架构师&技术经理上汽集团云计算中心
原有部署模式下计算任务读写数据存储的HDFS通常也会在容器化环境中部署,但需要注意以下几点:1、HDFS可以作为独立的服务容器化部署,或者作为容器内的数据卷挂载到计算任务的容器中。通常会使用分布式存储系统(如Ceph、GlusterFS)来实现数据持久化和共享。2、 计算任务容器和HD...显示全部

原有部署模式下计算任务读写数据存储的HDFS通常也会在容器化环境中部署,但需要注意以下几点:
1、HDFS可以作为独立的服务容器化部署,或者作为容器内的数据卷挂载到计算任务的容器中。通常会使用分布式存储系统(如Ceph、GlusterFS)来实现数据持久化和共享。
2、 计算任务容器和HDFS容器之间需要建立网络通信,确保数据的读写流畅。可以通过K8S的Service或Ingress暴露HDFS服务,并通过networkpolicy来控制访问权限和流量。

至于读写性能相对原有物理机部署模式有多大差异,一般来说,容器化部署相对于传统物理机部署可能会存在一些性能上的差异,主要取决于容器化环境的配置、底层基础设施的性能、网络延迟等因素。一般情况下,合理配置的容器化环境和高性能的存储系统可以实现接近甚至超过传统物理机部署模式的性能。

收起
互联网服务 · 2天前
浏览37
dean25dean25课题专家组软件架构设计师民生银行
大数据平台容器化之后,flink、spark等计算任务运行到容器上了,那相应原有部署模式下计算任务读写数据存储的HDFS运行在哪里?根据你的问题,我谈谈我的一些经验和看法,大数据容器化混合部署后,容器化只是计算部分容器化,作业容器也是运行在物理的容器宿主机上,计算部分性能和原有物...显示全部

大数据平台容器化之后,flink、spark等计算任务运行到容器上了,那相应原有部署模式下计算任务读写数据存储的HDFS运行在哪里?
根据你的问题,我谈谈我的一些经验和看法,大数据容器化混合部署后,容器化只是计算部分容器化,作业容器也是运行在物理的容器宿主机上,计算部分性能和原有物理机部署方式没有差异。hdfs可以还是用原有的hdfs,实现存算分离。 通过测试,存储密集型作业性能在存算分离场景下有一定影响(<15%),但是在可接受的范围内。希望这个可以对你有帮助。

收起
银行 · 2024-05-08
浏览114
jillmejillme课题专家组CIO某大型银行
个人理解hdfs在容器外,和原来一样,只是原来是直接访问,现在是容器化后挂载存储卷显示全部

个人理解hdfs在容器外,和原来一样,只是原来是直接访问,现在是容器化后挂载存储卷

收起
银行 · 2024-05-07
浏览103

ChatGPT 回答

在大数据平台容器化后,计算任务如flink、spark等可能会运行在容器中,而原有部署模式下的HDFS(Hadoop分布式文件系统)可以选择以下几种方式运行:

  1. 在容器内运行HDFS:可以将HDFS作为一个容器运行在同一集群中,这样计算任务可以直接通过网络连接到容器内的HDFS进行数据读写。这种方式可以保持与原有部署模式下相似的读写性能。
  2. 在宿主机上运行HDFS:可以将HDFS作为一个宿主机上的进程运行,计算任务可以通过网络连接到宿主机上的HDFS进行数据读写。这种方式可能会带来一些性能损失,因为计算任务需要通过网络进行数据传输。
  3. 使用外部存储:可以将HDFS部署在独立的物理机或云存储中,计算任务通过网络连接到外部存储进行数据读写。这种方式可能会带来更大的性能损失,因为计算任务需要通过网络进行数据传输,并且可能会受到网络带宽和延迟的限制。

总体而言,大数据平台容器化后,计算任务读写数据存储的HDFS的性能可能会相对原有物理机部署模式有一定的差异。具体差异的大小取决于容器化部署的具体方式以及网络传输的性能。为了最大程度地减少性能损失,可以考虑将HDFS作为一个容器运行在同一集群中,或者将HDFS部署在宿主机上,并且尽量减少计算任务与HDFS之间的网络传输。

提问者

Breeze
大数据工程师保险集团
擅长领域: 大数据云计算容器

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2024-04-23
  • 关注会员:4 人
  • 问题浏览:647
  • 最近回答:2天前
  • X社区推广