大家好!中欣科技新一期的技术分享又到了;今天我们聊聊集群整合!
既然说到集群整合:那集群整合是什么意思呢:
集群整合即HPC集群系统:是一组联网计算机集群,用于协同处理大型的数据集合或计算任务。它们通常由集群管理软件、资源管理器和队列调度器组成,以提高计算效率。
【资料图】
HPC群集系统的主要特征包括:
1. 可扩展性:用户可以根据需要增加或减少集群节点的数量,以适应不同规模的计算任务或数据集合。
2. 高可用性:集群系统可以选择多个节点执行同一任务,以确保任何单个节点故障时不影响计算任务。
3.高性能:集群系统的节点可以采用高性能计算(HPC)技术,如多核心处理器、GPU加速器和Infiniband网络,以提高计算速度。
4.易于管理:集群管理软件提供了简化集群节点的配置、维护和监控的工具。资源管理器和队列调度器可以根据用户需求自动地分配计算资源和调度任务。
目前,HPC群集系统在科学、工程、金融、医疗等领域广泛应用,帮助用户快速高效地处理大量数据和计算任务。
什么情况环境下需要集群整合呢?
当我们拥有两台以上的服务器时,机器数量增加,任务提交、机器管理等操作需要一台台的连接,各机器的IP、账户、密码不同,使用时候十分不便;
机器数量很多,但是每个单台机器的资源无法满足大规模任务需求;
机器数量众多,但机器放置杂乱;
每个机器拥有资源不同,但是分配不均,有核数的机器缺少存储,有存储的机器内存资源偏低。
集群整合后的效果:
集群整合后我们可以通过只登录集群主管理节点,就可以管理整个并入集群内部的机器;
可以将原本分散的资源进行统一调配,比如:原本只有单台40核处理器、128GB内存,当我们将两台同样配置机器整合集群后,就可以使用80核处理器、256GB内存进行计算任务;
账号管理方便:原本需要记住多台机器的IP、账号、密码,现在只需要记住主节点的信息,我们就可以免密登录其他节点;
任务、资源管理更加方便,同样登录主节点即可操作其他节点;
集群内部的节点资源共享。
集群整合需要什么设施:
需要具备一个交换机,用于将每台机器连接在同一局域网内;
如果机器较多现占有空间很大,可以准备一个机柜,用于将机器统一放置,减少占地面积;
网络升级(非必须选项),因为集群的建立基础是通过网络连接的方式,将所有单独机器整合在一起,如果想提升集群整合之后的计算效率,当然是网络传输速度越快约好了。
中欣科技集群管理软件
该软件是中欣自主研发的一款面向HPC计算集群的管理平台,可快速启动运行集群,允许用户在裸机上部署完整的集群,并有效地进行管理,为硬件、操作系统、HPC软件和用户提供统一管理窗口。可为使用者提供清晰的管理界面、简单的使用操作,安全可靠的监控管理、灵活方便的维护方案等,为您的集群提供前所未有的便利。
硬件层次:
以常规服务器为基础,兼容主流X86服务器与多种规格基础硬件,支持TCP/IP,InfiniBand高速网络互联、分布式存储、集中式存储等。
系统要求:
常用linux系统,centos红帽ubuntu均可布置,使用slurm资源调度管理系统,实现高速调用资源及细粒度监控管理。
核心功能:
1.统一管理界面
提供基于Web的集群管理图形用户界面和集群管理Shell模式。图形界面提供单系统视图,通过“单窗格”管理集群所有内容,管理功能操作简单,所有任务通过直观的可视化界面执行。Shell模式通过命令行接口提供与图形界面相同的功能,通过shell模式可在交互模式和批处理模式间切换使用。
2.快速部署
允许用户在裸机上部署完整的集群,几分钟即可部署完成,并有效的管理它们,支持Linux、RedHat、CentOS等发行版,可添加HPC工作负载管理器、Kubernetes、Spark和深度学习库等组件。
3.任务调度管理器
集成slurm任务调度器,可实时监控节点的健康状态,图形视图界面及用户访问入口为任务调度管理器提供一个友好的用户接口,可配置了可靠的任务调度管理器故障转移。
4.集群监控管理
当集群超出预定的系统极限值时,集群管理会自动采取措施,从而节省时间并防止硬件损坏。集群任务统一监控、管理,并对任务状态可设置,邮箱提醒功能。
5.全面资源管理
从根本上减少了资源管理所需的时间和精力,并将集群资源完全集成到整个系统的视图中,拥有完备的资源管理和监控能力,用户可轻松取得资源占用、剩余可用情况状态,并获得各任务的时间状态监测。增加监控功能,随时查看集群资源使用情况。
集群软件使用简介:
一:注册登录
进入超算平台管理页面
2.点击前往注册按钮,进入如下页面:
输入账号、密码以及验证码,点击注册,完成注册流程后,重新进入登录页面;登录成功后,进入超算平台首页,如下图:
二:创建文件夹
点击文件列表菜单,进入文件管理页面,如下图:
2.点击新建文件夹按钮,创建一个需要放置源代码文件的文件夹
三:上传源代码文件
1.完成第二步操作后,在文件列表中选择对应的文件夹,点击上传数据按钮,将会弹出文件上传弹出框,选择需要上传的源代码文件进行上传。
2.上传成功后,将如下显示
四:提交作交
1.点击作业管理菜单,选择作业提交子菜单。
2.点击模板提交按钮,进入作业模板页面
3.点击Anconda一栏后的提交作业按钮,将会弹出上传作业弹出框,选择需要上传作业文件,完成上传后,将会自动执行作业。
五:查看作业状态
1.作业提交成功后,在作业状态页面可以查看作业完成状态
2.点击右上角刷新按钮,将会更新作业状态
六:下载作业日志
在作业状态页面,根据不同需求可以分别下载正常操作日志以及查看错误日志;其中点击查看日志按钮可以下载错误日志,点击下载日志按钮将会下载正常输出日志。
如果您有多台机器正在受到文中所提的困扰,那么您可以联系我们
我们有经验丰富的专业技术工程师,为您量身订制集群整合方案;
并保证方案的顺利实施,让您花费更少的时间和精力,提升您的工作效率!
关键词: