山西大学现代教育技术学院高性能计算平台于2014年12月正式投入使用,共有104个计算节点,2400个处理器核,存储容量达到180TB。另外,系统还配置了12个英伟达K20的GPGPU系统,计算能力达到70TFlops。
该平台是山西大学校级公共服务平台,受现代教育技术学院领导,由网络中心负责管理运行。
平台目前支持的应用包括:C/C++、Python、R、Fortran、Vasp、Tensorflow、molpro、theano、Matlab、MaterialsStudio。
一、开放原则
高性能计算系统投入大、运行和维护费用高。为使其充分发挥效用,在开放服务中,将遵循以下四项原则:
1、坚持独立运行管理、独立核算、公共服务原则,技术队伍只要承担技术服务工作以及平台本身的技术研发工作,在与科研项目开展的合作研究中只承担计算服务工作。
2、坚持广泛受益原则,为全校各学科服务。服务工作中有限保证对大规模科学计算需求强烈的用户使用,特别是冲击国际前沿水平、设计重大基础理论研究或设计国民经济重大应用的国家课题。
3、坚持并不断优化收费服务机制,通过合理收费维持平台的可持续运行。对于重要的前沿对于重要的前沿探索和实质性合作研究项目以及取得重大成果的高水平课题,经用户委员会评议以及平台部审批,可申请优惠,具体方法见下面优惠和奖励部分。
4、坚持协商机制,对平台的建设发展中的重大问题和在平台上发生的利益矛盾依靠用户委员会集体讨论,向领导部门提出建议。
二、用户使用流程
1、初次接洽:登陆山西大学高性能平台网站(https://hpc.sxu.edu.cn)或直接联系平台管理员咨询相关事宜,了解平台服务内容,资源情况,使用流程,以及收费政策。
2、程序调试:下载《用户上机申请表》,按要求填写,并把电子版发送至管理员邮箱(hpc@sxu.edu.cn),申请开设测试账号。用户试用过程中,管理员为用户提供技术支持,协助用户熟悉平台环境。用户上机前应仔细阅读《用户使用手册》、《用户使用承诺书》,了解用户平台使用方法和注意事项,保护用户的信息安全和保障资源的可用率,以便为所有用户提供最优质服务。用户可在使用阶段了解作业性能,决定是否正式使用高性能计算平台。
3、试用阶段的账号在用户使用阶段结束后停止使用,试用结束前用户需对用户数据进行处理。若用户申请正式用户,则开设正式账号。用户若认为试用未能满足其要求,并决定不正式付费使用,则试用结束。
4、开设账户:用户完成使用并决定使用高性能计算平台,可直接和平台管理员联系,将用户账号升级为正式账号,并交纳相关费用。具体参见:《五、缴费流程》。
5、正式上机:用户上机过程中可随时通过作业调度命令查看作业运行和资源使用情况。根据双方协议,高性能计算平台会定期向用户发送资源使用清单,用户应及时支付机时费。上机过程中,平台提供必要的技术支持,包括上机指导、软件安装及解决运行故障等工作。
6、结束上机:根据双方签署协议/合同规定的时间期限,用户完成预定的上机任务并确认暂无延续项目后,则进入结束上机程序,用户妥善处理各项数据后,账号将暂时封存(最长6个月),若用户在此申请上机并签署协议/合同,则重新启用。校内及其他平台用户有意义定期提交《用户成果报告》。
三、收费标准
暂定计费标准为0.05元/核时。
1、所有用户均需通过景行调度管理系统提交作业,实现作业调度。调度系统支持web和ssh两种提交方式。存储使用并行文件系统lustre提供的共享空间。用户不得在节点上开设dhcp、http、ftp等服务。
2、用户实际情况不同或有其他需求,可与高性能计算平台商议。
3、存储空间暂不收费。每个“缴费账号”缺省存储空间配额为2TB。如果需要使用大于2TB的存储空间,需要向平台管理人员提出书面申请。申请获得批准后,按实际批准的配额数量分配存储空间。
4、缴费账号欠费后,账号被封锁,缴费账号及其所属上机账号可以继续登录系统,但不可以提交作业,3个月后不可以登录系统,6个月后数据将被删除,缴费账号及所属上机账号将被全部注销。
四、管理规章
1、岗位管理:
[1] 高性能计算平台现场维护工作包括系统平台维护、应用维护、网络设备维护、平台监控、安全管理、客户综合服务等方面。维护人员应具备服务器、网络设备、数据库、操作系统、应用软件、计算机安全等维护技能,具备较强的故障及应急处理能力。
[2] 高性能计算平台岗位配备两名系统管理员。一位管理员主要负责平台日常的管理工作,另一位管理员(助理管理员)应掌握平台情况和管理知识,并在主要管理员外出的时候担负管理平台的职责。高性能计算平台重大故障恢复或配置变更操作必须在两名管理员同时在场的情况下才能进行。
[3] 平台环境的运行维护,必须保证节点7×24小时在线,保证应用系统资源的正常运行。维护人员应该确保在5x8或7x24个人通信的畅通以及2小时到达现场的能力。
[4] 平台管理员应通过不断学习,掌握新的服务器系统等管理技术,以应付不断变化的IT环境。
2、用户管理及流程:
[1] 高性能与网格计算平台的用户账号管理实行“书面申请、审批开户、定期审阅”制度,账号的申请、权限的变更、空间的扩容、账号的禁用等都需要经过申请和审批。
[2] 管理员须严格根据用户申请信息及审批意见,对用户账号及权限进行相应的变更操作。用户申请信息存在有错误、不完整等引起变更操作无法完成的,应及时与用户联系。
[3] 管理员应定期审阅用户是否妥善保管自己的账号和密码,是否将账号借给他人或从事课题以外的活动。
3、作业及其资源管理:
[1] 用户根据自身需要设定用户作业及其使用计算资源的优先级。高性能计算调度软件会根据用户的设置进行自行调整。
[2] 管理员定期向用户收集通过高性能计算平台产生的成果,并根据用户的研究进度和成果调整用户可以使用计算资源的最高优先级。
4、配置变更和故障管理
[1] 变更是指网络设备、服务器设备、应用系统等软硬件的版本、程序、配置等的改变。变更分为一般变更、重大变更和紧急变更。
[2] 管理员进行生产服务器的配置变更操作,必须执行服务器配置变更管理,事前必须经过详尽的测试和计划。
[3] 变更需要对节点计算资源设备临时关机或暂停计算服务,需至少提前1天发通知,通知的内容包括:停止服务的原因与时间,预计恢复正常服务的时间。
[4] 故障分为用户故障和系统故障两类。用户故障是指由于用户终端方面原因引起的使用上的故障。系统故障是指由于系统软、硬件原因而引起的使用上的故障。此处特指系统故障。
[5] 发生故障,应及时通知用户,并在校园网发布通告。已经购买相关硬件、系统和应用程序服务的,管理员应该首先借助服务判断故障原因,并按照相关人员建议处理故障,并记录故障发生的时间、故障情况、处理方法以及将来预防措施等。没有购买服务的,根据中心制定处理流程修复故障。故障处理过程必须以快速抢通为主,故障处理后再分析故障起因。
[6] 管理员应对系统运行进行定期检查。
5、安全管理:
[1] 服务器超级用户的密码要定期更换,密码设定要有一定的规定,不能少于八位。超级用户密码必须登记在册并按有关规定妥善保管,系统管理员不得对任何无关人员泄露。用户密码由相关用户自行设定,系统管理员要严守保密制度,不得泄漏用户密码。
[2] 为了确保服务等级,系统管理员不得在生产服务器上进行测试实验,不得在生产服务器上进行与服务无关的操作(例如浏览网页、下载程序等)。系统管理员不得在生产服务器上安装与服务无关的软件或放置与服务无关的数据。
[3] 系统管理员必须定期安装操作系统、应用程序的补丁包,对于高危高风险的补丁包应该按照要求及时安装。
[4] 所有服务器必须做好防护工作,及时更新iptables以及相应的防护技术措施。管理员应该定期对服务器进行全面的安全检测,发现问题应及时向中心安全管理员汇报并协同解决。
[5] 所有生产服务器必须实施日志管理制度,按照国家和学校有关规定保存系统和应用程序日志。
[6] 管理员必须定期对服务器进行重要数据的备份。按照不同的服务等级,对不同的服务器实施离线备份、在线备份、热备份和双机热备等不同的备份策略。
[7] 管理员应对服务器进行资源监控,包括硬件、系统资源和应用资源的监控。硬件监控,应该利用硬件厂商提供的监控软件;系统资源监控,主要针对CPU、内存、I/O活动情况的监控;针对应用资源,主要利用应用程序的监控功能。管理员应该利用各种资源监控手段确保服务器能力,保障服务等级。
6、技术文档和资料管理:
[1] 各类技术文档和原始记录是做好系统运行维护的前提,系统管理员必须建立健全必要技术资料和原始记录。包括软件的介质、版本资料及补丁资料;所有软件的安装及操作使用手册、系统维护手册、应用开发指南等相关技术资料。
[2] 管理员应根据系统变更和运行的情况,及时更新技术文档。须更新的资料包括维护资料、使用手册、系统程序修改后的变更清单等,保证提供的资料能够和当前运行的系统同步,以便于对系统的维护。
7、平台技术支持及应用培训管理:
[1] 各级维护人员需要为用户提供立体化、实时/非实时多种技术支持手段,如电话、电子邮件、即时通工具、网站、论坛等。
[2] 面对师生作技术支持时,要有良好的服务态度并遵守服务承诺:所有问题在工作日内能即时响应,各类问题1-3个工作日给予答复和解决。
[3] 培训维护人员需要定期对教师用户开展高性能与网格计算平台使用培训,解决他们在平台使用中实际碰到的问题。
五、缴费流程
1、缴费方式:校内转账支付。
2、具体办理流程(校内转账支付)
[1] 持内部支票到计财处完成交费,并取得收费盖章回执。
[2] 把回执交到理科楼B511室,并登记账户名。
3、用户账户的缴费和充值将在回执交回后的第二天上午9点前办理完成。
六、联系方式
E-mail: hpc@sxu.edu.cn
七、致谢模板
1、校内及享受平台优惠的用户有义务提交《用户成果报告》,以备建档。高性能计算平台有权引用用户《用户成果报告》中的内容。
2、校内及平台用户在发布其科研成果获发表论文时,应标注“本研究工作得到山西大学高性能计算平台支持”( Supported by High Performance Computing System of Shanxi University),并提交其成果报告或发表论文复印件提交至理科楼B511室。
八、公布与实施
本《管理办法》经2018年网络中心高性能计算管理办法讨论会及校长办公会议审议通过,自公布之日起实施。
本《管理办法》由网络中心负责解释,并将在实施过程中不断完善。
山西大学现代教育技术学院
网络中心 高性能计算平台