集群命令¶
hai-cli monitor¶
获取当前任务列表相关信息
Usage:
hai-cli monitor [OPTIONS] COMMAND [ARGS]...
hai-cli monitor cluster-overview¶
查看当前集群节点概况
Usage:
hai-cli monitor cluster-overview [OPTIONS]
hai-cli monitor quota-overview¶
查看 quota
Usage:
hai-cli monitor quota-overview [OPTIONS]
hai-cli monitor storage-overview¶
查看 storage 状态
Usage:
hai-cli monitor storage-overview [OPTIONS]
hai-cli monitor task-overview¶
查看当前集群任务概况
Usage:
hai-cli monitor task-overview [OPTIONS]
hai-cli nodes¶
查看节点信息
Usage:
hai-cli nodes [OPTIONS]
Options:
--tree
打印节点树状结构
hai-cli prof¶
对正在运行中的任务进行 profile
Usage:
hai-cli prof <experiment> [OPTIONS]
Options:
-t, --exp_type <exp_type>
配合 <experiment> 使用,默认 auto 会尝试解析
--time <time>
required。profile 的持续时间,单位秒
--recorder <recorder>
需要采集的指标,比如 all 或者 basic,gpu;all 代表采集所有数据
--interval <interval>
指定不同 recorder 的采样周期 (s),比如 –interval basic=2 –interval gpu=1
Arguments
experiment
用于检索的任务,可以是任务名、是任务ID,也可以是提交的任务配置文件
hai-cli validate¶
检查节点正常情况
Usage:
hai-cli validate <experiment> [<rank>...] [OPTIONS] # 这个任务(<experiment>)的(<rank>)节点进行验证,默认为<rank>为all
hai-cli validate nodes <node>... [OPTIONS] # 对输入的节点列表(<node>...)进行检查
Options:
-t, --exp_type <exp_type>
配合 <experiment> 使用,默认 auto 会尝试解析
-f, --file <file>
测试代码路径,默认为系统组维护的测试代码;该任务失败会使得对应节点被挪出集群,请谨慎使用
Arguments
experiment
用于检索的任务,可以是任务名、是任务ID,也可以是提交的任务配置文件
hai-cli version¶
显示版本信息
Usage:
hai-cli version [OPTIONS]