Shortcuts

hfai

HAI Platform 提供了任务级分时调度的深度学习训练模式,极大利用智算集群算力。您可以通过 import hfai 开启全新训练体验。

hfai.client

set_watchdog_time

设置任务超时时间,规定时间内无 log 该任务会被认为已失败,默认为 1800 秒

set_whole_life_state

设置 whole_life_state

get_whole_life_state

获取当前 chain_id 的上一个 id 任务留下来的 whole_life_state

receive_suspend_command

获取该任务是否即将被打断

go_suspend

通知 server 该任务可以被打断

EXP_PRIORITY

set_priority

设置当前任务的优先级,注意如果你没有该优先级的权限可能会导致任务被立刻打断

create_experiment_v2

根据 v2 配置文件创建任务

bind_hf_except_hook

该函数用于将 Process 类绑定异常 hook,在子进程发生异常时通知 server 将其强行关闭,并启动自我检查,发现硬件故障重启该任务

get_experiment

通过 name、id 或 chain_id 获取训练任务,不能都为空,只能获取自己的任务

get_experiments

获取自己最近提交的任务

self_health_check

对当前机器做系统检查,检查通过会退出该任务,检查失败会重启该任务 :param pid: :return:

Experiment

任务类

hfai.client.remote

GlobalSession

远程运行的Session

SessionConfig

配置Session,本地还是远程,远程用哪个分组