hfai¶
HAI Platform 提供了任务级分时调度的深度学习训练模式,极大利用智算集群算力。您可以通过 import hfai 开启全新训练体验。
hfai.client¶
设置任务超时时间,规定时间内无 log 该任务会被认为已失败,默认为 1800 秒 |
|
设置 whole_life_state |
|
获取当前 chain_id 的上一个 id 任务留下来的 whole_life_state |
|
获取该任务是否即将被打断 |
|
通知 server 该任务可以被打断 |
|
设置当前任务的优先级,注意如果你没有该优先级的权限可能会导致任务被立刻打断 |
|
根据 v2 配置文件创建任务 |
|
该函数用于将 Process 类绑定异常 hook,在子进程发生异常时通知 server 将其强行关闭,并启动自我检查,发现硬件故障重启该任务 |
|
通过 name、id 或 chain_id 获取训练任务,不能都为空,只能获取自己的任务 |
|
获取自己最近提交的任务 |
|
对当前机器做系统检查,检查通过会退出该任务,检查失败会重启该任务 :param pid: :return: |
任务类 |
hfai.client.remote¶
远程运行的Session |
|
配置Session,本地还是远程,远程用哪个分组 |