开源机器学习模型管理工具DVC介绍(开源模型训练平台)

出境入境2024-03-15 18:17小乐

开源机器学习模型管理工具DVC介绍(开源模型训练平台)

算法工程师在使用算法的过程中往往要不断调整参数以找到最佳效果,俗称“调参民工”。在不断调整参数的过程中,会产生各种模型。如何记录这些参数与模型效果的对应关系,常常让算法工程师头疼。所以,大家都在呼唤一个实用的模型管理工具,因为有了版本管理机制,可以更好的比较效果,甚至可以多人协同开发。

今天给大家介绍一款开源的模型管理工具——DVC:https://dvc.org/doc/tutorials/get-started/experiments

1 模型版本控制的误区在设计模型版本管理功能时存在一个误区,认为只管理模型文件。模型版本管理应该从整个机器学习流水线的角度来考虑,考虑到每次训练的数据可能不同,算法参数可能不同,评估指标metrics可能不同。

因此,模型管理是对一个全链路机器学习项目的管理。在这方面,DVC和MLflow的设计理念比较好。

2 DVC 的设计理念DVC 是一个由创业团队维护的开源模型管理SDK。与客户的交互基本上是通过命令行。只需“pip install dvc”即可快速安装。

DVC可以看作是对git的二次封装。如下图所示,dvc checkout的底层调用是git checkout。

DVC将数据+算法脚本+Metrics当作代码签出,这样就可以自然地利用git的能力进行版本管理。

3 DVC的具体使用(1)创建环境

(2)上传数据

(3)配置数据并设置训练集和验证集

(4)设定指标并生成结果

(5)输出结果

(6)不同版本模型效果对比

基线实验和二元实验是模型的不同版本。您可以通过查看不同版本来控制不同的训练数据和模型参数版本。

猜你喜欢