使用git管理数据科学试验的经验.doc

资源描述

《使用git管理数据科学试验的经验.doc》由会员分享，可在线阅读，更多相关《使用git管理数据科学试验的经验.doc（4页珍藏版）》请在三一文库上搜索。

1、使用git管理数据科学试验的经验编者按：机器学习科学家分享了使用git管理数据科学试验的经验。引言版本控制是管理数据科学试验的关键工具。但是，魔鬼在细节之中。这篇文章将讨论如何在数据科学项目中实现版本控制。git的使用有好几种范式，就数据科学试验而言，我基本上根据的是特性分支这一范式。简单来说，特性分支意味着有一个master分支（主分支）作为基础，新特性通过在主分支上分支的方式加入代码基，做出实现特性需要的所有改动后，合并新分支至主分支。策略我为每个试验或者想要尝试的新建模思路创建一个新分支。这时你需要有意识地决策：代码的修改只适用于这次试验，还是希望在这次试验和之前的试验上都适用？换一种表

2、述方式：你是打算替换，还是增益？这个问题的答案将决定你是否可以把新分支合并回主分支。我建议额外花一点功夫，将关键组件提取出来，作为一个库，在多次试验中复用。这比有许多份相同（或者更糟，略有不同）的代码要好很多，不用分别维护，也不易导致错误。俗话说得好，最好的代码是没有代码。将关键组件提取至一个共享库，你可以逐渐做出改进，并最终得到一个内聚的代码基，可以在一系列试验复用。相反，如果你不断引入不向后兼容的改动，你会发现自己频繁地在分支间跳转，以便复制/粘贴有用的代码片段，接着却需要加以修改，因为组件没有设计成能够一起工作的。在较大的试验中，这会变得很难操作。特性分支这一方法的优势在于你可以将试验分

6、码倾向于基于参数，而非依赖硬编码的试验细节，为测试创建玩具样本就要容易很多。以后我会写一篇文章，深入讨论如何为数据科学项目写测试。窍门下面是一些我觉得在实践中比较有用的简单窍门。.gitignore.gitignore告诉git忽略哪些文件。在开始一个新项目时，应该优先配置.gitignore。因为一旦你提交了蠢物，它就会永远呆在代码仓库之中（除非你采取了一些特殊行动）。最重要的是除外敏感信息，比如密码和API密钥。如果你早早地提交了包含敏感信息的文件，那么它很快就会变成一场噩梦。从当前快照删除文件无济于事你需要从所有之前的提交中清除敏感信息。对自己好一点，避免去学如何做到这一点。下一步是忽略

7、非常大的数据文件和你不需要追踪的不重要文件（例如，notebook检查点，IDE的配置文件，pycache，.pyc，等等）。在上面的例子中，所有输入输出文件也应该忽略，因为它们完全可以由代码本身确定，如果需要，可以重新生成。频繁提交如果你完成了合理数量的工作，提交一次。不要吝啬，频繁提交也许能帮助你避免堵塞。明晰的提交信息如果你提交得足够频繁，那么你的工作大概也会相当集中，这样提交信息可以写得更清晰。回溯不想要的改动时，再没有比根据恰当注解的提交历史快速找到目标更令人满足的了。如果你找到的描述是这样的：“实现了3个新特性，增加了dropout，创建了交叉验证组件，同时重构了训练逻辑”，那么你提交得不够频繁。反馈我在尝试不同策略的过程中逐渐积累了这些想法。如果你有不同的做法，欢迎留言分享！

展开阅读全文