(来源:明汯人才招聘)
对大部分人来说,量化私募是一个「小众」行业。除去极致的工作方式、神秘的大佬故事、诱人的薪酬福利等,“人才”是这一切的基石,也是最重要的组成部分。
「明说| Minghong Sharing」,我们以采访问答的方式,他们或是业内大佬,或是入行萌新,从多元的视角,和你分享量化的世界。
「明说」第二期,明汯投资AI训练平台技术负责人,和你分享明汯AI训练平台搭建实践。
自建训练平台
是一个很自然的结果
MH:明汯自2019年起开始大规模建设自有高性能计算集群,目前训练平台进展如何呢?为什么要自建计算集群和AI训练平台?
A:通常,对大规模计算资源有需求的公司(如大型互联网公司等),不管是从业务,人员,或者底层资源,在达到一定规模以后都会通过构建统一的平台(如AI训练平台),用规模效应和专业化分工去解决资源碎片化问题,并提升业务效率,所以除了规模超小或需要极致定制化的场景外,搭建平台是一个顺理成章的过程。
随着量化策略从基于统计学习和机器学习模型发展到深度学习模型,对底层计算资源的需求也在不断提高。与此同时,数据处理、特征抽取、模型训练等不同的场景从底层资源角度又存在一些类似的诉求。在研究侧搭建一个统一的训练平台,能在更好地发挥和利用底层资源价值的同时,让不同团队工作流程中的共性问题基于平台统一解决。因此,明汯基于“适度超前”的基础设施建设原则,经过几年的发展,目前AI训练平台整体算力超800 PFlops。
MH:我们为什么会选择“自建”这个模式?
A:跟自建AI训练平台同时出现的选项是公有云服务。这两个选择总结起来:
- 自建AI训练平台:为长期大规模、高定制化的场景买“自由”
- 公有云服务:可快速启动,可采买弹性服务,前期投入相对较少,容错率高
明汯的目标是“打造国际一流量化投资机构”,这注定了我们需要在量化领域不断进行创新和探索,并且是一个长周期投入的事业。同时,量化行业本身对保密性、高效训练等定制化需求有极高的要求,所以自建AI训练平台就是一个很自然的结果。
其实明汯在早期也使用过公有云服务,但在明确了技术路线且意识到人工智能在量化投资的实际应用和前景后,我们便毫不犹豫选择了自建这个模式。
搭建AI训练平台
没有标准答案
MH:在自建AI训练平台的过程中,遇到了哪些挑战?
A:量化公司计算集群和AI训练平台的核心目标是支持完整的“策略管道”,包括数据处理(对各种形式的市场数据进行清洗、标准化、插补和特征工程等)、多类型的模型训练、回测和评估。除了原始的计算性能和AI训练平台固有的标准功能外,量化对风险管理的要求以及对团队间紧密协作的重视,决定了很多平台建设中的根本性选择。平台不仅需要高效,还需要确保所有操作的可追溯性和合规性。这些要求使得在自建AI训练平台(以下简称“平台”)中遇到如下几个痛点问题:
1. 资源调度与使用效率:从数据处理到模型训练,各类任务不仅在功能诉求和时效性要求上不同,对计算资源的要求也不一致(如内存或存储I/O等),同时平台的使用有峰谷差异,且需要应对突发紧急任务,这对平台的资源调度和使用效率提出了很高的要求。
2. 极致的数据 I/O 要求:量化数据信噪比低,提取有效信号的难度较大。这种数据量大,且模型需要反复调整或训练多个模型后再ensemble(模型集成)的情况,要求平台提供极致的数据I/O性能。
3. 安全和效率的平衡: 交易策略和数据是量化公司最宝贵的资产,这对平台的安全性和精细化权限管理提出很高的要求。同时当前“策略管道”中每个节点的不同团队间又需要高度协同合作。平台需要在安全和效率之间寻找平衡点。
量化不像互联网行业有很多开源实践可以参考,我们碰到的难点和挑战都是基于明汯的实际情况,没有标准答案可以借鉴。我们也在不断根据业务实际需求和实践反馈,迭代和完善平台的服务和功能。
MH:资源调度和使用效率的要求,感觉是任何AI训练平台都要面对的挑战。我们的业务场景有什么相对特殊的情况么?又是怎么解决的?
A:从平台资源角度上,我们日常任务场景的复杂度,主要体现在以下几点:
1. 任务紧急程度相差大:有些任务需要马上被执行
2. 任务实例数量相差大:小任务实例数量在个位数,而大任务实例数在千级
3. 单个任务实例的资源需求相差大:以内存举例,小任务可能只需要几个G的内存,而大任务的内存需求是几个T(1T=1024G)
4. 总用户数较少,部分用户资源权限大,平台负载变化陡峭
5. 单个任务的不同实例真实资源使用率差异大
以上这些导致我们的平台会遇到无法使用资源套餐、资源碎片较难整理、排队队列压力波动大、真实资源利用率较难优化等问题。针对这些特殊问题,我们提出了任务优先级+动态超卖+spot-instance+定制的任务队列和调度策略,尽可能提升资源调度与使用效率。
训练平台任务调度逻辑图
MH:我看一些互联网大厂的自建集群和AI训练平台的技术分享中,似乎比较少特别提到数据I/O是个难题。量化的场景是有什么比较特殊的情况么?
A:不能这么简单的概括,在一些传统的算法和小模型的场景下,对数据I/O的需求可能确实没有那么大。我之前工作的AI公司在几年前也是使用Ceph和HDFS就能支持训练场景。但是在大模型场景下存储I/O也是核心瓶颈之一,预训练的数据规模爆炸,每一次checkpoint保存可能产生数TB的写入操作。所以目前的很多大模型基础设施也会分别从硬件、数据层和训练框架上入手去做存储I/O的提升和存储使用方式的优化,很多云厂商也推出了针对AI场景的高性能存储服务。毕竟算力再强,也怕数据断流。
我们大部分训练场景会从海量数据集中随机读取部分行和列作为样本进行训练做实验,并根据效果反复调整。一次训练实验通常会启动多达大几十个训练任务,总结起来有以下几个特点:
1. 一次实验并发训练的任务量大
2. 读数据要求全数据集随机采样,且反复多次读取,传统的文件系统对这种全局采样难度较高(读放大比高)
3. 模型特点上结构相对比较稠密(没有大的稀疏embedding),计算效率高,对数据的读取性能要求高
这些诉求叠加后就要求基础平台需要很强的数据随机读取能力,所以在这个方向上的投入和优化所能带来的理论收益也比较高。跟大模型场景的文本,语音,图像,视频等大量非结构化的数据不同。量化场景下大部分数据结构比较简单且固定,这就给我们创造了做针对性优化和提升的条件,所以我们选择了自研分布式数据缓存和预处理系统。该缓存系统基于高性能 Infinite Band 网络和SSD盘提供服务,到今年底规模会超过 100 个存储服务节点(每个节点2*200Gbps IB,8*15TB NVMe)。
目前我们也在不断迭代和完善这套分布式数据缓存和预处理系统,如果有对此感兴趣的同学,非常欢迎大家加入我们!
MH:补充一下,投递相关岗位,可访问https://join.mhfunds.com,或者点击“阅读原文”直接投递!MH:用户和权限管理是任何平台都需要的基础功能,量化行业本身又对“安全”和“合规”有极高的要求,这在AI训练平台的搭建过程中是不是一个很大的考验?
A:是的,交易策略和数据是量化公司最宝贵的资产,这点对平台的安全性和精细化权限管理提出很高的要求。
基于云原生的训练平台,目前比较主流的方式都是基于RBAC模型实现权限管控。但在量化场景下,因为对代码和数据的读写权限有着更细粒度的管控需求,并且有些场景下用户本身权限和用户运行的系统权限可能也会有一定的差距,所以我们需要实现更加细致和严谨的权限管控。
在这样一个背景下我们需要充分理解业务方工作流程和权限边界,从工作流和协作空间等模块的具体设计上入手,与权限管控相配合,实现一套闭环的一系列功能,并在这个过程中跟业务方持续保持良好沟通并不断迭代更新。
量化远比想象中的有趣
MH:你从北大毕业后是先在互联网公司工作,后来到明汯进入量化行业。你觉得在工作体验上有什么差异?
A:和互联网相比,量化公司一般人数规模都不大,同时有非常清楚和直接的商业模式,这会让各个层面的沟通非常清晰,每个团队职责和目标非常清楚。互联网公司团队大、分工细,需求往往跨多个部门/团队,多次沟通才能落地。但量化公司团队精简,大家也没什么职级的界限。
同时,对性能和最终结果的极致追求会推动每个人不断的学习和尝试,并且每一次尝试都可以快速得到反馈,整体工作效率较高,这会让人少了很多互联网的“心累”和“迷茫”。
MH:有些同学觉得,在量化公司做工程开发,不是很“核心”,不够“量化”,你的感受如何呢?
A:这真的是一个很有意思的问题,说实话,入职前我也常听到这个梗()。其实之前在互联网的时候也会听到从业务、部门和分工等各个角度的比较后得出来不够 “核心” 的结论。 而工程开发在量化里面不够“核心” ,所对应的是从分工角度上,跟研究员作对比。
我的感受是,在当下的量化投资中,研究员和工程开发这两者都是不可或缺,相辅相成的。 研究员的不可或缺性体现在“必须”, 工程人员的不可或缺性体现在“极致”。 没有前者策略不存在,没有后者策略很难跑赢。 量化公司真正的护城河是两者的高度耦合和紧密合作后的“不可超越”。
MH:对于在考虑职业方向或者职业发展的同学,你会有什么选择上的建议?
A:每个人基于自身的长期目标,职业生涯和人生所处阶段的不同,最终选择肯定有巨大的差距。
在过去的面试经历中能明显的感觉到很多纯互联网背景的候选人或者应届生,因为对量化了解较少的原因有或多或少的担忧和焦虑,毕竟量化比互联网确实是个小众行业。 我个人感受是在工程/infra 方向所做的事情其实跟互联网很贴近的,同时还能接触到不少量化特有的场景。希望大家能拥有更多的勇气去尝试不同的可能性,不要给自己设限。
彩蛋时刻
MH:这是一个我们的保留问题哈,你的日常的一天是怎样的?工作之余的时间呢?
A:一般早上都会第一时间看看群里是否有同事在使用过程中碰到问题,如果有是需要优先处理的(明汯在纽约设有办公室,有一些跨时区的工作的同事)。以及会看看平台昨天一天的监控和统计数据。 其他时间就比较平常的工作内容了,对接需求、写方案、处理问题、验证和实现一些特性等。其实跟互联网没啥太大的区别,可能就是开会少,哈哈哈哈。
公司很重视WLB,相比以前在互联网公司,我也有更多时间和心情去享受生活,平时我会去踢球和弹弹吉他,以及履行一个“铲屎官”的关荣角色(笑)。
MH:那我可以期待在今年的年会上看到你的吉他演出吗?
A:公司的年会不是只有抽奖、抽奖和抽奖吗?去年超30%的一等奖(iPhone和华为)我都没抽中。今年还是期待一下我能抽中大奖吧,哈哈哈()
A的小猫名叫「meke」,是维语里「过来」的发音,A说每次喊「meke,meke」,小猫就会过来,仿佛它真的听懂了他的话
MH:作为AI训练平台的负责人,会不会压力比较大,毕竟老板也是平台的使用者
A:没有压力是不可能的,有些时候还是会出现一些需要非常紧急处理的问题的,不然会影响业务方的工作推进甚至实盘策略更新。但好在我们目前平台运行比较稳定,比较少出现需要大修的bug(狗头保命.jpg)
最后call back一下,我们团队正在热招分布式存储开发的岗位,非常欢迎大家加入我们!访问https://join.mhfunds.com,或者点击“阅读原文”即可投递! ]article_adlist-->优速配资提示:文章来自网络,不代表本站观点。