阅读历史 |

分卷阅读107(1 / 2)

加入书签

模型每晚增量训练都卡在梯度同步,是不是用的ALLReduce后更新?”

刘亮终于肯认真地看他一眼,带着审视的意味,问:“之前好像没见过你,新来的?”

汤珈树笑着朝他递出手,自我介绍:“对,我是昨天刚入职的,汤珈树,你叫我小汤就好。”

刘亮顿了一秒,才伸手跟他握了握,接着问:“你权限还没开全吧?怎么看到的日志?”

“从训练耗时波动反推的,我想了一下,如果改用异步参数服务器加局部聚合,跨机房通信量能砍半,不过需要解决陈旧梯度问题。”

刘亮轻哼一声,不以为然道:“这方案去年试过了,worker延迟差异导致AUC下降0.8%,不可行。”

汤珈树笑得谦逊:“那要不要试试加动态补偿项呢?”他说着,解锁手机,点进一则网页递到刘亮面前,“喏,比如这篇ICML论文提到的,用牛顿叠代法预估梯度偏移,我复现过能收敛,但要把pytorch的通信后端魔改——”

刘亮倏然打断他,眼睛里迸射出光彩来:“魔改MPI层?那要怎么规避死锁?”

“把全局barrier拆成带超时的分段校验,参考Ray框架的分布式容错设计。”汤珈树对答如流。

刘亮沉默半晌,话锋陡地一转:“你现在在哪个项目上?”

汤珈树莞尔:“我这才刚入职,还没来得及进项目呢。”

“那就来我的项目组吧,”刘亮果断道:“我这儿正好缺个你这样的副组长。”

汤珈树露出犹豫神色:“这……需要先问过胡总吗?”

“我下午就去找胡总。”刘亮抽了张纸巾擦嘴,对他用上了礼貌用语:“我吃好了,你慢用。”

汤珈树冲他颔首微笑:“刘工慢走。”

一场食堂“偶遇”,次日汤珈树就接到正式通知,他以副组长的身份加入刘亮的项目组,也顺利拿到代码仓库的读取权限,得来全不费工夫。

早知道直接找刘亮就能解决问题,他又何必大费周章地去找胡明礼,还白白浪费了季与淮一盒顶好的茶叶。

季与淮这趟差出得比较久,峰会开完又去拜访客户,辗转三个城市,返程那日,S市淅淅沥沥下了一天的雨,整座城市浸泡在云遮雾绕的潮湿水汽中。

临近傍晚才终于放晴,乌云散去,天空一片碧蓝如洗。

汤珈树还没下班就接到季与淮电话,让他把晚上的时间空出来。

“你回来了?”听电话那头夹杂着机场广播的背景音,汤珈树又惊又喜:“可我怎么记得你之前说是明天的飞机啊?”

“这不着急完成你安排的任务么?”季与淮悦耳的低笑声透过电流传过来,撩得人耳垂发烫:“我跟我妈说了,晚上一块吃饭,餐厅已经让何薇定好了,待会儿地址发你,你下了班先过去。”

汤珈树不禁感慨:“领导,你这执行力也太强了……”

“是吧?”季与淮道:“那还不快喊声好听的犒劳我一下。”

汤珈树有求必应:“淮淮哥。”

“不够。”

↑返回顶部↑
精品御宅屋m.yuzhaiwu1.vip

书页/目录