Paracel十问

勋章 勋章 2015-03-29 23:34:58
white
2015-03-30 09:56:10 white (diaper changer)

Petuum ?

勋章
2015-03-30 10:15:31 勋章
Petuum ? Petuum ? white

虽然没用过petuum,但可以说是类似思路,可能使用上侧重不太一样。我们开始做了几个月后他们的工作也发表了,后来读过几篇他们的paper来借鉴。

夜雨听风
2015-03-30 14:36:17 夜雨听风 (风的记忆里总是追雨而行)

Interesting Project! 目前来看,PS应该是模型并行化的最优出路。

Garden
2015-03-30 14:52:03 Garden (豆瓣才是你永远的家啊)

NB!

故乡的茶干
2015-04-01 17:46:31 故乡的茶干 (曾梦想仗剑走天涯)

居然只有4条评论……btw,豆瓣的官方blog应该升级一下UI了

Scallet
2015-04-03 12:37:02 Scallet (积累小胜利)

你也是thu的吗?

勋章
2015-04-03 13:30:37 勋章
你也是thu的吗? 你也是thu的吗? Scallet

...en

SuwakoZhai
2015-04-10 16:32:56 SuwakoZhai

这个太好了。最近想了解ps相关,paracel显得比petuum和李少帅的ps平易近人啊。

勋章
2015-04-10 17:16:14 勋章
这个太好了。最近想了解ps相关,paracel显得比petuum和李少帅的ps平易近人啊。 这个太好了。最近想了解ps相关,paracel显得比petuum和李少帅的ps平易近人啊。 SuwakoZhai

yeah:)

Yingfeng
2016-01-12 20:08:07 Yingfeng

请问容错这块怎么做的?我从代码里貌似没看到有相关处理逻辑

勋章
2016-01-12 20:33:34 勋章
请问容错这块怎么做的?我从代码里貌似没看到有相关处理逻辑 请问容错这块怎么做的?我从代码里貌似没看到有相关处理逻辑 Yingfeng

目前开源的版本没有实现容错

Yingfeng
2016-01-12 20:43:17 Yingfeng
目前开源的版本没有实现容错 目前开源的版本没有实现容错 勋章

这样限制会比较大啊,集群大了之后,任务挂掉的几率会增加,没有容错,挂掉之后恢复就得重来了。其实加个checkpoint应当也不是很麻烦的事情。

勋章
2016-01-12 20:58:56 勋章
这样限制会比较大啊,集群大了之后,任务挂掉的几率会增加,没有容错,挂掉之后恢复就得重来了。 这样限制会比较大啊,集群大了之后,任务挂掉的几率会增加,没有容错,挂掉之后恢复就得重来了。其实加个checkpoint应当也不是很麻烦的事情。 ... Yingfeng

的确有必要做,上文第10问也提了。但对豆瓣的数据和机器规模,优先级不算高

不会救赎的牧师
2016-01-19 10:54:25 不会救赎的牧师

网络通信方面有什么好的建议吗,我目前想法是机器之内参数先合并一次再发送,减少带宽消耗。但是只适用于同步更新,异步更新好像就不太适用了...

勋章
2016-03-27 20:06:04 勋章
网络通信方面有什么好的建议吗,我目前想法是机器之内参数先合并一次再发送,减少带宽消耗。但是 网络通信方面有什么好的建议吗,我目前想法是机器之内参数先合并一次再发送,减少带宽消耗。但是只适用于同步更新,异步更新好像就不太适用了... ... 不会救赎的牧师

首先,paracel对消息有压缩。其次,从使用者角度,通信的优化如model打包、本地合并、分散消息等,具体需要case by case地去优化。

特别地,paracel提供了non-blocking的方式: paracel_update接口。意思就是在每个worker每轮的迭代中把通信和计算overlap起来。

另外,异步更新并不是每个算法都不适用,要看具体算法逻辑,有时候也和数据分布有关。


勋章
勋章 (San Francisco Bay Area, United States)

xunzhang. http://xunzhangthu.org 搁浅 OCD Life is Life Software Eng...

勋章的最新日记  · · · · · ·  ( 全部 )

热门话题  · · · · · ·  ( 去话题广场 )