Paper Notebook

记录一下自己读的Paper。


  • taking-advantage-of-a-disaggregated-storage-and-compute-architecture: Facebook关于存储和计算分离的实践,将HDFS/S3/LocalFs抽象成了GenericFile,统一放在存储端,通过配置不同的机型来实现成本的最优化,改进了Spark中对于存储分离不友好的一些地方,比如External Service需要拉两次数据等问题。


  • HashKV: Enabling Efficient Updates in KV Storage via Hashing: 基于 WiscKey 的结构做了一些优化:

    • 通过对数据进行分区,将数据分为了热区和冷区,这样因为热区有频繁的update,可以及时的触发热区的gc。
    • 小value的数据可以直接写入到LSM file中。

  • SOS: Optimizing Shuffle I/O: 基于大规模shuffle做了一些优化,主要是针对map多,数据小而碎,在 map 和 reduce 的中间加入了一些组件和 failover 的一些操作。

  • 基于融合计算的在线学习: 早就不是基于规则的学习了,有很多在线机器学习的需求。希望将计算和机器学习一体化。现有系统下,阿里使用 Blink + Tensorflow,中间使用 Queue 来实现连接,这样系统割裂,中间的成本高昂。把训练和样本放在一起来做。 Straming / Training / Serving。

ray
ray