廖嘉逸's Blog

上一篇文章数据湖系列(1) - Hudi 核心功能原理剖析中讲解了关于 Hudi 的基本概念和功能原理，Hudi 利用主键索引的方法来实现了 Upsert 的语义。Apache Iceberg 也是一个广为应用的数据湖框架，虽然两个框架的设计初衷和思路不同，但如今随着需求逐步丰富，两者对于使用者来说，却是越来越趋于一致了。

阅读全文 »

数据湖系列(1) - Hudi 核心功能原理剖析

发表于 2022-05-05 | 分类于 Data Lake

随着互联网业务的逐步成熟，数仓和模型训练的基本盘逐步稳固，越来越多的工程师从业务开发需求转移到了工程的架构升级，而常用的 Hudi 和 Iceberg 往往会成为替代 Hive/Hdfs 等架构升级的选型。

阅读全文 »

Ray Datasets - 模型训练前的"最后一公里"

发表于 2022-03-10 | 分类于 Ray

Ray 1.8+ 版本中提出使用 Datasets 来解决模型训练的”最后一公里”问题。由于并未在 Ray 上做过多的实践，所以本文更多是将 Datasets 做了系统化的梳理。关于 Ray 的介绍可以参考 Ray - A Distributed Framework for Emerging AI Applications。

阅读全文 »

Flink 的容错机制以及弱一致性快照

发表于 2022-02-06 | 分类于 Apache Flink

本文聊聊 Flink 中的容错机制及其存在的常见问题，以及在生产实践中遇到的弱一致性场景和解决方案。

阅读全文 »

Why not RocksDB in Streaming State?

发表于 2022-01-16 | 分类于 Apache Flink

本文以 Apache Flink 为例，聊聊为什么 RocksDB 不是流计算引擎中理想的状态存储。Flink 中使用 RocksDB 作为大状态的存储后端，但在实际线上大规模的生产应用中，我们发现 RocksDB 和流计算场景的组合，即使在参数调优及技术优化后，也始终达不到预期的理想状态。

阅读全文 »

Hazelcast Jet - Low-latency Stream Processing at the 99.99th Percentile

发表于 2022-01-12 | 分类于 Apache Flink

原文：Hazelcast Jet: Low-latency Stream Processing at the 99.99th
Percentile，Hazelcast Jet 是一个流处理引擎，整篇论文通读下来，它的定位和当前广为应用的流计算引擎 Apache Flink 和 Spark Streaming 又有些不同，详见以下文章的解析。

阅读全文 »