淘宝大数据平台
滴滴数据平台演进之路
美团数据平台
360数据平台演进之路
快手大数据服务化平台
数据同步:对数据资产同步至高速存储的过程进行监控,包括数据质量检测(过滤脏数据)、同步超时或者失败检测等
服务稳定性:构建一个独立的哨兵服务,来监测每个API的运行指标(如延迟、可用性等),客观的评估健康度
业务正确性:数据服务需要确保用户访问的数据内容和数据资产表内容是一致的,因此哨兵服务会从数据一致性层面去探查,确保每个API的数据一致性
支持丰富的数据源:包括大宽表、文本文件、机器学习模型(模型也是一种数据资产),来构建完善的数据服务。
支持多样取数方式:除了支持同步快速取数之外,还支持异步查询取数、推送结果、定时任务等多样化方式,以满足业务多种场景需求。
建设统一的API网关:集成权限管控、限流降级、流量管理等于一体,不仅平台创建的服务可以注册进API网关,用户自己开发的API也可注册进API网关,从而享受已有的基础网关能力,为业务提供数据服务能力。
京东 EB 级全域大数据平台
京东整个平台经历了很长的建设和发展历程。这个历程包括了五个阶段:
规模化阶段
主要完成了技术栈的计算存储分离升级,依托数据中心网络技术的提升,减弱对计算本地性的依赖,打散存储热点,提高计算稳定性;同时定制存储与计算优化机型,独立进行容量规划,大幅降低IT资源成本。在存储上实现了稳定的万台规模HDFS集群,并在其上全面落地了纠删码技术,实现高效高压缩比的大数据存储;再在计算上进行了跨层的优化,从调度层、引擎层和应用层分别进行了深度的改进;最后通过全生命周期管理保障平台的存储计算能力持续处于健康状态。
趣头条实战 | 基于Flink+ClickHouse构建实时数据平台