自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(59)
  • 资源 (31)
  • 收藏
  • 关注

原创 datax关系数据库插件设计和实现解释

本文介绍基于RBT的关系数据插件,datax自带关系数据库插件,本组件有以下特性:rbt组件转换配置,以写入库未目标,配置数据查询和规则,配置支持序列化为xml/json转换配置支持配置中心,zookeeper,nacos,数据库等,可扩展框架支持基于规则的转换,规则修改和新建 column/record两阶段转换,支持数据转换和关系的转换insert/upsert模式setl-data组件,无缝切换不同的数据库

2024-01-15 18:47:37 432

原创 flink源码分析之功能组件(五)-高可用组件

本系列是flink源码分析的第二个系列,上一个《flink源码分析之集群与资源》分析集群与资源,本系列分析功能组件,kubeclient,rpc,心跳,高可用,slotpool,rest,metrics,future。本文解释高可用组件,包括两项服务,主节点选举和主节点变更通知* 高可用服务常见有两种实现,zookeeper和k8s,本文介绍zookeeper

2023-12-14 18:42:08 997

原创 flink源码分析之功能组件(六)-心跳组件

本系列是flink源码分析的第二个系列,上一个《flink源码分析之集群与资源》分析集群与资源,本系列分析功能组件,kubeclient,rpc,心跳,高可用,slotpool,rest,metrics,future。本文解释心跳组件,心跳组件监听组件间连接活性,触发重连,保证连接有效性;断连后通知并释放资源,心跳可以带荷载,作为组件间数据交换的方式心跳组件依赖rpc组件实现通讯,rpc的解释可参考。

2023-12-08 00:35:05 1217

原创 flink源码分析之功能组件(四)-slot管理组件II

本系列是flink源码分析的第二个系列,上一个《flink源码分析之集群与资源》分析集群与资源,本系列分析功能组件,kubeclient,rpc,心跳,高可用,slotpool,rest,metrics,future。本文解释slotpool组件,严格来说,slotpool组件不属于功能组件,而是业务组件,资源消费者申请到资源后,在本地管有资源slot,避免资源管理器异常导致作业运行失败,同时资源管理器不可用也不会影响作业的继续执行,只有资源不足时才会导致作业执行失败。

2023-11-29 17:42:14 1222

原创 flink源码分析之功能组件(四)-slot管理组件I

本系列是flink源码分析的第二个系列,上一个《flink源码分析之集群与资源》分析集群与资源,本系列分析功能组件,kubeclient,rpc,心跳,高可用,slotpool,rest,metrics,future。本文解释slotpool组件,严格来说,slotpool组件不属于功能组件,而是业务组件,资源消费者申请到资源后,在本地管有资源slot,避免资源管理器异常导致作业运行失败,同时资源管理器不可用也不会影响作业的继续执行,只有资源不足时才会导致作业执行失败。

2023-11-29 17:39:16 1177

原创 flink源码分析之功能组件(三)-rpc组件

本系列是flink源码分析的第二个系列,上一个《flink源码分析之集群与资源》分析集群与资源,本系列分析功能组件,kubeclient,rpc,心跳,高可用,slotpool,rest,metrics,future。本文解释rpc组件,rpc组件用于个核心组件,包括作业管理器,资源管理器和任务管理器之间的通讯。

2023-11-27 11:02:22 1135

原创 flink源码分析之功能组件(二)-kubeclient

本系列是flink源码分析的第二个系列,上一个《flink源码分析之集群与资源》分析集群与资源,本系列分析功能组件,kubeclient,rpc,心跳,高可用,slotpool,rest,metrics,future。其中kubeclient上一个系列介绍过,为了系列完整性,这里“copy”一下。

2023-11-25 15:00:25 1335

原创 flink源码分析之功能组件(一)-metrics

本系列是flink源码分析的第二个系列,上一个《flink源码分析之集群与资源》分析集群与资源,本系列分析功能组件,kubeclient,rpc,心跳,高可用,slotpool,rest,metric,future。其中kubeclient上一个系列介绍过,本系列不在介绍。本文介绍flink metrics组件,metrics透视系统内状况,是系统预警,查错,性能改进的利器。

2023-11-20 23:01:06 1798

原创 弹性资源组件elastic-resource设计(四)-任务管理器和资源消费者规范

设计基于《flink原理源码分析(一) 集群与资源@k8s》,抽出作业管理器,包括其内部的调度器,通用化为资源消费者,标准化与资源管理器和任务管理器的交互接口;增加约束,如,组件间通讯rpc组件,高可用组件,心跳组件等,最大程度使用原flink代码,后续的迭代不断标准化,抽象化交互接口,支持不同的实现

2023-10-09 23:50:07 484

原创 弹性资源组件elastic-resource设计(三)-资源管理器II

设计基于《flink原理源码分析(一) 集群与资源@k8s》,抽出作业管理器,包括其内部的调度器,通用化为资源消费者,标准化与资源管理器和任务管理器的交互接口;增加约束,如,组件间通讯rpc组件,高可用组件,心跳组件等,最大程度使用原flink代码,后续的迭代不断标准化,抽象化交互接口,支持不同的实现

2023-10-09 23:46:21 79

原创 弹性资源组件elastic-resource设计(三)-资源管理器I

设计基于《flink原理源码分析(一) 集群与资源@k8s》,抽出作业管理器,包括其内部的调度器,通用化为资源消费者,标准化与资源管理器和任务管理器的交互接口;增加约束,如,组件间通讯rpc组件,高可用组件,心跳组件等,最大程度使用原flink代码,后续的迭代不断标准化,抽象化交互接口,支持不同的实现

2023-10-09 23:02:09 92

原创 弹性资源组件elastic-resource设计(二)-集群

集群是资源的载体,弹性资源基础是弹性的集群,弹性资源集群架构采用master-worker,首先启动master,master包括资源消费者,资源管理器,master是弹性的决策器,控制worker的部署和释放

2023-10-09 13:45:26 109

原创 弹性资源组件elastic-resource设计(一)-架构

弹性资源组件提供动态资源能力,是分布式系统关键基础设施,分布式datax,分布式索引,事件引擎都需要集群和资源的弹性资源能力,提高伸缩性和作业处理能力。本文介绍弹性资源组件的设计,包括架构设计和详细设计,指导开发人员代码开发弹性资源组件关联的3个主要角色《flink原理源码分析(一) 集群与资源@k8s》 详细分析了flink集群与资源的源码和原理上图是场景视图,按领域分,

2023-09-26 12:26:54 483

原创 flink源码分析之集群与资源@k8s-回顾

本章是分析系列最后一章,作为回顾,以运行架构图串联起所有分析场景

2023-09-21 09:48:50 439

原创 flink源码分析之集群与资源@k8s-flink kubeclient

flink kubeclient是面向flink应用的fabric8 kubeclient的封装,本节分析flink如何封装kubeclient,核心组件是装饰器,资源和ServiceType

2023-09-21 09:16:59 314

原创 flink源码分析之集群与资源@k8s-资源III 声明式资源管理

检查资源需求/检查资源声明是flink声明式资源管理的核心方法上面的资源场景分为两类,提出资源需求和提供资源, 检查资源请求/检查资源声明是交汇点,处理资源请求,该分配的分配,该请求新的请求新的资源;检查资源声明,哪些资源可以释放,需要新资源请求新worker。本章深入分析两方法,上游提出资源需求和下游提供资源的串联,资源状态演变,存储型态

2023-09-20 14:14:22 244

原创 flink源码分析之集群与资源@k8s-资源II 资源提供

资源分析分3部分,资源请求,资源提供,声明式资源管理,本文是第二部分资源提供

2023-09-20 13:51:59 271

原创 flink源码分析之集群与资源@k8s-资源I 资源请求

资源分析分3部分,资源请求,资源提供,声明式资源管理,本文是第一部分资源请求

2023-09-20 13:47:37 475

原创 flink源码分析之集群与资源@k8s-运行时

运行时提供了Flink作业运行过程依赖的基础执行环境,包含Dispatcher、ResourceManager、JobManager和TaskManager等核心组件,本节分析资源相关运行时组件构建和启动。

2023-09-20 11:42:06 452

原创 flink源码分析之集群与资源@k8s-集群

本文是flink集群与资源@k8s源码分析系列的第二篇-集群

2023-09-20 09:53:30 561

原创 flink源码分析之集群与资源@k8s-总述

集群和资源模块提供动态资源能力,是分布式系统关键基础设施,分布式datax,分布式索引,事件引擎都需要集群和资源的弹性资源能力,提高伸缩性和作业处理能力。本文分析flink的集群和资源的k8s模块,深入了解其设计原理,为开发自有的集群和资源组件做技术准备, 同时涉及作业管理器,slot pool,但不深入调度器。本文分析基于flink 1.17版本,不同版本代码差异比较大

2023-09-20 09:50:35 501

原创 flink原理源码分析(一) 集群与资源@k8s

集群和资源模块提供动态资源能力,是分布式系统关键基础设施,分布式datax,分布式索引,事件引擎都需要集群和资源的弹性资源能力,提高扩展和作业处理能力。本文分析flink的集群和资源的k8s模块,深入了解其设计原理,为开发自有的集群和资源组件做技术准备, 同时涉及作业管理器,slot管理,不深入调度器。本文分析基于flink 1.17版本,不同版本代码差异比较大

2023-09-15 16:56:27 451

原创 事件引擎EventBridge v1.0实现解释与API说明

事件引擎作为事件流处理,集成中心,事件中心,流ETL的基础设施,建基于rocketmq的开源rocketmq eventbridge是一个很好的选择,经过分析后,rocketmq eventbridge基本满足要求,但域模型(domain)有比较大的改进空间,本次设计主要重构事件通道领域模型,及其持久层前篇《事件引擎eventbridge1.0 设计说明书.docx》介绍设计,本文介绍设计的落地和代码实现细节,以及api说明,本版本与原版本最大区别是重构了领域模型和持久实现,重新设计

2023-07-17 14:34:59 96

原创 事件引擎EventBridge v1.0设计

引入事件引擎作为事件流处理,集成中心,事件中心,流ETL的基础设施,建基于rocketmq的开源rocketmq eventbridge是一个很好的选择,经过分析后,rocketmq eventbridge基本满足要求,但域模型(domain)有比较大的改进空间,本次设计主要重构事件通道领域模型,及其持久层,本文主要介绍逻辑通道域模型设计

2023-05-26 18:09:49 112

原创 rocketmqConnect/EventBridge原理源码分析 II-worker

是RocketMQ数据集成重要组件,可将各种系统中的数据通过高效,可靠,流的方式,流入流出到RocketMQ,它是独立于RocketMQ的一个单独的分布式,可扩展,可容错系统,它具备低延时,高靠性,高性能,低代码,扩展性强等特点,可以实现各种异构数据系统的连接,构建数据管道,ETLCDC,数据湖等能力。架起高可伸缩,高吞吐的事件通道。E。

2023-05-21 15:52:01 105

原创 rocketmq Connect/EventBridge原理源码分析I-架构,服务和组件

RocketMQ Connect是RocketMQ数据集成重要组件,可将各种系统中的数据通过高效,可靠,流的方式,流入流出到 RocketMQ,它是独立于 RocketMQ 的一个单独的分布式,可扩展,可容错系统,它具备低延时,高靠性,高性能,低代码,扩展性强等特点,可以实现各种异构数据系统的连接,构建数据管道,ETL,CDC,数据湖等能力。RocketMQ EventBridge架起高可伸缩,高吞吐的事件通道。

2023-05-17 23:53:57 227

原创 搜索引擎onesearch2(基于elasticsearch6.7)nested字段/动态扩展索引属性

Nested类型字段是一对多关联对象搜索的解决方案,动态扩展字段在业务系统很常见,搜索引擎需要支持,本文介绍onesearch组件如何使用nested,使用nested实现索引和查询动态扩展索引属性。

2023-04-20 00:04:53 176

原创 搜索引擎2.0(based elasticsearch6.8)文档搜索权限设计与实现

企业搜索,文档搜索权限是不可或缺,原因有二, 首先,企业文档,包括公文,流程,技术文档等,带有敏感信息,需要权限控制,搜索返回带片段,可能带出敏感信息;其次,若没有权限,用户搜索出来的文档可能不能阅读原文,体验非常差本文介绍文档搜索权限的设计和实现解释

2023-04-12 15:50:10 234

原创 搜索引擎2.0(based elasticsearch6.8)设计与实现细节(完整版)

介绍了1.0特性,搜索schema,agg,表达式搜索映射,本文介绍onesearch 2.0 新特性, 文档抓取,文档索引及其分布式架构,搜索装配映射组件等

2023-03-23 01:19:17 275

原创 搜索引擎onesearch2.0文档索引/esdsl装配映射详细设计和实现解释

es dsl搜索功能非常丰富,可调参数多,但也很难用,更难服用,onesearch设计装配映射组件支持通用表达式转换esdsl,用户只需编写通用表达式,如,((f1=‘a’or f2=’b’) and f3=‘c’)) 即可实现搜索过滤,类似elasticsearch自身也提供了sql查询功能,大大降低开发难度,同时具备高复用性。映射通用表达式为es dsl,支持=,!=,like,in,range,prefix,not/and/or,大小括号,点(.)等操作符映射,解决es dsl难使用,难复用的痛点。

2023-02-27 23:03:16 149

原创 搜索引擎onesearch 2.0分布式文档索引设计+tika原理源码分析

Tika原理源码分析,内容类型识别,内容抓取,分布式datax

2023-01-06 22:04:28 918

原创 分布式dataX CDC与关系/图(neo4j)增量同步(完整版)

SETL逻辑架构和规划setl-rbt 全量同步组件,datax组件,接入分布式调度,实现高性能的全量同步setl-cdc cdc增量同步datax组件,接入分布式时间槽实现高可靠增量,后续规划接入kafka connectsetl-stream 规划中,流式etl,引入kafka connect,实现高吞吐低延时的增量同步config-center 配置中心,datax原生使用本地文件配置,配置中心摆脱本地文件限制,实现分布式系统的必要基础设施。

2022-12-17 22:29:32 806 1

原创 分布式datax CDC架构设计

分布式dataX CDC有两种可选方式,分布式作业和分布式时间槽分布式作业在《分布式dataX详细(落地)设计》介绍过,dataX CDC单分片,使用分布式作业,只有一个worker作业工作,其他worker作业备用状态,资源利用率不高,因此,分布式时间槽比较合适。

2022-12-15 11:28:23 648

原创 Datax CDC 可靠 channel

可靠 channel,可确认的分布式持久数据(Record)的 channel,Channel 不可靠对于 CDC 是致命的,丢失数据;但对于全量同步可以接受,全量同步故障转移后,整个分片重新同步。可靠 channel 对于数据量比较大,没有分片的情况也非常有用,相当于断点续传的能力,但对性能有一定影响

2022-12-01 17:21:39 537

原创 分布式 dataX 详细 (落地) 设计

分布式 DataX 基于 datax 打造的语义分分布式 ETL 平台。Datax 提供 reader-framework-writer 框架,方便开发两种异构数据源数据同步,但开源的 datax 缺少分布式特性,本文介绍基于elastic 平台和改造分布式 datax 详细(落地)设计。

2022-11-15 11:53:54 888 1

原创 CDC 增量同步框架与关系 /neo4j 增量同步设计

数据增量同步是 ETL 关键功能,在全量同步后,持续增量同步,保证数据的完整,正确和时效,通常有两种方式实现,双写和 CDC双写 优点,实现简单, 写入源库同时写入目标库;缺点,代码侵入,影响正常业务CDC 优点,无侵入,读取数据库 log,获取数据变更;缺点,复杂,需要引入 CDC 组件,从数据变更(表/行/字段变更)到目标增量变更(通常是 DTO)需要复杂的映射Cdc 组件本身通用设计,支持扩展 redis,elasticsearch 等数据库同步本文包括两部分,cdc 组件设计和。

2022-10-01 16:34:22 1230

原创 分布式时间槽elastic timeslot架构设计

调度引擎是关键的基础设施,不但是定时执行任务,更是大规模分布式任务引擎,分布式并行处理平台,管理计算节点集群,提供高吞吐的可伸缩的数据处理能力。同时,分布式调度引擎也是,分布式改造的核心技术根据场景,调度引擎分为分布式定时任务,处理大规模数据任务;分布式时间槽,处理大量任务本文介绍的架构设计,分布式特性依赖《分布式服务支撑平台》时间轮是由时间槽组成的环形队列,时间槽内存放作业链表,秒针如时钟秒针一样,一个时间间隔走过一个时间槽,执行时间槽内任务。.........

2022-08-11 11:27:57 482

原创 【分布式支撑平台 elastic-platform】

分布式是重要的,分布式开发是困难的。分布式是重要的,随着请求,数据的规模越来越来大,单节点已不可能处理,需要大量的节点合力共同完成,分布式系统协调管理大规模节点集合,使用分片,分片容错等机制实现请求的分片分流处理,满足大规模请求,大规模数据的处理性能分布式开发是困难的,分片,分片容错,节点管理(服务节点上下线),不一致处理,监控等,每一项都是复杂的课题分布式支撑平台封装分布式开发需要的服务,大大降低开发难度.........

2022-07-08 09:54:56 412

原创 datax基于规则转换(RBT)组件+图数据库间同步设计与实现

《datax关系/图数据插件设计说明书》介绍关系/图转换插件,该插件属于数据同构同步,模型一致,属性名称一致,优点是自动化高,不用多大干预,适合生成中间数据,特别是,关系数据库系统与图数据库系统不在同一网段,网络不稳定,同步尽量简单显得很重要 然而,实际的情况是,目标数据模式设计与源数据不同,包括模型和规范,这时候需要高度可配置的转换组件,基于规则的转换(RBT)组件为此而开发,使用规则改造和构建record,提供高度可配置的同时,不失通用性 因此,关系/图转换插件和基于规则的转换(RBT)组件两者互为

2022-06-16 12:13:47 523

原创 datax监控测量(metrics)设计与实现

DataX监控测量(metrics)输出器Prometheus

2022-05-29 23:00:51 852

基于规则的转换组件,用于datax转换

基于规则的转换组件,可用于datax

2022-06-16

datax metrics exporter @prometheus

包括datax-core,集成了metrics输出器组件 输出器组件

2022-05-29

datax关系/图数据库插件

datax关系/图数据库插件

2022-05-15

my-sharding

基于sharding-jdbc 3.1.0,针对sharding-jdbc使用上痛点和缺失在源码级别解决和增强 1. 分片算法框架 2. sql兼容加强

2022-01-25

onesearch-master.zip

搜索引擎

2022-01-11

canal-sync.zip

canal同步,数据变更捕获

2022-01-04

service-tracing-demo.zip

业务跟踪demo

2022-01-03

service-tracing.zip

业务跟踪框架代码

2022-01-03

metrics-reporter.zip

测量组件,metrics-core,Prometheus输出器,报告器

2021-12-19

flowsharping.rar

动态限流下分布式流量控制

2021-12-13

obs-demo.rar

操作日志全链路测试demo,包括网关,服务,参数抓取

2021-11-17

service-logV2.zip

服务日志

2021-11-17

mygray-master.zip

灰度发布discovery自定义策略,多发布(release)分组(group),指定租户(tenant)灰度发布策略, 并带有demo

2021-11-04

odoo-connector-java.rar

odoo连接器,支持流式构建逆波兰not and or查找表达式,单元测试覆盖绝大部分场景,包括not and or嵌套,优先级;demo数据库,自有数据库

2021-11-03

Learning.Spark.Lightning-Fast.Big.Data.Analysis.pdf

Learning Spark, pdf格式, 为数不多的spark著作,值得细看

2015-02-13

Learning.Spark.Lightning-Fast.Big.Data.Analysis

Learning.Spark 完整版,为数不多的spark著作

2015-02-07

learning spark预览版

屈指可数的spark书中比较好的,特别是RDD方面

2014-10-31

hadoop_the_definitive_guide_3nd_edition.pdf

一本非常经典hadoop书,已经是第3版,时间可以证明一切

2013-03-14

Manning.Hadoop.in.Practice.Oct.2012.pdf

书如其名,一本注重hadoop实践的书,如需要原理深入介绍、开发使用参考 hadoop_the_definitive_guide_3nd_edition.pdf 内容大致如下 1. hadoop基本介绍 2. 数据输入、输出 3. 数据预处理 4. 应用hadoop,大数据分析、挖掘

2013-03-14

Just Enough Software Architecture

A Risk-Driven Approach Architecture Design

2011-06-20

Software Systems Architecture

非常棒的讲述系统架构的书,a wonderful book about system Architecture

2011-05-30

Professional_Android_2_Application_Development

Oh, A Bible for developing android app

2011-03-23

The Definitive Guide to Terracotta

Terracotta The Definitive Guide

2011-01-17

High.Performance.MySQL_Second.Edition

High Performance MySQL is the definitive guide to building fast, reliable systems with MySQL.

2011-01-16

spring security 3.0 book

book for spring security 3.0

2010-10-27

Apress.Beginning.Android.2.Mar.2010.zip

Android.2 development in java

2010-09-13

Fundamental+Networking+in+Java.pdf

Fundamental Networking in Java

2010-08-20

UML Distilled Second Edition

UML Distilled Second Edition A Brief Guide to the Standard Object Modeling Language

2010-08-18

User Stories Applied For Agile Software Development.chm

User Stories Applied will be invaluable to every software developer, tester, analyst, and manager working with any agile method: XP, Scrum... or even your own home-grown approach.

2010-08-18

EXTJS In Action MEAP ch1-ch6.pdf

Of cause, the famous In Action series, though the meap edition, it is enough.

2010-08-17

ActiveMQ In Action MEAP Edition

ActiveMQ In Action MEAP Edition, famous In Action series, though MEAP Edition, but is enough for people who want to study ActiveMQ.

2010-08-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除