Skip to content
kevinKaiF edited this page Jul 21, 2017 · 12 revisions

dataflow结构图 整个dataflow的结构图如上所示。
设计思路就是将每一份数据同步的抽象为instance,可以理解为一个线程。
dashboard系统就是管理instance的生命周期,将instance的信息通过dubbo服务保存到db。
node则是用于执行instance的系统,node由zookeeper进行集群管理。
dashboard启动instance时,按负载均衡的方式选中一个node执行instance,node可以将数据发送到不同的系统。

dashboard

dashboard是个管理系统管理,有数据实例、输出数据源、节点监控和系统配置这个四个目录。

数据实例

数据实例用于管理instance的创建,修改,删除,启动,关闭。

输出数据源

配置instance需要输出的地方。目前支持的输出数据源有mysql,oracle,postgresql,sqlserver,hive,kafka,activemq

节点监控

监控producer和consumer两种类型的节点,可以查看节点同步的最后位置以及异常日志。

系统配置

目前主要配置node系统的告警,暂时只支持邮件告警。

node

node用于执行instance,所有的node注册到zookeeper上,由zookeeper进行集群管理。 node节点注册路径格式是/dataflow/node/${host}:${port}。 运行在此node上的instance也会注册到zookeeper上,producer类型的instance路径是/dataflow/node/producer/${instanceName}, consumer类型的instance路径是/dataflow/node/consumer/${instanceName}。 同时node会把运行在此node上intance运行路径更新到数据库,以防node挂掉后重新启动这些instance

Clone this wiki locally