Skip to content
SayHi edited this page Nov 17, 2022 · 3 revisions

简介

2020年浦发银行大数据中心创立Data Ocean数据品牌体系,旨在面向金融行业各类业务主题和数据应用场景,为新业态下的金融业务发展和金融数据生态提供丰富的数据服务与解决方案。目前整个Data Ocean品牌下涵盖各类基础数据平台、金融数据服务产品、数据治理服务产品,形成了从基础数据平台建设到各类业务场景赋能的全套解决方案和实施方法论。 Harrier海鹞为Data Ocean品牌体系下的调度工具类产品,由Java开发,支持Linux, Windows环境部署,支持各类异构数据计算平台的作业调度(Hive, Spark, Teradata, Oracle,DB2,DataStage等),支持各类自定义任务作业调度(Java, Shell, Python, Perl等)

注意:Harrier最新版本为3.0


建议配置

Harrier可以很好地部署和运行在Intel架构服务器及主流虚拟化环境下,并支持主流的Linux操作系统环境。

Linux操作系统版本要求

操作系统 版本 Red Hat Enterprise Linux 7.0及以上 CentOS 7.0及以上 Oracle Enterprise Linux 7.0及以上 Ubuntu LTS 16.04及以上

注意:以上Linux操作系统可运行在物理服务器以及VMware、KVM、XEN主流虚拟化环境上

服务器建议配置

Harrier支持运行在Intel x86-64架构的64位通用硬件服务器平台。对生产环境的服务器硬件配置有以下建议: CPU 内存 硬盘类型 网络 实例数量 4核+ 8GB+ SAS 千兆网卡 1 注意: 以上建议配置为部署Harrier的最低配置,生产环境强烈推荐使用更高的配置。硬盘大小配置建议50GB+,系统盘和数据盘分开。

客户端Web浏览器要求

推荐Chrome 以及使用Chromium内核的较新版本浏览器访问监控系统前端可视化操作界面。

名词解释

作业:一个最小单位的数据处理流程,比如一个数据加载需求、一个数据抽取请求、一个数据分析计算模型。一个作业也可以由多个子脚本构成。 调度:将一个最小单位的数据处理流程提交给计算集群,并能实时获取到该作业的运行情况。 DAG:全称Directed Acyclic Graph,简称DAG。作业流中的作业以有向无环图的形式组装起来,从入度为零的节点进行拓扑遍历,直到无后继节点为止。 拖拽式作业开发:通过拖拽编辑作业并建立作业间依赖链路所形成的可视化DAG。 任务类型:目前支持有SHELL、SQL、JAVA、PYTHON、PERL、HTTP。 调度方式:系统支持基于cron表达式的定时调度和手动调度。 命令类型支持:启动作业流、指定节点执行、恢复暂停作业流、补数、定时、重跑、KILL作业。 定时调度:系统支持cron表达式可视化的生成。 依赖:系统不单单支持DAG简单的前驱和后继节点之间的依赖,同时还提供任务依赖节点,支持流程间的自定义任务依赖。 优先级:支持流程实例和任务实例的优先级,如果流程实例和任务实例的优先级不设置,则默认是默认优先级。 邮件告警:支持丰富的告警规则配置,作业流异常自动邮件告警。 补数:补历史数据,支持区间并行和串行两种补数方式。

项目特点

以DAG图的方式将Task按照任务的依赖关系关联起来,可实时可视化监控任务的运行状态。 支持丰富的任务类型:Shell、JAVA、SQL,PYTHON 等。 支持工作流定时调度、依赖调度、手动调度、手动暂停/停止/恢复,同时支持失败重试/告警、从指定节点恢复失败、Kill任务等操作。 支持工作流优先级、任务优先级及任务超时告警/失败。 支持资源文件的在线上传/下载,管理等。 支持任务日志在线查看、在线下载日志等。 实现集群HA,实现Master集群和Worker集群去中心化。 支持对Master/Worker cpuload, memory, cpu在线查看。 支持补数。 支持多租户。 支持准实时模式下的微批场景。

Clone this wiki locally