WeDataSphere icon indicating copy to clipboard operation
WeDataSphere copied to clipboard

WeDataSphere is a financial grade, one-stop big data platform suite.

Results 27 WeDataSphere issues
Sort by recently updated
recently updated
newest added

【Linkis 开发群内容翻译】 概述:开发群讨论内容翻译,发布在邮件中,任务时限一般为3-7天 【Linkis 文章翻译】 概述:公众号上发布的文章翻译,任务时限一般为7-14天 示例/SOP:https://docs.qq.com/doc/DQXJ1am5xdkRGb2lu 查看以及领取任务:https://docs.qq.com/doc/DYkxMbVpKT3FsUmFX

活动详情:[《Meetup预告:Linkis新版本介绍以及DSS的应用实践》] (https://mp.weixin.qq.com/s/jKPidHqP-NmCQuUPFmbniA) 【活动素材】 1、活动视频; 2、两位讲师的PPT; 链接: https://pan.baidu.com/s/1ocrDERTFNrY64Ckk4vUboQ?pwd=pixy 提取码: pixy 【需求描述】 1、把活动视频剪辑为2个视频,根据讲师主题来剪辑,分为:《Meetup 03期:Linkis-1.1.0新功能介绍》和《Meetup 03期:上海合合信息合数据工坊IDS》 【参考资料】 1、微众开源B站视频:https://space.bilibili.com/598542776?spm_id_from=333.337.search-card.all.click 2、微众银行WeDataSphere:https://www.bilibili.com/video/BV1XY4y157vW/?vd_source=9aa07872ebe6004451a9df19451c056a 完成时间:6月15日(内容提交给Andy验收) 上传B站时间:6月17日 如有任何疑问,请联系Andy

### 一、应用场景 哗啦啦数据中台项目旨在为餐饮行业提供一站式的数据处理平台。满足数据接入、数据清洗、数据加工、质量校验、数据服务、数据输出的数据应用开发全流程场景需求。 数据中台整体架构如下: ![image](https://user-images.githubusercontent.com/41414514/99630871-8bcde980-2a75-11eb-8325-885b8ceff207.png) 其中Qualitis应用于数据质量系统提供规则引擎。linkis为数据质量以及开发系统调试功能提供计算引擎支持 ### 二、解决的问题 1、jdbc引擎如执行运行小时级的hive sql时。元数据库中的任务状态不更新问题 2、jdbc引擎打通数据源管理系统,支持数据源配置 3、打通中台项目统一认证服务 4、支持参数解析(包括时间变量) 5、Qualitis增加告警以及定时调度功能 ### 三:DSS在哗啦啦的最佳实践 #### 1、开发平台系统 开发系统集成了大数据主流工具,通过拖拉拽dag生成数据处理流程,集代码开发、代码审核、任务监控告警、工作流版本、权限控制等功能。能满足用户大部分数据处理场景,开箱即用,简化用户开发流程,降低技术门槛。 在最初,用户写完脚本后,验证脚本正确性需通过提交代码审核之后真正执行任务,或者用第三方开发工具验证如zeppelin。用户反愦验证流程很不便利。在引入Linkis以及DSS后,开发平台基于DSS的前端做了二开,使用了他的脚本运行功能,提交任务到Linkis,并推送任务进度以及运行日志到浏览器,简化了用户的验证流程,优化了用户交互。完善了开发系统之前缺少的调试功能。 ![image](https://user-images.githubusercontent.com/41414514/99631180-1878a780-2a76-11eb-8378-7205fcc4fced.png) 开发系统部分界面展示 ![image](https://user-images.githubusercontent.com/41414514/99633109-588d5980-2a79-11eb-9fb7-d1657a8a52e1.png) ![image](https://user-images.githubusercontent.com/41414514/99634247-1b29cb80-2a7b-11eb-8e26-77a0da594230.png) ![image](https://user-images.githubusercontent.com/41414514/99633235-870b3480-2a79-11eb-86f7-da686845ff93.png) ![image](https://user-images.githubusercontent.com/41414514/99633329-aace7a80-2a79-11eb-8c3a-0eaa123c85e8.png) #### 2、数据质量系统 在开发系统上经过的 接入、清洗、加工、输出...

### 痛苦中找出路 公司目前情况: 依托aws托管的大数据集群,基本上用的也都是aws提供的服务。aws起集群真实是方便,也带有一些工具,hue,jupyter notebook等。但是带来的问题也是明显的,比如服务一个个的起来,管理,安全,审核等各个带来等工作量压力就非常大了,业务需求为主,先用hue跑,hue满足不了装一个zepplin跑spark代码,实在不行等开console权限等等,这样下来一直忙于本命,却很容易被别人抓住问题不断等喷,所以选择一个合适的开源平台持续建设才能真正的让大数据工程方面得到长足的发展,DSS+Linkis就是这样一个相对较为完美的选择。 ### 出路不代表平坦路 要想安装上Dss + Linkis 还真不是一件容易的事情,首先aws的各种包都是专有版本,替换包是肯定要的,各种一阵替换(这里就先略去啦,较为繁琐),还有就是发现maven公开地址上根本就没有aws的仓库,有个同事说去机器上下载,我去。。。这变个版本不累趴下啊,还好找到了解决方案: https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-artifact-repository.html, 对应的maven文件中添加,如下: ```xml emr EMR emr-6.1.0 Releases Repository true false https://s3.ap-northeast-1.amazonaws.com/ap-northeast-1-emr-artifacts/emr-6.1.0/repos/maven/ ``` 实际依赖的一些jar的版本,比如 spark,hive ,hadoop等最好都是和线上版本保持一直,并且要在配置文件中根据报错情况加入执行engine需要等lib包路径比如 native包,以及emr特有等一些包等路径等。 ### 升级打怪还是要写代码 我们使用的emr使用的元数据是配置的Glue中来存储的元数据,没有mysql的实现,这块也要兼容起来,首先是要用aws-sdk-glue的包引进来,兼容实现了...

DSS(DataSphereStudio)的实现强依赖于Linkis计算中间件,dss包含6个,而底层linkis需要部署18个服务,所以一般基于dss二次开发,关键就是对linkis的hadoop集群做适配,以及超多的微服务导致部署的问题(工作量大,服务间存在依赖,容易出错)。 本文主要的关注点是如何将dss应用于生产环境并采用`gerrit + jenkins + ansible + docker`实施`cicd`,实现对linkis和dss的自动化部署,封装每个微服务在不同运行环境的配置和启动脚本。 # 关于DSS DSS(DataSphereStudio)是一个一站式数据应用开发管理门户,基于插拔式的集成框架设计,基于计算中间件`Linkis`实现。 # Linkis部署结构 linkis总共18个微服务 ## Linkis服务列表 * eureka:注册中心 * linkis-gateway:网关 * linkis-resourcemanager:资源管理服务 * linkis-dsm-server:数据源服务 * linkis-mdm-server:元数据管理服务 * linkis-metadata:元数据服务 * linkis-bml:物料库...

余额宝从0到亿级用户的发展历时半年,到2020年疫情期间疫情状况展示应用,其用户规模从0到亿级只用了1周。这看似不可能的成绩归功于云原生,业务中台,及数据中台3大红利,其中linkis+dss作为大数据开发套件,是数据中台建设的一个重要组件,在数据开发过程中如何保证各种spark,hive,flink任务 100%成功,在数据生产阶段如何规划资源调度,最大限度利用资源,保证数据准时生产出来。那云原生又会给linkis带来什么样的技术红利呢,接下来介绍linkis+dss在艾佳生活的实践。 kubernetes,isitio,knative做为云原生操作系统及各微服务生产部署的技术底座,不仅是各大云厂商的发力点,也是中小型公司弯道超车的机会。如图所示,kubernetes可以屏蔽微服务对各种计算资源(cpu,gpu,tpu),存储资源(nfs,ceph,minio)等底层资源的感知,基于DNS做服务发现,通过fqdn及可找到对应的微服务,极大屏蔽了语言等差异性(如java微服务调用go,python)。 ![image](https://user-images.githubusercontent.com/39478871/99796329-3fafa180-2b68-11eb-85a4-d479c3b29a94.png) istio解决连接,安全,流量控制及可观测行等问题,3个月一个版本的更新周期。istio可以降低微服务部署的复杂性,并减轻开发团队的压力,是一个开源的服务网格,作为透明的一层接入到现有的分布式应用程序里。istio也是一个平台,拥有可以集成任何日志、遥测和策略系统的 API 接口。Istio 多样化的特性使各公司能够成功且高效地运行分布式微服务架构,并提供保护、连接和监控微服务的统一方法 ![image](https://user-images.githubusercontent.com/39478871/99797773-d54c3080-2b6a-11eb-9939-756200d56112.png) ![image](https://user-images.githubusercontent.com/39478871/99799571-daf74580-2b6d-11eb-8005-9e89769e9d11.png) knative可以实现无服务化,autoscale到0特性。让开发人员关注代码的运行而不需要管理任何的基础设施。程序代码被部署在诸如AWS,阿里云等平台之上,通过事件驱动的方法去触发对函数的调用。其技术特点包括了事件驱动的调用方式,以及有一定限制的程序运行方式,如AWS Lambda的函数的运行时间默认为3秒到5分钟。从这种架构技术出现的两年多时间来看,这个技术已经有了非常广泛的应用,例如移动应用的后端和物联网应用等。简而言之,无服务器架构的出现不是为了取代传统的应用。然而,从具有高度灵活性的使用模式及事件驱动的特点出发,开发人员/架构师应该重视这个新的计算范例,它可以帮助我们达到减少部署、提高扩展性并减少代码后面的基础设施的维护负担。 ![image](https://user-images.githubusercontent.com/39478871/99797063-881b8f00-2b69-11eb-8644-96a37968c4db.png) 通过容器化交付linkis微服务制品,可以省去在各个公司jar包冲突,操作系统依赖,jdk版本依赖等问题的重复解决。大家在运维各种项目的时候可能经常遇到这样的问题,我在sit环境是没有任何问题的,为什么一到生产就会有各种莫名其妙的问题,可能是因为操作系统,硬件架构差异导致,如何避免这种问题的发生,保证sit,uat,stage环境的一致性,docker其一次编译,随处运行的特性不仅可以解决上诉问题,还可以极大的节省部署时间。 kubernetes在屏蔽底层资源差异,弹性扩缩容,健康检查,故障自愈等方面会解决linkis运维过程中的很多痛点,其内建资源deployment可以保证每个微服务按期望数量运行,如果发成oom,单机宕机等问题,会在其他服务器自动重启一个pod,完成故障自愈。下图是艾佳生活linkis混合云部署部署架构图,在3月份完成右侧架构升级,通过WAF,SLB做公网流量入口,解决安全,防DDos,cc攻击等,通过SLB解决高并发流量,同region跨zone多活问题,通过pvc挂载oss存储,10个9的可靠性保证存储的高可用,6线BGP及cdn加速保证海量数据读取的时效性 ![image](https://user-images.githubusercontent.com/39478871/99797978-2bb96f00-2b6b-11eb-9a75-612b63a18dee.png) ![image](https://user-images.githubusercontent.com/39478871/99799288-5efcfd80-2b6d-11eb-983d-575a954602df.png) 最后,我们在明年会规划开发linkis-operator,解决linkis-enginemanager管理linkis-engine资源的问题,完成linkis-engine可以无上限创建。

### 一、Boss直聘数星平台介绍 > 结合业内的大数据业务经验,以及在公司内的实际业务环境,为了帮助数据和技术人员可以更加方便地利用大数据技术、帮助产品运营等业务人员可以轻松用数据创建业务价值,我们自研了一站式大数据应用开发和数据管理平台——数星平台。 > 围绕着数据的血缘链路,从数据源头的生产管理,到数据同步采集、数据存储,实时离线计算引擎, > 再到数据的服务化,对接业务应用等,实现了数据开发、任务运维、自助分析、数据管理、项目管理、调度管理及多租户管理等功能。 > 数星平台将数据开发、数据分析、数据ETL等数据科学工作通过工作流的方式有效地串联起来, > 提高了数据开发工程师和数据分析工程师的工作效率;作用于业务上,提高了数据价值变现的能力。 > 目前支持: > 4套集群(实时Flink on Yarn集群 + Hadoop集群 + Spark集群 + Hbase集群)稳定使用; > 数星平台—入口flume系统:每天采集400多亿条日志,接入实时的 ETL 存储解析流程,交付下游数据团队稳定使用; > 数星平台—入口Dbus系统:接入关系型数据库表数量5w+...

# 1. 背景 蔚来汽车的数据平台Insight,经过三年多的发展,已经有了比较完善的各个组件和工具,可以完成数据采集、处理、分析、生成中间表,生成指标,形成报表,元信息管理、权限管理(Crystal)等等。很多人会疑问,为什么需要单独做一个一站式数据应用交互管理平台? 原因有以下几点: 1. 能够提高用户的开发效率。目前数据平台的用户在进行业务开发、数据查询,要分别进入不同的组件进行操作,使用感觉上是比较割裂的,比如:查询元数据的时候,使用自研的Crystal工具;做数据分析时候,使用Zeppelin交互式查询平台;进行任务调度的时候,使用Airflow或者Oozie上去配置;下载HDFS上的数据的时候,需要使用hue去下载。因此我们认为,如果能有一个统一的一站式数据开发、分析、可视化的平台,可以降低用户使用Insight数据平台的成本,并起到一定的在内部推广Insight的作用。 2. 能够将用户的所有脚本都管控起来,之后就可以通过代码扫描来监控代码质量,落实业务规范,以及合理化资源的使用情况等,甚至可以通过对脚本进行限制或者改写,来避免一些不合理的集群使用方式。 在今年下半年,经过一段时间的一站式数据应用交互管理平台的技术调研选型,我们最终确定以微众银行开源的DataSphere Studio作为Insight的一站式数据应用交互管理平台,并根据公司业务需要进行一些定制开发。 下图展示了目前Insight数据平台架构和DSS在其中的定位: ![image2020-11-20_20-7-25](https://user-images.githubusercontent.com/4860510/99877169-2164a700-2c37-11eb-9ea7-e81cb04ccb2b.png) # 2. DSS与Airflow的结合 由于公司已经较大范围了使用了Airflow作为数据平台任务调度工具,但是DataSphere Studio目前只支持Azkaban的调度工具,尚未适配支持Airflow。 因次我们进行了一些二次开发,将DSS和Airflow初步结合了起来。修改的地方仅在DSS一个repo中,已经向社区提交了Pull request: https://github.com/WeBankFinTech/DataSphereStudio/pull/241/files 运行截图如下: ![企业微信截图_3689aaf2-0672-41b1-ae7a-c5c80fe23613](https://user-images.githubusercontent.com/4860510/100040177-b804b400-2e41-11eb-911a-ee0f848b923c.png) 我们主要做了以下工作: 1. 参照DSS已有调度模块dss-azkaban-scheduler-appjoint,开发了一个新的模块:dss-airflow-scheduler-appjoint。 2. 参照plugins中azkaban的插件linkis-jobtype,开发了一个airflow worker上的运行client:linkis-airflow-client。 DSS和Airflow交互的总体架构图如图所示:...

## 一.应用场景 首先感谢社区各位大佬的指点,学习到很多。 知因智慧是一家toB金融公司,里面需要大量的ETL过程,原先用Shell脚本连接各种Hql,Spark等等,XXL- Job调度,可能一个模块就被一个大的脚本包含住了,耦合性特别强,调度这块也有问题,无法监控中间的报错,2019下半年时看到社区开源组件,一直研究怎么跟公司整合。 希望借助社区的力量,结合公司实际情况,打通公司级数据中台的流程,目前数据建设主要集中在元数据管理,数据仓库ETL流程,数据质量,任务调度这几个方面。 ## 二. 解决的问题 >基于LDAP服务 基于LDAP管理用户,代理服务模块修改,以组为单位共用账户,公司的整个数据开发人员不多,基于这种方式可以支撑下去。 ```java object LDAPUtils extends Logging { val url = CommonVars("wds.linkis.ldap.proxy.url", "").getValue val baseDN = CommonVars("wds.linkis.ldap.proxy.baseDN", "").getValue def login(userID: String,...

### 一,使用背景 公司业务线较多,有景区智慧一体化管控平台的业务线,以省市县数据中心为主的数据中心业务线,以智能小程序切入的面向C端游客的业务线,面向游客的ots业务线等,目前准备构建一套可以打通各个业务线的数据中台,经过前期调研,发现微众的DSS + Linkis平台可以完美融入我们的数据中台架构,故决定搭建该平台。 ### 二,使用功能亮点 微众DSS + Linkis打通了数据治理的闭环,数据交换-数据分析-数据使用-可视化报表展示整个链路可以满足大部分数据治理的需求,特别是scriptis脚本分析,融合了spark-sql,Hsql,scala脚本,python脚本,shell脚本,功能丰富且强大,页面风格也很清晰。脚本执行出的分析内容可以直接下载Excel或者数据报表,省去了之前很多数据导来导去的工作量。另外使用中发现一个额外功能:工作流结合调度基本可实现数据清洗的功能。 ### 三,使用展望 希望之后可以开放数据api服务的功能,目前我们已有类似的需求,打算通过Visulis的试图暴露api出去给外部系统查询使用,可能有一定的改造工作量。 ### 四,使用感受 对环境和版本要求较高,建议使用前可以先咨询微众开源社区人员,根据自己的spark,hadoop,hive环境和版本选择合适的DSS+Linkis编译版本。在搭建项目过程中遇到了不少困难,感谢微众小伙伴的大力支持,特别感谢杨峙岳和饶进阳开发同学的帮助,在周末休息的情况下基本上全天都在帮我解决问题,十分感谢!