百岁

hangzhou china

Results 89 issues of


                                            百岁

为TIS设置内网代理功能

当用户把TIS部署在公司内网环境无法连接到TIS plugin仓库，此时可以使用公司其内网集群中开一个代理节点访问TIS的仓库，那么就需要在TIS上有设置代理节点的功能。 ``` java public class UpdateCenterResource { private static final MessageFormat UPDATE_CENTER_URL_FORMAT = new MessageFormat("http://mirror.qlangtech.com/{0}{1}/"); } ``` 在 Java 中设置 HTTP 客户端使用代理的方法取决于你使用的具体 HTTP 客户端库。以下是几种常见库的代理设置示例： --- ### 1. **Java 原生...

enhancement

利用TIS的实时流处理进行用户质量控制及风控实现

## 问题基于flink如何做企业风控？基于实时流的数据质量检测，例如用户设置了一些规则，当实时数据进入之后一旦触发了这个规则，就会自动发报警信息之类的功能。在业务场景中有哪些常用的规则？ ## 方案思路基于 Apache Flink 的实时数据质量检测和企业风控可以通过其低延迟、高吞吐的流处理能力实现。以下是实现方案及典型业务规则示例： --- ### **一、技术实现方案** #### 1. **数据处理流程** ```mermaid graph LR A[数据源] -->|Kafka/消息队列| B(Flink实时流处理) B...

添加DDL手动同步功能

自动生成的目标表create table DDL 语句，目前需要运行批量，或者实时增量同步功能才会自动在目标库中自动创建，需要添加一个`按钮`，可以让用户手动执行DDL 脚本，这样用户即使不使用TIS的批量或者增量同步管道，也能使用目标库表的自动构建功能。

enhancement

使用airflow替换现有TIS的powerjob分布式调度引擎

## 思考好的，我现在需要帮助用户使用Maven依赖的Kubernetes客户端库来在本地K8s环境中部署Apache Airflow的所有必要组件，包括Deployment、Service等，并且确保生产环境可用。让我仔细思考一下如何解决这个问题。首先，我需要确认用户的需求。他们希望用Java代码，通过Kubernetes客户端库创建Airflow所需的各个Kubernetes资源。这可能包括Deployment、Service、ConfigMap、Secret、Volume等。用户提到生产环境，所以需要考虑高可用性、持久化存储、安全配置等因素。接下来，我需要回忆Kubernetes Java客户端的使用方法。这个库允许通过创建ApiClient，然后使用各种API类（如CoreV1Api、AppsV1Api）来管理资源。例如，创建Deployment需要使用AppsV1Api的createNamespacedDeployment方法，而Service则通过CoreV1Api的createNamespacedService。然后，关于Airflow在Kubernetes上的部署，通常需要哪些组件？通常包括Web Server、Scheduler、Worker，可能还需要数据库（如PostgreSQL或MySQL）、消息队列（如Redis或RabbitMQ），以及执行器，比如Celery。生产环境中，可能需要将这些组件分开部署，配置持久化存储，设置环境变量，处理密钥，配置网络策略等。但是用户可能希望用代码生成所有这些组件，而不仅仅是YAML文件。因此，需要为每个资源编写对应的Java对象，比如Deployment、Service等，并通过客户端提交到集群。现在需要考虑各个组件的配置： 1. 数据库：Airflow需要一个元数据数据库，生产环境中通常使用外部数据库或者高可用的PostgreSQL实例。可能需要创建StatefulSet，并配置持久化卷。 2. 消息队列：如果使用Celery执行器，需要Redis或RabbitMQ。同样需要部署对应的服务。 3. Web Server和Scheduler：作为Deployment部署，可能需要多个副本以提高可用性。需要配置环境变量连接到数据库和消息队列。 4. Worker：可能需要多个副本的Deployment，根据负载自动扩展。 5. Service：为Web Server创建LoadBalancer或NodePort类型的Service，以便外部访问。 6. ConfigMap和Secret：存储Airflow的配置文件（如airflow.cfg）和敏感信息（如数据库密码）。 7. 持久化存储：确保元数据数据库和日志的持久化，可能需要PersistentVolumeClaim。此外，还需要考虑初始化数据库的问题，比如运行airflow db init。这可能需要一个初始化容器或者Job资源。...

实现Oceanbase 连接器（批流）

实现批量读写，和增量实时读写功能 OceanBase 是一个由阿里巴巴开发的分布式关系数据库，旨在提供高可用性、高性能和易于扩展的数据库解决方案。要使用 Java 应用程序与 OceanBase 数据库进行交互，你需要使用 JDBC（Java Database Connectivity）驱动。获取 OceanBase JDBC 驱动官方下载：你可以从 OceanBase 的官方网站或者通过其 GitHub 仓库下载 JDBC 驱动。 https://www.oceanbase.com/docs/oceanbase-database-cn 访问 OceanBase 官方文档或 GitHub 查找最新的 JDBC...

全自动pipeline执行机器人实现

油管上发现airbyte实现了一个基于 openapi Operator的全自动数据管道代理机器人方案，用户只需要告诉operator 需要做什么，然后agent会自动在浏览器上去自动执行任务，直至完成， https://www.youtube.com/watch?v=BBFeW8aR6sY ## Q 如果自己要通过deepseek 也打造一个类似OpenAI Operator 的工具，需要实现哪些功能模块，如何实现，能大致介绍一下吗？ ## A 要打造一个类似 OpenAI Operator 的工具，需要实现多个核心功能模块，并结合多模态 AI 技术、强化学习以及自动化控制技术。以下是实现类似工具的关键模块和实现思路： --- ### **1. 核心功能模块** #### **1.1 多模态感知模块** - **功能**：通过视觉和文本理解用户界面（UI）内容，例如浏览器页面、应用程序窗口等。 -...

百岁

为TIS设置内网代理功能

利用TIS的实时流处理进行用户质量控制及风控实现

添加DDL手动同步功能

使用airflow替换现有TIS的powerjob分布式调度引擎

实现Oceanbase 连接器（批流）

全自动pipeline执行机器人实现

支持doris数据Array数据类型同步

利用TIS Transformer 构建基于ElasticSearch的NestedDocument 索引记录

通过Transformer实现DWD层数据关联