技术即艺术

2024年6月21日

flinksql API StreamTableEnvironment StreamStatementSet应用

摘要： 1.问题描述在应用flink实时消费kafka数据多端中，一般会使用flink原生的addsink或flinkSQL利用SqlDialect，比如消费kafka数据实时写入hive和kafka一般用两种方式：第a56爆大奖在线娱乐方式是写入hive利用SqlDialect，写入kafka利用flink的旁路输出阅读全文

posted @ 2024-06-21 15:44 技术即艺术阅读(2) 评论(0) 推荐(0) 编辑

2024年6月20日

数仓sql场景：连续跟踪问题

摘要： 1.需求查询用户连续追踪客户的开始时间和结束时间，以下两种场景都需支持第a56爆大奖在线娱乐场景：连续：中间没有断，如a追踪客户小明，第1次开始为2023-01-01，结束时间为：2023-01-03；第2次开始为2023-01-04，结束时间为：2023-01-07，则追踪时间为开始时间为2023-01-0 阅读全文

posted @ 2024-06-20 17:49 技术即艺术阅读(1) 评论(0) 推荐(0) 编辑

数仓sql场景：求第一次出现和最后一次出现及最后一次的相关信息

摘要： 1.需求根据身份证号分组聚合求第一次(开始时间最小)出现的基站及对应时间和最后一次(结束时间最大)出现的基站，ip4，ip6及对应时间 2.应用场景安全行业，上网流量日志监控行业，如追击罪犯，要查看第一次出现的位置和最后一次出现的位置及最后一次联系人等相关信息，从而可以和最后一次联系人及相关信息阅读全文

posted @ 2024-06-20 17:20 技术即艺术阅读(1) 评论(0) 推荐(0) 编辑

2022年1月28日

Flink时间语义、窗口，水位线(watermark)介绍与应用

摘要： ####1.时间语义 Flink是一个实时计算引擎，谈到实时概念，就必然会设计到时间概念。Flink的时间语义是保证实时及实时数据处理的一致性，及时性。Flink时间语义分为下面三种 ######Event Time:事件创建时间 ######Ingestion Time:事件摄入时间(数据进入Fl 阅读全文

posted @ 2022-01-28 15:37 技术即艺术阅读(1045) 评论(0) 推荐(0) 编辑

2022年1月12日

Flink-CDC实践

摘要： ####CDC介绍 CDC 是 Change Data Capture（变更数据获取）的简称。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入、更新以及删除等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订阅及消费。 #####CDC种类 ######基于查询的阅读全文

posted @ 2022-01-12 14:29 技术即艺术阅读(1054) 评论(0) 推荐(0) 编辑

2020年12月29日

Spark性能优化指导及总结

摘要： ###1. 写在前面之前零散的写了一些spark在某一块的性能优化，比如sparkstreaming的性能优化，参数优化，sparkSQL的优化。本篇博文针对spark一些基本的核心优化做一个介绍分享，当然这里的介绍适合rdd,sparkstreaming,sparkSQL等。当然个人认为不管什么阅读全文

posted @ 2020-12-29 16:31 技术即艺术阅读(779) 评论(0) 推荐(0) 编辑

2020年12月15日

数据仓库中数据模型之拉链表

摘要： ####1.数据仓库及数仓中的数据模型及操作描述在大数据设计与开发过程中，数据仓库是必不可少的一部分。但很多开发者将数仓理解为很多业务库和业务表的汇总集合，这是不全面的。数仓存在很多设计，架构，业务建模等多个维度的问题。关于数仓的大体介绍可以参照之前的文章(https://www.cnblogs. 阅读全文

posted @ 2020-12-15 16:22 技术即艺术阅读(1008) 评论(0) 推荐(0) 编辑

2020年12月11日

Hive over()窗口函数及应用实例

摘要： ####1.hive窗口函数语法提到Hive SQL的窗口函数，很多开发者就想到row_number() over()或者rank() over()。甚至许多开发者包括之前本人也觉得row_number()，rank()就是最常用的窗口函数。其实这个理解是错误的。hive的窗口函数其实只有一个就是阅读全文

posted @ 2020-12-11 17:18 技术即艺术阅读(2667) 评论(0) 推荐(1) 编辑

2020年12月1日

Flink CEP实例及基础应用

摘要： ####1.flink CEP描述 CEP(Complex Event Processing)就是在无界事件流中检测事件模式，使能够掌握数据中重要的部分。 ####2.flink CEP编程的四个步骤 1>.输入数据流的创建 2>.模式(Pattern)定义 3>.Pattern应用在事件流上的检测阅读全文

posted @ 2020-12-01 14:23 技术即艺术阅读(1043) 评论(0) 推荐(0) 编辑

2020年9月28日

Spark JVM参数优化设置及Sparkstreaming优化和反压机制

摘要： ####1.Spark JVM参数优化设置 Spark JVM的参数优化设置适用于Spark的所有模块，包括SparkSQL、SparkStreaming、SparkRdd及SparkML，主要设置以下几个值： spark.yarn.driver.memoryOverhead #driver端最大的阅读全文

posted @ 2020-09-28 19:11 技术即艺术阅读(1044) 评论(0) 推荐(0) 编辑

公告