摘要: 1.问题描述 在应用flink实时消费kafka数据多端中,一般会使用flink原生的addsink或flinkSQL利用SqlDialect,比如消费kafka数据实时写入hive和kafka一般用两种方式: 第a56爆大奖在线娱乐方式是写入hive利用SqlDialect,写入kafka利用flink的旁路输出 阅读全文
posted @ 2024-06-21 15:44 技术即艺术 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 1.需求 查询用户连续追踪客户的开始时间和结束时间,以下两种场景都需支持 第a56爆大奖在线娱乐场景: 连续:中间没有断,如a追踪客户小明,第1次开始为2023-01-01,结束时间为:2023-01-03;第2次开始为2023-01-04,结束时间为:2023-01-07,则追踪时间为开始时间为2023-01-0 阅读全文
posted @ 2024-06-20 17:49 技术即艺术 阅读(1) 评论(0) 推荐(0) 编辑
摘要: 1.需求 根据身份证号分组聚合求第一次(开始时间最小)出现的基站及对应时间和最后一次(结束时间最大)出现的基站,ip4,ip6及对应时间 2.应用场景 安全行业,上网流量日志监控行业,如追击罪犯,要查看第一次出现的位置和最后一次出现的位置及最后一次联系人等相关信息,从而可以和最后一次联系人及相关信息 阅读全文
posted @ 2024-06-20 17:20 技术即艺术 阅读(1) 评论(0) 推荐(0) 编辑
摘要: ####1.时间语义 Flink是一个实时计算引擎,谈到实时概念,就必然会设计到时间概念。Flink的时间语义是保证实时及实时数据处理的一致性,及时性。Flink时间语义分为下面三种 ######Event Time:事件创建时间 ######Ingestion Time:事件摄入时间(数据进入Fl 阅读全文
posted @ 2022-01-28 15:37 技术即艺术 阅读(1045) 评论(0) 推荐(0) 编辑
摘要: ####CDC介绍 CDC 是 Change Data Capture(变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。 #####CDC种类 ######基于查询的 阅读全文
posted @ 2022-01-12 14:29 技术即艺术 阅读(1054) 评论(0) 推荐(0) 编辑
摘要: ###1. 写在前面 之前零散的写了一些spark在某一块的性能优化,比如sparkstreaming的性能优化,参数优化,sparkSQL的优化。本篇博文针对spark一些基本的核心优化做一个介绍分享,当然这里的介绍适合rdd,sparkstreaming,sparkSQL等。当然个人认为不管什么 阅读全文
posted @ 2020-12-29 16:31 技术即艺术 阅读(779) 评论(0) 推荐(0) 编辑
摘要: ####1.数据仓库及数仓中的数据模型及操作描述 在大数据设计与开发过程中,数据仓库是必不可少的一部分。但很多开发者将数仓理解为很多业务库和业务表的汇总集合,这是不全面的。数仓存在很多设计,架构,业务建模等多个维度的问题。关于数仓的大体介绍可以参照之前的文章(https://www.cnblogs. 阅读全文
posted @ 2020-12-15 16:22 技术即艺术 阅读(1008) 评论(0) 推荐(0) 编辑
摘要: ####1.hive窗口函数语法 提到Hive SQL的窗口函数,很多开发者就想到row_number() over()或者rank() over()。甚至许多开发者包括之前本人也觉得row_number(),rank()就是最常用的窗口函数。其实这个理解是错误的。hive的窗口函数其实只有一个就是 阅读全文
posted @ 2020-12-11 17:18 技术即艺术 阅读(2667) 评论(0) 推荐(1) 编辑
摘要: ####1.flink CEP描述 CEP(Complex Event Processing)就是在无界事件流中检测事件模式,使能够掌握数据中重要的部分。 ####2.flink CEP编程的四个步骤 1>.输入数据流的创建 2>.模式(Pattern)定义 3>.Pattern应用在事件流上的检测 阅读全文
posted @ 2020-12-01 14:23 技术即艺术 阅读(1043) 评论(0) 推荐(0) 编辑
摘要: ####1.Spark JVM参数优化设置 Spark JVM的参数优化设置适用于Spark的所有模块,包括SparkSQL、SparkStreaming、SparkRdd及SparkML,主要设置以下几个值: spark.yarn.driver.memoryOverhead #driver端最大的 阅读全文
posted @ 2020-09-28 19:11 技术即艺术 阅读(1044) 评论(0) 推荐(0) 编辑