主流CTR模型
CTR CTR,Click-Through-Rate,也就是点击率预估 ,指的是精排层的排序。所以 CTR 模型的候选排序集一般是千级数量。 CTR 模型的输入(即训练数据)是:大量成对的 **(features, la…
Simple And Naive
CTR CTR,Click-Through-Rate,也就是点击率预估 ,指的是精排层的排序。所以 CTR 模型的候选排序集一般是千级数量。 CTR 模型的输入(即训练数据)是:大量成对的 **(features, la…
检测系统瓶颈 性能调优 创建一项基线,用来评估系统的首次运行性能(即集群默认配置) 分析Hadoop计数器,修改,调整配置,并重新执行任务,与基线进行比较 重复执行第2步,直到最高效率 识别资源瓶颈 内存瓶颈 当发现节点…
Analyzed LogicalPlan生成 Sql经过AstBuilder的处理得到的 未解析逻辑算子树 主要由UnresolvedRelation 和UnresolvedAttribute两个对象组成。Analyze…
SparkSQL逻辑计划概述 逻辑计划阶段被定义为LogicalPlan类,主要有三个阶段: 由SparkSqlParser中的AstBuilder将语法树的各个节点转换为对应LogicalPlan节点,组成未解析的逻辑…
从SQL到RDD // 创建SparkSession类。从2.0开始逐步替代SparkContext称为Spark应用入口 var spark = SparkSession.builder().appName("appN…
分布式快照算法: Chandy-Lamport 主要用于在分布式系统中确定一个全局状态,一般用在分布式系统的状态恢复上。 Filnk中的Snapshot使用的是这个算法的改进版;Duird的KafkaIndex中也应用了…
DW、BI维度建模初步 DW和BI的目标 系统要能方便的存取信息 简单、快捷 系统必须以一致的形式展现信息 数据可信,拥有一致的公共标识和定义,度量名称独立性 系统必须能适应变化 当业务问题发生变化或有新数据添加时,必须…
查询执行 查询执行逻辑 所有的查询会依次转化为SqlQueryExecution、SqlStageExecution和SqlTaskExecution,并在不同(除非设置允许在同一Worker上运行来自同一SqlStag…
查询调度 生成调度执行器 对于每一个Stage会生成对应的SqlStageExecution实例,承载Stage启动和任务调度。 由SqlQueryExecution.analyzeQuery生成subPlan 根据su…