OWenT's blog
  • Introduction
  • About Me
  • 2020
    • 近期对libatapp的一些优化调整(增加服务发现和连接管理,支持yaml等)
    • xresloader转表工具链增加了一些新功能(map,oneof支持,输出矩阵,基于模板引擎的加载代码生成等)
    • 在游戏服务器中使用分布式事务
    • libcopp接入C++20 Coroutine和一些过渡期的设计
    • libatbus 的大幅优化
    • nftables初体验
    • 容器配置开发环境小计
  • 2019
    • PALM Tree - 适合多核并发架构的B+树 - 论文阅读小记
    • 跨平台协程库 - libcopp 简介
    • C++20 Coroutine 性能测试 (附带和libcopp/libco/libgo/goroutine/linux ucontext对比)
    • 尝鲜Github Action
    • 一些xresloader(转表工具)的改进
    • protobuf、flatbuffer、msgpack 针对小数据包的简单对比
    • 协程框架(libcopp) 小幅优化
    • Excel转表工具(xresloader) 增加protobuf插件功能和集成 UnrealEngine 支持
    • Anna(支持任意扩展和超高性能的KV数据库系统)阅读笔记
    • C++20 Coroutine
    • libcopp merge boost.context 1.69.0
    • Google去中心化分布式系统论文三件套(Percolator、Spanner、F1)读后感
    • Rust玩具-企业微信机器人通用服务
  • 2018
    • 使用ELK辅助监控开发测试环境服务质量和问题定位
    • Webpack+vue+boostrap+ejs构建Web版GM工具
    • 2018年的新通用伪随机数算法(xoshiro / xoroshiro)的C++(head only)实现
    • Rust的第二次接触-写个小服务器程序
    • 理解和适配AEAD加密套件
    • atsf4g-co的进化:协程框架v2、对象路由系统和一些其他细节优化
    • 协程框架(libcopp)v2优化、自适应栈池和同类库的Benchmark对比
    • 可执行文件压缩
    • 初识Rust
    • 使用restructedtext编写xresloader文档
    • atframework的etcd模块化重构
    • C++的backtrace
  • 2017
    • ECDH椭圆双曲线(比DH快10倍的密钥交换)算法简介和封装
    • protobuf-net的动态Message实现
    • pbc的proto3接入
    • atgateway内置协议流程优化-加密、算法协商和ECDH
    • 整理一波软件源镜像同步工具+DevOps工具
    • Blog切换到Hugo
    • libcopp v2的第一波优化完成
    • libcopp(v2) vs goroutine性能测试
    • libcopp的线程安全、栈池和merge boost.context 1.64.0
    • GCC 7和LLVM+Clang+libc++abi 4.0的构建脚本
    • libatbus的几个藏得很深的bug
    • 用cmake交叉编译到iOS和Android
    • 开源项目得一些小维护
    • atapp的c binding和c#适配
    • 对象路由系统设计
    • 2016年总结
    • 近期的一个协程流程BUG
  • 2016
    • 重写了llvm+clang+libc++和libc++abi的构建脚本
    • atsf4g完整游戏工程示例
    • atframework基本框架已经完成
    • 游戏服务器的不停服更新
    • 对atbus的小数据包的优化
    • Android和IOS的TLS问题
    • pbc的一个陈年老BUG
    • boost.context-1.61版本的设计模型变化
    • 接入letsencrypt+全面启用HTTP/2
    • 理解Raft算法
    • libatbus基本功能及单元测试终于写完啦
    • 博客文章和文档迁移到gitbook
  • 2015
    • 博客文章和文档迁移到gitbook
    • 给客户端写得LRU缓存
    • 近期活动比较零散
    • 关于BUS通信系统的一些思考(三)
    • 针对Java JIT的优化(转表工具:xresloader)
    • libcopp更新 (merge boost 1.59 context)
    • 小记最近踩得两个C++坑
    • Redis全异步(HA)Driver设计稿
    • Vim常用命令
    • 关于firewalld和systemd的一些命令速记
    • Jenkins(hudson)插件记录
    • 我们的Lua类绑定机制
    • LLVM+Clang+Libcxx+Libcxxabi(3.6)工具链编译(完成自举编译)
    • 回顾2014
    • Android NDK undefined reference to ___tls_get_addr 错误
    • gitlab腾讯企业邮箱配置
  • 2014
    • 回顾2013
    • C++11动态模板参数和type_traits
    • C++又一坑:动态链接库中的全局变量
    • tolua++内存释放坑
    • [转]类似github的框架
    • Lua性能分析
    • 集成Qt Webkit 到cocos2d-x
    • Gitlab环境搭建小计
    • 近期研究VPN的一些记录(OpenVPN,pptp,l2tp)
    • LLVM + Clang + Libcxx + Libcxxabi 工具链编译
    • 关于BUS通信系统的一些思考(二)
    • 关于BUS通信系统的一些思考(一)
    • [libiniloader] Project
    • 记录一些在线编辑器
    • [WP Code Highlight.js] Project
    • 再议 C++ 11 Lambda表达式
    • 基于Chrome插件的开发工具链
    • [ACM] HDU 1006 解题报告
    • Linux 编译安装 GCC 4.9
    • 又碰到了这个解谜游戏,顺带记下地址
    • 简单C++单元测试框架(支持一键切到GTest或Boost.Test)
    • 捣鼓一个协程库
  • 2013
    • std和boost的function与bind实现剖析
    • 不知道是哪一年的腾讯马拉松题目 照片评级 解题报告
    • Lua 挺好用的样子
    • VC和GCC成员函数指针实现的研究(三)
    • VC和GCC成员函数指针实现的研究(二)
    • VC和GCC内成员函数指针实现的研究(一)
    • 一个C++关于成员变量偏移地址的小Trick
    • ptmalloc,tcmalloc和jemalloc内存分配策略研究
    • POJ 2192 Zipper HDU 2059 龟兔赛跑
    • 从Javascript到Typescript到Node.js
    • 网络编程小结
    • 试试Boost.Asio
    • Lnmp yum 安装脚本 (for CentOS)
    • ARM 交叉编译环境搭建
    • Linux 编译安装 GCC 4.8
    • [记录]虚拟硬盘的压缩|磁盘写零
  • 2012
    • Boost.Spirit 初体验
    • “C++的90个坑”-阅读笔记
    • AC自动机
    • C++ 标准过渡期
    • 程序员修炼之道 -- 阅读笔记
    • [转载]狼与哈士奇
    • C++ 新特性学习(八) — 原子操作和多线程库[多工内存模型]
    • C++ 新特性学习(七) — 右值引用
    • 理解Protobuf的数据编码规则
    • 忆往昔ECUST的ACM时代
    • Linux编译安装GCC 4.7
    • JSON显示库 -- showJson (Javascript)
    • C++ 新特性学习(六) — 新的字符串编码和伪随机数
    • C++ 新特性学习(五) — 引用包装、元编程的类型属性和计算函数对象返回类型
    • C++ 新特性学习(四) — Bind和Function
  • 2011
    • C++ 新特性学习(三) — Regex库
    • C++ 新特性学习(二) -- Array、Tuple和Hash库
    • C++ 新特性学习(一) -- 概述+智能指针(smart_ptr)
    • Linux 和 Windows PowerShell 常用工具/命令 记录
    • 非常帅气的Linq to sql
    • 2011 Google Code Jam 小记
    • C++总是很神奇
    • 大学生创新项目[国家级]经费使用记录
    • 常用官方文档整理
    • 我们学校的IPV6很不错嘛
  • 2010
    • 线段树相关问题 (引用 PKU POJ题目) 整理
    • 2010 ACM 赛前笔记
    • POJ PKU 2596 Dice Stacking 解题报告
    • POJ PKU 3631 Cuckoo Hashing 解题报告
    • POJ PKU 1065 Wooden Sticks 3636 Nested Dolls 解题报告
    • HDU 3336 Count the string 解题报告
    • Hash模板 个人模板
    • ZOJ 3309 Search New Posts 解题报告
    • POJ PKU Let's Go to the Movies 解题报告
    • 注册表常用键值意义
    • PKU POJ 1724 ROADS 解题报告
    • 《神奇古今秘方集锦》&《民间秘术大全》
    • PKU POJ 1720 SQUARES 解题报告
    • POJ PKU 2155 Matrix 解题报告
    • PKU POJ 1141 Brackets Sequence 解题报告
    • PKU POJ 2728 Desert King 解题报告
    • PKU POJ 2976 Dropping tests 解题报告
    • PKU POJ 3757 Simple Distributed storage system 解题报告
    • GCD Determinant 解题报告
    • Southeastern European 2008 Sky Code 解题报告
    • HDU HDOJ 3400 Line belt 解题报告
    • 线性筛法求质数(素数)表 及其原理
    • HDU HDOJ 3398 String 解题报告
    • 树状数组模块(个人模板)
    • 浙江理工 省赛总结 team62 By OWenT of Coeus
    • POJ PKU 3659 Cell Phone Network 解题报告
    • USACO 2008 March Gold Cow Jogging 解题报告
    • C#格式化输出(记录)
    • 参加有道难题笔记
    • POJ PKU 2446 Chessboard 解题报告
    • POJ PKU 1986 Distance Queries 解题报告
    • 计算几何算法概览[转载]
    • 关于差分约束(转载)
    • POJ PKU 2826 An Easy Problem?! 解题报告
    • 数论模板(个人模板)
    • 简易四则运算(ACM个人模板)
    • Catalan 数
    • The 35th ACM/ICPC Asia Regional Tianjin Site —— Online Contest 1009 Convex 解题报告
    • JQuery扩展插件--提示信息
    • ACM 计算几何 个人模板
    • 解析网站字符串型参数 Javascript QueryString 操作 TQueryString类
    • POJ PKU 1474 Video Surveillance 解题报告
  • 2009
    • 模式匹配(kmp)个人模板
    • 并查集 模板
    • POJ 3267 The Cow Lexicon 解题报告
    • C/C++语言常用排序算法
    • POJ 2606 Rabbit hunt 2780 Linearity 1118 Lining Up 解题报告
    • 打造最快的Hash表(转) [以暴雪的游戏的Hash为例]
    • ECUST 09年 校赛个人赛第六,七场总结
    • ECUST 09年 校赛个人赛第三场部分解题报告(A,D,F,I)
    • 牛顿迭代解方程 ax^3+bX^2+cx+d=0
    • 09年8月9日 ECUST ACM 练习赛总结
    • 连接最多点直线 (OWenT 个人模板)
    • 点到直线距离 和 线段间最短距离 (OWenT 模板)
    • ECUST 09年 校赛个人训练赛第五场总结
    • ECUST 09年 校赛个人赛第八场(最后一场)总结
    • 09年8月14日 ECUST ACM 练习赛总结
    • 矩阵相关 (增强中)
    • Prime最小生成树(个人模板)
    • 最长单调子序列 复杂度nlog(n)
    • POJ PKU 2549 Sumsets 解题报告
    • POJ PKU 3277 City Horizon 解题报告
    • 我的ACM生涯
    • POJ PKU 2528 Mayor's posters 解题报告
    • POJ PKU 2378 Tree Cutting 解题报告
    • POJ PKU 1990 MooFest 解题报告
Powered by GitBook
On this page
  • 介绍
  • PALM 批处理
  • 核心流程
  • PARTITION-INPUT
  • REDISTRIBUTE-WORK
  • RESOLVE-HAZARDS
  • 节点内处理 MODIFY-NODE
  • 其他细节优化
  • 最后

Was this helpful?

  1. 2019

PALM Tree - 适合多核并发架构的B+树 - 论文阅读小记

author: owent categories:

  • Article

  • Blablabla

    date: 2019-11-02 17:09:58

    draft: false

    id: 1913

    tags:

    tags:

  • PALM

  • B+

  • tree

  • Latch-free

  • Parallel

  • Many-Core

  • Multi-Core

  • BSP

    title: PALM Tree - 适合多核并发架构的B+树 - 论文阅读小记

    type: post

介绍

  • Latch-free 的B+树批处理.(个人理解差不多是无自旋锁)

  • 多核友好 — 高扩展性,针对SIMD,对缓存友好

  • 高性能

    (CPU: Intel Xeon X5680 * 2(6核12线程)) 128M数据存量时可达,40M次更新/秒。(平均每物理核心 3.33M,逻辑核1.67M的QPS) 512K数据存量时可达,128M次更新/秒(平均每物理核心 10.67M,逻辑核5.33M的QPS) 查询性能是更新性能的1.6倍

  • 极短的响应延迟,几乎和吞吐保持一致, 一般在60–350μs之间

  • 将来的Intel Knights Ferry CPU可以获得1.5–2.1倍的性能。

  • 更容易测试和维护

简单的理解,PALM就是普通B+树然后在某些阶段执行同步操作,收敛工作线程来解决并发执行时传统方案的频繁加锁的问题。

PALM 批处理

PALM树的核心从系统层面来看,入口就是它的批处理流程。相当于天生就把操作Batch化了。

  • RETRIEVE(\(T_D\) , \(k\)): 返回 \(r_k\) 或 \(\Theta , if(k \notin T_D)\)

  • INSERT(\(T_D\) , \((k,e)\)): \(if(k \in T_D)\) ,追加数据 \(e\) 到 \(r_k\) ;否则初始化 \(r_k\) 为 \({e}\) ,然后增加新的指针对 \(r^∗_k\) 到 \(T_D\)

  • DELETE(\(T_D\) , \((k,e)\)): \(if(k \in T_D)\) ,把 \(e\) 从 \(r_k\) 里移除, 然后 \(if(length(r_k)=0)\) ,从 \(T_D\) 里移除指针对 \(r^∗_k\) , \(if( k \notin T_D)\) ,忽略操作。

核心流程

整个流程伪代码如下:

PALM(O, T[D], i, t)
  // O are queries, T[D] is the tree
  // i is the thread-id, and t is the number of threads
  O[i] = PARTITION-INPUT (O, i, t)
  L[i] = SEARCH (O[i], T[D])
  SYNC(i, t)
  L'[i] = REDISTRIBUTE-WORK (L[0], . . . , L[t-1], i)
  (R[i], O'[L'[i]]) = RESOLVE-HAZARDS(L'[i] , O, D)
  for (O[λ], λ) in (O'[L'[i]], L'[i])
    M[1][i] = M[1][i] ∪ MODIFY-NODE (O[λ], λ)
  SYNC(i, t)
  for d = 1 to depth (T[D]) - 1
    M[d'][i] = REDISTRIBUTE-WORK(M[d][0], ..., M[d][t-1], i)
    for (Λ, η) in M[d'][i]
      M[d+1][i] = M[d+1][i] ∪ MODIFY-NODE (Λ, η)
    SYNC(i, t)
  if (i == 0)
    HANDLE-ROOT(⋃(M[d+1][i]), T[D])
  return (R[0], ..., R[t-1])

上面公式里由于Markdown和公式渲染的限制改成了偏程序的表达形式。O 是请求集合, T[D] 是Palm树结构, i 是线程ID、 t 是总线程数。

简单地描述,上面公式地流程就是收到批处理请求之后:

  1. 先对请求排序和分组(PARTITION-INPUT)

  2. 然后收集相关的叶子节点

  3. 分配工作线程(REDISTRIBUTE-WORK)

  4. 收集需要返回的结果(RESOLVE-HAZARDS)

  5. 开始并行执行B+树的修改节点的操作(MODIFY-NODE)

  6. 对B+树逐层往上收敛工作线程并执行修改节点

  7. 全部处理完以后可能要修改根节点,完了以后返回查询请求的结果

文中没有详细描述批处理怎么分批。个人觉得一个比较简单的方式是在上一个批处理没结束前,收到的请求全部进队列,然后限制一下最大数量作为下一个批处理集合就可以了。

PARTITION-INPUT

第一部分的 对请求排序和分组 , 是为了减少线程间同步的次数。这样按照key排序以后给工作线程按ID大小来分组,按原文的说法这样也可以减小后面B+树向上收敛的时候的线程间通信。

REDISTRIBUTE-WORK

上面流程里的 REDISTRIBUTE-WORK 这一步,简明来说就是构造一个新的执行节点的集合 \(L'_i\) ,让它和原来的执行节点的集合 \(L_i\) 和 \(L_j\) 满足下面的关系。( i 和 j 是线程ID)

Li′=λ∈Li∣λ∉Lj,∀0≤j<iL'_i = {λ \in L_i|λ \notin L_j , \forall 0 \le j < i}Li′​=λ∈Li​∣λ∈/Lj​,∀0≤j<i

上面这个公式的作用是决定一个节点的执行者应该由哪个线程执行。其实换一种程序化的描述很简单,就是把所有的同时有多个执行线程的节点的归属权交给ID小的那个。贴一个原文的图方便理解。

原Paper里非得写个公式化的东西并且和程序化思维反着来,理解起来绕了一圈。

我觉得这里有更好更简单的方案,直接CAS的方式来执行工作线程抢占。这样甚至能省去收敛工作线程时的同步操作。

  • 可以直接把这些批处理添加到父节点的待执行队列,这里可以用无锁队列实现, 然后直接抢占父节点工作线程。

  • 如果抢占失败说明有其他线程在执行,自己直接进空闲线程池即可

  • 如果抢占成功那自己就是工作线程,执行一个循环不断地把待执行队列取出来,执行这个节点的 MODIFY-NODE 流程直到待执行队列空即可。

这样的话对请求排序其实都不是必须的。(当然排序还是有可能增加缓存命中率,可以作为优化项)

RESOLVE-HAZARDS

这个行为我的理解主要是要收集请求的结果。因为对同一个Key的执行最终是分配到一个线程上执行的。要保证操作和结果的顺序也很容易,所以这个操作只要先记录下哪个查询请求对应的结果是什么,等批处理全部执行完一起返回就好了。

节点内处理 MODIFY-NODE

上面的住流程还有一个重要的流程是对节点的修改操作。还是先贴下原文里的公式。

MODIFY-NODE (Λ, η)
  // Λ is sequence of modifications to node η.
  // If η is internal, Λ is a modification list.
  // If η is a leaf, Λ is a series of INSERT and DELETE queries.
  E = items (η)
  K = ∅
  for m in Λ
    K = K ∪ orphaned-keys (m)
    if class (m) == "+"
      E = E ∪ items (m)
    elseif class (m) == "−"
      E = E \ items (m)
  if |E| > MAX-DEGREE
    (η, η', η'', ...) = BIG-SPLIT(E)
    return {"+", parent (η) , η', η'', ..., K}
  elseif |E| < MIN-DEGREE
    return {"−", parent (η) , η, K ∪ descendant-keys (E)}
  else
    child-ranges (η) = E
    return {∅, K}

简单描述一下流程就是:

  1. 先收集出所有操作会造成的孤儿节点(orphaned-keys (m))

    比如如果是删除子节点操作,那么这个被删除的子节点的所有Children就会变成孤儿节点。

  2. 按操作类型增删子节点

  3. 子节点过多则需要分裂,这里生成增加节点("+"操作)的操作,并附带上孤儿节点传递给上一层。

  4. 子节点过少则需要合并,这里生成删除节点("-"操作)的操作,并把自己的子节点附带上孤儿节点生成增加节点("+"操作)的操作传递给上一层。

  5. 子节点数没有超出B+树阈值,把孤儿节点生成增加节点("+"操作)的操作传递给上一层即可。

其他细节优化

主要是:

  • 请求排序和线程间同步优化(前面提到过的Key排序和按线程ID分配后只让线程 i 与线程 i+1 和线程 i-1 通信的收敛过程)。

  • 使用SIMD寄存器指令集来提高并发。

  • 精心设计数据结构的大小来更好地利用CPU Cache Line

最后

读这篇Paper主要是了解一下它的原理,可能对以后默写系统的设计实现有参考价值。我就没有去写一个了,Paper里的性能测试报告差不多是个量级层面的参考,我就不贴了。他们的测试机器配置还不错,比我们目前项目里用的好一些,性能差别应该不会大到哪里去。

文中如果有哪些地方理解有偏差欢迎小伙伴们交流指正哈。

Previous2019Next跨平台协程库 - libcopp 简介

Last updated 5 years ago

Was this helpful?

年初的时候再知乎上看到有人分享 树的文章,看简介是专为多核并发而设计的树形结构。比较好奇所以抽时间来看了看它的设计原理和是如合做到高并发的。

首先按照论文里介绍的 的特性:

2.3X–19X the state of the art on .

基于 模型。

假设有数据库 \(D\) , 然后里面有全量的Key索引 \(K\) , 然后索引对 \((k,r^∗_k)\) 。 \(r^∗_k\) 是指向实际数据集\(r_k\) 。 然后对于数据库 \(D\) 的树形结构索引 \(T_D\) 支持三种操作:

这些也是一个容器数据结构里必备的几项操作,而对于 来说,能表现其特色的是下面的流程。

前面 提到过。请求批处理是按key排序后分组再分配给工作线程的,并且分配的时候也是线程ID的大小来依次分配的。这样要实现上面这种单调的性质就很容易。 按原文的意思,当处理父节点要收敛工作线程的时候,可以只让线程 i 与线程 i+1 和线程 i-1 通信即能直到自己是否要让出执行权。

首先处理完子节点以后会生成一系列批处理转交给父节点(具体的流程见下面的 ) 。

上面公式也由于Markdown和公式渲染的限制改成了偏程序的表达形式。Λ 是修改操作集合("+"为增,"−"为减)。查询请求和Update请求都不会改变节点结构所以不会产生节点变更操作。η 是 上的一个节点。

至此,整个 的核心流程就完结了。

的论文里还包含一些其他的优化细节介绍。但是这些优化也可以用于其他的数据结构和算法上,也不算 特有的。

使用 和 来辅助提前将内存加载进缓存。

我觉得 里的一些性能对比有些有失公允。因为它集成了更多的优化手段,而其中有些手段用其他的库也是可以提升性能的。比如很多容器是不自带Batch功能的,如果我们也做一层Batch,对请求排序。也能提升其他容器实现的缓存命中率,从而提升性能效果。不过 里自带调度功能和与之相搭配的多多核执行更友好的设计还是值得借鉴的。

PALM树
PALM树
skewed distributions
Bulk Synchronous Parallel (BSP)
PALM树
PALM树
PARTITION-INPUT
节点内处理 MODIFY-NODE
PALM树
PALM树
PALM树
PALM树
缓存预取指令
数据预取
PALM树
PALM树