OWenT's blog
  • Introduction
  • About Me
  • 2020
    • 近期对libatapp的一些优化调整(增加服务发现和连接管理,支持yaml等)
    • xresloader转表工具链增加了一些新功能(map,oneof支持,输出矩阵,基于模板引擎的加载代码生成等)
    • 在游戏服务器中使用分布式事务
    • libcopp接入C++20 Coroutine和一些过渡期的设计
    • libatbus 的大幅优化
    • nftables初体验
    • 容器配置开发环境小计
  • 2019
    • PALM Tree - 适合多核并发架构的B+树 - 论文阅读小记
    • 跨平台协程库 - libcopp 简介
    • C++20 Coroutine 性能测试 (附带和libcopp/libco/libgo/goroutine/linux ucontext对比)
    • 尝鲜Github Action
    • 一些xresloader(转表工具)的改进
    • protobuf、flatbuffer、msgpack 针对小数据包的简单对比
    • 协程框架(libcopp) 小幅优化
    • Excel转表工具(xresloader) 增加protobuf插件功能和集成 UnrealEngine 支持
    • Anna(支持任意扩展和超高性能的KV数据库系统)阅读笔记
    • C++20 Coroutine
    • libcopp merge boost.context 1.69.0
    • Google去中心化分布式系统论文三件套(Percolator、Spanner、F1)读后感
    • Rust玩具-企业微信机器人通用服务
  • 2018
    • 使用ELK辅助监控开发测试环境服务质量和问题定位
    • Webpack+vue+boostrap+ejs构建Web版GM工具
    • 2018年的新通用伪随机数算法(xoshiro / xoroshiro)的C++(head only)实现
    • Rust的第二次接触-写个小服务器程序
    • 理解和适配AEAD加密套件
    • atsf4g-co的进化:协程框架v2、对象路由系统和一些其他细节优化
    • 协程框架(libcopp)v2优化、自适应栈池和同类库的Benchmark对比
    • 可执行文件压缩
    • 初识Rust
    • 使用restructedtext编写xresloader文档
    • atframework的etcd模块化重构
    • C++的backtrace
  • 2017
    • ECDH椭圆双曲线(比DH快10倍的密钥交换)算法简介和封装
    • protobuf-net的动态Message实现
    • pbc的proto3接入
    • atgateway内置协议流程优化-加密、算法协商和ECDH
    • 整理一波软件源镜像同步工具+DevOps工具
    • Blog切换到Hugo
    • libcopp v2的第一波优化完成
    • libcopp(v2) vs goroutine性能测试
    • libcopp的线程安全、栈池和merge boost.context 1.64.0
    • GCC 7和LLVM+Clang+libc++abi 4.0的构建脚本
    • libatbus的几个藏得很深的bug
    • 用cmake交叉编译到iOS和Android
    • 开源项目得一些小维护
    • atapp的c binding和c#适配
    • 对象路由系统设计
    • 2016年总结
    • 近期的一个协程流程BUG
  • 2016
    • 重写了llvm+clang+libc++和libc++abi的构建脚本
    • atsf4g完整游戏工程示例
    • atframework基本框架已经完成
    • 游戏服务器的不停服更新
    • 对atbus的小数据包的优化
    • Android和IOS的TLS问题
    • pbc的一个陈年老BUG
    • boost.context-1.61版本的设计模型变化
    • 接入letsencrypt+全面启用HTTP/2
    • 理解Raft算法
    • libatbus基本功能及单元测试终于写完啦
    • 博客文章和文档迁移到gitbook
  • 2015
    • 博客文章和文档迁移到gitbook
    • 给客户端写得LRU缓存
    • 近期活动比较零散
    • 关于BUS通信系统的一些思考(三)
    • 针对Java JIT的优化(转表工具:xresloader)
    • libcopp更新 (merge boost 1.59 context)
    • 小记最近踩得两个C++坑
    • Redis全异步(HA)Driver设计稿
    • Vim常用命令
    • 关于firewalld和systemd的一些命令速记
    • Jenkins(hudson)插件记录
    • 我们的Lua类绑定机制
    • LLVM+Clang+Libcxx+Libcxxabi(3.6)工具链编译(完成自举编译)
    • 回顾2014
    • Android NDK undefined reference to ___tls_get_addr 错误
    • gitlab腾讯企业邮箱配置
  • 2014
    • 回顾2013
    • C++11动态模板参数和type_traits
    • C++又一坑:动态链接库中的全局变量
    • tolua++内存释放坑
    • [转]类似github的框架
    • Lua性能分析
    • 集成Qt Webkit 到cocos2d-x
    • Gitlab环境搭建小计
    • 近期研究VPN的一些记录(OpenVPN,pptp,l2tp)
    • LLVM + Clang + Libcxx + Libcxxabi 工具链编译
    • 关于BUS通信系统的一些思考(二)
    • 关于BUS通信系统的一些思考(一)
    • [libiniloader] Project
    • 记录一些在线编辑器
    • [WP Code Highlight.js] Project
    • 再议 C++ 11 Lambda表达式
    • 基于Chrome插件的开发工具链
    • [ACM] HDU 1006 解题报告
    • Linux 编译安装 GCC 4.9
    • 又碰到了这个解谜游戏,顺带记下地址
    • 简单C++单元测试框架(支持一键切到GTest或Boost.Test)
    • 捣鼓一个协程库
  • 2013
    • std和boost的function与bind实现剖析
    • 不知道是哪一年的腾讯马拉松题目 照片评级 解题报告
    • Lua 挺好用的样子
    • VC和GCC成员函数指针实现的研究(三)
    • VC和GCC成员函数指针实现的研究(二)
    • VC和GCC内成员函数指针实现的研究(一)
    • 一个C++关于成员变量偏移地址的小Trick
    • ptmalloc,tcmalloc和jemalloc内存分配策略研究
    • POJ 2192 Zipper HDU 2059 龟兔赛跑
    • 从Javascript到Typescript到Node.js
    • 网络编程小结
    • 试试Boost.Asio
    • Lnmp yum 安装脚本 (for CentOS)
    • ARM 交叉编译环境搭建
    • Linux 编译安装 GCC 4.8
    • [记录]虚拟硬盘的压缩|磁盘写零
  • 2012
    • Boost.Spirit 初体验
    • “C++的90个坑”-阅读笔记
    • AC自动机
    • C++ 标准过渡期
    • 程序员修炼之道 -- 阅读笔记
    • [转载]狼与哈士奇
    • C++ 新特性学习(八) — 原子操作和多线程库[多工内存模型]
    • C++ 新特性学习(七) — 右值引用
    • 理解Protobuf的数据编码规则
    • 忆往昔ECUST的ACM时代
    • Linux编译安装GCC 4.7
    • JSON显示库 -- showJson (Javascript)
    • C++ 新特性学习(六) — 新的字符串编码和伪随机数
    • C++ 新特性学习(五) — 引用包装、元编程的类型属性和计算函数对象返回类型
    • C++ 新特性学习(四) — Bind和Function
  • 2011
    • C++ 新特性学习(三) — Regex库
    • C++ 新特性学习(二) -- Array、Tuple和Hash库
    • C++ 新特性学习(一) -- 概述+智能指针(smart_ptr)
    • Linux 和 Windows PowerShell 常用工具/命令 记录
    • 非常帅气的Linq to sql
    • 2011 Google Code Jam 小记
    • C++总是很神奇
    • 大学生创新项目[国家级]经费使用记录
    • 常用官方文档整理
    • 我们学校的IPV6很不错嘛
  • 2010
    • 线段树相关问题 (引用 PKU POJ题目) 整理
    • 2010 ACM 赛前笔记
    • POJ PKU 2596 Dice Stacking 解题报告
    • POJ PKU 3631 Cuckoo Hashing 解题报告
    • POJ PKU 1065 Wooden Sticks 3636 Nested Dolls 解题报告
    • HDU 3336 Count the string 解题报告
    • Hash模板 个人模板
    • ZOJ 3309 Search New Posts 解题报告
    • POJ PKU Let's Go to the Movies 解题报告
    • 注册表常用键值意义
    • PKU POJ 1724 ROADS 解题报告
    • 《神奇古今秘方集锦》&《民间秘术大全》
    • PKU POJ 1720 SQUARES 解题报告
    • POJ PKU 2155 Matrix 解题报告
    • PKU POJ 1141 Brackets Sequence 解题报告
    • PKU POJ 2728 Desert King 解题报告
    • PKU POJ 2976 Dropping tests 解题报告
    • PKU POJ 3757 Simple Distributed storage system 解题报告
    • GCD Determinant 解题报告
    • Southeastern European 2008 Sky Code 解题报告
    • HDU HDOJ 3400 Line belt 解题报告
    • 线性筛法求质数(素数)表 及其原理
    • HDU HDOJ 3398 String 解题报告
    • 树状数组模块(个人模板)
    • 浙江理工 省赛总结 team62 By OWenT of Coeus
    • POJ PKU 3659 Cell Phone Network 解题报告
    • USACO 2008 March Gold Cow Jogging 解题报告
    • C#格式化输出(记录)
    • 参加有道难题笔记
    • POJ PKU 2446 Chessboard 解题报告
    • POJ PKU 1986 Distance Queries 解题报告
    • 计算几何算法概览[转载]
    • 关于差分约束(转载)
    • POJ PKU 2826 An Easy Problem?! 解题报告
    • 数论模板(个人模板)
    • 简易四则运算(ACM个人模板)
    • Catalan 数
    • The 35th ACM/ICPC Asia Regional Tianjin Site —— Online Contest 1009 Convex 解题报告
    • JQuery扩展插件--提示信息
    • ACM 计算几何 个人模板
    • 解析网站字符串型参数 Javascript QueryString 操作 TQueryString类
    • POJ PKU 1474 Video Surveillance 解题报告
  • 2009
    • 模式匹配(kmp)个人模板
    • 并查集 模板
    • POJ 3267 The Cow Lexicon 解题报告
    • C/C++语言常用排序算法
    • POJ 2606 Rabbit hunt 2780 Linearity 1118 Lining Up 解题报告
    • 打造最快的Hash表(转) [以暴雪的游戏的Hash为例]
    • ECUST 09年 校赛个人赛第六,七场总结
    • ECUST 09年 校赛个人赛第三场部分解题报告(A,D,F,I)
    • 牛顿迭代解方程 ax^3+bX^2+cx+d=0
    • 09年8月9日 ECUST ACM 练习赛总结
    • 连接最多点直线 (OWenT 个人模板)
    • 点到直线距离 和 线段间最短距离 (OWenT 模板)
    • ECUST 09年 校赛个人训练赛第五场总结
    • ECUST 09年 校赛个人赛第八场(最后一场)总结
    • 09年8月14日 ECUST ACM 练习赛总结
    • 矩阵相关 (增强中)
    • Prime最小生成树(个人模板)
    • 最长单调子序列 复杂度nlog(n)
    • POJ PKU 2549 Sumsets 解题报告
    • POJ PKU 3277 City Horizon 解题报告
    • 我的ACM生涯
    • POJ PKU 2528 Mayor's posters 解题报告
    • POJ PKU 2378 Tree Cutting 解题报告
    • POJ PKU 1990 MooFest 解题报告
Powered by GitBook
On this page
  • 负载均衡和去中心化
  • 故障转移
  • 服务降级
  • 结尾

Was this helpful?

  1. 2016

游戏服务器的不停服更新

我们目前的游戏第一次测试的时候笔记送匆忙,导致上线之后频繁更新。 比如BOSS战由于大区的人数和预期不一样导致的难度调整,或者是任务链或者数值调整,再加上一些BUG。

但是每次停服更新的话用户体验是比较伤的,所以后来就采取了一些措施来减少更新的停服时间。最后基本实现了不停服更新。

其实后来两次测试的服务器更新基本上是不停服的了,用户不太能感知到。即便能感知到也是极短的时间区间内,一般是几秒钟。今天有点空闲就把我们的做法分享一下吧。

负载均衡和去中心化

想要更新不停服,根本问题在于服务器切换的时间断内老服务不能停止,然后尽可能把新进用户转移到新服务器组里。 那么所有数据都必须可以自由转移,不需要固定绑在某一个或某一组服务器上。简单的说就是要去中心化,并且这是需要客户端做一些相应的支持的。

其实我们整个服务框架都是去中心化的全区全服的架构,只是为了策划需求分了大区而已,所有的大区实际上也都在一个大集群内。而这个去中心化的设计,整体上分好几层。

第一层:依赖DNS的负载均衡

第一层的负载均衡在客户端,为了简单起见直接使用了DNS。但是使用DNS也有一些问题,那就是DNS劫持。所以这要求客户端必须离线保存最近的DNS解析结果。 这样只要有一次DNS解析正确,那么顶多下一次被劫持的时候记录是老的,并没有走最近线路。

但是这个DNS解析结果并不是直接用,而是客户端会先向CDN拉取一个我们的登入认证服务器列表,然后这个登入认证服务器的地址可能是域名。

这是第一层负载均衡,由客户端随机挑选一个登入认证服务器进行连接。

特别重要的一点是,因为要做到无缝切换,所以客户端必须在一个登入服务器连接失败的时候自动换一个登入服务器重试。 这样即便登入服务器在维护中,只要保证有可用的即可。

第二层:登入服务器

第二层在登入服务器上,这里接受到客户端连接后悔检查客户端版本号和判定是否灰度之类的逻辑,然后入股需要的话向客户端发送更新信息。也就是说,更新流程在登入服务器上完成。

如果不需要更新,则可以根据某种策略选几个游戏服务器的地址给客户端,这里下发的也是多个地址。同样如果处于维护中不可用时,客户端也必须挨个试。

在选游戏服务器方面,理想情况下当然是选负载最低的,但是我们先还是用了简单的方案,直接随机。

A/B组切换

完成了第二层以后,其实不停服更新就比较简单了。我们的登入服务器是无状态的,然后再把一个大区内的服务器分A组和B组, 那么在A组服务时,登入服务器下发A组的游戏服务器地址,而如果需要更新的时候,新服务器发到B组,然后登入服务器重新加载配置,新的客户端下发B组即可。

这样要求所有能够执行AB组的服务器内的数据可以转移。对于玩家数据,其实就是在一个游戏服务器上被踢出,在另一个服务器上登入的流程。

我们完成AB组的服务器进程还有工会服务。所以我们的工会服务也是类似玩家数据的设计,即允许在一个服务器上踢出,另一个上面登入。

所以要完成AB组切换的话,相关的工具也需要准备好,即可以一次性把某一组配置切换掉。另外对发版本的流程也必须做一定的约束。基本流程是:

  1. 发布新版本客户端更新包(包括完整包和增量包)

  2. 发新的一组逻辑服务器并初始化

  3. 刷新逻辑服务器配置(这时候有些逻辑必须工会会切换到新服务器)

  4. 发布新服务器组配置和版本更新信息到登入服务器,然后reload。发布流程可能很慢,但是发布过程登入服务器不用停服,reload是很快的。

  5. 然后所有新登入用户就会切到新的一组服务器上了

强制切换通知

完成了上面的AB组切换以后,还有一个问题,就是老的有一批玩家还在老服务器上。 如果这批玩家触发需要重新登入的断线重连,或者重新登入的话才会分到新的一组服务器上,否则还在老的一组服务上。

对于这种情况,大部分情况其实不需要理会,等自然切换即可。但是有时候需要强制玩家切换怎么办呢? 也很简单,给游戏服务器设定维护模式,然后下一次有玩家发包的时候(最长也就心跳包的时间)通知客户端token失效,然后断开客户端的连接。 这时候客户端会走断线重连的流程,那么也就切换到新服务器了。

故障转移

这种服务本身有故障转移的功能,所以如果某些服务下线了,自动会转移到其他可用的进程上。比如刚才提到的聊天服务器,如果有个进程下线,那么该进程的数据和slots会自动转移到可用进程上。

那么这些服务器更新想要无缝切换,可以直接先下线一部分,再上线一部分这种方式来完成。切换几次就可以全部替换完了。

服务降级

还有些服务,可能不容易做成可以AB组切换,也不容易做自动化的故障转移。 比如排行榜服务器,并不容易做转移,因为数据量比较大,转移的时间比较长,而且这期间如果发生排名变化,会非常复杂。因为多个数据之间是互相关联的。

这种情况,大多数不是关键服务,并且也是更新频率不高的的服务,所以我们采取的方法是服务降级。即,更新期间只停掉这种类型的服务,然后其他的功能保持正常。

在我们这里就是,如果要发生更新排行榜,那么膜拜、竞技场会暂时不可用。客户端会收到“维护中,XX功能赞不可用”之类的消息,其他比如PVE副本、商场、邮件、聊天等等都是正常的。

然后等数据保存完毕并且更新完毕就可以重新开启了,我们发生这种更新的时候基本上可以控制时间在10-20分钟之间。

结尾

目前我们的不停服更新服务器的方案差不多就是这样了,我们这两次测试的服务器更新,AB组切换的更新大约执行了8、9次,服务降级的更新执行过2次,强制踢用户下线之执行过一次。 基本上用户都是无感知的。

这样就能减少更新的成本,特别是如果测试期间停服更新的话,即便是半夜,对用户留存还是蛮伤的。因为刚开始测试的时候都是些粉丝玩家,热情很高,停服2小时,热情就降一半了。

虽然说最好是能做到完全无缝升级,但是那样制作成本有点高。 比如有一些做热更新的方案,是使用动态链接库或者重载脚本层的,但是这种重载的时间会比较长一些,并且动态链接库的资源管理坑非常多。

另外我认为假定进程可能出故障的设计更能够处理异常情况,比如万一意外情况脚本或者动态链接库的宿主挂了,能够故障转移更合理一些。 Google的大数据系统就是假定所有的进程、服务器都有挂掉的可能,然后设计成某些物理机挂掉都不会影响正常服务,这才是比较好的设计。

所以还是要根据项目需要来做这个取舍吧,毕竟一个小型项目搞个超级重量级的方案也是成本过高,得不偿失不是?就像游戏服务器的聊天肯定不会做到QQ或者微信那么复杂是一样的。

Previousatframework基本框架已经完成Next对atbus的小数据包的优化

Last updated 6 years ago

Was this helpful?

有些服务是以接口的形式提供的,并不适合走AB组,这种服务一般不需要更新,但是总归会碰上需要更新的情况。 比如说聊天服务器,我们的聊天服务器是以频道的形式提供,频道根据Hash值然后分成slot分布在不同的进程上,类似的设计。

redis cluster