dubbo-go-hessian2 是一个用 Go 实现的 hessian 协议 v2.0 版本的序列化库。从项目名称里可以看到主要用在 dubbo-go 这个项目里。hessian 协议作为 dubbo 的默认协议,因此对性能有比较高的要求。
譬如有网文 基于Go的马蜂窝旅游网分布式IM系统技术实践 把 dubbo-go 与其他 RPC 框架对比如下:
有鉴于此,社区便开始组织部分人力,启动了对 dubbo-go 性能优化【同时也欢迎上文作者到钉钉群 23331795 与我们社区交流】。考察 dubbo-go 的各个组件,大家不约而同地决定首先优化比较独立的 dubbo-go-hessian2 。
在最开始的时候,并没有太想清楚需要做什么,改哪个地方,要优化到何种程度,所以最简单的办法就是看看现状。
首先,写了一个简单的例子,把常见的类型到一个结构体里,然后测一下耗时。
type Mix struct { A int B string CA time.Time CB int64 CC string CD []float64 D map[string]interface{} } m := Mix{A: int('a'), B: `hello`} m.CD = []float64{1, 2, 3} // 再加一层,使得数据显得复杂一些 m.D = map[string]interface{}{`floats`: m.CD, `A`: m.A, `m`: m} 复制代码
看起来这个结构体跟真实环境里可能不太一样,但是用来分析瓶颈应该是足够了。
然后直接靠 Go Test 写个测试用例:
func BenchmarkEncode(b *testing.B) { for i := 0; i < b.N; i++ { _, _ = encodeTarget(&m) } } func BenchmarkDecode(b *testing.B) { for i := 0; i < b.N; i++ { _, _ = NewDecoder(bytes).Decode() } } 复制代码
go test -benchmem -run=^$ github.com/apache/dubbo-go-hessian2 -bench "^B" -vet=off -v
得到下面结果:
BenchmarkEncode-8 89461 11485 ns/op 3168 B/op 122 allocs/op BenchmarkDecode-8 64914 19595 ns/op 7448 B/op 224 allocs/op 复制代码
注:基于 MacBook Pro 2018【主频 Intel Core i7 2.6 GHz】测试。
不与同类库作横向比较,仅仅从这个测试结果里的数字上无法得出任何结论。对我们来说更重要的是:它到底慢在哪里。首先想到的手段便是:借助 pprof 生成火焰图,定位 CPU 消耗。
pprof 工具的用法可以参考官网文档。本文测试时直接使用了 Goland 内置 CPU Profiler
的测试工具:测试函数左边的 Run xx with 'CPU Profiler'
。
测试跑完后, Goland 直接显示火焰图如下:
从这个图里可以看到,测试代码大概占用了左边的70%,右边30%是运行时的一些消耗,运行时部分一般包括 gc、schedule 两大块,一般不能直接优化。图上左边可以清晰地看到 encObject
里 RegisterPOJO
和 Encode
各占了小一半。
完成序列化功能的 Encode
消耗 CPU 如此之多尚可理解,而直觉上,把类对象进行解析和注册 RegisterPOJO
是不应该成为消耗大户的。所以猜测这个地方要么注册有问题,要么有重复注册。
下一步分析,用了一个简单的办法:在这个函数里加日志。然后继续再跑一下 benchmark,可以看到性能瓶颈处:容器读写的地方。
既然知道这里做了许多重复的无用功,就很容易明确优化方法:加缓存。把已经解析过的结果缓存下来,下次需要的时候直接取出使用。改进后的代码简单如下:
if goName, ok := pojoRegistry.j2g[o.JavaClassName()]; ok { return pojoRegistry.registry[goName].index } 复制代码
这里刚开始有个疑问,为什么要分两步先取 JavaClassName
再取 GoName
而不直接取后者?看起来好像是多此一举了,但其实 JavaClassName
是类直接定义的,而 GoName
却依赖一次反射。相较之下两次转换的消耗可以忽略了。改完之后再跑一下 benchmark:
BenchmarkEncode-8 197593 5601 ns/op 1771 B/op 51 allocs/op 复制代码
非常惊讶地看到,吞吐量大概是原来的 200%。与上面的火焰图对比,可以粗略的计算, RegiserPOJO
大概占了整体的30%,改进后应该也只有原来的 1 / 0.7 * 100% = 140%
才对。答案也可以在火焰图里找到:
除了 RegisterPOJO
被干掉以外,与上图对比,还有哪些区别呢?可以看到,原来占用将近 20% 的 GC
也几乎看不到了。所以真实的 CPU 利用率也要加上这部分的增长,大约 1 / 0.5 * 100% = 200%
。
需要提醒的是,benchmark 跑出来的结果并不算稳定,所以你自己压出来的结果跟我的可能不太一致,甚至多跑几次的结果也不完全一样。对于上面的数字你只要理解原因就好,上下浮动10%也都是正常范围。 反过来看,这也算是 GC 优化的一个角度。碰到 GC 占用CPU过高,除了去一个个换对象池,也可以重点看看那些被频繁调用的模块。当然更科学的方法是看 pprof heap
/ memory profiler
。
针对这个结果,可以看到 encObject
以上都被切割成了不同的小格子,不再有像 RegisterPOJO
那样的大块占用,一般情况下,优化到这里就可以了。
看完了 Encode
,再来看看 Decode
,方法类似,直接看 Goland 生成的火焰图:
这个图有点迷惑性,好像也被分成差不多的小格子了。可以点开 decObject
这一层:
这个时候原来小的 ...
会显示具体内容,需要注意的是里面有两个 findField
,在复杂的调用里经常会遇到这种情况:一个耗资源的函数被分到了许多函数里,导致在看火焰图时并不能直观地看到它就是瓶颈。比较常见的有序列化、日志、网络请求等每个模块都会干一点却又没有一个全局的函数只干他一件事。这个时候除了肉眼去找以外也可以借助于另外一个工具:
在这个 Method List
里可以明显看到 findField
已经被合并到一起了,总占用接近 CPU 的一半,看到这里你大概就知道它应该是个优化点了。
函数 func findField(name string, typ reflect.Type) ([]int, error)
的作用是在一个类型里寻找指定属性的位置(Index,反射包里用它来表示是第几个字段)。很容易想到,对于一个结构体来说,每个字段的位置从一开始就确定了,所以用缓存一样可以解决这个问题。一个简单的优化如下:
func findField(name string, typ reflect.Type) (indexes []int, err error) { typCache, _ := _findFieldCache.LoadOrStore(typ, &sync.Map{}) indexes, _ := typCache.(*sync.Map).Load(name) if len(indexes.([]int)) == 0 { err = perrors.Errorf("failed to find field %s", name) } return indexes.([]int), err // ... } 复制代码
- BenchmarkDecode-8 57723 17987 ns/op 7448 B/op 224 allocs/op + BenchmarkDecode-8 82995 12272 ns/op 7224 B/op 126 allocs/op 复制代码
可以看到,结果并不如预期的那样提升一倍效果。这个代码乍看起来,好像除了有一些啰嗦的断言,好像也没别的东西了,为什么只有60%的提升呢,我们还是借助下工具
可以看到:读缓存耗费了 7% 的资源。其中, sync.(*Map)
不便优化,但 newobejct
是哪里来的呢?代码里可以看到,唯一定义新对象的地方就是函数第一行的 &sync.Map
,我抱着试一试的心态把 LoadOrStore
拆成了两步
typCache, ok := _findFieldCache.Load(typ) if !ok { typCache = &sync.Map{} _findFieldCache.Store(typ, typCache) } 复制代码
- BenchmarkDecode-8 82995 12272 ns/op 7224 B/op 126 allocs/op +BenchmarkDecode-8 103876 12385 ns/op 6568 B/op 112 allocs/op 复制代码
看结果,着实出乎意料。想起来以前看 Java 代码时经常碰到这样的代码:
if ( logLevel == `info` ) { log.Info(...) } 复制代码
以前一直觉得这个 if
真是浪费感情,现在想来,别是一番认知了。如果能提供一个 LoadOrStore(key, func() interface{})
的方法, 会不会更好一些? 到这里的话,我们做了两个比较大的优化,整体性能大约提升了一倍。如果仔细看火焰图,还会发现有很多小的优化点,但是由于没有什么特别质的飞跃,这里不再赘述。有兴趣的小伙伴可以到 PR Imp: cache in reflection 里阅读相关的讨论。
优化到此,依然藏着一个更深层次的问题:找一个可靠的参考基准,以衡量目前的工作结果【毕竟没有对比就没有伤害】。一个很容易想到的比较对象是 Go 语言官方的 json
标准库。
把 dubbo-go-hessian2 与 json
标准库做比较如下:
$ go test -benchmem -run=^$ github.com/apache/dubbo-go-hessian2 -bench "^B" -vet=off -v -count=5 goos: darwin goarch: amd64 pkg: github.com/apache/dubbo-go-hessian2 BenchmarkJsonEncode BenchmarkJsonEncode-8 249114 4719 ns/op 832 B/op 15 allocs/op BenchmarkJsonEncode-8 252224 4862 ns/op 832 B/op 15 allocs/op BenchmarkJsonEncode-8 240582 4739 ns/op 832 B/op 15 allocs/op BenchmarkJsonEncode-8 213283 4784 ns/op 832 B/op 15 allocs/op BenchmarkJsonEncode-8 227101 4665 ns/op 832 B/op 15 allocs/op BenchmarkEncode BenchmarkEncode-8 182184 5615 ns/op 1771 B/op 51 allocs/op BenchmarkEncode-8 183007 5565 ns/op 1771 B/op 51 allocs/op BenchmarkEncode-8 218664 5593 ns/op 1771 B/op 51 allocs/op BenchmarkEncode-8 214704 5886 ns/op 1770 B/op 51 allocs/op BenchmarkEncode-8 181861 5605 ns/op 1770 B/op 51 allocs/op BenchmarkJsonDecode BenchmarkJsonDecode-8 123667 8412 ns/op 1776 B/op 51 allocs/op BenchmarkJsonDecode-8 122796 8497 ns/op 1776 B/op 51 allocs/op BenchmarkJsonDecode-8 132103 8471 ns/op 1776 B/op 51 allocs/op BenchmarkJsonDecode-8 130687 8492 ns/op 1776 B/op 51 allocs/op BenchmarkJsonDecode-8 127668 8476 ns/op 1776 B/op 51 allocs/op BenchmarkDecode BenchmarkDecode-8 107775 10092 ns/op 6424 B/op 98 allocs/op BenchmarkDecode-8 110996 9950 ns/op 6424 B/op 98 allocs/op BenchmarkDecode-8 111036 10760 ns/op 6424 B/op 98 allocs/op BenchmarkDecode-8 113151 10063 ns/op 6424 B/op 98 allocs/op BenchmarkDecode-8 109197 10002 ns/op 6424 B/op 98 allocs/op PASS ok github.com/apache/dubbo-go-hessian2 28.680s 复制代码
虽然每次的结果不稳定,但就整体而言,目前的序列化和反序列化性能大概都是JSON标准库的85%左右。这个成绩并不能说好,但短期内能花20分的精力得到一个80分的结果,应该也是可以接受的。至于剩下的20%,就不是靠改几行代码就能搞定了。内存分配是否合理、执行流程是否有冗余,都是需要一点一滴地去改进。