今天在用golang做数据处理的时候出现了点问题,场景是这样的。
服务端定时去请求远端服务器拉取每日数据,数据量不是很大,在百万级左右。
拉取到的数据再经过简单数据校验和处理之后存入数据库。结果在执行这段代码的时候占用了将近3个G的内存。
在优化代码的时候发现了一个问题就是golang在处理大量string类型的时候并没有Interning,而在操作DB时又经常性的出现重复数据,导致内存没必要的浪费。
string interning(字符串驻留)的概念其实在java里会有接触,可以理解为一个常量池,在新建string的时候会查找有没有相同的unicode,有就把指针指过去。wiki原文中也写到了,在java中interning是一个默认的模式。
for example [String.intern()]
in Java. All compile-time constant strings in Java are automatically interned using this method. -- https://en.wikipedia.org/wiki/String_interning
这两天我研究一下这个包,把优化结果及string包的源码分析整理一下
https://godoc.org/github.com/chriso/go-intern
https://en.wikipedia.org/wiki/String_interning