转载

专访IPIP.NET创始人高春辉:IP数据库的技术创业实践

编者按

总编访谈 ”是InfoQ推出的一个高端访谈栏目,由总编辑 崔康 主持,致力于深入采访国外内顶尖技术力量,报道最前沿、最有深度的内容,分享干货和经验。

本期采访嘉宾是 IPIP.NET 创始人高春辉,他应邀在InfoQ的新办公室接受了专访,就IP数据库的发展现状、难点和创业心得发表了自己的看法。

正文

InfoQ:你是创业老兵了,为什么会选择IP数据库这样一个小众的领域来继续创业?

高春辉 :其实这个初衷不是按照创业的路数做的,只是因为之前半公半私的原因,对CDN、DNS一类的事情在做研究,但是IP库是其中一个非常重要的组成部分,然后这个事情是所有人都头疼的一个问题。而且之前在ECSHOP时代也曾经接触过,只是没有下文。

还有一个比较重要的原因也是因为我家里有事,我更需要在家呆着的时间里,找个事情干,谁让我是不找点事干会死星人呢:)

简而言之,做了,而且发布了,但做起来之后的反馈尤其是我的文章发表之后的反馈,是我没有想到的,而顺着这个事情还可以做些挺有意思的事情,也是顺水推舟的了。 有朋友说这是无心插柳柳成荫,我很赞同。而且在我看来,其实无论互联网行业还是非互联网行业,很多在后来做大的事情,都是从一个很偶然很不起眼的机会做起来的。

InfoQ:目前的国内外IP数据库都有一些,虽然质量参差不齐,但大家都在凑合用着,为啥要做一个高质量的IP数据库?是有强烈的市场需求还是你的理想和情怀?

高春辉 :这个事情,从当时看,还是希望给自己一个高质量的数据库吧。虽然后面碰到的很多问题,也是自己之前没有意料到的,麻烦总比想象的多,但还算可以坚持做下去,虽然中途一度想放弃。

而从我现在已经维护了一年多,包括和很多对IP库有需求的公司的人沟通后的结果,得到的答案是这样的。

从IPV4的角度看,去掉不可用的地址范围,应该有30多亿,全球应该有5到8万家ISP、IDC在使用这些IP,而你想象一下,不管任何原因,平均一个公司一个月对他的一个IP段去做变动的话,我们就等于每天都要面对大量的IP的变动的跟进。

我大概算了一下,如果想自行维护一个高质量的IP库的话,从工作量的角度,至少需要两个全职的人来维护,而且想提高效率,还需要招一个做自动化验证和发现的工程师。按照目前的薪资待遇计算,成本可想而知。

而更重要的问题是方法,放眼望去,有关地理定位的话题与分享,在国外也是相关的会议上的常客,没见到哪个公司或者机构有一个总结性的答案,而且包括我看到的分享,也有类似美国国土安全部的参与,可想而知这个事情的重视程度和难度了。

而在一般的情况,介绍给你的方法不外乎按照WHOIS数据标注,还有就是寻找不同的IP库来源,进行拼装。但是他们自己都不认为这是最好的方法,而只是最简单的方法。

而我们在做的,除了会借助于运营商的数据以外,会以BGP数据以及目前已有160个监测点来做监测和验证,其准确程度一定会比只借助于WHOIS和其它IP库的方式要更高大上的。

对于自动化的方式,我们也在探索,目前考虑的办法是分成两块,一部分做已有标注的验证,另外一部分也是更难的,想做发现,如果有兴趣一起参与的朋友,可以与我联系,急需!

关于提高IP准确度的方法,高春辉在“ IP库的那些事儿之2013-2014流水帐版 ”一文中做了更加详细的解答:

高春辉: 如果完全按照WHOIS抓的方式,不太够用,毕竟WHOIS信息已经有十几年历史了,肯定有不少信息已经不再准确,而且里面的国家到底是公司所在的国家还是IP所在的国家,你只能靠猜。这时候在BGP.HE.NET上逛的多了,就会发现有个AS数据显示在IP所在页面上,一开始也没注意,后来越来越发现,这个事情貌似和IP的地域有关,比如你要是北京联通的IP,往往它会给你显示AS4808,花了不少时间研究BGP这东西。

于是发现 ASN 是 BGP 的一部分,现代的互联网的互联互通,是靠 BGP 协议在起作用。一般一个公司在维护一个网络的时候,高大上的方式都是去申请一个 ASN 号码,再申请属于自己的IP,然后以这个ASN的名义广播出去,让全球的路由器都知道该通过什么样的网络路径去访问这些IP。到现在为止,全球的ASN数据有大概70000条,还在逐渐增加。

那么我就在想,能否根据这个数据来去做一个IP的围栏(地理名词,我借用一下,意思差不多),给每一个ASN做地域标注,比如AS4808,就是中国北京联通,那么里面的IP列表,除了一些特殊情况外(ANYCAST或者外拉带宽以及卫星上网等等),都应该属于中国北京联通。虽然有些ASN数据只能准确在国家层面,但是这也比乱标要好吧?不然即使不是乱标,你也不知道该如何更新数据。

而且如果我花足够的精力把所有的ASN都标注完了,那么我只要看所有的ASN的数据变化情况,就可以据此被动更新了,当然也有特殊情况,比如卫星上网,但是大部分的IP用这个方式维持更新即可。

InfoQ:好的IP数据库必须要人工干预吗?如何提高自动化率?

高春辉 :我们都要承认,目前的互联网很庞大,而且有几万家公司在参与维护建设,在网络质量以及各方面,差别都很大。比如在本地的两个网络没有直连线路的话,绕路其它城市的事情,非常普遍。

所以即使能够拿到很好的数据,最终也还是需要人工参与的,因为总有很多特例出现,比如卫星上网,或者VPN联网等等吧。

在这个角度,我认为这个事情是个很重的事情。有专职的人维护的大公司都未必做得好,更别提只让人兼职去维护的小公司了。

InfoQ:说说你这一年在 IPIP.NET 上做的事情吧?

高春辉

  • 2013年10月,正式开始维护。
  • 2014年初,在微博上公开此事。
  • 2014年3月,正式上线第一个免费版。
  • 2014年4月,有第一个付费客户。
  • 2014年8月,在 THINKPHP 大会上做了公开分享。
  • 2014年11月,基于对数据已经做了整体梳理的情况下,在微博上发表了第一篇长文章。
  • 2014年12月,有几十家家付费客户,比较大型的客户有豌豆荚、小米、缔元信、乐蛙、百姓、又拍云、口袋通、51DNS、饿了吗、知道创宇、寻医问药、BILIBILI、边锋、17CE、新数网络、联众游戏、丁香园、陌陌、YY、迅雷、2345、简网、久游、7K7K、粉笔、汽车之家、七牛、云测等等。
  • 2015年3月,100家客户达成。

InfoQ:现在 IPIP.NET 运营情况如何?今年有什么新的打算?

高春辉 :目前正在积极寻找愿意一起维护这个IP库以及更多数据以及服务的小伙伴,另外也在准备上线更多的数据内容。基础数据在很大情况是很有挑战的,做好了,可以惠及全行业。是个值得数据控一起搭伙的事情。

IP数据库主要用于广告投放、精细化管理等,IPIP.NET的记录条目已经达到了15万条。 我们也在寻求与朋友以及行业的伙伴们一起寻找更多的合作机会。

另外,除了城市级数据库,我们还在研发街道级数据库,也就是IP的定位精准到具体的街道、小区、甚至楼座,这种服务可以用于给访问者画像(通过他的所在区域分析其行为习惯、生活背景等等),在大城市比如北上广深会有较高的需求,而且也会选择城市里比较大的区域,比如北京的海淀区、朝阳区等等。和城市级数据库销售模式(全库整体出租服务)不同,街道级数据库可能会按照API访问次数收费。

在高春辉的另一篇文章“ 高质量IP库的成本核算与我们为什么要涨价? ”中,详细分析了IPIP.NET的运营成本和人力成本。

InfoQ:你创业很多次,每次创业都有不同的感受吗?是什么想法在支持着你不断创业?

高春辉 :创业多次,也许不够成功,但总算比上不足,比下有余,自己心安即可, 而且做的事情基本不重复,总是有挑战有需要进一步的空间的。

我最不喜欢的就是停在一个事情上不能进步,换句话说有点喜新厌旧,但是一旦做进去,也不会轻言放弃,而且不愿在太多事务性事情上花费太多时间。

InfoQ:你觉得创业要想成功,需要具备哪些必要的因素?

高春辉 : 我觉得创业最大的事情是方向问题,尤其在中国,国外相对还比较百花齐放。 一个最经典的例子就是国外的人看到加油站,会在周边建超市、饭店,尽量做生态圈共同发展,中国这里是你建加油站,过一段时间,周围都是加油站。 而且在中国,还要直接面对N多大公司的直接竞争。

第二就是资金。而这个和第一个密切相关,如果不做热门的事情,想拿到钱,很难很难。中国几乎没有天使投资人,只有早期投资人。

第三是伙伴,现在的伙伴们,非常的现实,想找到有共同语言并且可以共同患难与共的非常难,往往是死道友不死贫道。

也许我说的非常残酷,但是基于创业的失败率和第一次往往是失败的断言,这些都是很现实的问题。无论你我,都要面对。

但是,这几年也算有些进步,比如30岁难题,逐渐变成了35岁难题,我也相信随着时间的推移,经验的价值会更多的显现出来,而不仅仅是青春饭。

而且做技术行业的一些创业,不管是代码方向的、社区方向的,还是招聘方向的,也算是因为用户群的逐渐扩大,行业的火爆,也逐渐有人愿意去投资了。 也许可以说,这是最好的时代,也是最坏的时代,好坏在于你心,更何况是随波逐流混工资赌公司的发展如何,还是发挥自己的热情和能力给这个行业添砖加瓦,都在一念间。

嘉宾介绍

专访IPIP.NET创始人高春辉:IP数据库的技术创业实践

高春辉,金山卓越电脑资讯站创始人,天下网创始人,手机之家网站创始人,ECSHOP软件创始人, 爱壁纸HD 应用创始人,连续创业者。

正文到此结束
Loading...