转载

知识图谱开发的核心是迭代

《爬升知识图谱技能树》 http://vdisk.weibo.com/s/qDHytUlgU_Pb

上次的讲座提到知识图谱开发的核心是迭代，稍作补充：线上可用的系统，一般经过统计、规则、编辑三步提取。统计方法粗过一遍，但一般难以达到可用程度，后面还是要靠人工。规则是可重复的人工投资，编辑是不可重复的人工。迭代就是提高可重复的人工投资的比例，并反馈到统计系统

拿炼钢做比喻。统计相当于选矿，提供些可用的原材料。规则相当于炼出铁，勉强可用。编辑相当于锻打，让材料达到做零件可用的特性。我们要用各种方法来改进炼铁和锻打的效率，但是这不是加强选矿就能替代的。有多少人工才有多少智能。

迭代的目的是控制成本。从字符串到URI有巨大的成本。分类是一种，实体识别是一种。很多时候我们并不需要精确的URI，而只需要用户可感知的满意度。我们没有必要过度优化。我们也完全可能统筹统计、规则、编辑来降低成本

极少可能我们一下子就知道该用什么方法。应该先用小的数据集来人工的观察，人工的来标注。找到数据的感觉。很少有情况我们基于常识不能发现一些规律的。用这些早期的发现来bootstrap，构造规则或者统计系统来渐次减少人工观察的比重。用好Faceted Browser和Excel表格这些能快速发现数据规律的工具

在 HCI工具上要积累。观察数据的工具和机器学习的算法库一样重要，可能更重要。比如Ayasdi分析系统的核心不仅是数据拓扑分析，而且是它的多分辨率可视化算法，工程师可以多角度快速发现数据规律。这些规律是机器很难发现的。

实体Entity是URI的另一个说法而已。语义网多年的惨痛教训已告诉我们不能过于实体化。字符串到实体要尽可能在应用部署中迭代进行，千万不能上来就想构造实体的网络。“构成这个世界的是实体，而非字符串” 这句Google的名言是有适用范围的。不小心就栽坑里了。

原文 http://baojie.org/blog/2016/02/06/lean-kg/

正文到此结束