《爬升知识图谱技能树》 http://vdisk.weibo.com/s/qDHytUlgU_Pb
上次的讲座提 到知识图谱开发的核心是迭代,稍作补充:线上可用的系 统,一般经过统计、规则、编辑三步提取。统计方法粗过一遍,但一般难以达到可用程度,后面还是要靠人工。规则是可重复的人工投资,编辑是不可 重复的人工。迭代就是提高可重复的人工投资的比例,并反馈到统计系统
拿炼 钢做比喻。统计相当于选矿,提供些可用的原材料。规则相当于炼出铁,勉强可用。编辑相当于锻打,让材料达到做零件可用的特性。我们要用各种方 法来改进炼铁和锻打的效率,但是这不是加强选矿就能替代的。有多少人工才有多少智能。
迭代 的目的是控制成本。从字符串到URI有巨大的成本。分类是一种,实体识别是一种。很多时候我们并不需要精确的URI,而只需要用户可感知的满 意度。我们没有必要过度优化。我们也完全可能统筹统计、规则、编辑来降低成本
极少 可能我们一下子就知道该用什么方法。应该先用小的数据集来人工的观察,人工的来标注。找到数据的感觉。很少有情况我们基于常识不能发现一些规 律的。用这些早期的发现来bootstrap,构造规则或者统计系统来渐次减少人工观察的比重。用好Faceted Browser和Excel表格这些能快速发现数据规律的工具
在 HCI工具上要积累。观察数据的工具和机器学习的算法库一样重要,可能更重要。比如Ayasdi分析系统的核心不仅是数据拓扑分析,而且是它的多分辨率可视化算法,工程师 可以多角度快速发现数据规律。这些规律是机器很难发现的。
实体Entity是URI的另一个说法而已。语义网多年的惨痛教训已告诉我们不能过于实体化。字符串到实体要尽可能在应用部署中迭代进行,千万不能上来就想构造实体的网络。“构成这个世界的是实体,而非字符串” 这句Google的名言是有适用范围的。不小心就栽坑里了。