本书带来的技能点是,如何利用开放的API来搜集数据,以及各种机器学习算法和统计方法。
最好具备的技能点:基础python语法、统计学知识;PS:按照作者假定,读者并不具备统计学知识。
集体智慧是为了创造新的想法,而将一群人的行为、偏好或者思想集合在一起,简单的来说,就是从海量的数据之中提取重要的信息并且产生出新的信息。
机器学习是人工智能领域中与算法相关的一个领域,它允许计算机不断地进行学习。大多数情况下,这相当于将一组数据传递给算法,并由算法推断出与这些数据的属性相关的信息。
借助这些信息,算法就能够预测出未来可能会出现的其他数据。
几乎所有的非随机数据中,都包含了这样或者那样的“ 模式(patterns) “,这些模式的存在使机器得以据此进行归纳。为了实现归纳,机器会利用它认定的出现于数据中的重要特征对数据进行“ 训练 ”,并借此得到一个” 模型 “。
机器学习算法受限于其在大量模式之上的归纳能力,而一个模式—如果不同于算法先前所曾见到过的任何其他模式—那么它很有可能会被“误解”。人类拥有大量的文化知识和经验可以借鉴,而且当对新的信息进行决策时,人们能够从中识别出相似的信息来,而机器学习方法却只能凭借已经见过的数据进行归纳,而且归纳的方式受到很大的限制。
另外,所有机器学习算法都有过度归纳的可能性。例如,收到一封友人寄来的重要的电子邮件,里面包含了设定了的过滤词汇,此时,我们需要告诉算法,这封邮件并不是垃圾邮件,或许算法能够做出判断,将这封邮件判定为可以接收。总而言之,机器学习算法是能够持续进行学习的。