本期投稿: 谢益辉 施涛朱雪宁 王小宁
编辑:王小宁
国际权威的学术组织 The IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, 和 CART.,相关的论文 在这里 。最近有人把这些算法用 R实现了 。
前两天有关疑似MH370 遗骸的消息登上各大新闻头条,信息真假还未得知,其实早在今年三月份CNN报道得克萨斯A&M大学的数学家宣布,他已通过一台计算机上运行的数据,并确定它是有可能的飞机已经垂直坠入海洋,请 参看这里 。
一位2013年毕业于杜克大学的同学总结的今年在Coursera 上关于约翰霍普金斯大学数据科学 课程的笔记 ,有志于上此系列课的童鞋可以先看看哦!小编提醒,新的一轮数据科学课程也从 8月3日开始 了。
一篇关于R 语言进行并行计算的 深度好文 。
广义线性模型(GLMS)在数据科学工具箱中不可或缺的工具。它们是适用于涉及很多现实世界的问题,连续数据,计数和生存数据(及其他)。模型本身是直观的,并且可以被用于推断和预测。一些非常高品质的免费软件和开源软件的实现方式是可获得的 如R 。
最近比较火的 一篇文章 ,UCLA的一个学生伪造了数据发了一篇Science文章,后来被别人发现,被撤稿了。这里面的侦察过程有点意思,参见文中的PDF报告链接。