Cathy O'Neil是约翰逊实验室高级数据科学家、哈佛大学数学博士、麻省理工学院数学系博士后、巴纳德学院教授,曾发表过大量算术代数几何方面的论文。他曾在著名的全球投资管理公司D.E. Shaw担任对冲基金金融师,后加入专门评估银行和对冲基金风险的软件公司RiskMetrics。Cathy是一位数学家,后来转型为数据科学家,她的个人博客 http://mathbabe.org/ 广受欢迎。她和哥伦比亚大学统计系兼职教授Rachel Schutt根据一门名为“数据科学导论”的课程撰写了《数据科学实战》一书。
问:当一个数据科学家最吸引你的是什么?你的博客上有一句话:非理论派的数学家能做些什么,让这个世界变得更加美好。你是否找到了这个问题的答案?
我爱数据!我喜欢看到通过测量数据,就能知道很多事物的工作原理。我特别享受为我们并不熟知的事物做量化的过程,我也喜欢对比两个事物的影响,直到这些影响变得无法比较。
对于那个问题,我最大的线索就是:作为数据科学家,我需要花更多的时间和精力来确保做到三思而后行。数据科学是一种强大而具有影响力的工具,既可以作恶也可以行善。我们需要铭记这一点。
问:在你看来,具有什么样性格和学习背景的人最适合担任数据科学方面的工作?
这要视情况而定。我的书《数据科学实战》是以数学背景为前提写的,但是说实话,一个数据科学团队也需要有既了解科学方法,又有哲学与伦理学背景的人。要更好地解决问题,想法的多样性是必不可少的。
问:很多读者都受到了你的博客Mathbabe.org的启发,通过互动,你是否也被你的读者所启发?
当然!在智力上,我的读者带我经历了很多奇异的刺激之旅。我每天都会为此心存感激。
问:很多人相信基于大数据的应用会助长人们对于原有习惯的依赖,这将限制人们对于多样化体验的尝试,你同意吗?
这可能是真的。比如说,简历或应用分类算法如果只是从历史数据中学习,而且只会再次产生老式的决策方式,那么这种方法也只是编撰整理了系统原有的偏见,无论是性别歧视,还是对某些大学学位的偏好。我建议,人们应该弄明白他们真正寻找的是什么,而且在落实这些技能的时候尽可能少的存有偏见。我们至少应该做出这样的尝试。
问:很多公司都从大数据得益不少,但是也有不少公司虽然根据数据制定政策和战略,却收益极少或亏损,你觉得他们在哪里犯了错误?
他们通常认为大数据是很神奇的。当然,大数据并不神奇,你需要好的问题,而且,你需要的不仅是大数据,你还需要正确的数据,很多时候人们都疏于做到这点。
问:从很大程度来说,大数据是用来做预测的。你认为偶然的事件是否可以由确定的数据预测出来?
如果这个问题是,一个本质上无法预测的事件是否可以被预测出来,那么我的回答是否定的!但是,这也可能是真的,毕竟连随机系统都有一些根本的特征。比如你有一个等待时间的进程,在你侃侃而谈因为某个事件没有发生而让你倍感“惊奇”的时候,你需要先定义出让你惊奇的事件。
问:为了更好更快地存取web数据,诞生了NoSQL。而传统的数据库也提出了数据空间(Data Space)这种先有数据,后有模式的概念。这些概念的应用情况如何?在这个领域还有哪些不为人知的课题?
总体来说,大数据使用的是无结构的乱糟糟的数据,至少在建立模型的时候是这样。当模型成为成品之后,使用的有时候就是标准数据库,到了产出结果和每日报告的时候,用的肯定就是标准数据库了。
我一般会忽略这样的关于数据储存方面的问题,并不是因为无趣,而是因为这些技术的变化太快。当我需要忙活新项目的时候,我就会去弄清楚时下最好的技术是什么。
问:在机器学习中,训练数据通常都是给定的。从工程角度上来说,从数据库提取训练数据时最重要的是什么?数据特征,数据量,还是数据提取方式?
很难从总体上概括!当然,有时候你只是需要海量的训练数据来训练模型,但是其他时候你并不需要这么多,你该小心的是你的样本是否具有代表性。
对于我来说,如果可能的话,我总是根据时间戳来训练模型。我提早开始训练数据,然后我会用后面的数据做测试。
问:为了提取模型的关键因子,数据分析师通常需要对具体业务有较好的了解。是否有完成这项工作的捷径?或者说这是数据工作无法避免的一部分?
这确实是无法避免的;只有领域专家才能指导建模,至少在最开始的时候必须如此,此时仍有容易达到的目标。随后,当所有的专业知识都已被包括在内之后,模型可能就会变得不那么具有领域特殊性了。
问:数据科学如今发展越来越快,《数据科学实战》中是否有哪些内容是你想要更新的?还有哪些内容会在很长时间内保持不变?
当然有!这是一个飞速发展的领域,这一点我都想在简介里好好强调一下了。如果今天我要重写这本书,每一章都会不同。但是话说回来,不变的是对于目标知识的总体学习方法,以及在专注于技术的同时仍不忽视人为影响的意识。随着科技发展,技术会变得越来越好,在数学上越来越复杂,所以从某种角度来说,现在是成为数据科学家的最好时机。