转载

IEEE2015 可视化会议-机器学习渐呈星火燎原之势

最近，我参加了在芝加哥举办的IEEE 2015可视化大会，并草草记录了一些有关机器学习的内容。对于那些不了解该会议的人来说，你有必要了解下，这是从业者、学者和研究人员最大的一次年度聚会，它们的研究方向是如何将数据进行可视化并且对我们可用。会议论文主要来自IEEE VIS的三个核心子会议：可视分析科学与技术（Visual Analytics Science and Technology，VAST)、信息可视化（Information Visualization,InfoVis) 、科学可视化（Scientific Visualization,SciVis)。同时举行的还有三大IEEE专题报告会：大数据分析和可视化(Large Data Analysis and Visualization, LDAV)、网络安全可视化（Visualization for Cyber Security, VizSec）以及第一次举行的数据科学可视化专题报告会（VDS）。

今年，与会人员超过1500人，包括来自商业智能和高级分析的领先企业人士，有Bloomberg, Google,IBM,Tableau以及Microsoft。

此次会议给我印象最深的是：机器学习（ML）与数据可视化（Data Visualization）的关系越来越紧密。大多数论文在数据预处理阶段都使用了机器学习技术。例如，VAST会议最好的论文“ Reducing Snapshots to Points: A Visual Analytics Approach to Dynamic Network Exploration （离散化Snapshots：一个用于动态网络探索的可视分析方法） ”，使用矢量化、标准化以及降维技术将高维动态网络数据映射到二维空间，然后使用两个并列图做为可视化输出：一个展示网络快照（network Snapshot），一个显示网络演变。使用户更容易将异常与正常稳定的状态区分开来。

以下内容是对四个主要应用领域高度强调的机器学习技术的总结：

在网络或空间数据可视化中，聚类和分类已被广泛用于干扰数据的降解和兴趣识别。例如，在“ MobilityGraphs: Visual Analysis of Mass Mobility Dynamics via Spatio-Temporal Graphs and Clustering （基于时空图聚类的大量流动数据的可视分析）”一文，对大伦敦地区每小时Twitter用户的移动数据使用的就是空间聚集的区域聚类和颜色编码的时空图聚类。

IEEE2015 可视化会议-机器学习渐呈星火燎原之势

（图像来自达姆施塔特工业大学的交互式图形系统小组.）

对于时间序列数据的可视化，存在一个大的挑战，即在有限的显示空间里展示大数据集，并且做到图形不重叠。一个有效的方法是将数据点汇聚到各个时间段，然后创建一个带有层次感的多焦点放大线形图，如这篇文章：“ TimeNotes: A Study on Effective Chart Visualization and Interaction Techniques for Time-Series Data （TimeNotes：基于时间序列数据的高效图表可视化和交互技术研究）”。

IEEE2015 可视化会议-机器学习渐呈星火燎原之势

（图片来自 TimeNotes ）

在文本数据可视化中，实体提取、主题识别和情感分析等文本挖掘技术的可视化逐渐成为必要。在这篇论文“ Exploring Evolving Media Discourse Through Event Cueing （基于事件线索的媒体话语变化探索）”中，多个挖掘结果，如Wordle中的实体，随着时间发展的情感得分，相互连接在一起，用以加强媒体话语分析。

IEEE2015 可视化会议-机器学习渐呈星火燎原之势

（图片来自亚利桑那州立大学的 VADER实验室）

异常检测，虽然它并不是可视化的单独研究领域，但许多的研究小组都已对其已研究多时，利用自动化分析结果协助人们进行判断。例如，在“ Visualization and Analysis of Rotating Stall for Transonic Jet Engine Simulation （基于跨音速喷气发动机的旋转失速模拟的可视化和分析）” 一文中，作者使用格鲁布斯检验（Grubbs’ test）来识别叶片通道中异常值，并将其作为涡轮发动机旋转失速的预征兆。同时，在“ TargetVue: visual analysis of anomalous user behaviors in online communication systems （TargetVue：基于在线通信系统的用户异常行为的可视分析）”一文中, TLOF （time-adaptive local outlier factor，时间自适应局部异常因子）模型用于识别用户行为的突然变化，模型特征主要从在线通信系统中提取。

VAST的挑战赛则是另一个亮点——该比赛始于2006年，每年举行一次，旨在反映现实世界的当下分析水平，并鼓励研究新颖的数据处理、可视化和交互方法。今年的挑战是分析一个娱乐公园一周内涉及犯罪行为的个人和团体活动。用于数据处理和ML最流行的语言是Python和R，目前 Azure机器学习平台对两者都支持。

总之，该会议是一个学习前沿的可视化方法的好地方，同时还可以和该领域的专家进行交流。

原文链接： IEEE Visualization Conference 2015 - Increasing Influence of Machine Learning （译者/刘帝伟审校/刘翔宇、朱正贵责编/周建丁机器学习技术采访、投稿，请联系zhoujd@csdn.net或微信号jianding_zhou）

译者简介: 刘帝伟，中南大学软件学院在读研究生，关注机器学习、数据挖掘及生物信息领域。

将于2015年12月10-12日在北京隆重举办。在主会之外，会议还设立了16大分论坛，包含数据库、深度学习、推荐系统、安全等6大技术论坛，金融、制造业、交通旅游、互联网、医疗健康、教育等7大应用论坛和3大热点议题论坛，

正文到此结束