Pinterest 是一家提供可视化书签工具的公司,这种工具可以帮助人们发现并保存有创意的想法,目前这家公司正使用实时数据分析来达到以数据驱动决策的目的。 实验 中使用了 MemSQL 和 Spark 这样的技术,用以分析来自全球的用户实时行为信息。
通过MemSQL和Spark,Pinterest创建了一条数据管道。这条管道通过 Apache Kafka 使数据流入MemSQL,并且通过 Spark Streaming API向Spark输入数据(译者注:数据流向是Kafka -> Spark -> MemSQL ,见图1)。这个方案对了解全球用户如何使用Pins(译者注:即可视化书签)提供了实时性的洞察。这有助于Pinterest成为一个更好的推荐引擎,它可以显示相关的Pins,人们会在不同的场景下来使用这种服务,比如为购物、去某个地方和烹饪食谱做个计划。
Pin的行为数据(engagement data)先被送入到Kafka主题(Topic)中,接着它被Spark streaming作业消耗掉。作业中每个Pin会进行过滤,然后加上其地理位置和Pin的类别来充实其信息。接着再通过 MemSQL Spark 连接器 (MemSQL Spark Connector)将充实后的信息持久化到MemSQL数据库中以提供查询服务。MemSQL Spark 连接器提供了Spark读写MemSQL数据库的工具,它使用MemSQL RDD(Resilient Distributed Dataset)从MemSQL读取数据。
综上所述,这个方案框架可以支持实时地收集、存储和处理用户行为数据。同时,它也可以帮助获得下面这些能力:
查看英文原文: Real-time Data Analytics at Pinterest using MemSQL and Spark Streaming