Who Are You? A Statistical Approach to Measuring User Authenticity
目前,少有的讲述工业界用户身份真实性识别的文章,主要是这方面工作的特殊性,毕竟攻防战。欺诈,反欺诈,作弊,反作弊。
密码是互联网服务中身份真实性判断的重要手段之一。虽然密码这种方式很弱,但是很多替换密码的方式经过尝试都是失败的,部分原因是改变用户的行为非常困难。本文提出增强基于密码验证身份真实性的方法之一就是不用改变用户体验,根据用户的登录事件的 ip ,地理位置,浏览器配置,时间等特征将用户行为分为正常行为和可疑行为。对于可疑尝试,系统提醒用户需要提供额外的身份验证信息,譬如手机验证等等。
这篇做文章主要有以下工作:
( 1 )开发基于统计方法的可疑登录行为识别框架;
( 2 )提出可以在大数据环境下实现该功能的模型原型;
( 3 )结合实际数据对模型算法进行有效性校验。
当前验证身份的技术主要有密码方式,生物识别(泄露隐私信息),二维码技术,密码 + 验证码等。基于用户的 ip ,地理位置等等信息,结合机器学习算法,对用户登录行为进行分类,识别好的用户,可疑对象和坏的用户。
U 表示用户, X 表示特征向量, Y 表示标签( L 表示登录, A 表示攻击)。
F 表示需要进一步进行身份验证
计算插值系数算法
特征工程相关
IP address
Browser’s useragent
地理位置
账户使用习惯
操作系统等
系统实现框架
参考: Who Are You? A Statistical Approach to Measuring User Authenticity
PS:smoothing技术可以借鉴到实际相关工作中,对于每个特征维度的分析和处理值得研究和学习。
反欺诈,反作弊这样的应用,对重点特征的细节分析,非常重要。