加密的WORD文档遭遇“秒破”,密码形同虚设,这在多年前是一件神奇而不可思议的事情,其真相和原理如何?如今高版本的WORD文件是否同样的不堪一击?这里对MS WORD加密及破解原理进行详细分析,以科学严谨的态度,全面深入探究WORD加密原理以及“秒破”真相!
1、调研对象
(1)针对Microsoft Office Word简体中文版;
(2)针对Word文档的打开密码;
(3)除个别语言版本外,调研结论理论上均适用;
2、术语说明
(1)密码:用户为Word文档设置的打开密码;
(2)密钥:加密算法所使用的Key,本文档所指的RC4 密钥由用户输入的密码经过特定的变换得到;
(3)字典破解:逐一使用指定字典中的密码进行破解;
(4)暴力破解:穷举所有可能的密码进行破解,在本文档中字典破解亦视为暴力破解;
(5)查表破解:枚举指定长度下所有可能的密钥,对特定的明文进行加密,保存所有的密文-密钥对构成一个表,直接在该表中查找密文即可得到可能的密钥;
3、Word密码破解方式对比
1 、没有直接或间接证据,证明 Word 存在 “ 保存用户密码 ” 等明显后门;
2 、使用 Office Password Recovery Toolbox ( 推测 基于查表技术)等工具,可以快速得到 Word 2003 / 2007 / 2010 生成的受保护的 doc 文件的加密密钥,通过解密恢复出对应的明文文件;
3 、使用基于暴力猜解的破解工具,如破解成功,可以得到用户设置的原始密码;
4 、快速破解工具原理猜测:利用 doc 文档加密强度低( RC4 加密算法、 40 位长度的密钥)的脆弱点,通过在密文 - 密钥对表中查找密文得到加密密钥,不涉及用户设置的原始密码;
5 、从存储和算力两个方面证明了查表破解的可行性;
1、可快速移除打开密码的情况
2、Word 2007 / 2010快速破解场景说明
(1)将已经设置打开密码保护的docx文档另存为97-2003格式的doc文档,会提示“是否要通过转换为Office Open XML格式来提高安全性?”;
(2)将新建的Word文档保存为97-2003格式的doc文档,对doc文档设置密码保护,也会给出同样的提示;
(3)如果选择“是”,则会弹出另存为对话框,默认格式为docx;
(4)如果选择“否”,则直接保存,对应的doc文档可以被Office Password RecoveryToolbox / Word Password Recovery Master等工具所快速破解;
3、现有破解工具及其适用范围
Passware Password Recovery Kit上传的数据经过加密处理,根据WORD文档大小的不同上传不同大小的数据,实验测试发现: 20KB 的文档上传了 15KB 的加密数据, 100KB 的文档上传了 30KB 的加密数据。
1、Word加密原理简介
密钥生成:随机生成16字节的Salt数据,连同用户输入的密码字符串,经过特定的变换后,得到40位长度(5字节)的RC4密钥;
2、Word加密相关字段
(1) Salt : 随机生成的16字节数据,结合用户输入的密码经过特定变换后生成RC4密钥;
(2) FreshNumber : 随机生成的16字节数据;
(3) FreshNumberMD5 : FreshNumber经过变换后,对其计算得到的MD5哈希值(16字节数据);
当文档被加密时,各字段的存储方式
(1)Salt字段明文存储;
(2)FreshNumber字段经过RC4 单独加密 后存储;
(3)FreshNumberMD5字段经过RC4 单独加密 后存储;
说明: 对RC4加密算法而言,同样的明文位于不同的位置,加密后的密文是不一样的。
3、打开受保护的Word文档时,如何验证密码是否正确?
(1)将用户输入的密码和Salt经过变换后计算得到RC4密钥;
(2)解密得到FreshNumber明文,计算出FreshNumber的MD5哈希值;
(3)解密得到FreshNumberMD5明文,如果与计算出来的MD5相同,则认为密码正确,否则认为密码错误;
4、密码验证过程
5、针对Office Password Recovery Toolbox工具进行了原理分析,推测其使用“查表”技术联网破解;
工具特点为:
(1)脱机无法使用,需要联网;
(2)客户端向服务器发送用于破解的数据;
(3)服务器返回解密所需的密钥,客户端执行解密操作;
(4)破解速度极快,但无法得到用户设置的原始密码;
6、Office Password Recovery Toolbox原理推测
(1)枚举所有的40位长度(个数为240)的RC4密钥,对DOC文档特定数据块进行加密,并提取其中特定位置的5字节密文(该5字节数据明文均为0×00);
(2)服务器端存储的表项保存了所有的密文-密钥对;
(3)客户端从受保护的DOC文件读取特定位置的5字节密文,向服务器查询后得到对应的RC4密钥;
(4)客户端接收服务器返回的RC4密钥对DOC文件进行解密;
上传数据分析 :协议版本、程序名称等无关数据;
Engine_data数据分析:
用于验证密钥是否正确 : Salt明文占用16字节;FreshNumber密文占用16字节;FreshNumberMD5密文占用16字节;
用于在表中查找密钥:特定位置的密文占用5字节
作用暂不明确:GUID以及sevdo_num_old字段占用68字节;
返回数据分析: result=2,表示处理的结果类型;key为解密需要的密钥(5字节);
7、密钥冲突处理
(1)给定密文,查表得到的RC4密钥可能不止一个;
(2)实际测试时在224空间内找到123对碰撞(两个不同的Key对同一段明文进行加密,特定位置上的密文是一样的);
(3)使用Salt / FreshNumber /FreshNumberMD5验证密钥的正确性;
8、特定位置的5字节密文数据选取
(1)5个字节位于WordDocument数据块中,为其中的FibRgFcLcb97结构体成员;
(2)这5个结构体成员类型均为unsigned int,表示相对于Table数据块的偏移值;
(3)3字节最大可表示0x00FFFFFF,Table数据块不存储Word正文,3字节足够表示大小,所以对4字节而言最高字节为0×00;
1、成本估算
(1) 时间估算 :采用Intel Core i7-3770 3.4GHz处理器(四核八线程)全负荷计算,需要100小时;
(2) 空间估算 :密码一共有240=1T个,存储5字节(40位)RC4密钥、5字节密文数据,需要10TB存储空间;
(3) 实验结论 :完全可行
2、DOC格式正被逐渐取代
(1)查表破解仅对Word 2003/2007/2010保存的doc文件有效;
(2)Word 2007开始默认新建文档格式为docx;
(3)无法破解最新版本的Word 2013保存的doc文件;
3、价值估算
(1)当前这些收费软件仍然存在,说明有一定的市场;
(2) 未来使用doc加密文件破解服务的用户数量肯定会越来越少 。
DOC文档的加解密原理,多年前已有详细技术分析,本文在前辈们研究的基础上,进行了归纳总结和进一步的分析验证。本文最初的目的是内部学习交流,现在分享出来,供有兴趣的同学研究。
在此,ArkTeam向以下参考文章的作者们表示感谢和敬意!
参考资料:
【1】 复合文档文件格式研究,
http://club.excelhome.net/thread-227502-1-1.html
【2】 doc文件word格式,
http://blog.chinaunix.net/uid-21323988-id-1827840.html
【3】 Office文件的奥秘——.NET平台下不借助Office实现Word、Powerpoint等文件的解析,
http://www.cnblogs.com/mayswind/archive/2013/03/17/2962205.html
【4】 微软OFFice复合文档,
http://blog.csdn.net/zhulinfeiba/article/details/5870408
【5】 规划 Office 2013 的加密技术和加密设置(MS官方文档),
http://technet.microsoft.com/zh-cn/library/cc179125.aspx
【6】 OpenOffice.org’sDocumentation of the Microsoft Compound Document File Format,
http://www.openoffice.org/sc/compdocfileformat.pdf
【7】 RC4流密码与微软Office文档安全分析,
http://www.ecice06.com/CN/article/downloadArticleFile.do?attachType=PDF&id=11111
【8】 MSWord加密算法弱点利用
http://wenku.baidu.com/link?url=zFmMuLwkTq9yqpei47QDm4_n67bKM1JGBMH6Qa9ZWuJkywpPi_Hjk7Uxt_JVfuqmPhbfDA0HncaU7rq5ZDe8mS10jjy5w03rqtX8i4uLvL7
* 作者:ArkTeam,本文属FreeBuf原创奖励计划文章,未经许可禁止转载