转载

发表于 2016年02月15日
浏览 (675)
评论 (0)

Regex的一些琐碎

最近有一些从日志里分离HTTP请求的想法，最好是能把URL彻底分解开来，这个需求自然而然是用grep了。为了方便调试，表达式是在javascript环境写的。文档看了几遍才知道，js的正则表达居然是阉割版的，几个功能没有了：

look behind / negative look behind : 中文学名太长了就不写了，在url中，这个可以匹配到 # 后的 hash 但不包括 # 本身，也可以匹配 ? 后的 query 不包括 ? 本身。
if-then / if-then-else : 条件表达式，这个我想对提升效率是有帮助的，假如匹配到 # 再去匹配其后的 hash ，或者匹配到 ? 时再提取后面的 query 。
comment : js中提取出来的分组一般是一个数组，用0/1/2/3去访问提取结果，然而如果有注释功能的话，就可以给分组命名为 host / port / path 等等，提升代码可读性。

经过一晚上的奋斗，写出来了一个居然长达216个字符的正则表达式。匹配效果可以在 Regexpal 看到，把表达式复制到 Regexper 就可以看到匹配流程图。

这么长的表达式有存在的必要么，众所周知在Express中 req 对象什么都有，浏览器的话只要 var a = createElement(a); a.href = url; 也可以访问到url的所有属性。只有真的极端到需要在 shell 里面时才可能会有用。

这么长的表达式我很好奇性能如何，于是花了一些时间写了两个脚本，一是 URL生成器，用于随机生产五百万条URL并写入 records.txt ，生成的文件大约200M；二是 URL解释器，从文件中逐行读取记录并解析。测试结果如下： Regex的一些琐碎测试进行了很多遍，结果都差不多，SSD应该可以把磁盘IO的干扰减到最小，V8引擎解析一条记录差不多是在百万分之一秒的级别，这样就没有什么优化的动力了啊。不过这只是粗略估算，大概也和我的 Intel Core i5 2.5GHz 有关系。

总之吧耗了我不少时间，最后放在grep里面还是抓不出东西来，摔。

code in github

原文 https://napw.xyz/regexde-xie-suo-sui/

正文到此结束

所属分类：编程技术

本文标签： shell 调试 core 测试 UI src java grep 解析正则表达式注释 js 时间 https 需求 git 代码 ip GitHub http
版权声明： 本文为互联网转载文章，出处已在文章中说明(部分除外)。如果侵权，请联系本站长删除，谢谢。
本文海报： 生成海报一生成海报二

热门推荐

openfire数据库安装指南

浏览(14,971) 评论(0)
Caffe 深度学习框架上手教程

浏览(11,245) 评论(0)
ReactiveCocoa入门教程：第一部分

浏览(12,048) 评论(0)
开源HIDS-OSSEC使用实例:监测CC攻击

浏览(11,949) 评论(0)
Decorators in ES7

浏览(16,566) 评论(4)
用Electron（Atom编辑器的兄弟项目）开发桌面应用

浏览(29,538) 评论(0)
Windows下JetBrains CLion中文输出乱码的解决方法

浏览(12,984) 评论(1)
同步-@synchronized, NSLock, pthread, OSSpinLock性能比较

浏览(11,898) 评论(0)
【开班了】JAVA培训班正式招生

浏览(8,045) 评论(12)
Seaweedfs之Volume读请求重定向

浏览(26,198) 评论(3)

相关文章

阿里云首购8折

Loading...

其他链接

关于本站

本站定位：个人技术类博客

本站作用：写博客、记日志、闲聊扯淡鼓捣技术。

问题交流

[HBLOG]公众号

HBLOG

HBLOG