少年,见你骨骼精奇,是百年一遇的练武奇才,你我又是有缘人,随为师修炼吧
接上篇:
藏扇仙:"徒儿,悟得如何?" 捷特:"已忘去一半。" 半小时后... 藏扇仙:"现在呢?" 捷特:"已全部忘完。" 藏扇仙:"很好,现在为师教你:正则十八式-第二式:控鹤擒龙" 复制代码
藏扇仙:现在要求,匹配到下面的书名。 捷特:《.*》不就行了? 藏扇仙:你但可一试。 捷特: 怎么会这样?看来会默认尽可能多的匹配。 藏扇仙:这就是贪婪模式。 复制代码
捷特:师傅,何解? 藏扇仙:问号紧加限定尾,即非贪婪 复制代码
捷特:师傅,这波稳,通过两个限定符进行夹逼 藏扇仙:所以这招名为-控鹤擒龙 复制代码
藏扇仙:这是为师的看家法宝之一,Java加工机。 捷特:早就听闻师傅用Java代码控制正则如行云流水,可谓天下无敌。 藏扇仙:不止Java,凡是一门语言都和正则撇不开关系,否则就太挫了。现在教你提取信息。 复制代码
regex ├── src │ ├── main │ │ ├── java │ │ │ └── com │ │ │ └── toly1994 │ │ │ └── regex │ │ │ └── Parser.java │ │ └── resources │ │ └── regx │ │ ├── book.txt │ │ └── regx.txt 复制代码
为了使用方便,读取文件来解析,由于我们使用的是字符串,直接用 FileReader
来读即可
/** * 作者:张风捷特烈 时间:2019-10-24 邮箱:1981462002@qq.com * 说明:字符解析测试类 */ public class Parser { public static void main(String[] args) { String dir = System.getProperty("user.dir"); File file = new File(dir,"regex/src/main/resources/regx/book.txt"); System.out.println(readFile(file)); } //读取字符文件 private static String readFile(File file) { StringBuilder sb= new StringBuilder(); try(FileReader fr= new FileReader(file) ){ char[] buff = new char[1024]; int len = 0; while ((len = fr.read(buff)) != -1) { sb.append(new String(buff, 0, len)); } } catch ( IOException |RuntimeException e) { e.printStackTrace(); } return sb.toString(); } } 复制代码
上面的黄色匹配部位都可以通过代码获取。Java通过 Pattern
和 Matcher
两类完成
下面这样就可以很轻松地获取文件中所有的书名,无论几十万行,几百万行,通行无阻
private static void regexBook(String target) { String regex="《.*?》"; Pattern pattern = Pattern.compile(regex); Matcher matcher = pattern.matcher(target); while (matcher.find()){ System.out.println(matcher.group()); } } 复制代码
藏扇仙:现在定义一个语法模板 ${}
,要求提取所有符合要求的信息
捷特:这还不简单,看我-控鹤擒龙
private static void regexWidget(String target) { String regex="//$//{.*?}"; Pattern pattern = Pattern.compile(regex); Matcher matcher = pattern.matcher(target); while (matcher.find()){ System.out.println(matcher.group()); } } 复制代码
藏扇仙:听说你掘金有不少关注者,分析一下页面,获取他们的名字
捷特:这有点意思,最重要的还是分析结构进行夹逼。(这懒加载滑得好累,滑出4000多个,够用了)
private static void regexHtml(String target) { String regex="username/">.*?<"; Pattern pattern = Pattern.compile(regex); Matcher matcher = pattern.matcher(target); while (matcher.find()){ System.out.println(matcher.group()); } } 复制代码
藏扇仙:这招控鹤擒龙,你可要多加练习,在提取信息时是非常有用的。 捷特:我也感到了,非常好用,特别是像网页这样规则固定的字符串。下一招呢? 藏扇仙:你先练着,为师歇会。下一招,正则十八式-第三式:龙飞凤舞。 复制代码
1----本文由张风捷特烈原创,转载请注明
2----如果有什么想要交流的,欢迎留言。也可以加微信:zdl1994328
3----个人能力有限,如有不正之处欢迎大家批评指证,必定虚心改正
4----看到这里,我在此感谢你的喜欢与支持,扫码关注-编程之王