430，剑指 Offer-动态规划求正则表达式匹配

vlambda
2020-08-14

430，剑指 Offer-动态规划求正则表达式匹配

Hope is a good thing, maybe the best of things, and no good thing ever dies.

希望是件好事，可能也是这世间最美好的事物，而美好的事情永不磨灭。

问题描述

请实现一个函数用来匹配包含'. '和'*'的正则表达式。模式中的字符'.'表示任意一个字符，而'*'表示它前面的字符可以出现任意次（含0次）。在本题中，匹配是指字符串的所有字符匹配整个模式。

例如，字符串"aaa"与模式"a.a"和"ab*ac*a"匹配，但与"aa.a"和"ab*a"均不匹配。

示例 1:

输入:

s = "aa"

p = "a"

输出: false

解释: "a" 无法匹配 "aa" 整个字符串。

示例 2:

输入:

s = "aa"

p = "a*"

输出: true

解释: 因为 '*' 代表可以匹配零个或多个前面的那一个元素, 在这里前面的元素就是 'a'。因此，字符串 "aa" 可被视为 'a' 重复了一次。

示例 3:

s = "ab"

p = ".*"

输出: true

解释: ".*" 表示可匹配零个或多个（'*'）任意字符（'.'）。

示例 4:

输入:

s = "aab"

p = "c*a*b"

输出: true

解释: 因为 '*' 表示零个或多个，这里 'c' 为 0 个, 'a' 被重复一次。因此可以匹配字符串 "aab"。

示例 5:

输入:

s = "mississippi"

p = "mis*is*p*."

输出: false

s 可能为空，且只包含从 a-z 的小写字母。
p 可能为空，且只包含从 a-z 的小写字母以及字符 . 和 *，无连续的 '*'。

动态规划求解

这题是剑指offer的第19题，难度是困难。我们也可以看下之前写的一道和这题非常类似的一道题，今天这题和第395题有一点不同的是，第395题的“*”可以匹配任意字符串，而这题的“*”表示他前面的字符可以出现任意次（包含0次）。

我们先定义一个二维数组dp，其中dp[i][j]表示的是p的前j个字符和s的前i个字符匹配的结果。

一，边界条件

我们默认dp[0][0]=true；也就是p的前0个字符和s的前0个字符是可以匹配的。因为字符“*”表示的是匹配他前面的字符0次或者多次，如果p的字符类似于“a*b*c”，那么字符“*”是可以消去前面的一个字符的。我们就以字符"a*b*c"为例来画个图看一下

所以边界条件的代码如下

 1public boolean isMatch(String s, String p) {
 2    if (s == null || p == null)
 3        return false;
 4    int m = s.length();
 5    int n = p.length();
 6    boolean[][] dp = new boolean[m + 1][n+1];
 7    dp[0][0] = true;
 8    for (int i = 0; i < n; i++) {
 9        //如果p的第i+1个字符也就是p.charAt(i)是"*"的话，
10        //那么他就可以把p的第i个字符给消掉（也就是匹配0次）。
11        //我们只需要判断p的第i-1个字符和s的前0个字符是否匹
12        //配即可。比如p是"a*b*"，如果要判断p的第4个字符
13        //"*"和s的前0个字符是否匹配，因为字符"*"可以消去
14        //前面的任意字符，只需要判断p的"a*"和s的前0个字
15        //符是否匹配即可
16        if (p.charAt(i) == '*' && dp[0][i - 1]) {
17            dp[0][i + 1] = true;
18        }
19    }
20    ……
21}

边界条件我们已经找到了，下面再来看一下递推公式。

二，递推公式

1，如果p的第j+1个字符和s的第i+1个字符相同，或者p的第j+1个字符是“.”（"."可以匹配任意字符），我们只需要判断p的前j个字符和s的前i个字符是否匹配，这个还好理解，我们画个图看一下

p的第3个字符"."是可以和s的第3个字符"f"匹配成功的，我们只需要判断p的前2个字符和s的前2个字符是否匹配成功即可。

代码如下

 if (p.charAt(j) == s.charAt(i) || p.charAt(j) == '.') { dp[i + 1][j + 1] = dp[i][j]; }

2，如果p的第j+1个字符和s的第i+1个字符不能匹配，并且p的第j+1个字符是"*"，那么就要分两种情况

（1）p的第j个字符和s的第i+1个字符不能匹配，

比如：s="abc"，p="abcd*"

我们就让p的第j个和第j+1个字符同时消失，也就是让"d*"消失，只需要判断p的前j-1个字符和s的前i+1个字符是否匹配即可。

也就是下面这样

代码如下

if (p.charAt(j) == '*') { if (p.charAt(j - 1) != s.charAt(i) && p.charAt(j - 1) != '.') { dp[i + 1][j + 1] = dp[i + 1][j - 1]; }}

（2）p的第j个字符和s的第i+1个字符匹配成功，有3种情况

类似于s="abc"，p="abcc*"; 我们就让*匹配0个，把p的"c*"砍掉，判断s="abc"和p="abc"是否匹配

dp[i+1][j+1] = dp[i+1][j-1]

类似于s="abc"，p="abc*"; 我们就让*匹配1个，把p的字符"*"砍掉，判断s="abc"和p="abc"是否匹配

dp[i+1][j+1] = dp[i+1][j]

类似于s="abcc"(或者s="abccc"，s="abcccc"……)，p="abc*"; 我们就让*匹配多个，把s的最后一个字符"c"砍掉，判断s="abc"(或者s="abcc"，s="abccc"……)和p="abc*"是否匹配

dp[i+1][j+1] = dp[i][j+1]

前面两个的递推公式很好理解，关键是第3个为什么要这样写。其实我们可以这样想，把"c*"看做是一个整体，比如"abccc"的最后一个字符"c"和p的倒数第二个字符匹配成功，因为"c*"可以匹配多个，我们就把"abccc"砍掉一个字符"c"，然后再判断"abcc"和"abc*"是否匹配。

上面三个递推公式只要有一个为true，就表示能够匹配成功

我们来看下完整的递推公式

1if (p.charAt(j) == s.charAt(i) || p.charAt(j) == '.') {
2    dp[i + 1][j+1] = dp[i][j];
3} else if (p.charAt(j) == '*') {
4    if (p.charAt(j - 1) != s.charAt(i) && p.charAt(j - 1) != '.') {
5        dp[i + 1] [j+1]= dp[i + 1][j-1];
6    } else {
7        dp[i + 1][j+1] = (dp[i + 1][j] || dp[i][j+1]|| dp[i + 1][j-1]);
8    }
9}

其实上面代码有个重复的地方就是当p的第j+1个字符是"*"的时候，里面的两种判断方式都会有一个匹配0个的判断，我们可以把它提取出来，像下面这样

 1if (p.charAt(j) == s.charAt(i) || p.charAt(j) == '.') {
 2    dp[i + 1][j+1] = dp[i][j];
 3} else if (p.charAt(j) == '*') {
 4    //递归公式
 5    if (p.charAt(j - 1) == s.charAt(i) || p.charAt(j - 1) == '.') {
 6        dp[i + 1][j+1] = dp[i + 1] [j]|| dp[i][j+1];
 7    }
 8    dp[i + 1] [j+1]|= dp[i + 1][j-1];
 9}
10

实际上匹配1个和匹配多个也可以合并，代码如下

1if (p.charAt(j) == s.charAt(i) || p.charAt(j) == '.') {
2    dp[i + 1][j + 1] = dp[i][j];
3} else if (p.charAt(j) == '*') {
4    //递归公式
5    if (p.charAt(j - 1) == s.charAt(i) || p.charAt(j - 1) == '.') {
6        dp[i + 1][j + 1] = dp[i][j + 1];
7    }
8    dp[i + 1][j + 1] |= dp[i + 1][j - 1];
9}

边界条件和递推公式都有了，我们再来看下完整代码

 1public boolean isMatch(String s, String p) {
 2    if (s == null || p == null)
 3        return false;
 4    int m = s.length();
 5    int n = p.length();
 6    boolean[][] dp = new boolean[m + 1][n + 1];
 7    dp[0][0] = true;
 8    for (int i = 0; i < n; i++) {
 9        //如果p的第i+1个字符也就是p.charAt(i)是"*"的话，
10        //那么他就可以把p的第i个字符给消掉（也就是匹配0次）。
11        //我们只需要判断p的第i-1个字符和s的前0个字符是否匹
12        //配即可。比如p是"a*b*"，如果要判断p的第4个字符
13        //"*"和s的前0个字符是否匹配，因为字符"*"可以消去
14        //前面的任意字符，只需要判断p的"a*"和s的前0个字
15        //符是否匹配即可
16        if (p.charAt(i) == '*' && dp[0][i - 1]) {
17            dp[0][i + 1] = true;
18        }
19    }
20    for (int i = 0; i < m; i++) {
21        for (int j = 0; j < n; j++) {
22            if (p.charAt(j) == s.charAt(i) || p.charAt(j) == '.') {
23                dp[i + 1][j + 1] = dp[i][j];
24            } else if (p.charAt(j) == '*') {
25                //递归公式
26                if (p.charAt(j - 1) == s.charAt(i) || p.charAt(j - 1) == '.') {
27                    dp[i + 1][j + 1] = dp[i][j + 1];
28                }
29                dp[i + 1][j + 1] |= dp[i + 1][j - 1];
30            }
31        }
32    }
33    return dp[m][n];
34}

如果觉得代码有点长，还可以看个更简洁的写法，不过原理都一样

 1public boolean isMatch(String s, String p) {
 2    int m = s.length(), n = p.length();
 3    boolean[][] dp = new boolean[m + 1][n + 1];
 4    dp[0][0] = true;
 5    for (int i = 0; i <= m; i++)
 6        for (int j = 1; j <= n; j++)
 7            if (p.charAt(j - 1) == '*')
 8                dp[i][j] = dp[i][j - 2] || (i > 0 && (s.charAt(i - 1) == p.charAt(j - 2) || p.charAt(j - 2) == '.') && dp[i - 1][j]);
 9            else
10                dp[i][j] = i > 0 && dp[i - 1][j - 1] && (s.charAt(i - 1) == p.charAt(j - 1) || p.charAt(j - 1) == '.');
11    return dp[m][n];
12}

递归求解

先来定义一个函数，他表示的是s的首字符和p的首字符是否匹配。

1//比较s的首字符和p的首字符是否匹配
2private boolean comp(String s, String p) {
3    return s.charAt(0) == p.charAt(0) || p.charAt(0) == '.';
4}

如果要判断字符串s和p是否匹配，我们来看一下递归函数的大致框架

 1public boolean isMatch(String s, String p) {
 2    if (p.length() == 0) {
 3        return s.length() == 0;
 4    }
 5    if (p.length() > 1 && p.charAt(1) == '*') {
 6        // p的第二个字符是 '*'
 7        ……
 8    } else {
 9        // p的第二个字符不是 '*'
10        ……
11    }
12}

因为字符"*"不能单独存在，他需要和他前面的字符搭配使用，成为一个组合。

1，当p的第二个字符不是"*"的时候，那么p的第一个字符就可以单独和s的第一个字符进行比较。

2，如果p的第二个字符是"*"，那么p的第二个字符和第一个字符必须成为一个组合来进行匹配，也就类收于"a*"。下面会分为两种情况

字符"*"匹配0次，让字符"*"和他前面的那个字符同时消失，然后判断字符串s和p.substring(2)是否匹配。
字符"*"匹配1次或多次，让字符串s砍掉首字符，然后继续和字符串p匹配。

搞懂了上面的过程，代码就比较简单了，来看下完整代码

 1public boolean isMatch(String s, String p) {
 2    if (p.length() == 0) {
 3        return s.length() == 0;
 4    }
 5    if (p.length() > 1 && p.charAt(1) == '*') {
 6        // p的第二个字符是 '*'
 7        //1,字符"*"把前面的字符消掉，也就是匹配0次
 8        //2,字符"*"匹配1次或多次
 9        return isMatch(s, p.substring(2)) || (s.length() > 0 && comp(s, p)) && isMatch(s.substring(1), p);
10    } else {
11        // p的第二个字符不是 '*'，判断首字符是否相同，如果相同再从第二位继续比较
12        return s.length() > 0 && comp(s, p) && (isMatch(s.substring(1), p.substring(1)));
13    }
14}
15
16//比较s的首字符和p的首字符是否匹配
17private boolean comp(String s, String p) {
18    return s.charAt(0) == p.charAt(0) || p.charAt(0) == '.';
19}