【剑指 Offer】 19. 正则表达式匹配

梦想是能睡八小时的猪 / 2023-04-28 / 原文

【题目】

请实现一个函数用来匹配包含'. '和'*'的正则表达式。模式中的字符'.'表示任意一个字符,而'*'表示它前面的字符可以出现任意次(含0次)。在本题中,匹配是指字符串的所有字符匹配整个模式。例如,字符串"aaa"与模式"a.a"和"ab*ac*a"匹配,但与"aa.a"和"ab*a"均不匹配。

示例 1:

输入:
s = "aa"
p = "a"
输出: false
解释: "a" 无法匹配 "aa" 整个字符串。

示例 2:

输入:
s = "aa"
p = "a*"
输出: true
解释: 因为 '*' 代表可以匹配零个或多个前面的那一个元素, 在这里前面的元素就是 'a'。因此,字符串 "aa" 可被视为 'a' 重复了一次。

示例 3:

输入:
s = "ab"
p = ".*"
输出: true
解释: ".*" 表示可匹配零个或多个('*')任意字符('.')。

示例 4:

输入:
s = "aab"
p = "c*a*b"
输出: true
解释: 因为 '*' 表示零个或多个,这里 'c' 为 0 个, 'a' 被重复一次。因此可以匹配字符串 "aab"。

示例 5:

输入:
s = "mississippi"
p = "mis*is*p*."
输出: false

    s 可能为空,且只包含从 a-z 的小写字母。
    p 可能为空,且只包含从 a-z 的小写字母以及字符 . 和 *,无连续的 '*'。

来源:力扣(LeetCode)
链接:https://leetcode.cn/problems/zheng-ze-biao-da-shi-pi-pei-lcof

【思路】

动态规划,建立二维数组,分别表示匹配串和被匹配串的匹配情况。 dp[0][0] 代表的是空字符的状态, 因此 dp[i][j] 对应的添加字符是 s[i - 1]p[j - 1]

状态定义: 设动态规划矩阵 dp , dp[i][j] 代表字符串 s 的前 i 个字符和 p 的前 j 个字符能否匹配。

转移方程: 需要注意,由于 dp[0][0] 代表的是空字符的状态, 因此 dp[i][j] 对应的添加字符是 s[i - 1] 和 p[j - 1] 。

    当 p[j - 1] = '*' 时, dp[i][j] 在当以下任一情况为 truetrue 时等于 truetrue :
        dp[i][j - 2]: 即将字符组合 p[j - 2] * 看作出现 0 次时,能否匹配;
        dp[i - 1][j] 且 s[i - 1] = p[j - 2]: 即让字符 p[j - 2] 多出现 1 次时,能否匹配;
        dp[i - 1][j] 且 p[j - 2] = '.': 即让字符 '.' 多出现 1 次时,能否匹配;

    当 p[j - 1] != '*' 时, dp[i][j] 在当以下任一情况为 truetrue 时等于 truetrue :
        dp[i - 1][j - 1] 且 s[i - 1] = p[j - 1]: 即让字符 p[j - 1] 多出现一次时,能否匹配;
        dp[i - 1][j - 1] 且 p[j - 1] = '.': 即将字符 . 看作字符 s[i - 1] 时,能否匹配;

初始化: 需要先初始化 dp 矩阵首行,以避免状态转移时索引越界。

    dp[0][0] = true: 代表两个空字符串能够匹配。
    dp[0][j] = dp[0][j - 2] 且 p[j - 1] = '*': 首行 s 为空字符串,因此当 p 的偶数位为 * 时才能够匹配(即让 p 的奇数位出现 0 次,保持 p 是空字符串)。因此,循环遍历字符串 p ,步长为 2(即只看偶数位)。

返回值: dp 矩阵右下角字符,代表字符串 s 和 p 能否匹配。

作者:jyd
链接:https://leetcode.cn/problems/zheng-ze-biao-da-shi-pi-pei-lcof/solution/jian-zhi-offer-19-zheng-ze-biao-da-shi-pi-pei-dong/

【代码】

class Solution {
    public boolean isMatch(String s, String p) {
        int m = s.length()+1,n =p.length()+1;
        boolean[][] dp = new boolean[m][n];
        dp[0][0] = true;
        //dp[i][j] 表示匹配串i-1个字符和被匹配串j-1个字符是否匹配
        for(int j=2;j<n;j+=2){
            //初始化 只有偶数的*才有意义 a*b*d 所以每两位更新一次true
            dp[0][j] = dp[0][j-2]&&p.charAt(j-1)=='*';
        }
        for(int i=1;i<m;i++){
            for(int j=1;j<n;j++){
                if(p.charAt(j-1)=='*'){
                    //1. 和之前一样第一次重复 为true
                    if(dp[i][j-2]) dp[i][j]=true;
                    //2. 匹配串的上个和被匹配串的上上个相同,出现二次重复
                    else if(dp[i-1][j]&&s.charAt(i-1)==p.charAt(j-2)) dp[i][j] =true;
                    //3. 被匹配串上个是. 可以代替任意字符
                    else if(dp[i-1][j]&&p.charAt(j-2)=='.')dp[i][j] = true;
                }else{
                    //1. 两个新加的字符相同
                    if(dp[i-1][j-1]&&s.charAt(i-1)==p.charAt(j-1)) dp[i][j] = true;
                    //2.新的被匹配串的字符是.
                    else if(dp[i-1][j-1]&&p.charAt(j-1)=='.') dp[i][j]=true;
                }
            }
        }
        return dp[m-1][n-1];
    }
}