c#利用正则表达式实现字符串搜索_c#应用

2008-02-23 05:43:54来源:互联网 阅读 ()

新老客户大回馈,云服务器低至5折

摘要:本文给出了在C#下利用正则表达式实现字符串搜索功能的方法,通过对.NET框架下的正则表达式的研究及实例分析,总结了正则表达式的元字符、规则、选项等。

  关键字:正则表达式、元字符、字符串、匹配

  1、正则表达式简介

  正则表达式提供了功能强大、灵活而又高效的方法来处理文本。正则表达式的全面模式匹配表示法能够快速地分析大量的文本以找到特定的字符模式;提取、编辑、替换或删除文本子字符串;或将提取的字符串添加到集合以生成报告。对于处理字符串(例如 HTML处理、日志文档分析和 HTTP 标头分析)的许多应用程式而言,正则表达式是不可缺少的工具。

  .NET 框架正则表达式并入了其他正则表达式实现的最常见功能,被设计为和 Perl 5 正则表达式兼容,.NET 框架正则表达式还包括一些在其他实现中尚未提供的功能,.NET 框架正则表达式类是基类库的一部分,并且能够和面向公共语言运行库的任何语言或工具一起使用。

  2、字符串搜索

  正则表达式语言由两种基本字符类型组成:原义(正常)文本字符和元字符。正是元字符组为正则表达式提供了处理能力。当前,任何的文本编辑器都有一些搜索功能,通常能够打开一个对话框,在其中的一个文本框中键入要定位的字符串,假如还要同时进行替换操作,能够键入一个替换字符串,比如在Windows操作系统中的记事本、Office系列中的文档编辑器都有这种功能。这种搜索最简单的方式,这类问题很容易用String类的String.Replace()方法来解决,但假如需要在文档中识别某个重复的,该怎么办?编写一个例程,从一个String类中选择重复的字是比较复杂的,此时使用语言就很适合。

  一般表达式语言是一种能够编写搜索表达式的语言。在该语言中,能够把文档中要搜索的文本、转义序列和特定含义的其他字符组合在一起,例如序列\b表示一个字的开头和结尾(子的边界),假如要表示正在查找的以字符th开头的字,就能够编写一般表达式\bth(即序列字符界是-t-h)。假如要搜索任何以th结尾的字,就能够编写th\b(序列t-h-字边界)。但是,一般表达式要比这复杂得多,例如,能够在搜索操作中找到存储部分文本的工具性程式(facility)。
3、.NET 框架的正则表达式类

  下面通过介绍 .NET 框架的正则表达式类,熟悉一下.NET框架下的正则表达式的使用方法。

  3.1 Regex 类表示只读正则表达式

  Regex 类包含各种静态方法,允许在不显式实例化其他类的对象的情况下使用其他正则表达式类。以下代码示例创建了 Regex 类的实例并在初始化对象时定义一个简单的正则表达式。请注意,使用了附加的反斜杠作为转义字符,他将 \s 匹配字符类中的反斜杠指定为原义字符。

  

  Regex r; // 声明一个 Regex类的变量

  r = new Regex("\\s2000"); // 定义表达式

  3.2 Match 类表示正则表达式匹配操作的结果

  以下示例使用 Regex 类的 Match 方法返回 Match 类型的对象,以便找到输入字符串中第一个匹配。此示例使用 Match 类的 Match.Success 属性来指示是否已找到匹配。

  

  Regex r = new Regex("abc"); // 定义一个Regex对象实例

  Match m = r.Match("123abc456"); // 在字符串中匹配

  if (m.Success)

  {

   Console.WriteLine("Found match at position " m.Index); //输入匹配字符的位置

  }

  3.3 MatchCollection 类表示非重叠匹配的序列

  该集合为只读的,并且没有公共构造函数。MatchCollection 的实例是由 Regex.Matches 属性返回的。使用 Regex 类的 Matches 方法,通过在输入字符串中找到的任何匹配填充 MatchCollection。下面代码示例演示了如何将集合复制到一个字符串数组(保留每一匹配)和一个整数数组(指示每一匹配的位置)中。

  

  MatchCollection mc;

  String[] results = new String[20];

  int[] matchposition = new int[20];

  Regex r = new Regex("abc"); //定义一个Regex对象实例

  mc = r.Matches("123abc4abcd");

  for (int i = 0; i < mc.Count; i ) //在输入字符串中找到任何匹配

  {

   results[i] = mc[i].Value; //将匹配的字符串添在字符串数组中

   matchposition[i] = mc[i].Index; //记录匹配字符的位置

  }

  3.4 GroupCollection 类表示捕获的组的集合

  该集合为只读的,并且没有公共构造函数。GroupCollection 的实例在 Match.Groups 属性返回的集合中返回。下面的控制台应用程式查找并输出由正则表达式捕获的组的数目。

  

  using System;

  using System.Text.RegularExpressions;

  public class RegexTest

  {

   public static void RunTest()

   {

    Regex r = new Regex("(a(b))c"); //定义组

    Match m = r.Match("abdabc");

    Console.WriteLine("Number of groups found = " m.Groups.Count);

   }

   public static void Main()

   {

    RunTest();

   }

  }

  该示例产生下面的输出:

  

  Number of groups found = 3

  3.5 CaptureCollection 类表示捕获的子字符串的序列

  由于限定符,捕获组能够在单个匹配中捕获多个字符串。Captures属性(CaptureCollection 类的对象)是作为 Match 和 group 类的成员提供的,以便于对捕获的子字符串的集合的访问。例如,假如使用正则表达式 ((a(b))c) (其中 限定符指定一个或多个匹配)从字符串"abcabcabc"中捕获匹配,则子字符串的每一匹配的 Group 的 CaptureCollection 将包含三个成员。

  下面的程式使用正则表达式 (Abc) 来查找字符串"XYZAbcAbcAbcXYZAbcAb"中的一个或多个匹配,阐释了使用 Captures 属性来返回多组捕获的子字符串。

标签:

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有

上一篇: c#中如何读写ini文档_c#应用

下一篇: 在c#中使用热键隐含窗口_c#应用