SQL Server 2005 数据转换服务中的模糊查找和模…
2008-04-02 10:49:06来源:互联网 阅读 ()
Surajit Chaudhuri, Kris Ganjam, Venky Ganti, Vivek Narasayya, and Theodore Vassilakiswww.yestar2000chinai tp ow er.comiUFMof7
注 本文所指的是 SQL Server?2005 Beta 2 版,在最终版本之前内容可能会更改。www.yestar2000chinai tp ow er.comiUFMof7
简介
由于拼写错误、截断、缺少或插入的标记、空字段、意外的缩略语和其他不规则问题,实际的数据是“有问题”的。 因此,在数据仓库项目中,很大一部分的时间和金钱都花费在了提取、转换和加载 (ETL) 阶段。 在 ETL 阶段,新数据被清理、标准化,并使其和现有数据一致。 在 Microsoft SQL Server?2005 中可用的模糊查找和模糊分组转换,有助于使 ETL 过程在碰到若干种在实际数据中观测到的常见错误时更易复原。 他们解决一般的匹配和分组问题,而无需特定于域的规则和脚本的专家集合。 通过为您的域自定义模糊查找和模糊分组,您能够利用数据转换服务 (Data Transformation Services,DTS) 设计器内的通用数据清理算法,并避免创建复杂的自定义规则和代码。www.yestar2000chinai tp ow er.comiUFMof7
模糊查找使得您能够将输入记录和引用表中的无错的、标准化的记录匹配。 匹配过程对于在输入记录中存在的错误有复原功能。模糊查找返回最相近的匹配并指出匹配的质量。 例如,由于输入数据中的录入错误或其他错误,在一次新的销售交易中输入的客户信息(名称和地址)可能和包含任何当前客户的客户引用表中的任何记录都不完全匹配。即使不存在完全匹配,模糊查找也会从客户引用表返回最好匹配记录,并提供度量值以表明匹配质量。www.yestar2000chinai tp ow er.comiUFMof7
模糊分组使您能够标识一个表中的记录的组 — 在这个表中每个组都可能对应相同的实际实体。 分组对在实际数据中观测到的常见错误有复原功能,因为每组中的记录可能彼此不相同但彼此很相似。 例如,对于将一个客户引用表中描述每个实际客户的任何记录归类到一起,模糊分组是很有用的。 www.yestar2000chinai tp ow er.comiUFMof7
模糊查找和模糊分组为复杂的、常碰到的数据清理问题提供易用的解决方案。 尽管他们和现有的诸如 soundex、基于规则的系统、基于编辑距离的系统及全文搜索等现有方法有一些联系,但是模糊查找和模糊分组有一些优势: www.yestar2000chinai tp ow er.comiUFMof7
• |
模糊查找和模糊分组使用一个自定义的、考虑编辑距离(例如,“hits”和“bit”的距离为 2)、标记数、标记顺序连同相对频率的单独于域的距离函数。 结果,和全文搜索相比,模糊查找和模糊分组获得的辨别力要精细得多,因为他们捕获了更周详的数据结构。 www.yestar2000chinai tp ow er.comiUFMof7 |
• |
由于他们完全是标记驱动的,模糊查找和模糊分组不像 soundex 那样有依赖于语言的组件。 www.yestar2000chinai tp ow er.comiUFMof7 |
• |
因为他们不只使用编辑距离,模糊查找和模糊分组不容易被变换误导,而且和只使用编辑距离的方法相比,能够检测出更高级的模式。 www.yestar2000chinai tp ow er.comiUFMof7 |
• |
模糊查找和模糊分组紧密集成在 DTS 中,这使他们对 SQL Server 2005 的 ETL 任务来说易于使用,而且无需或只需很少的自定义编程。 www.yestar2000chinai tp ow er.comiUFMof7 |
下面的部分提供了使用并了解模糊查找和模糊分组的分步指南,并且包括了这些转换的一些实现和性能方面的内容,这对用户来说很有用。 本文意在通过更周详地解释模糊查找和模糊分组的某些方面来补充在线书籍。 有关更多关于选项和配置参数方面的信息,请参阅在线书籍项。 这些项包括的信息有:列宽、层次结构、标记处理选项连同其他有用的参数,这些参数提供一些方法,以加入可用来提高某些方案的准确性的域知识。www.yestar2000chinai tp ow er.comiUFMof7
模糊查找入门
模糊查找能够通过使用损坏的或不完整的字符串关键字查找大型表中的数据。 例如,假如您想要按名称和地址查找客户信息,您能够使用模糊查找来查找这些信息,即使您的输入和您的引用表中所存储的记录并不完全匹配。 用于模糊查找的最简单的包是由包含一个源、一个模糊查找转换和一个目标的单个 DTS 数据流任务组成(图 1)。
标签:
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有
IDC资讯: 主机资讯 注册资讯 托管资讯 vps资讯 网站建设
网站运营: 建站经验 策划盈利 搜索优化 网站推广 免费资源
网络编程: Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它
服务器技术: Web服务器 Ftp服务器 Mail服务器 Dns服务器 安全防护
软件技巧: 其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷
网页制作: FrontPages Dreamweaver Javascript css photoshop fireworks Flash