CN101395601B - 用于根据客户驱动的查询来提供增强匹配的方法和系统 - Google Patents

用于根据客户驱动的查询来提供增强匹配的方法和系统 Download PDF

Info

Publication number
CN101395601B
CN101395601B CN200680049350.0A CN200680049350A CN101395601B CN 101395601 B CN101395601 B CN 101395601B CN 200680049350 A CN200680049350 A CN 200680049350A CN 101395601 B CN101395601 B CN 101395601B
Authority
CN
China
Prior art keywords
data
record
source
reference file
single source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200680049350.0A
Other languages
English (en)
Other versions
CN101395601A (zh
Inventor
R·雷明顿
P·马利尼
M·摩根
L·罗斯
S·斯托克
D·沃丁
J·布里尔
R·弗林
A·赫斯克
M·帕纳斯
L·斯卡希尔
S·卡罗兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dun and Bradstreet Corp
Dun and Bradstreet Inc
Original Assignee
Dun and Bradstreet Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dun and Bradstreet Corp filed Critical Dun and Bradstreet Corp
Publication of CN101395601A publication Critical patent/CN101395601A/zh
Application granted granted Critical
Publication of CN101395601B publication Critical patent/CN101395601B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种用于提供增强的数据库查询匹配的系统。该系统包括数据源;包含单源参考文件的数据储存库;包含多源参考文件的数据库,该多源参考文件具有对应于业务实体的第一唯一业务标识码;以及处理来自数据源的输入数据的智能引擎。该智能引擎确定进入数据是否与多源参考文件相匹配,并在数据与多源参考文件相匹配时将该数据添加至该多源参考文件。该智能引擎还在数据与该多源参考文件不相匹配时确定该输入数据是否与包含在数据储存库中的单源参考文件相匹配。

Description

用于根据客户驱动的查询来提供增强匹配的方法和系统
技术领域
本公开涉及搜索和匹配数据,并且更具体地,涉及搜索和匹配数据以提供对业务查询的答复。
背景技术
之前,业务数据服务的客户频繁地请求关于实体的信息。即使所请求的信息位于业务数据服务的内部数据储存库中,也不能向请求者提供有意义的答复。对此,存在两个主要原因。第一,记录位于内部储存库中,但是由于其缺乏业务标识符或者D-U-N-
Figure GSB00000316040100011
码而不能轻易地供用户使用。第二,记录具有业务标识,但是“个体”数据视图与历史数据视图不在业务数据服务的匹配参考文件中。
根据最近的调查,62%的受访者表示:能够搜索尚不具备实体标识符资格的公司的记录将会改善他们的体验。需要以下能力:利用所有内部数据来提供对客户查询的有见解的答复,而无需显著改变客户行为或过程、结果递送以及系统响应时间。
需要这样的系统和方法,其以远高于现有技术中的速率来提供对信息查询的有意义的答复。
发明内容
对于关于特定实体的信息记录的客户查询,在此公开中描述的方法和系统基本上在100%时间提供有意义的答复。
提供了用于数据库查询的增强匹配的方法。该方法包括:从数据源接收数据;确定该数据是否与包括包含在数据库中的第一唯一业务标识码的多源参考文件相匹配;当该数据与多源参考文件相匹配时将该数据添加至多源参考文件;以及当该数据与多源参考文件不相匹配时确定该数据是否与包含在数据储存库中的单源参考文件相匹配。
还提供了用于提供数据库查询的增强匹配的系统。该系统包括数据源;包括单源参考文件的数据储存库;包括多源参考文件的数据库,该多源参考文件具有对应于业务实体的第一唯一业务标识码;以及智能引擎,其处理来自所述数据源的进入数据。该智能引擎确定所述进入数据是否与所述多源参考文件相匹配,并且在所述数据与所述多源参考文件相匹配时将所述数据添加到所述多源参考文件。该智能引擎还在所述数据与所述多源参考文件不相匹配时确定所述输入数据是否与包含在所述数据储存库中的单源参考文件相匹配。
附图说明
通过参考下面结合附图的说明书,将会理解本公开的其他和进一步的目的、优势和特征。
图1描述了本公开的系统可以增加价值的区域;
图2描述了本公开的系统的非匹配数据流;
图3描述了本公开的系统的客户查询流程图;
图4是本公开的系统的结果决策树示意图;
图5是描述了被拒绝查询的本公开的系统框图;
图6是描述了成功报告和无匹配报告的本公开的系统框图;以及
图7是本公开的系统的框图。
具体实施方式
本公开的100%解决过程基本上100%地在客户每次提问时都能提供有见解的答复,并且收集返回该答复的收益。100%解决过程关注于以下六个关键方案(initiative):
方案1:利用所有内部数据储存库
方案2:使用外部业务数据源
方案3:使用客户数据源
方案4:改善匹配
方案5:改善结果可用性
方案6:消除客户流失
之前,客户频繁地请求位于内部数据储存库中的实体信息,而信息提供者却出于两个主要原因而不能提供任何答复:(1)记录位于内部储存库中,但是由于其缺乏业务标识码(例如,D-U-N-码)而不能轻易地供用户使用。这可以通过方案1的实行来解决。(2)记录经过D-U-N-S编码,但是“个体”数据视图与历史数据视图不在信息提供者的匹配参考文件中。这可以通过方案4的实行来解决。
根据最近的调查,62%的受访人表示:能够搜索尚不具备D-U-N-S码资格的公司的记录将会改善他们的体验。本公开的100%解决过程的核心在于:能够利用所有内部数据提供对客户查询的有见解的答复,而无需显著改变客户行为或过程、结果递送以及系统响应时间。
为了有效地向客户提供业务洞察力,关键在于开发提供关键字以便对大量非D-U-N-S编码数据进行追踪及组织的策略。
本公开的系统在非D-U-N-S编码数据进入数据库时为其预指派D-U-N-S码,所以当客户做出查询时,非D-U-N-S编码数据是可用的,其中,仅针对非外部数据源利用“实时”D-U-N-S码指派。
该系统需要改变当前的D-U-N-S码分配过程。从长期观点来看,现有策略无法使此方案所需的大量D-U-N-S码可用。由此,该系统最初使用短期策略来保证在不远的将来有足够的D-U-N-S码供应,并使用这样的长期策略,该长期策略包括对生成D-U-N-S码的算法的修改。
之前,与D-U-N-S编码的全域(universe)不相匹配的大多数数据存储在公知为UDR或不匹配数据储存库的存储库中。本公开已经确定:当前的非D-U-N-S编码储存库包含可以用于有效答复客户查询的高质量业务数据。通过有见解的答复来满足客户的请求需要充分利用所有的内部数据,包括之前未进行D-U-N-S编码的那些数据。
在第一步骤中,系统向符合最低数据要求的所有内部非匹配数据实体预指派D-U-N-S码,并将他们与传统的或者多源的D-U-N-S编码全域存储在同一储存库中,即具有适当指示符的DUNSRightTM数据储存库。由于此数据库提供匹配参考文件,因此这快速扩展了可用来答复客户查询的数据量。
在最初的D-U-N-S码预指派过程之后,该系统创建这样的环境,该环境允许用户:
·针对所有存储的D-U-N-S编码数据来匹配查询;
·聚集类似的数据实体;以及
·创建可以作为有见解答复进行递送的集成D-U-N-S编码记录;
以及支持使信息提供者可以:
·持续地将所有内部数据馈送/数据源与所有存储的
D-U-N-S编码数据以及在进入数据中进行匹配,以减少重复创建;
·聚集类似数据实体并将它们整合,以创建可以递送给客户的、新的多源D-U-N-S编码记录;或者
·对可以基于查询而递送给客户的、新的唯一单源记录进行标识以及D-U-N-S编码。
如果利用内部数据储存库不能答复客户查询,则此环境必须支持“实时”D-U-N-S码指派、存储以及结果产生。
方案4:
还已知:通过将进入数据与经过D-U-N-S编码的本地地址可执行(Executive at Home Address)文件和D-U-N-S决策者(DecisionMaker)文件进行匹配,匹配率至少可以提升2个百分点。将这些记录添加到匹配参考文件和历史公司图表(firmagraphic)信息进一步增强了向客户提供有见解答复的能力。
方案1和方案4涉及的五个主要功能性区域如下:
1.智能引擎基于流线化的(streamlined)数据整合处理,该整合过程并入业务定义的规则来提供自动数据流,以便匹配、聚集和整合所有进入数据,以保证减小数据进入数据库与可用于回答客户问题之间的延迟时间。这允许精调规则来持续地改进匹配和整合过程,以便随着时间而降低延迟并改进验证(validation)。该智能引擎还报告针对记录容量、成功匹配、数据存在以及异常报告的统计,以提供用于精调处理的输入。
2.D-U-N-S码指派引擎基于最小数据需求和业务定义规则,来将D-U-N-S码指派给从客户查询、传统数据源(贸易记录和公共记录)、新的电话公司数据库(商业黄页和白页)和非传统源(客户、安全通道(crosswalk))接收的、新的非匹配数据实体。此指派引擎必须支持通过经由“实时”结果产生的D-U-N-S编码结果来答复所有客户查询。
3.数据管理过程基于新定义的、更大的D-U-N-S编码全域,该数据管理处理包括更高效的数据库设计、更流线化的数据流以及具有增强处理能力和灵活监控能力的基础结构策略。这解决了:重复记录和错误处理的增长;新信息(元数据)类别在全局数据储存库中的存储,该全局数据库将为我们数据提供智能化;以及对链接的实体的适当处理。此新的信息水平对于重建我们的数据维护过程以支持对记录的扩展全域进行管理是有帮助的。
4.将客户输入与更多和/或更好的匹配点结合利用,以提高匹配系统标识出高质量匹配的可能性。这将可替代的数据视图(利用用于创建EHA(内部地址处的执行程序)以及DDM(D-U-N-S决策者)文件的数据)和历史数据并入匹配处理和适当的系统改变中,以处理增大的匹配吞吐量。
5.系统允许对客户购买行为进行统计,以驱动关注数据维护策略的重建工作,所述数据维护策略通过保证在文件中具有高质量的记录(具有答复客户问题的方案)来提高客户购买率。利用客户购买行为收入来改善质量并且支持文件扩展。另外,该计划必须识别并且解决当前策略中的差距,这是通过设计适当的过程来确保所有高度可能的查询记录接收最低水平的维护。
该系统分配、指派并且最终定义D-U-N-S码,从而超越现有方法而扩展了对D-U-N-S码的使用,该系统以上述方式提供了主要转变。客户想要我们提供的所有答复的D-U-N-S码。
该系统使得之前是非D-U-N-S编码记录的大量记录对于我们的客户而言可用。非D-U-N-S编码数据包括:没有经过来自第二唯一数据源的其他数据确认的新数据,以及多源的但是未被指派D-U-N-S码的新数据。此数据的大部分存储在UDR中。
该系统提供了单源D-U-N-S码的初始数据加载,其中该单源D-U-N-S码是唯一可标识的并且存储在称为D-U-N-SRight的数据储存库的可访问环境中。该系统执行以下步骤:
步骤1:通过匹配过程将所有的UDR记录与我们的美国D-U-N-S编码数据库(AOS)相匹配。
步骤2:将置信度代码为8+的所有记录标识为多源记录,并且不在最初数据加载中包括他们。
步骤3:对具有两个分离的唯一数据源并通过了用于D-U-N-S码指派的ARDA规则的剩余记录进行标识和文件构建。
步骤4:系统将符合D-U-N-S码预指派的最低数据要求、并通过了所有规则和验证的那些剩余记录用作单源D-U-N-S编码记录的初始加载文件。
步骤5:一旦部署了本公开的系统,则对UDR、涉及的处理流程和结果进行解委托(de-commission)。
智能引擎实现此功能是通过:在合适的地方自动添加数据深度;使用规则来确定几条信息之间的冲突以便整合和存储最准确的信息;以及标识D-U-N-S编码全域的数据维护调用可能减小的区域,并将所进行的那些调用最大化。
智能引擎通过扩展匹配过程的高级匹配能力的范围来聚集并整合类似实体以生成高质量和有代表性的复合实体,从而标识并合并全异的业务信息。
智能引擎:
·通过添加人口统计/公司图表信息(例如,从电话公司数据库添加电话号码)来增大数据深度;
·通过从UDR中将类似数据实体整合为一个复合实体,而一次性增大数据宽度;
·通过设计规则来捕捉最准确、完整和及时的信息来增大我们信息的整体质量,以及
·降低记录的维护呼叫的量,该记录可以被自动验证,导致聚焦的呼出(focused outbound calling)以及更为自动的更新处理。
为此,智能引擎:
·是便携式的(即,可用于接受并整合其他数据源);
·保持指向复合记录的各个组分的指针,
·在“实时”指派D-U-N-S码和预指派D-U-N-S码环境中都起作用;
·以天为基础,提供同一响应时间和在线环境当天的日成交量,以及
·在随后的实现中,提供12个月内增大2倍,24个月内增大3倍。
系统使用全面的策略来解决冲突信息的实例。这是通过裁判平局决胜规则的集合实现的,所述规则详述了应当保留来自哪些数据源的哪些信息。
参照图1,智能引擎通过利用合并全异的信息段来创建新纪录,并通过改进准确性、完整性和及时性元素来提高我们数据的整体质量,以此来增大价值。单源记录是具有预指派D-U-N-S码或指派D-U-N-S码的记录,其中基本标识信息尚未由第二唯一数据源确认。
除了智能引擎外,该系统还包括D-U-N-S码指派引擎,其为来自常规数据馈送的、对于数据库而言的新数据预指派D-U-N-S码,或者为仅来自一个客户的、对于数据库而言的新数据“实时地”指派D-U-N-S码(单源D-U-N-S码);一个或多个数据库储存库(DDR),用于存储前述单源D-U-N-S码和相应的元数据,以及“实时”结果产生。
该系统:
1.使用用于D-U-N-S码预指派以及“实时”D-U-N-S码指派的过程,该“实时”D-U-N-S码指派由用于在线和批处理系统的“实时”结果产生支持。
2.使用具有合适数据管理处理的储存库(DDR)和过程流在适当时将单源D-U-N-S码记录重新分类为多源记录并将该信息推送到所有合适的位置。
3.在指派D-U-N-S码之前,进行实时编辑,并至少使用当天应用的同一验证级别来进行验证。验证级别包括脏话表;地址标准化和验证;拼写检查;以及减少错误的或重复的数据输入到数据库中的自动重复报告保护(DRPS)/差错处理。该系统还使用过程来确定联系(父、附属、分支和总部关系)。针对SIC指派而处理所有记录,并实时利用所有已有的红标志、高风险警告和欺诈模块。为了避免基于错误的数据条目而进行不适当的D-U-N-S编码记录指派,该系统使用标记无效城市和州组合的条目的软件、无效区号交换等,并且在可能的情况下进行修正。优选地,交互式编辑用于向客户提示重新输入针对无效城市和州组合的条目、无效区号交换等的数据。
4.唯一地标识已被重新分类为多源记录的所有单源记录,因为他们可以调用不同的数据维护方式,这是由于他们的新兴业务状态以及避免使记录不必要地变为不活跃状态。该系统还保留记录处的所有源数据信息(元数据)和数据元素级别,以便避免对单源记录的不正确多源化。该系统能够禁止单源记录流入其他系统(除了在线和批匹配),直到他们被多源化为止。该系统还包括用户接口,其允许数据分析和查找以及用户定义的且可修改的标准数据库审计系统。
5.接收所有在线和成批客户事务。
6.扩展在线和成批匹配服务以访问所有内部数据(包括单源数据),以便将具有最高置信度代码的记录返回给用户。如果返回的记录已经是单源记录,则将D-U-N-S码分类为多源记录并且使其对所有客户可用。
7.扩展在线和成批匹配服务,以将未在内部数据中找到的客户查询与外部结构化数据源相匹配,以便在找到高质量匹配的情况下支持实时D-U-N-S码分配和结果产生/递送。新的D-U-N-S码存储为单源记录,并且对于其他客户不可用,直到该记录被唯一的第二数据源通过的数据确定来重新分类为多源记录。
8.使用包括结构化或非结构化数据的外部源。
9.使用能够产生结果的在线访问系统。
10.确保被指派并存储为单源记录的所有D-U-N-S码具有“指派日期”。此日期用于监控将其分类为多源D-U-N-S编码记录所用时间量。该系统还使用关于单源记录D-U-N-S码年龄的规则以及关于在重复利用单源D-U-N-S码之前该记录被存储了多长时间的保留规则。例如,如果记录从商业注册开始就被指派了D-U-N-S码,并且在预定时间后还未重新分类为多源记录,则使该D-U-N-S码可用于再次发布给新记录。如果基于客户输入而指派了单源D-U-N-S码,则D-U-N-S码不被重复利用。该系统提供了灵活的处理和存储能力;以及具有业务定义审计和报告方法的监控能力。
该系统执行以下动作:
1.通过数据元素源、订阅者进行追踪,并将数据库存档和/或D-U-N-S码重复利用过程用于单元记录。
2.使用NCOA(地址的国家改变)处理所有美国记录,并且利用智能引擎在自动处理流程中整合数据改变。
3.通过将随后处理的改进合并入文件构造调用(SETS、相似、专业和未解析的SIC指派)来解决当前文件构造处理排除的所有记录,并使用学习来增强IE。
4.使用记录更新过程来确保在数据库中反映最准确的信息,所述记录更新过程使用包括消极解决(negative resolution)在内的数据元素改变作为“触发器”。
5.利用用于已被重新分类为多源记录的所有单源记录的唯一指示符来应用不同的数据维护方式,这是由于他们的新兴业务状态以及避免使记录不必要地变为不活跃状态而应用不同的数据维护方式。
6.使用监控能力和相关审计报告,包括但不限于:
·监控剩余美国D-U-N-S码的全域并每日、每周和每月提供审计报告。
·监控被重新分类为多源D-U-N-S码的单源D-U-N-S码的数目,该多源D-U-N-S码被源、订户号等“多源化”,并且每日、每周和每月地提供审计报告。
·监控源、订户号等指派的单源D-U-N-S码的数目,并每日、每周和每月提供审计报告。
·监控由源、订户等重复利用的单源D-U-N-S码的数目,并每日、每周和每月提供审计报告。
·在阈值超过合适的业务拥有者时,提供警告通知。
为了保护数据库的完整性,该系统标识并利用定义了有效客户输入(例如,客户必须是通过有效订户号可标识的)的适当业务规则,并在前端和后端使用适当的高风险警告和欺骗检测服务。
该系统包含数据安全机制,以防止电子欺骗、拒绝服务和未授权闯入。
该系统提供了这样的基础,其同时将我们的全球D-U-N-S编码全域提供给多源记录,并允许“实时地”从除了传统的D-U-N-S编码的储存库以外的储存库递送D-U-N-S编码结果。此系统:
·通过经由智能引擎对记录进行聚集、整合和去重复来清理UDR,
·使用D-U-N-S指派引擎预先将D-U-N-S码指派给经过清理的单源UDR记录,
·将这些单源化D-U-N-S编码的记录加载至数据储存库环境中,
·对于在线和批处理二者都使用匹配引擎来访问单源化记录,
·通过基于单源化记录的产生结果来提供答复,
·经由在线服务提供匹配,以及
·使用与EHA、DDM和历史地址文件一起操作的匹配逻辑。
参照图2,示出了增强数据库查询匹配的方法200。方法200是用于将数据与多源参考文件的数据库245及单源参考文件的数据储存库260相匹配的方法。方法200包括从数据源205接收数据的步骤。然后,将来自数据源205的数据馈送至智能引擎,该智能引擎执行第一匹配步骤210。在第一匹配步骤210处,智能引擎确定数据是否与一个或多个多源参考文件220中的多个记录的第一记录相关或相匹配。第一记录包括唯一的业务标识码,例如D-U-N-S码,其指明第一记录与第一记录描述的业务实体相关。第一记录还包括源标识符,其指明第一记录包括来自两个或更多独立数据源的数据,即第一记录是多源的。
如果智能引擎在第一匹配步骤210处确定数据与第一记录相匹配,则当在所述第一记录中未找到所述数据字段时,方法200通过将数据和第一记录合并以产生合并记录来执行合并步骤215。合并步骤215将合并的记录存储在一个或多个所选择的具有唯一业务标识码的内部参考文件中。合并记录还包括源标识符,其指明合并记录包含来自两个或更多数据源的数据。在一个实施例中,方法200在合并数据和第一记录以生成合并记录之后删除第一记录。
如果智能引擎确定数据与第一记录不匹配,则方法200执行第二匹配步骤225。在第二匹配步骤225处,智能引擎确定数据是否与一个或多个单源参考文件230中的多个记录的第二记录相关或相匹配。第二记录包括唯一的业务标识码,例如D-U-N-S码,其指明第二记录与第二记录描述的业务实体相关。第二记录还包括源标识符,其指明第二记录包括仅来自一个数据源的数据,即第二记录是单源的。
如果智能引擎确定数据与第二记录不匹配,则方法200随后执行质量检查步骤250,该步骤对数据执行基本质量检查以便验证数据满足包含在单源数据储存库260中的预定标准。如果数据在质量检查步骤250处不符合基本质量标准,则方法200将数据发送到拒绝文件265。但是,如果数据在质量检查步骤250处符合基本质量标准,则方法200执行指派步骤255。在指派步骤225处,为数据指派对应于第二业务实体的、之前没有出现在内部参考文件220和230中的第二唯一业务标识符,例如D-U-N-S码。方法200随后执行存储步骤260,其中,将已被指派了第二唯一业务标识符的数据添加到单源数据储存库260中。
如果智能引擎确定数据与第二记录相匹配,则方法200执行多源确定步骤235。多源确定步骤235确定数据是否有资格作为验证数据源,以使单源参考文件能够被重新分类为多源参考文件。多源确定步骤235基于位于智能引擎中的预定规则进行此确定。如果智能引擎根据预定规则确定数据有资格作为验证数据源,则方法200执行更新步骤240,其中将第二记录从单源参考重新分类为多源参考,并且在步骤245中将其添加至多源储存库。在一个实施例中,将第二记录从数据储存库230移除。
智能引擎被用以整合信息并且消除对单源数据储存库和多源数据库的常规数据馈送之间的重复信息。通过智能引擎处理输入数据馈送。
如果在常规数据馈送和传统D-U-N-S码储存库(AOS)之间找到匹配,则智能引擎向AOS中的现有多源记录添加宽度。
如果在AOS中未找到匹配但是找到了单源记录(非传统D-U-N-S),则智能引擎增强该记录并使其通过多源规则(由于第二记录将用于多源)以便上传至AOS。在DDR中将该记录加上标签以将其更新为多源。如果记录没有通过多源规则,则该记录留在DDR中用于将来的多源化。
如果数据与多源记录或单源记录不匹配,则执行检查以确定数据是否通过了基本D-U-N-S编码标准。如果数据通过了基本D-U-N-S编码标准,则为数据指派D-U-N-S码并将其作为记录添加至DDR,该记录具有单源D-U-N-S码(具有合适的指示符)。如果数据不满足基本D-U-N-S编码标准,则将其发送至拒绝文件。
参照图3,示出了增强数据库查询匹配以及根据数据库查询来产生结果的方法300。方法300包括在数据接收步骤305处从数据源接收数据。在一个优选实施例中,经由web接口从用户接收数据。在接收数据后,方法300执行全局匹配步骤310,其中数据与一个或多个多源参考文件220和一个或多个单源参考文件230相比较。如果方法300在全局匹配步骤310中确定数据与参考文件220、230的任一项均不匹配,则方法300在步骤365处发送消息,该消息指示未找到与该数据的匹配。
但是,如果方法300确定该数据与一个或多个参考文件220、230相匹配,则方法300进行第一检查步骤325。在第一检查步骤325处,方法300确定匹配数据是否包括传统的唯一业务标识符。如果匹配数据包括传统的唯一业务标识符,则基于匹配数据在第一结果产生步骤330处产生结果。
如果方法300确定匹配数据不包括传统的唯一业务标识符,则方法300执行多源确定步骤335。多源确定步骤335确定数据是否有资格作为验证数据源以使单源参考文件能够被重新分类为多源参考文件。多源步骤335基于预定义规则做出此决定。根据预定规则,如果数据有资格作为验证数据源,则方法300执行更新步骤340,其中第二记录从单源参考被重新分类为多源参考,并且在步骤350处被添加到多源数据库,并且在第二结果产生步骤345处基于匹配数据产生结果。但是,如果数据不够资格作为验证数据源,则方法300继续在第二结果产生步骤345处产生结果,但将匹配数据在步骤355处添加至单源数据储存库。
匹配服务包括来自单源数据储存库的单源D-U-N-S码以便向客户提供有见解的答复。如果返回的记录是单源记录,则将该D-U-N-S码分类为多源记录并且使其对所有客户可用。详细的过程流如下:
1.针对多源(ACS,包括历史的和基于EHA/DDM匹配参考文件)和单源D-U-N-S对输入的客户查询进行匹配,并向客户返回最佳匹配。如果找到匹配,则:
a.从多源储存库(AOS)产生结果,并将该结果从AOS返回给客户。
b.从单源储存库(DDR)产生结果,并将该结果从DDR返回给客户。如果该匹配通过了多源规则,则更新DDR中的记录并上传至AOS。如果该匹配未通过多源规则,则将其留在DDR中用于将来的多源化。
2.如果未在内部储存库中找到匹配,则针对非外部业务数据源进行匹配。
a.如果找到匹配,则使其通过D-U-N-S编码规则以创建D-U-N-S码并将其添加到DDR。将该记录存储在DDR中以用于将来的多源化。然后,产生结果并将该结果返回给客户。
b.如果未找到匹配,则使其通过D-U-N-S编码规则以创建单源D-U-N-S码并将其添加到具有合适指示符的DDR,并利用消息将该D-U-N-S码作为结果返回给客户,该消息表明没有找到作为业务或客户的此实体存在的证明。
图4示出了增强从客户接收的数据库查询的匹配增强的可替换方法400。
图5和图6示出了智能引擎的不同数据流路径。参见图5,示出了用于接收数据馈送520的智能引擎510。智能引擎510包括用于比较数据馈送520和第一记录535和第二记录545的匹配逻辑555。第一记录535包括:(i)第一唯一业务标识符540,指明第一记录与第一记录描述的第一业务实体相关联,以及(ii)源标识符,指明该记录包括来自第一数据源的记录。第二记录545包括:(i)第二唯一业务标识符550,指明第二记录与第二记录描述的第二实体相关联,以及(ii)源标识符,指明第二记录包括来自两个或更多数据源的数据。
匹配逻辑555确定数据馈送520是否与第一业务实体户或第二业务实体相关联。如果数据馈送520与第二业务实体相关联,则多源化逻辑560合并数据馈送520与第二记录545。智能引擎510还包括:质量检查器565,用于检查数据馈送520的质量;以及业务标识符指派器570,用于指派所述唯一的第一业务标识符540。
现在参见图6,示出了用于运行客户查询620的智能引擎610。智能引擎610包括匹配逻辑655,用于将客户查询620与以下内容进行比较:具有(i)第一唯一业务标识符620(指明第一记录635与第一记录635描述的第一业务实体相关联)和(ii)源标识符(指明该记录包括来自单个数据源的数据)的第一记录635;具有(i)第二唯一业务标识符650(指明第二记录645与第二记录645描述的第二业务实体相关联)和(ii)源标识符(指明第二记录645包括来自两个或更多数据源的数据)的第二记录645;以及第三源690,其具有来自一个或多个选择出的外部业务参考文件的数据。
匹配逻辑655确定客户查询620是否与第一业务实体、第二业务实体或者来自一个或多个选择出的外部业务文件的第三源690相关联。在一个优选实施例中,智能引擎610包括多源化逻辑660,用于在客户查询620与第二业务实体相关联的情况下合并客户查询620与第二记录645。
在另一优选实施例中,在匹配逻辑655确定客户查询620与第三源690相关联的情况下,智能引擎610合并客户查询620与第三源690,以产生合并数据文件662。智能引擎610优选地包括质量检查器665,用于检查合并数据文件662。
图7描述了本发明的系统,其中经由计算机700的I/O单元接收数据馈送。该计算机包括由总线互连的处理器710、一个或多个I/O单元720以及存储器730。存储器包括使图2-图6的逻辑流程具体化的程序。计算机与数据库220和230互连。尽管作为单个计算机示出,但是该计算机可选地可以是包含执行图2-图6的处理流程的多个计算机。
已经通过对本发明优选实施例的具体参考对本发明进行了描述,对于本领域技术人员而言易见的是:在不脱离所附权利要求所限定的本发明范围的前提下,可以对本发明做出各种变化和改进。

Claims (13)

1.一种用于增强数据库查询的匹配的计算机实现的方法,所述方法包括:
从数据源接收数据;
执行第一匹配操作以确定所述数据是否与包含在多源数据库中的第一多源参考文件中的第一记录相匹配,所述第一记录包含与业务实体对应的第一唯一业务标识码以及指示所述第一记录为多源的源标识符;
当所述数据与所述第一记录相匹配时,如果未在所述第一记录中找到所述数据,则将所述数据合并到所述第一记录中;以及
当所述数据与所述第一记录不相匹配时,执行第二匹配操作以确定所述数据是否与包含在单源数据储存库中的第一单源参考文件的第二记录相匹配,所述第二记录包括与业务实体对应的唯一业务标识码以及指示所述第二记录为单源的源标识符;
当所述数据与所述第二记录相匹配时,应用多源规则以确定所述数据是否有资格作为验证数据源;
当所述数据有资格作为验证数据源时,将所述第二记录重新分类为多源并且将所述第二记录从所述单源数据存储库移动到所述多源数据库;以及
当所述数据没有资格作为验证数据源时,使用所述数据创建第二单源参考文件并且将所述第二单源参考文件存储在所述单源数据存储库中。
2.根据权利要求1的方法,进一步包括:
在创建所述第二单源参考文件之前,基于预先确定的质量标准来检查所述数据的质量;
当所述数据符合所述预先确定的质量标准时,在创建第二单源参考文件后,将第二唯一业务标识码指派给所述第二单源参考文件;以及
当所述数据不符合所述预先确定的标准时,将所述数据发送到拒绝文件。
3.根据权利要求2的方法,进一步包括:当所述第二单源参考文件在预先确定的时间长度后没有被重新分类为多源参考文件时,则将所述第二唯一业务标识码重新指派给第三单源参考文件。
4.根据权利要求2的方法,进一步包括根据所述第一单源参考文件和第一多源参考文件产生业务数据报告。
5.根据权利要求2的方法,进一步包括将重复数据从所述第一多源参考文件和所述第一单源参考文件移除。
6.根据权利要求1的方法,其中所述数据源包括用户生成的查询。
7.根据权利要求1的方法,其中所述数据源是基于web的数据源。
8.一种用于提供数据库查询的增强匹配的系统,所述系统包括:
多源数据库,包括第一多源参考文件,所述第一多源参考文件包括第一记录,所述第一记录具有对应于业务实体的第一唯一业务标识码以及指示所述第一记录为多源的源标识符;
单源数据存储库,包括第一单源参考文件,所述第一单源参考文件包含第二记录,所述第二记录包含与业务实体对应的唯一业务标识码以及指示所述第二记录为单源的源标识符;
智能引擎,用于处理来自数据源的进入数据,其中所述智能引擎配置为:
执行第一匹配操作以确定所述进入数据是否与所述第一多源参考文件中的所述第一记录相匹配;
当所述进入数据与所述第一记录相匹配时,如果未在所述第一记录中找到所述进入数据,则将所述进入数据合并到所述第一记录中;
当所述进入数据与所述第一记录不相匹配时,执行第二匹配操作以确定所述进入数据是否与所述第一单源参考文件中的所述第二记录相匹配;
当所述进入数据与所述第二记录相匹配时,应用多源规则以确定所述进入数据是否有资格作为验证数据源;
当所述进入数据有资格作为验证数据源时,将所述第二记录重新分类为多源并且将所述第二记录从所述单源数据存储库移动到所述多源数据库;以及
当所述进入数据没有资格作为验证数据源时,使用所述进入数据创建第二单源参考文件并且将所述第二单源参考文件存储在所述单源数据存储库中。
9.根据权利要求8的系统,进一步包括:
位于所述智能引擎中的质量检查器,所述质量检查器在所述智能引擎创建第二单源参考文件之前检查所述进入数据的质量;以及
位于所述智能引擎中的业务标识符指派器,所述业务标识符指派器在所述质量检查器确定所述进入数据符合预先确定的质量标准时将第二唯一业务标识码指派给所述进入数据;
其中当所述质量检查器确定所述进入数据与所述预先确定的质量标准不相匹配时,所述进入数据被发送给一个拒绝文件。
10.根据权利要求9的系统,其中当所述第二单源参考文件在预先确定的时长后没有被重新分类为多源参考文件时,则将所述第二唯一业务标识码重新指派给第三单源参考文件。
11.根据权利要求9的系统,进一步包括产生器,所述产生器根据所述第一单源参考文件和第一多源参考文件产生业务数据报告。
12.根据权利要求8的系统,进一步包括位于所述智能引擎中的数据清理器,所述数据清理器将重复数据从所述第一多源参考文件和所述第一单源参考文件移除。
13.根据权利要求8的系统,其中所述数据源包括用户生成的查询。
CN200680049350.0A 2005-12-27 2006-12-27 用于根据客户驱动的查询来提供增强匹配的方法和系统 Active CN101395601B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US75413905P 2005-12-27 2005-12-27
US60/754,139 2005-12-27
PCT/US2006/049302 WO2007076136A2 (en) 2005-12-27 2006-12-27 Method and system for providing enhanced matching from customer driven queries

Publications (2)

Publication Number Publication Date
CN101395601A CN101395601A (zh) 2009-03-25
CN101395601B true CN101395601B (zh) 2014-01-08

Family

ID=38218722

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200680049350.0A Active CN101395601B (zh) 2005-12-27 2006-12-27 用于根据客户驱动的查询来提供增强匹配的方法和系统

Country Status (8)

Country Link
US (1) US8051049B2 (zh)
EP (1) EP1966729A4 (zh)
JP (1) JP5193061B2 (zh)
CN (1) CN101395601B (zh)
AU (1) AU2006330838B2 (zh)
CA (1) CA2635567C (zh)
HK (1) HK1131225A1 (zh)
WO (1) WO2007076136A2 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020018546A1 (en) * 2018-07-17 2020-01-23 Vantage Agora, Inc. Business operating system engine

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102236662B (zh) * 2010-04-23 2013-09-25 广州市西美信息科技有限公司 数据库查询和控制方法
CN102971703B (zh) * 2010-05-07 2016-08-17 邓白氏公司 数据库搜索的加强查询
US9043296B2 (en) 2010-07-30 2015-05-26 Microsoft Technology Licensing, Llc System of providing suggestions based on accessible and contextual information
US9304672B2 (en) 2010-12-17 2016-04-05 Microsoft Technology Licensing, Llc Representation of an interactive document as a graph of entities
US9069557B2 (en) 2010-12-17 2015-06-30 Microsoft Technology Licensing, LLP Business intelligence document
US9110957B2 (en) 2010-12-17 2015-08-18 Microsoft Technology Licensing, Llc Data mining in a business intelligence document
US9111238B2 (en) 2010-12-17 2015-08-18 Microsoft Technology Licensing, Llc Data feed having customizable analytic and visual behavior
US9104992B2 (en) 2010-12-17 2015-08-11 Microsoft Technology Licensing, Llc Business application publication
US9024952B2 (en) 2010-12-17 2015-05-05 Microsoft Technology Licensing, Inc. Discovering and configuring representations of data via an insight taxonomy
US9336184B2 (en) 2010-12-17 2016-05-10 Microsoft Technology Licensing, Llc Representation of an interactive document as a graph of entities
US9864966B2 (en) 2010-12-17 2018-01-09 Microsoft Technology Licensing, Llc Data mining in a business intelligence document
US9171272B2 (en) * 2010-12-17 2015-10-27 Microsoft Technology Licensing, LLP Automated generation of analytic and visual behavior
US8381120B2 (en) * 2011-04-11 2013-02-19 Credibility Corp. Visualization tools for reviewing credibility and stateful hierarchical access to credibility
US10540646B2 (en) * 2011-06-22 2020-01-21 Jpmorgan Chase Bank, N.A. Itemized receipts and digital payments system and methods
US9449056B1 (en) 2012-11-01 2016-09-20 Intuit Inc. Method and system for creating and updating an entity name alias table
EP2752778B1 (en) 2013-01-08 2018-11-28 Tata Consultancy Services Limited Method and system for creating and maintaining unique data repository
US8996391B2 (en) 2013-03-14 2015-03-31 Credibility Corp. Custom score generation system and methods
US8712907B1 (en) 2013-03-14 2014-04-29 Credibility Corp. Multi-dimensional credibility scoring
US10699335B2 (en) 2013-05-02 2020-06-30 The Dun & Bradstreet Corporation Apparatus and method for total loss prediction
US10997671B2 (en) * 2014-10-30 2021-05-04 Intuit Inc. Methods, systems and computer program products for collaborative tax return preparation
US10191962B2 (en) 2015-07-30 2019-01-29 At&T Intellectual Property I, L.P. System for continuous monitoring of data quality in a dynamic feed environment
US10482544B2 (en) 2016-01-28 2019-11-19 Intuit Inc. Methods, systems and computer program products for masking tax data during collaborative tax return preparation
US11093462B1 (en) 2018-08-29 2021-08-17 Intuit Inc. Method and system for identifying account duplication in data management systems

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040133501A1 (en) * 2002-11-08 2004-07-08 Dun & Bradstreet, Inc. System and method for producing electronic business information reports and related products
US20040220918A1 (en) * 2002-11-08 2004-11-04 Dun & Bradstreet, Inc. System and method for searching and matching databases
US20040225543A1 (en) * 2003-03-28 2004-11-11 Dun & Bradstreet, Inc. System and method for data cleansing
US20040243539A1 (en) * 2003-05-29 2004-12-02 Experian Marketing Solutions, Inc. System, method and software for providing persistent business entity identification and linking business entity information in an integrated data depository

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5576755A (en) * 1994-10-28 1996-11-19 Davis; Bruce System and method for verification of electronic television program guide data
JPH10143525A (ja) * 1996-11-12 1998-05-29 Sharp Corp 携帯情報端末装置
US20020055924A1 (en) * 2000-01-18 2002-05-09 Richard Liming System and method providing a spatial location context
WO2005003917A2 (en) * 2003-06-27 2005-01-13 Orion's Belt, Inc. Method of and system for determining connections between parties using private links
EP1364268A2 (en) * 2000-07-17 2003-11-26 Equifax, Inc. Methods and systems for authenticating business partners for secured electronic transactions
US20050154664A1 (en) * 2000-08-22 2005-07-14 Guy Keith A. Credit and financial information and management system
US7089592B2 (en) * 2001-03-15 2006-08-08 Brighterion, Inc. Systems and methods for dynamic detection and prevention of electronic fraud
US7822757B2 (en) * 2003-02-18 2010-10-26 Dun & Bradstreet, Inc. System and method for providing enhanced information

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040133501A1 (en) * 2002-11-08 2004-07-08 Dun & Bradstreet, Inc. System and method for producing electronic business information reports and related products
US20040220918A1 (en) * 2002-11-08 2004-11-04 Dun & Bradstreet, Inc. System and method for searching and matching databases
US20040225543A1 (en) * 2003-03-28 2004-11-11 Dun & Bradstreet, Inc. System and method for data cleansing
US20040243539A1 (en) * 2003-05-29 2004-12-02 Experian Marketing Solutions, Inc. System, method and software for providing persistent business entity identification and linking business entity information in an integrated data depository

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020018546A1 (en) * 2018-07-17 2020-01-23 Vantage Agora, Inc. Business operating system engine

Also Published As

Publication number Publication date
JP5193061B2 (ja) 2013-05-08
HK1131225A1 (zh) 2010-01-15
CA2635567C (en) 2015-08-11
CN101395601A (zh) 2009-03-25
US20070265995A1 (en) 2007-11-15
WO2007076136A3 (en) 2008-12-04
EP1966729A2 (en) 2008-09-10
JP2009521770A (ja) 2009-06-04
CA2635567A1 (en) 2007-07-05
AU2006330838B2 (en) 2011-09-29
EP1966729A4 (en) 2011-05-04
WO2007076136A2 (en) 2007-07-05
US8051049B2 (en) 2011-11-01
AU2006330838A8 (en) 2008-08-07
AU2006330838A1 (en) 2007-07-05

Similar Documents

Publication Publication Date Title
CN101395601B (zh) 用于根据客户驱动的查询来提供增强匹配的方法和系统
Hargittai et al. Cross-ideological discussions among conservative and liberal bloggers
Wasserfallen Political and economic integration in the EU: The case of failed tax harmonization
US20080288479A1 (en) System and method for leveraging historical data to determine affected entities
US20040243588A1 (en) Systems and methods for administering a global information database
US20090327021A1 (en) System and method for managing legal obligations for data
EP2237207A2 (en) File scanning tool
Sandström et al. Assessing and explaining policy coherence: A comparative study of water governance and large carnivore governance in Sweden
KR20060087859A (ko) 특허관리 포탈 서비스 시스템
Porter et al. Patent profiling for competitive advantage
Balla et al. Where's the spam? Interest groups and mass comment campaigns in agency rulemaking
Nalchigar et al. Achieving interoperability of smart city data: an analysis of 311 data
CN1588405A (zh) 用于风险控制系统的数据处理装置及方法
Bottema et al. The benefit of intelligence officers: Assessing their contribution to success through actionable intelligence
Dongtotsang et al. Mobile Telephony as an Enabler of Environmental Action in the Philippines
CN111461727A (zh) 交易行为的监控预警方法、装置、存储介质和智能设备
Whangapirita et al. Maori perspectives of the environment: A review of Environment Waikato information sources.
CN117252557B (zh) 一种基于网络对接的综合行政执法管理平台及方法
Jonasson A system for GDPR-compliant collection of social media data: from legal to software requirements
Fuzeau Records management: two case studies from the French private sector
Indriyani et al. Truecaller's Spam Call and SMS Blocking Solution for Surveillance on Social Media
Pramas et al. Using Technology to Facilitate Production of E-discovery
Rainer Development and application of the SBR guidelines of the Conference of European Statisticians
Perry et al. A Review of the Ontario Digitization Initiative
CN115982375A (zh) 数据治理方法和装置、电子设备、计算机存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1131225

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1131225

Country of ref document: HK