CN1658572B

CN1658572B - 消息分类系统和方法

Info

Publication number: CN1658572B
Application number: CN2005100081495A
Authority: CN
Inventors: D·黑佐尔; G·J·胡尔藤; J·T·古德曼; R·L·朗斯威特
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2004-02-13
Filing date: 2005-02-06
Publication date: 2013-03-06
Anticipated expiration: 2025-02-06
Also published as: BRPI0500374A; CA2497012A1; JP2005235206A; CN1658572A; US7543053B2; ES2350107T3; US20040215977A1; ATE481804T1; MXPA05001677A; EP1564670A2; JP4818616B2; KR101117866B1; KR20060041934A; EP1564670A3; DE602005023553D1; EP1564670B1

Abstract

本发明提供了一种智能隔离系统和方法，它促进了与预防兜售信息有关的更健壮的分类系统。该发明包括根据分类(兜售信息或好的)阻止看似有问题的、可疑的或者不可信的一些消息。尤其是，该过滤器缺少与这些消息有关的信息并且因此暂时延迟分类。这就为过滤器更新提供了更多的时间，以便达到更准确的分类。可疑消息可以被隔离一个预定时间段，以便允许收集到与这些消息有关的更多的数据。可以使用多个因素来确定消息是否更可能被标记以供进一步分析。也可以使用采用反馈回路系统方式的用户反馈，以便于消息的分类。在某个时间段之后，可以重新开始该消息的分类。

Description

消息分类系统和方法

技术领域

本申请涉及用于识别合法信息(例如，好的邮件)和不想要的信息(例如，垃圾邮件)两者的系统和方法，尤其涉及部分地通过至少延迟可疑消息的传递，直到能够收集到有关该消息的进一步信息为止，对用于预防兜售信息的消息进行分类，以促进这种消息的分类。

背景技术

诸如因特网等全球通信网络的出现为到达大量潜在的消费者带来了商机。电子消息，尤其是电子的邮件(“电子邮件”)，作为向网络用户散布不需要的广告和推销(也被表示为“兜售信息”)的工具，正日益变得普及。

Radicati Group有限公司-一个咨询及市场调查公司-估算从2002年8月起，每天有两亿个垃圾电子邮件消息被发送——预计这个数字每两年会翻三倍。个人和组织(例如，企业、政府机构)正日益感到不方便，并且经常被垃圾消息冒犯。由此，现在或不久以后，垃圾电子邮件将变成对可信赖计算的主要威胁。

用于阻挠垃圾电子邮件的关键技术是过滤系统/方法的使用。一种经证明的过滤技术是基于机器学习方法——机器学习过滤器向收到的消息分配一个该消息是垃圾的概率。在这种方法中，通常从两类示例消息(例如，垃圾和非垃圾消息)中提取特征，并且学习过滤器被用于在两种类别之间进行概率统计性地鉴别。因为许多消息的特征涉及内容(例如，消息的主题和/或正文中的文字和短语)，所以这种类型的过滤器一般被称作“基于内容的过滤器”。

一些垃圾/兜售信息过滤器是自适应的，这一点很重要，因为懂许多语言的用户和说很少语言的用户需要一种能够适应他们特殊需要的过滤器。还有，并不是所有的用户都同意什么是以及什么不是垃圾/兜售信息。因此，通过使用一种能够隐含地训练(例如，通过观察用户的行为)的过滤器，各自的过滤器可以被动态地编制，以便满足用户的特定消息识别的需求。

用于过滤自适应的一种方法是，要求用户将消息标为垃圾和非垃圾。不幸的是，由于与这种训练不顾正确实现这种训练所需的时间量有关的复杂性，这种手动强化训练技术不合乎许多用户的需要。此外，这种手动训练技术常常由于个别用户而有缺陷。例如，用户常常忘记对免费邮件列表的订阅，并且因此被错误地标为垃圾邮件。结果，合法的邮件被长期地阻止在用户的邮箱外。另一种自适应过滤器训练方法是使用含蓄训练提示。例如，如果用户回复或转发一个消息，则该方法就假设该消息是非垃圾。然而，仅使用这种消息提示将统计偏差引入到训练过程中，导致过滤器相应的准确性更低了。

又一种方法是使用所有的用户电子邮件用于训练，其中用现有过滤器分配初始标记，并且用户有时用显式提示(例如，“用户校正”方法)-例如选择诸如“作为垃圾删除”和“非垃圾”的选项-和/或隐式提示来重载那些分配。尽管这种方法比之前讨论过的技术好，但是与下面所描述和要求保护的本发明相比，它仍有不足。

此外，被设计成用于对抗兜售信息的现有过滤器技术仍然有问题。例如，如果兜售信息发送者可以找到一个能够通过过滤器的消息，那么他们就可以在更新该过滤器之前使一百万个兜售信息消息通过。不管可以多么快地更新过滤器，兜售信息发送者都能够通过简单地请求更大的带宽来越来越快地推测发送他们的消息。

发明内容

下面给出本发明的简要概述，以便提供对本发明的一些方面的基本理解。这个概述不是本发明的广泛综述。它不是旨在标识本发明的关键的/决定性的元素或者描绘本发明的范围。其唯一目的是作为对后面给出的更详细地描述的说明的序言，以简化的形式给出本发明的一些概念。

本发明提供了一种智能隔离系统和方法，它有利于分类与预防兜售信息有关的项。尤其是，本发明将消息分类或标记为可疑的和/或暂时延迟它们的分类(作为兜售信息或好的)。可以由过滤器和/或由系统设置延迟或隔离时间段，该时间段提供了适量的时间以便了解与消息和/或发送者有关的更多信息。

按照本发明的一个方面，可以从一个或多个系统组件中获得该信息，该系统组件可以被配置成监视活动和/或行为，诸如消息量(例如，每个发送者的消息量)。例如，少量发送的消息比较不可能是兜售信息。类似地，大量发送的消息比较可能是兜售信息。

按照本发明的另一方面，可以分析消息的内容，以便确定它是否实质上类似于在蜜罐(honeypot)中发现的消息。回想，蜜罐是指已知的兜售信息目标，以便将收到的消息标识为兜售信息和/或跟踪特定商业消息地址处理。一般地，蜜罐是一个电子邮件地址，在该电子邮件地址上，可以确定一组合法的消息并且所有其它消息都被认为是兜售信息。例如，可以用不可能被人们发现的限制性方式在网站上公开该电子邮件地址。因此，发送给这个地址的任何消息都会被认为是兜售信息。可替换地，该电子邮件地址也许只向商人公开了，希望从该商人处接收到合法的消息。因此，从商人处接收到的消息是合法的，但是接收到的所有其它消息可以安全地被认为是兜售信息。从蜜罐和/或其它来源(例如用户)中得到的兜售信息数据可以被集成到反馈回路系统中，但是由于采用蜜罐在兜售信息分类方面的实质性增加，此数据会被降低加权以便减轻得到有偏差的反馈结果。

按照本发明的另一方面，可以分析消息内容，以便确定它实质上是否类似于通过其它方法已经接收到的反馈的消息，包括：被用户标记为“这是垃圾”；被用户标记为“这不是垃圾”；被反馈回路用户分类(见“用于兜售信息预防的反馈回路”)；在一些其它设置中通过采用反馈回路技术而被分类(例如，在Y服务器上而不是在J电子邮件服务中)；通过将其与其它兜售信息资料档案库进行比较。

按照本发明的又一方面，可以将隔离与基于散列的技术组合起来。在一个例子中，消息可以被散列以便协助查实被隔离消息是否与后来被分类为好的或兜售信息的任何其它消息(以前隔离的)相似，并且将它们移到隔离区之外。兜售信息发送者通常将邮件发送给数千或数百万个用户。该消息有时是相同的、近似相同的或者可以被看作是同一类型。因此，获取彼此相似的消息会有利于它们的分类。然而，如果在蜜罐、反馈回路或用户抱怨中不存在相似消息(或者仅有极少数)，那么很可能将该消息瞄向特定的接收者或者接收者的组，并且因此该发送者最可能不是兜售信息发送者。

被隔离消息可以被存储在被标识为“隔离”、“垃圾”、“可能是垃圾”等的专门的文件夹中，它们对于用户可以是可见的或不可见的。被发送给隔离文件夹的消息可以被选择用于反馈回路，无论被隔离消息对于该用户是否通常是可见的。即，正如被删除的、被放在垃圾文件夹中的或者被放在收件箱中的消息一样，被发送给隔离文件夹的消息可以被选择用于用户分类。回想，反馈回路是一种轮询机制，它涉及询问用户将消息的至少一个子集分类为兜售信息或好的，以便有利于检测兜售信息并且创建更多健壮的兜售信息过滤器。如在本发明中所使用的，反馈回路可以用于根据被隔离消息的随机采样来轮询用户。例如，被隔离消息的至少一个子集可以被允许通过参与反馈回路的它们各自的接收者(例如用户)以供用户分类。

作为对反馈回路的替换或补充，对于消息接收者，隔离文件夹(例如，至少其子集)可以是可见的，以便向他们提供机会去对该专门文件夹中所保存的消息的至少一个子集进行分类。然而，在这种情况下，接收者可以是或者也可以不是反馈回路参与者。他们也许能够报告此消息是好的或是垃圾。通过点击诸如表示该消息是兜售信息或是“好的”的“垃圾报告”按钮，或者表示该消息合法的“救出消息”按钮等一个或多个按钮，可以实现此特性。因此，通过反馈回路或者垃圾/好的报告方法的相对于被隔离消息的至少一个有限选择的用户数据，可以有利于确定特定的被隔离消息是否是兜售信息。

应当理解，与将不确定的消息分类为兜售信息并且然后允许用户将它们从删除中救出的救出系统不同，本发明延迟分类(作为兜售信息或相反)，并且允许一些用户提供与特定消息有关的他们的选项，以便有利于随后的分类。此外，诸如由反馈回路参与者和/或主动提供的消息接收者提交的那些用户抱怨可以被用于帮助确定在隔离下的该消息的至少部分是否为兜售信息。也可以注意缺少来自用户的抱怨，并且用于帮助确定特定消息是否为兜售信息。

作为对隔离消息的替换，在没有隔离或者明确的用户分类(例如反馈请求、轮询等)的情况下，有问题的或可疑的消息的至少一个子集可以被允许缓流出(trickle out)或者通过该过滤器。相反，可以监视或观察与这些消息有关的用户/接收者的行为。被允许缓流出的消息量可以是每个发送者的固定数量的消息(例如，前1,000个)或者是固定百分比的消息-诸如每个发送者。然后，可以向这些消息的接收者给予一个隐含的机会去将该消息表征为兜售信息或非兜售信息。与这些消息有关的用户行为可以被用于更新过滤器。

在本发明的再一方面中，机器学习系统(例如，神经网络、支持向量机(SVM)、贝叶斯信任网)有利于创建改进的和/或更新的兜售信息过滤器，该过滤器被训练为识别合法的消息和兜售信息消息，并且进一步在它们之间进行区分。一旦按照本发明训练了一个新的或者已更新的兜售信息过滤器，就可以将其分发到邮件服务器和客户机电子邮件软件程序。此外，可以就分类和/或由特定用户提供的其它信息来训练该新的或者已更新的兜售信息过滤器，以便改善个性化过滤器的性能。由于构建了附加训练数据设置，所以该兜售信息过滤器可以通过机器学习经受进一步的训练，以便优化其性能和准确性。采用消息分类方式的用户反馈也可以被用于生成兜售信息过滤器的列表和父母控制，以便测验兜售信息过滤器的性能，和/或标识兜售信息的来源。

还有，如部分地通过用户以及系统分析所生成的训练数据也可以被用于创建新的子过滤器(小于根据用于好的、兜售信息和可疑的消息的多个特征所训练出的全尺寸过滤器)，该新的子过滤器专门用于最近被隔离的消息。根据从最近被隔离的消息中提取出的一个或多个特定特征(特征的子集)，可以训练该新的子过滤器。例如，可以只根据IP地址特征训练子过滤器。

一旦获得该信息和/或当已经过了隔离时间段，就可以更新一个或多个(兜售信息)过滤器，以便有利于被隔离消息的适当分类。注意，这并不是暗示每次当消息准备好从隔离区(尽管它可能是实际的位置)中出来时该过滤器都必须被更新。本发明相反可以选择隔离时间与预设的过滤器更新调度同步，从而在过滤器更新进行之后，成批消息可以准备好立即从隔离区中出来，(并且因此用已更新的信息进行分类或重新分类)。这个调度可以含蓄地进行(例如，调度新的过滤器在1PM到达，因此消息被隔离，直到1∶01PM为止)，或者明确地进行(例如，消息被隔离‘直到新的过滤器到达为止’，它可以是任何时候)。因此，这些可疑消息可以重新通过已更新过滤器并且被分类为兜售信息或非兜售信息。例如，部分地基于缺少新的负面信息，被延迟的消息可以被分类为“好的”。同样，基于新的正面信息，被延迟的消息可以被分类为好的。

还有，从用户和/或系统反馈中收集到的信息可以被用于更新已经在使用的一个或多个过滤器。结果，被延迟的消息可以被再次处理或发送通过过滤器以供分类。此外，可以训练新的过滤器，以应用于要经受隔离的后续收到的消息。

当在隔离或延迟时间段期间消息被确定为兜售信息时，可以从专门的文件夹(例如隔离文件夹)中直接将它们删除，和/或移动到另一个文件夹(例如垃圾文件夹)以便丢弃。另外，被分类为“好的”的消息可以用它们各自的释放日期(从隔离区中释放的日期)来作时间标记，并且传递给它们预定的接收者。因此，这些消息可以具有两个时间标记-第一个表示初始到达日期而第二个表示从隔离区中释放的日期。从隔离区中释放的日期可以是该日期：标题字段，因此确保客户机软件将这些消息进行适当分类，其中它们将被看到。(尤其是，如果实质上消息被延迟，并且然后以其普通顺序出现，那么它可以出现在按日期分类的收件箱的部分中，在该部分中该用户不太可能看到它。标记新的日期有助于确保该消息对于用户而言将是可见的。)

为了完成上述和相关目的，此处结合以下描述和附图描述了本发明的某些示意性方面。然而，这些方式仅是一些不同方式的象征，采用这些方式，可以使用本发明的原理，并且本发明旨在包括所有此类方面及其等效方面。当结合附图进行了考虑时，根据下面对该发明的详细说明，该发明的其它优点和新颖性特征可以变得很明显。

附图说明

图1是按照本发明一个方面的智能隔离系统的框图，该智能隔离系统使用与反馈回路训练系统有关的反馈来了解有关被隔离消息的更多信息。

图2是按照本发明一个方面的智能隔离系统的框图，该智能隔离系统有利于获得更多与可疑消息有关的信息，以便更新兜售信息过滤器并且将可疑消息分类为兜售信息或非兜售信息。

图3是按照本发明一个方面的部分由已建立的过滤器以及部分由被更新的过滤器进行收到的消息的示例性分类的示意性流程图。

图4是按照本发明一个方面的示例性例子的示意图，该示例性例子有利于出于隔离的目的确定适当的时机来断定消息为可疑的。

图5是按照本发明一个方面的与至少一个服务器上的隔离系统的实现有关的客户机和服务器通信的示意性说明。

图6是按照本发明一个方面的通过示例性隔离过程前进的消息的框图。

图7是按照本发明一个方面的示例性方法的流程图，该方法有利于当可以获得足够的信息时对消息进行分类，并且对缺少用于分类的足够信息的消息进行隔离。

图8是按照本发明一个方面的示例性方法的流程图，该方法有利于在隔离时间段期间收集更多与消息或消息发送者有关的信息。

图9是按照本发明一个方面的示例性方法的流程图，该方法有利于在隔离时间段期间收集更多与消息或消息发送者有关的信息。

图10是按照本发明一个方面的示例性方法的流程图，该方法有利于在隔离时间段期间收集更多与消息或消息发送者有关的信息。

图11是按照本发明的示例性通信环境的示意性框图。

具体实施方式

现在参照附图描述本发明，贯穿附图，类似的参考标号用于指类似的元件。在下面的说明中，为了解释起见，阐述了许多具体细节，以提供对本发明的彻底理解。然而，很显然，本发明可以不采用这些具体细节来实施。在其它例子中，为了便于说明本发明，以框图的形式示出了众所周知的结构和设备。

如本申请中所使用的，术语“组件”和“系统”意思是指计算机相关实体，或者是硬件、硬件与软件的组合、软件，或者执行软件。例如，组件可以是，但并不限于，处理器上运行的进程、处理器、对象、可执行码(executable)、执行线程、程序和/或计算机。以示意的方式，服务器上运行的应用程序和服务器都可以是组件。一个或多个组件可以驻留在一个进程和/或执行线程中，并且组件可以被定位于一个计算机上和/或被分布在两个或多个计算机之间。

本发明可以结合与生成用于机器学习兜售信息过滤的训练数据有关的不同推理方案和/或技术。如此处所使用的，术语“推理”一般指，根据如通过事件和/或数据所捕获的一组观察值，推出或推断系统、环境和/或用户的状态的过程。例如，推理可以被用于识别特定环境或动作，或者可以产生对状态的一个概率分布。该推理可以是概率统计性的-即基于数据和事件的考虑对感兴趣的状态的概率分布的计算。推理还可以指用于根据一组事件和/或数据构成更高级的事件的技术。无论这些事件是否在相邻的时间上相关，并且无论该事件和数据是来自一个还是多个事件和数据源，这种推理最终都根据一组被观察到的事件和/或被存储的事件数据构造新的事件或动作。

应当理解，尽管术语消息被广泛地用于整个说明书中，但是该术语并不限于电子邮件本身，而可以适宜地适用于包括任何形式的电子消息传递，该电子消息传递能通过任何适当的通信体系结构分发。例如，便于两人或多人之间的会议或对话的会议应用程序(如，交互式聊天程序和即使消息通信程序)还可以使用此处所公开的过滤益处，因为不希望的文本可以在用户交换消息时被电子地散布到一般的聊天消息中，和/或作为标题消息、关闭消息或以上所有消息而被插入。在这个特殊应用程序中，过滤器可以被训练为自动地过滤特定的消息内容(文本和图像)，以便将不希望的内容(例如，商业广告节目、推销或广告)捕获并标记为垃圾。

在本发明中，术语“收件人”指收到的消息的被访地址。术语“用户”指接收者，他已经被动地或主动地选择，或者被间接选来参与该反馈回路系统和如此处所描述的过程。

本发明涉及便于收到的项或消息的智能隔离的系统和方法。智能隔离是指阻止一些被怀疑是兜售信息的消息。这可以为过滤器提供更多的时间去更新并达到对这些消息的更准确的分类。实际上，考虑下面没有隔离的情况：兜售信息发送者找到一个通过现有过滤器的消息。在消息系统得到过滤器更新之前，他尽可能快地将其发送给10,000,000个人。该10,000,000个人接收兜售信息(在其收件箱中)。现在考虑采用隔离的相同情况：兜售信息发送者找到一个当前不被捕捉或分类为兜售信息的消息；然而，该消息在某个方面很奇怪，使该消息对于该系统而言是可疑的。在过滤器被更新之前，他尽可能快地将这个消息发送给10,000,000个人。因为该兜售信息发送者的消息是可疑的，并且对于过滤器没有足够的信息可以用于很容易地将它分类为兜售信息或非兜售信息，所以可以将它们隔离，如在本发明中以下所述。

现在参见图1，示出了按照本发明一个方面的隔离系统100的通用框图，该隔离系统100实现了反馈回路系统。消息接收组件110接收收到的消息(表示为IM)并向预定的接收者120传递。消息接收组件可以包括至少一个过滤器130(例如，第一分类组件)，或者可以与至少一个过滤器130一起操作，因为许多消息接收组件习惯于减轻不需要的消息(例如兜售信息)的传递。消息接收组件110与过滤器130一起处理该消息(IM)，并且向预定的接收者120提供消息的已被过滤的子集(表示为FILTERED IM。

应当理解，可以利用反馈回路系统训练过滤器130。尤其是，过去都将过滤器130训练为，不仅识别兜售信息，还至少部分地基于可信的用户反馈来区分兜售信息和好邮件。通过利用包括关于好的和兜售信息的消息两者的用户反馈的训练数据，机器学习系统便于这种过滤器130的训练。

当一个或多个过滤器130具有与收到的消息有关的足够的信息时，过滤器130可以更准确地给该消息记分，并且将其分类为兜售信息或者非兜售信息(例如，好的)。因此，对于被传送给他们预定接收者120的消息的子集(FILTERED IM)，可以得出结论，过滤器130包括足够的信息量来确定该消息是好的。同样，收到的消息的另一个子集可以被标识为兜售信息并被适当丢弃(未示出)。

不幸的是，兜售信息发送者，甚至是较小范围的合法发送者，往往比其它发送者更频繁地改变其发送者信息的某个部分。例如，兜售信息发送者具有更大的趋势去掩饰或修改他们的消息的许多方面，诸如他们的IP地址、域名以及消息内容，以企图愚弄或混过兜售信息过滤器。相反，出于逻辑上的原因，一些合法发送者改变他们的IP地址。例如，都知道，由于容纳所增加的在线定购者的数量所需要地添加新服务器，纽约时报时时改变他们的IP地址。由于在收到的消息的至少一个子集中的这些类型的改变，过滤器130也许不具有有关该消息的足够信息来准确地确定兜售信息概率得分(例如该消息是兜售信息的概率)。结果，由于缺少信息而不能准确地对该消息进行分类。

与传统的兜售信息预防系统不同，在本发明中，缺少用于分类的信息的消息可以被阻止或隔离(被标记用于进一步分析)——只要收集更多关于它们的信息。被隔离的消息可以被移动到延迟消息存储140一段时间(例如延迟或隔离时间段)，直到可以采用在隔离时间段期间收集到的任何信息更新过滤器130为止。延迟消息存储可以与诸如垃圾文件夹或服务器上的队列等一些其它存储相同。在这个存储中被隔离的消息可以被专门标记，或者这个文件夹或队列中的所有消息可以被周期性地重新记分，如同它们被隔离了一样。

已经有可以获得的许多类型的信息。一种类型是缓流(trickle out)组件。对被隔离消息的用户反馈可以涉及使用缓流机制，在该机制中，被隔离消息的至少一个子集被允许“缓流出”隔离之外，或者绕过过滤器分类过程以便传递给其预定的接收者。部分地基于预定接收者(例如，随机或所选用户150)是用于训练兜售信息过滤器的反馈回路系统中的参与者的事实，可以选择被缓流出的消息。可替换地或另外，被缓流出的消息可以被随机选择。

另一种形式的数据是反馈回路。为了来自用户(例如，参与反馈回路的接收者)的进一步反馈，反馈回路组件170选择该邮件的一部分，不管被隔离、被删除等。反馈回路组件170将数据传给过滤器更新组件160，其便于构建和/或更新过滤器。如在前引用的“用于预防兜售信息的反馈回路(Feedback Loop for Spam Prevention)”中所描述的，用户可以明确地质询这些消息的有关情况。

另一种形式的数据可以来自蜜罐180(例如，蜜罐组件)。当消息到达消息接收组件110时，一些消息可以流入蜜罐组件180。一般而言，蜜罐中找到的消息通常是兜售信息。因此，可以收集标识这些消息的信息，以供以后过滤器更新组件160在更新或构建过滤器时使用。

数据也可以来自其它来源185，包括“这是垃圾”、“这不是垃圾”，或者来自新设置中所配置的反馈回路技术，或者来自其它来源。

可以由过滤器更新组件160收集用户反馈，并且然后将用户反馈用于更新过滤器130。应当理解，隔离时间段可以具有被设置的持续时间。例如，它可以是自动或手动设置的任何长度的时间，诸如1小时、6小时或24小时。意思是，在消息被移动到延迟消息存储140之后，可以收集1小时、6小时或高达24小时或更多小时的信息。在一些情况下，对被缓流出的消息的用户抱怨的缺乏可以表示该消息(例如，同一消息的多次复制或者每个发送者的许多不同消息)更可能是合法的并且更不可能是兜售信息。

除了用户反馈之外，还可以由消息分析组件190收集信息，该消息分析组件190可操作地被连接到延迟消息存储140。消息分析组件190可以相对于每个发送者的量和被隔离消息之间的相似性监视被隔离消息，并且也可以对它们的内容和/或发源信息进行分析。例如，以少量(例如，每小时少于20、每小时少于50、每小时少于1,000等)发送的消息是兜售信息的可能性比大量(例如，每小时10,000、每小时100,000等)发送的消息更低，以大量发送是更典型的兜售信息发送者的行为。因此，一个特定发送者正发送少量消息的信息可能是得知发送者并且用于更新过滤器130的一个特征，所以在将来，发送者的消息可以不被认为是可疑的，而相反被分类为好的。

此外，可以就被隔离消息的至少一个子集计算散列函数，以便确定该消息在诸如每个发送者之间的相似性。例如，基于内容或基于发送者，可以将隔离区中的消息与其它最近的消息进行比较。如果具有相同或相似散列或来自相同或相似用户的其它最近的消息被用户报告为垃圾、在反馈回路中被分类为垃圾或者到达蜜罐中，则该消息可以被分类为兜售信息。如果类似的消息被标记为好，或者从隔离区或者垃圾文件夹中被救出，或者在反馈回路中被分类为好，则该消息可以被分类为好。如果许多类似的消息到达了消息接收组件，那么这类消息的量可以是一个表示该消息是兜售信息的指示符。如果许多类似消息被传递到用户的收件箱(例如，通过缓流)，并且没有或极少被用户标记为垃圾，那么这可以被看作是一个表示该消息是好的标识符。如果没有类似的消息到达蜜罐中，这可以被看作是一个表示该消息是好的标识符。

当隔离时间段结束时，过滤器130可以被相应地更新(例如，被更新的过滤器可以被表示为第二分类组件)，并且被隔离的消息可以被重新过滤，以便分类为兜售信息或好的。至少部分地基于通过训练从对被隔离消息的反馈中产生的数据的过滤器更新通常可以如由用户(例如，对于个人过滤器)、客户机和/或服务器所确定的进行。过滤器的更新还可以被设置为与隔离时间段的长度相符，反之亦然。

现在转到图2，示出了便于消息分类的隔离系统200的方块图。系统200包括一个或多个消息过滤器210，通过该消息过滤器210，新的消息可以被处理以便分类为兜售信息或好的。诸如通过阈值分析没有明确地限定在兜售信息或好的下的消息，可以被看作是可疑的，并且被移到一个特殊的隔离文件夹220，直到可以为过滤器210提供有关该消息或消息发送者的进一步的数据为止。这与消息救出系统形成直接对照。与本发明不同，实现消息救出的系统将不确定的消息分类为兜售信息并且将它们移动到兜售信息文件夹。由于某个人将非常类似的消息分类为好的，这种“兜售信息”消息之后被救出。在本发明中，消息可以被认为“可疑”，并且作为兜售信息或好的的分类可以被暂时延迟，以便有时间了解有关它们的更多信息。

可以使用的一种学习技术涉及接收有关可疑消息的辅助数据230。在一些情况下，一些可疑消息可能被释放(被缓流出)到它们预定的接收者。可替换地，反馈回路可用于对一些消息进行采样。可替换地，一些数据可以被传递到蜜罐。可替换地，数据可以来自“这是垃圾”报告；来自“这是非垃圾”报告；或者来自在新的设置中所部署的反馈回路技术；或者来自其它来源。

在其它情况下，用户可以访问他们的隔离消息文件夹。当发生这一情况时，用户可以提供对被隔离消息的至少一个子集的反馈。然后，类似的消息也可以被给予类似的对待，使得用户不需要提供对所有被隔离消息的反馈。这可能相对比较重要，因为数千消息可能被隔离，由此暂时延迟了他们作为兜售信息或好的的分类。

该反馈可以采用来自具有对特定消息的某些访问权限的用户的正面或者负面注解的形式。例如，正面注解可以包括消息是好的的肯定“声明”。此外，正面注解可包括缺少新的负面注解和/或缺少对类似信息方面的新的抱怨。

还可以收集对被隔离消息的系统反馈。这可以包括根据监视在隔离文件夹220中的消息的至少一个子集的特性所收集到的数据，这些特性诸如量(消息的少量或大量)、消息与其它被隔离消息的相似性、和/或消息与蜜罐消息的相似性。这个信息与任何可用的用户反馈一起由过滤器更新组件240用作相应的特征(或训练数据)，以便训练和更新过滤器210。然后根据这一点，可以生成已更新过滤器250。被隔离的消息可以实质上部分地通过已更新过滤器250，以便重新开始该分类过程。因此，一旦被分类，指定的兜售信息就可以从隔离文件夹中永久删除，或者被发送到回收站以便删除。第一传递组件270可以从隔离区中释放“好的”消息，以便传递给它们预定的接收者。如果隔离文件夹同时不是垃圾文件夹，被隔离的消息则可以通过第二传递组件280放入垃圾文件夹中。如果隔离文件夹是垃圾文件夹，则被隔离的消息可以移除一个专门的“被隔离”标记。

图3展示了按照本发明一个方面的与隔离系统300有关的优点的另一个视图。尤其是，该视图示意性地说明了一个新的收到的消息可能经历的一个特定过程。该消息通过过滤器310进行初始处理。例如，该过滤器已经被训练用于通过计算概率得分来区分好的320和兜售信息330的消息。然而，一些消息可能落在被决定性地分类为兜售信息或好的的边缘上。这些可以是可疑消息340。这么做的一个原因是，过滤器可能缺少有关该消息的信息，仅仅因为该消息包括它之前没有看到或者没有认出的方面或特征。对于这些特定消息，作为兜售信息330或好的320的分类被推迟一段时间(350)。这个时间段允许过滤器在提交给兜售信息或好的分类之前了解更多与该消息有关的信息(360)。结果，因为不会简单地由于是个无知的过滤器或者是个缺乏适当信息的过滤器而将以前从未看到的“好的”消息任意地分类为“兜售信息”，可以减少分类出错率，并且可以增加用户的满意度。

该过滤器可以被更新(370)，并且可以重新开始该消息是好的380或是兜售信息390的分类。应当理解，该时间段应当足够长，从而更多的数据可以用于并且得以有利于被隔离消息作为好的或者兜售信息的分类。换言之，一旦已经过了隔离时间段，“可疑的”标签可以不再可用或者适用于被隔离消息。

现在转到图4，它是能够导致消息的分类和隔离的暂时延迟的示例性例子的示意性说明400。当消息首次到达消息接收组件(例如，图1的110)时，可以由一个或多个过滤器对它们评估，并且然后记分。该概率得分是指一个特定消息是兜售信息的可能性。这个得分可以与诸如删除阈值和移动阈值等阈值进行比较。

满足或超过删除阈值的消息可以被认为是兜售信息或者至少比较象兜售信息发送者。给定一个最佳的概率得分0＝好的消息，而最佳得分1＝兜售信息或垃圾消息，可以确定，计算出的0与上至大约0.8之间的记分反映好的消息(或者消息太象好的而不能冒险放入垃圾文件夹中的消息)(因此，得以被传递)，大约0.8与上至0.99之间的记分反映可能是垃圾(因此，可以被放入垃圾文件夹)，并且大约0.99至1之间的记分反映出是垃圾或兜售信息(因此，可以非常确定地删除)。其得分在或者接近是兜售信息或者好的边缘或者对其定义了一些可配置的动作的阈值的消息，可以被选出以便隔离。另外，可以进行一些其它可配置的动作，诸如以某种特定方式标记该消息或者发送给消息管理者以便调查该消息。

对于也许由于是过滤器以前没有见过的新的IP地址而可能被认为是可疑的一些消息，隔离可能是或者不是有益的。即，一些消息可能接近该边缘，但是其得分没有改变太多，以致甚至在了解更多有关它们的信息之后做出是兜售信息或者好的的确定分类。例如，考虑来自虚构的发送者Large Good Newspaper Corp和Mostly Evil SpammerInc.的消息。来自Large GoodNewspaper Corp的消息被分配了是兜售信息的25％的可能性(阈值)，而来自Mostly Evil Spammer Inc.的消息被分配了80％的可能性。这个百分数是基于以前获得的并且用于训练过滤器(通过机器学习技术)的大量信息或训练数据的。Large Good Newspaper Corp显然没有去抖动(debounce)它们的列表，并且因此大约四分之一的过滤器用户将这个消息标记为兜售信息(例如，一些用户忘记他们定购过而将其标记为兜售信息)。因此，过滤器给予他们的消息是兜售信息的大约25％的可能性，这个值足够低以致可以通过过滤器但可能足够高以致被隔离。然而，这些消息始终处于25％的等级；并且由于过滤器等着看是否获得了更多的信息或者看明天对于那些信息的得分是否会改变，因此不需要向每个接收者给出一天或更晚的其Large God Newspaper Corp大标题。类似地，一天天地，来自Mostly Evil Spammer Inc.的消息始终是80％的兜售信息。因此，在这些情况的任何一个中，隔离可能不是可以采取的最优的或者最有效的方法，因为辅助信息更不可能改变任何一个分类。

因此，如果已经知道有关消息的相对大量数据，那么用户或者过滤器系统可以决定不隔离，因为辅助信息未必会影响分类的改变。大量数据可以涉及与该IP地址、消息中的链接、发送者的域名(尤其当被组合了抗电子欺骗机制)、消息中的文字以及任何其它特征有关的任何数据。因此，对于正被检查的特征，可以确定该过滤器是否已经具有用于每个发送者的那些特征的许多信息，以便于做出决定去隔离或不隔离。

然而，到阈值的距离并不是确定何时隔离的唯一答案。尤其是，考虑消息的IP地址。当IP地址以前没有见过时，它通常可以被隔离——除非根据该消息的其它特征，该消息明显是兜售信息或好的。如果接收到具有之前没有见过的IP地址的消息，则有三种可能性：

●它是少量IP地址(例如，也许是用于小企业或个体的服务器，并且它不是兜售信息——或者至少它是被特别确定目标的兜售信息)；

●它是也许用于大的合法公司的由于添加了更多服务器(例如，纽约时报)的新的IP地址——也不是兜售信息；或者

●它是兜售信息发送者的IP地址。

通过等待甚至是几个小时，过滤器也许能够区分这三种可能性，并且得到非常有用的信息。对于未知的IP地址，也许希望延迟该消息(暂时隔离)，即使该消息落在一个相当宽的范围内。发送者的域可以以类似方式处理。由于抗电子欺骗技术变得更加普遍，所以消息可以被隔离，以及查实某些可疑消息的真正发送者。此外，如果对于发送者的IP地址不存在反向IP地址入口和/或在发送者的域上的前向查找与发送者的IP地址不是至少近似匹配，那么该消息就会被隔离(430)。

兜售信息的另一个实质指示符是被嵌入的域的存在，尤其是在链接中。如果消息包含以前从未或者极少看到的域名，那么它可能被认为是可疑的。正像IP地址一样，这种消息的延迟传递会有助于将它们正确地分类为兜售信息或好的。某些类型的附加文件(440)尤其可疑(例如通常有病毒)，并且包含这种扩展名的消息(例如，具有嵌入宏的可执行文件或文档文件)会被隔离。

隔离还能够检测在基于关键字的过滤中使用漏洞的企图。例如，如果兜售信息发送者发现许多好的文字并且将这些好的文字添加到他们的消息中，但是一些坏的文字仍然是可检测的，则该消息会被看作是可疑的(即使它具有好的整体得分)。例如，该消息可能被阻止分类几个小时，并且通过反馈回路系统，许多这类消息可以被发现。此后，过滤器可以了解，这类消息确实是坏的。为了与这类发送者的策略抗争，以前认为是好的文字会被降低权重(downweighted)，并且该过滤器可以了解，该消息的来源是坏的，等等。换言之，当消息对于机器学习过滤器来说因为它包括相矛盾的证据而看起来很难时，它会被隔离。此外，对于任何类型的过滤器来说因为它包括难以解析的HTML或者主要包括图像而看起来很难的任何消息都会被隔离。总而言之，在被确定是否隔离消息之前，可以执行多个特征的评估。

一般地，个别用户往往接收来自相对少量位置并且采用少量语言的消息。相对于个人过滤器，当用户接收来自他们通常不接收来自其的好消息的位置的消息，或者以他们通常不以其接收好消息的语言的消息时，该消息也会被隔离。可以部分地基于地理位置、IP地址、IP地址分配信息、FROM域名中的国家代码等确定该位置。

现在转到图5，示出了按照本发明在至少一个服务器和至少一个客户机之间的示例性高级通信体系结构500，其中，至少在该服务器上使用了隔离。在一些情况下，可能希望以某种方式指示出消息已经被隔离。例如，如果客户机和服务器两者均实现隔离，对于客户机，也许不希望隔离已经在服务器上被隔离的消息。可替换地，通过从客户机可能隔离该消息的时间量中减去该消息在服务器上被隔离的时间量，客户机可以适当减少隔离时间。

如图中所示，进入服务器的消息通过一个或多个过滤器_s510，并且然后直达客户机或者隔离在他们被保存530的位置以便分析和调查520。随后，来自服务器的已被隔离的(并且已经被从隔离区中释放的)或者未被隔离的消息被传递给位于客户机上的一个或多个过滤器_c540。此时，可以简单地由过滤器540对消息进行分类，并且然后传递给适当的收件箱550。

现在转到图6，示出了涉及与收到的消息610有关的消息处理器605的操作的隔离系统600的示意性视图。消息610采用其到达的日期和时间而被做了时间标记(615)，并且随后进入它被过滤(620)的消息处理器605。由于缺少与该消息有关的信息，该消息被标记以便隔离(630)。作为隔离的结果，在一个延迟时间段的整段时间内，消息作为兜售信息或好的分类被延迟。

当消息被标记用于隔离时，该延迟时间段(635)开始并且会继续由系统或用户设置的任何数量的时间。例如，部分地基于下一个过滤器更新(已调度的更新)，该过滤器可以提供建议的隔离时间。因为可以通过API(应用程序接口)实现隔离，所以也能够将m次(例如，大于或等于1的整数)隔离(有侵略性的、适度的、稳妥的)传递到适当的API中。在下文图10中有关API做进一步的讨论。

在该延迟时间段期间，例如通过收集来自用户的反馈以及根据监视或分析隔离区中所保存的消息所做出的观察报告，过滤器可以了解有关该消息的更多信息(640)。当延迟时间段结束时(645)过滤器会被更新(650)，并且被隔离消息会被分类为好的或者兜售信息(660)。对于现在被分类为好的被隔离消息，由服务器接收的它们的初始时间标记，例如，也许比它们的释放日期和/或传递日期早数小时或数日。对于按照收到/到达日期对他们的消息进行分类的用户而言，可能会有问题。因此，尤其当隔离时间段持续了数小时以上并且延续了一天或数天时，从隔离区中释放的“好的”消息也可以采用它们的释放日期做时间标记(670)。例如，此消息可以包括日期和/或可以主要根据它们的释放日期来分类。

现在将通过一系列的动作来描述按照本发明的不同方法。应当懂得并且理解，本发明并不被动作的顺序所限制，因为按照本发明，一些动作可以不同的顺序进行和/或同时与根据此处所示并且所描述的其它动作一起进行。例如，本领域技术人员将懂得并理解，一种方法可以替换地表示为一系列相关状态或事件，例如以状态图表示。还有，可以要求未被全部说明的动作去实现按照本发明的方法。

参见图7，示出了便于延迟可疑或有问题的消息的分类的示例性过程700的流程图。在710，过程700涉及接收收到的信息以便分类为兜售信息或好的。在720，可以确定过滤器是否已经具有足够的信息来将该消息分类为兜售信息或好的。如果是，那么在730，该消息可以被分类并且接着，在740，好的消息可以被传递而兜售信息消息可以被丢弃。由于收到的消息继续被接收，这个过程可以在710重新开始。应当理解，不隔离来自安全列表上的发送者的消息，尽管它们或许看似可疑。如果用户注意到特定的消息始终在隔离之下(对每个发送者)，那么用户可以向他们相应的接收者安全列表添加发送者。

然而，如果在720缺少信息，那么在750就延迟分类，并且该消息会被移动到隔离文件夹或者其它类型的专门文件夹一个延迟时间段的时间。在这个延迟时间段期间，在760，可以收集与该消息或者消息的发送者有关的更多信息。与该过程的这个阶段有关的进一步细节会在下文的图8中找到。在770，收集到的任何信息或数据都可以被反馈给过滤器，以便更新该过滤器(通过机器学习技术)。在下文的图9中，讨论与该过程的这个阶段有关的补充细节。

继续与该消息有关的数据的收集，直到延迟时间段结束为止(780)。当延迟时间段结束时，在790，利用已更新的过滤器，该消息(或者至少一个子集)会被分类为兜售信息或好的。在740，兜售信息消息会被丢弃，而好的消息会被传递。

现在参见图8，示出了可以在诸如上文图7中的760收集到的信息的示例性类型的流程图。例如，在810，可以监视消息量，以便确定该发送者是少量还是大量发送者。此外，每个发送者发送消息的速率也可以指示类似兜售信息发送者的行为。例如，一小时发送数百封电子邮件与一小时发送数千封电子邮件形成直接对照。

在820，被隔离消息也可以与蜜罐消息进行对比。回想蜜罐是兜售信息消息的可靠来源。因此，类似蜜罐消息的被隔离消息也许更像兜售信息。当确定如何分类该消息时，这个信息可能对过滤器非常有用。

在830，可以为用户提供一个机会来提供关于被隔离消息的至少一个子集是不是兜售信息的输入。尤其是，出于核对用户抱怨的目的，可以设计隔离系统，以便一些消息缓流出隔离区或者被允许通过过滤器(绕过过滤器)。例如，当检测到来自新的IP地址的消息时，过滤器可以被编程为在没有隔离的情况下允许前1,000个或者甚至10,000个消息通过过滤器。可替换地，可以允许固定百分比的消息通过。之后，隔离来自相同IP地址的消息，直到足够数量的用户已经有时间检查该消息并且如果它们是否是兜售信息则抱怨为止。在过了足够量的时间以后，可以决定分类为好的或者兜售信息。

在850，可以分析被隔离消息的相似性。尤其是，为该消息(或者至少一个子集)计算散列值，以便确定哪个消息在不同的发送者或者每个发送者之间彼此相似。大量类似的消息可以指示兜售信息，并且这个信息可以被用于更新该过滤器。此外，被隔离消息可以与已经被分类为兜售信息或好的最近被隔离的消息进行比较。当发现类似消息时，从隔离区中移出它们，并且被分类为它们更早的对应物。此外，基于发送者的分析(例如，发送者的IP地址)，可以比较这些消息。

在860，收集反馈回路数据。由于一些消息进入，向接收者发送特定的询问，尤其是问他们将该消息分类为好的还是兜售信息。

图9描绘了示例性过程900的流程图，它描绘了在隔离时间段期间所收集的信息如何可以被用于改进消息的分类。在910，例如，该信息可以与机器学习技术一起被用作训练数据，以便有效地更新兜售信息过滤器。通过更新兜售信息过滤器，可以改进消息作为兜售信息或好的分类，以便减轻错误-好的或者错误-兜售信息的分类。可替换地或者另外，在920，所获得的信息的至少一个子集可以被用于为最近被隔离的消息构建或训练新的兜售信息过滤器(子过滤器)。

还有，可以使用与隔离有关的一种机器学习方法。尤其是，该过程(或相关联的系统)可以为每个消息记录隔离是否已经改变了该消息的分类。如果是，该消息应当已经被隔离了，如果不是，它应当还未被隔离。接着，基于这个数据，该过程和/或系统可以了解到，哪些消息应当被隔离。这个机器学习方法可以考虑可以用于隔离的任何特定的特征。示例性的特征包括但并不限于，来自大量IP地址；该消息的IP地址(如果它来自Mostly evil spammer Inc.或者Large Good Newspaper Corp，那么我们就知道该分类倾向于稳定)；来自未知IP地址或者包含未知的域名；包含许多好的和坏的特征；等等。

现在参见图10，说明了示例性过程1000的流程图，该过程可以至少部分地在一个API中实现，以便实现本发明的一个方面。过程1000涉及在1010为每个收到的消息计算兜售信息概率。在1020，至少部分地基于各个计算出的兜售信息概率(得分)，过滤器可以确定是否隔离一个特定的消息。在1030，部分地基于下面的至少一个，可以建议一个隔离时间：

●该消息是兜售信息的概率(得分)；

●下一过滤器更新的时间、下一过滤器下载的时间(在该时间上，该过滤器可以决定是继续隔离还是做出最终决定，并且重复，直到做出最终决定为止)；和/或

●不确定性的等级。

可替换地或另外，可以将m个隔离次数(有侵略性的、适度的、稳妥的)传递给API。可以通过传递给API的值来告知关于是否隔离以及隔离多久的建议。(兜售信息)过滤器可以返回与消息是否是兜售信息以及该消息是否应当被隔离有关的信息——并且包括隔离该信息多久。最初，所建议的隔离时间可能简单地基于兜售信息概率，但是也可以考虑其它因素以及诸如以上所讨论的那些因素。

服务器和客户机都可以相对于它们的过滤器实现隔离。因此，如果服务器和客户机都使用这种过滤器并且服务器隔离了消息，则在1040，这个信息可以被传送给客户机过滤器。此外，如果客户机过滤器也进行了隔离，那么，服务器上的隔离时间的长度会被传送给客户机过滤器，由此在1050，可以减少客户机隔离时间，或者依照服务器隔离时间，不被调用或不被应用于特定的消息。

还有，由过滤器或兜售信息过滤器进行的消息分类的暂时延迟，尤其是，带来了有利于预防兜售信息的更加健壮的过滤机制。此外，在好的消息传递中的不必要的延迟减轻了用户的不满，因为不是所有有问题的消息都要进行隔离。相反，如在此以上所讨论的，过滤器或过滤系统可以使用多种因素和/或技术，以便完成智能隔离系统。

为了为本发明的不同方面提供辅助环境，图11以及以下讨论旨在给出适当操作环境1110的一种简要的一般说明，在该操作环境1110中，可以实现本发明的不同方面。尽管以诸如由一个或多个计算机或其它设备所执行的程序模块等计算机可执行指令的一般环境描述了该发明，但是本领域技术人员将认识到，该发明也可以与其它程序模块共同实现和/或作为硬件和软件的组合来实现。

然而，一般地，程序模块包括例程、程序、对象、组件、数据结构等，它们执行特殊的任务或者实现特殊的数据类型。操作环境1110仅仅是适当操作环境的一个例子，并且并不旨在暗示是对本发明的使用范围或功能的任何限定。其它众所周知的可以适于与该发明一起使用的计算机系统、环境和/或配置包括但并不限于个人计算机、手持型或膝上型设备、多处理器系统、基于微处理器的系统、可编程消费电子产品、网络PC、微型计算机、大型计算机、包括以上系统或设备的分布式计算环境等。

现在参见图11，用于实现本发明的不同方面的示例性环境1110包括计算机1112。计算机1112包括处理单元1114、系统存储器1116以及系统总线1118。系统总线1118将系统组件与处理单元1114相耦合，该系统组件包括但并不限于系统存储器1116。处理单元1114可以是不同的可用处理器中的任何一种。也可以将双微处理器和其它多处理器体系结构用作处理单元1114。

系统总线1118可以是多种类型的总线结构中的任何一种，包括存储器总线或存储器控制器、外围总线和/或使用任何种类的可用总线体系结构的局部总线，该可用总线结构包括但并不限于11-位总线、工业标准体系结构(ISA)、微通道体系结构(MSA)、扩展的ISA(EISA)、智能驱动电子技术(DE)、VESA局部总线(VLB)、外围组件互连(PCI)、通用串行总线(USB)、加速图形接口(AGP)、个人计算机存储卡国际协会总线(PCMCIA)以及小型计算机系统接口(SCSI)。

系统存储器1116包括易失性存储器1120和非易失性存储器1122。基本输入/输出系统(BIOS)被存储在非易失性存储器1122中，该BIOS包含基本例程以便诸如在启动时在计算机1112内的元件之间传送信息。以示意的方式而非限定的方式，非易失性存储器1122可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除ROM(EEPROM)或者闪存。易失性存储器1120包括随机存取存储器(RAM)，它用作外部高速缓冲存储器。以示意的方式而非限定的方式，RAM可以以任何形式使用，诸如同步RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDR SDRAM)、增强的SDRAM(ESDRAM)、同步链接DRAM(SLDRAM)以及直接Rambus RAM(DRRAM)。

计算机1112还包括可移动/不可移动、易失性/非易失性计算机存储介质。图11说明了，例如磁盘存储1124。磁盘存储1124包括但并不限于一些设备，如磁盘驱动器、软盘驱动器、磁带驱动器、Jaz驱动器、Zip驱动器、LS-100驱动器、闪存卡或存储棒。此外，磁盘存储1124可以单独包括存储介质与其它存储介质相组合，该其它存储介质包括但并不限于光盘驱动器，诸如光盘只读存储器设备(CD-ROM)、CD可记录驱动器(CD-R驱动器)、CD可重写驱动器(CD-RW驱动器)或者数字多功能盘ROM驱动器(DVD-ROM)。为了便于将磁盘存储设备1124连接到系统总线1118，通常使用可移动的或不可移动的接口，诸如接口1126。

应当理解，图11描述了用作用户和适当操作环境1110中所描述的基本计算机资源之间的中介的软件。这种软件包括操作系统1128。操作系统1128可以被存储在磁盘存储1124上，用于控制并分配计算机系统1112的资源。通过被存储在系统存储器1116中或磁盘存储1124上的程序模块1132和程序数据1134，系统应用1130利用操作系统1128对资源的管理。应当理解，本发明可以采用各种不同的操作系统或者操作系统的组合来实现。

通过输入设备1136，用户将命令或信息输入到计算机1112中。输入设备1136包括但并不限于指示设备，诸如鼠标、跟踪球、指示笔、触摸垫、键盘、麦克风、操纵杆、游戏垫、圆盘式卫星天线、扫描仪、TV调谐器卡、数码相机、数码摄像机、web相机等。通过系统总线1118经由接口端口1138，这些和其它输入设备连接到处理单元1114。接口端口1138包括，例如，串行端口、并行端口、游戏端口以及通用串行总线(USB)。输出设备1140使用一些与输入设备1136相同类型的端口。因此，例如，USB端口可以被用于向计算机1112提供输入，并从计算机1112向输出设备1140输出信息。提供输出适配器1142，以便说明在其它输出设备1140中需要专门适配器的一些输出设备1140，如监视器、扬声器以及打印机。输出适配器1142包括，以示意的方式而非限定的方式，视频和音频卡，它提供了在输出设备1140和系统总线1118之间的连接的装置。应当注意，其它设备和/或设备的系统也可以提供输入和输出能力，诸如远程计算机1114。

利用到一个或多个远程计算机，诸如远程计算机1144的逻辑连接，计算机1112在网络化的环境中操作。远程计算机1144可以是个人计算机、服务器、路由器、网络PC、工作站、基于微处理器的设备、对等设备或其它公共网络节点等，并且通常包括与计算机1112有关所述的许多或所有元件。为简洁起见，只将存储器存取设备1146与远程计算机1144一起进行了说明。远程计算机1144通常通过网络接口1148被连接到计算机1112，并且然后通过通信连接1150被物理地连接。网络接口1148拥有通信网络，诸如局域网(LAN)和广域网(WAN)。LAN技术包括光线分布式数据接口(FDDI)、铜线分布式数据接口(CDDI)、以太网/IEEE1102.3、令牌环/IEEE1102.5等。WAN技术包括但并不限于，点对点链接、诸如综合业务数字网(ISDN)及其变体等电路交换网络、分组交换网络以及数字订户线(DSL)。

通信网络1150涉及用于将网络接口1148连接到总线1118的硬件/软件。尽管为说明的清晰性示出通信连接1150在计算机1112内，它也可以对计算机是外部的。连接到网络接口1148所必需的硬件/软件包括，仅为示例性目的，内部和外部技术，如包括常规电话级调制解调器、电缆调制解调器和DSL调制解调器等调制解调器、ISDN适配器和以太网卡。

以上已经描述的内容包括本发明的例子。当然，它不可能出于描述本发明的目的而描述组件和方法的每一种可以想到的组合，但是本领域普通技术人员可以意识到，可能有本发明的许多进一步的组合和置换。因此，本发明旨在包含所有这种改变、修改以及变更，它们都落在了所附权利要求的精神和范围内。还有，在详细的说明书或权利要求书中使用了术语“包括”的意义上，这个术语旨在以类似于术语“包含”在权利要求中用作过渡词时解释的“包含”的方式是包含性的。

Claims

1.一种与兜售信息预防有关的便于对消息进行分类的系统，其特征在于，包括：

接收一组消息的组件；

第一分类组件，将所述消息的子集标识为兜售信息或者标记以进一步分析，并且暂时延迟所述消息的所述子集的进一步分类；以及

第二分类组件，在一延迟时间段之后对所述消息的所述子集进行分类，其中所述第二分类组件是基于在所述延迟时间段内与可疑消息相关联的辅助数据训练的更新的过滤器，其中所述延迟时间段是部分地基于以下至少之一来确定的：所述消息的所述子集是兜售信息的可能性、下一过滤器更新的时间、下一过滤器下载的时间、与所述消息的所述子集相关联的不确定性的等级。

2.根据权利要求1所述的系统，其特征在于，所述第二分类组件基于缺少足够的新负面信息而将所述消息的子集中的一些标识为好的。

3.根据权利要求1所述的系统，其特征在于，所述第二分类组件基于除了与好的消息严格匹配之外的新的正面信息而将所述消息的子集中的一些标识为好的。

4.根据权利要求1所述的系统，其特征在于，所述消息基于缺少信息而被分类为兜售信息或被标记或延迟。

5.根据权利要求1所述的系统，其特征在于，所述消息基于来自一机器学习兜售信息过滤器的已更新信息而重新分类。

6.根据权利要求2所述的系统，其特征在于，所述缺少足够的新负面信息包括缺少在蜜罐中类似消息的出现。

7.根据权利要求2所述的系统，其特征在于，缺少足够的新负面信息包括缺少对类似消息的用户抱怨。

8.根据权利要求2所述的系统，其特征在于，缺少足够的新负面信息包括缺少来自向用户轮询消息的至少一个子集的信息。

9.根据权利要求2所述的系统，其特征在于，缺少足够的新负面信息包括少量的类似消息。

10.根据权利要求8所述的系统，其特征在于，所述消息基于发送者的身份被分类为相似。

11.根据权利要求10所述的系统，其特征在于，所述发送者身份基于其IP地址来分类。

12.根据权利要求8所述的系统，其特征在于，所述消息的相似性是基于所述消息中所包含的URL的。

13.根据权利要求1所述的系统，其特征在于，最初被分类为兜售信息的消息基于新的信息被删除。

14.根据权利要求1所述的系统，其特征在于，所述兜售信息被永久删除。

15.根据权利要求1所述的系统，其特征在于，所述兜售信息被移动到一已删除消息文件夹。

16.根据权利要求1所述的系统，其特征在于，它还包括一反馈组件，它接收与所述第一和/或第二分类组件有关的信息，并且使用所述信息来训练兜售信息过滤器或填充兜售信息列表。

17.根据权利要求1所述的系统，其特征在于，所述消息包括电子邮件和消息中的至少一个。

18.根据权利要求1所述的系统，其特征在于，接收一组消息的所述组件是电子邮件服务器、消息服务器以及具有客户机电子邮件软件的客户机中的任何一个。

19.根据权利要求1所述的系统，其特征在于，它还包括一隔离组件，它至少部分地基于如由所述第一分类组件标记用于进一步分析的标识，隔离所述消息的子集。

20.根据权利要求19所述的系统，其特征在于，所述隔离通过将所述消息的子集放入一与其它消息分离的文件夹来实现。

21.根据权利要求20所述的系统，其特征在于，所述文件夹对于用户是可见或不可见的。

22.根据权利要求1所述的系统，其特征在于，它还包括一标识组件，它标识与所述消息的子集的高发生性有关的来源。

23.根据权利要求1所述的系统，其特征在于，它还包括一时间标记组件，它标记所述消息的初始到达日期和重新开始所述消息的分类的释放日期中的至少一个。

24.根据权利要求1所述的系统，其特征在于，所述消息的子集排除了来自安全列表上的发送者的消息、容易地被标识并且被分类为兜售信息的消息、容易地被标识并且被分类为好的消息中的至少一个。

25.根据权利要求1所述的系统，其特征在于，所述第一分类组件在执行所述消息的子集的分类之前，确定所述延迟时间段。

26.一种使用权利要求1所述的系统的服务器。

27.一种使用权利要求1所述的系统的电子邮件系统。

28.一种用于分类消息的方法，其特征在于，包括：

接收一组消息以供分类；

基于缺少足够的信息，暂时延迟把所述消息的至少一个子集分类成兜售信息或是好的，或者最初将所述消息的所述子集分类为不可信的或可疑的；以及

在一延迟时间段之后，通过使用基于在所述延迟时间段内与可疑消息相关联的辅助数据训练的经更新的过滤器，将所述消息的不可信的或可疑的子集分类成兜售信息或是好的，其中所述延迟时间段是部分地基于以下至少之一来确定的：所述消息的所述子集是兜售信息的可能性、下一过滤器更新的时间、下一过滤器下载的时间、与所述消息的所述子集相关联的不确定性的等级。

29.根据权利要求28所述的方法，其特征在于，还包括训练一机器学习过滤器以确定有助于正确的最终分类的隔离可能性。

30.根据权利要求28所述的方法，其特征在于，它还包括当出现以下情况中的至少一种时重新进行分类：

过了隔离时间段；以及

已经获得了与所述消息的子集有关的辅助信息，以便将所述子集中的各个消息分类为兜售信息或好的。

31.根据权利要求28所述的方法，其特征在于，所述消息的子集排除容易被分类为兜售信息或好的消息或是来自安全列表上的发送者的消息。

32.根据权利要求28所述的方法，其特征在于，暂时延迟所述消息的分类至少部分地基于以下的至少一个：

所述消息上的发送者的IP地址以前没有见过；

发送者的域以前没有见过；

发送者的域缺少反向IP地址；

在发送者的域上的前向查找与发送者的IP地址不是至少近似地匹配；

所述消息包括被嵌入的域名、被嵌入的宏以及可执行文件中的至少一个；

所述消息包括好的消息和兜售信息消息的相矛盾的证据；

所述消息最初来自与兜售信息相关的位置；

所述消息以与兜售信息相关的语言写出；

所述消息主要包括图像；以及

所述消息包括HTML。

33.根据权利要求28所述的方法，其特征在于，它还包括至少传递可疑消息的一个子集。

34.根据权利要求33所述的方法，其特征在于，所述可疑消息的子集被传递给它们各自预定的接收者，并且它们的动作便于确定所述消息的子集是兜售信息还是好的。

35.根据权利要求33所述的方法，其特征在于，为其寻找反馈的所述消息的子集是每个发送者固定百分比的消息或者固定量的消息，该消息被暂时延迟分类。

36.根据权利要求33所述的方法，其特征在于，为其寻找反馈的所述消息的子集被允许通过而不被分类为兜售信息或是好的，以便于了解与所述消息有关的更多信息。

37.一种用于分类消息的系统，其特征在于，它包括：

用于接收一组消息以供分类的装置；

用于基于缺少足够的信息，暂时延迟把所述消息的至少一个子集分类成兜售信息或是好的，或者最初将所述消息的所述子集分类为不可信的或可疑的装置；以及

在一延迟时间段之后，通过使用基于在所述延迟时间段内与可疑消息相关联的辅助数据训练的经更新的过滤器，将所述消息的不可信的或可疑的子集分类成兜售信息或是好的的装置，其中所述延迟时间段是部分地基于以下至少之一来确定的：所述消息的所述子集是兜售信息的可能性、下一过滤器更新的时间、下一过滤器下载的时间、与所述消息的所述子集相关联的不确定性的等级。