WO2002067142A2 - Dispositif d'extraction d'informations d'un texte a base de connaissances - Google Patents

Dispositif d'extraction d'informations d'un texte a base de connaissances Download PDF

Info

Publication number
WO2002067142A2
WO2002067142A2 PCT/FR2002/000631 FR0200631W WO02067142A2 WO 2002067142 A2 WO2002067142 A2 WO 2002067142A2 FR 0200631 W FR0200631 W FR 0200631W WO 02067142 A2 WO02067142 A2 WO 02067142A2
Authority
WO
WIPO (PCT)
Prior art keywords
selection
information extraction
module
text
learning
Prior art date
Application number
PCT/FR2002/000631
Other languages
English (en)
Other versions
WO2002067142A3 (fr
Inventor
Thierry Poibeau
Celestin Sedogbo
Original Assignee
Thales
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thales filed Critical Thales
Priority to US10/467,937 priority Critical patent/US20040073874A1/en
Priority to EP02704865A priority patent/EP1364316A2/fr
Publication of WO2002067142A2 publication Critical patent/WO2002067142A2/fr
Publication of WO2002067142A3 publication Critical patent/WO2002067142A3/fr

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

L'invention porte sur un dispositif et un procédé permettant d'extraire des informations d'un texte non structuré, lesdites informations comprenant des occurences pertinentes de classes/entités recherchées par l'utilisateur et les relations entre ces classes/entités. Le dispositif et le procédé s'améliorent de manière semi-automatique sur un domaine donné. Le passage d'un domaine à un domaine nouveau est également grandement facilité par le dispositif et le procédé de l'invention.

Description

DISPOSITIF D'EXTRACTION D'INFORMATIONS D'UN TEXTE A BASE
DE CONNAISSANCES.
La présente invention appartient au domaine de l'extraction d'informations de textes non structurés. Plus précisément, elle permet la constitution et l'enrichissement d'une base de connaissances propres à un domaine qui améliorent l'efficacité de l'extraction. L'extraction d'informations (Information Extraction ou « IE » en anglais) se distingue de la collecte d'informations (Information Retrieval ou « IR » en anglais). La collecte d'informations consiste à trouver les textes contenant une combinaison de mots faisant l'objet de la recherche ou, le cas échéant, une combinaison voisine, le degré de voisinage permettant d'ordonner la collection des textes contenant ladite combinaison par ordre de pertinence. La collecte ' d'informations est particulièrement utilisée en recherche documentaire et, de plus en plus, par le grand public (utilisation des moteurs de recherche sur le réseau Internet).
L'extraction d'informations consiste à rechercher dans une collection de textes non structurés toutes les informations (et seulement celles-ci) ayant un attribut (par exemple tous les noms propres, les chefs d'entreprises, les chefs d'États, etc.) et à ranger toutes les occurrences de l'attribut dans une base de données pour les traiter ensuite. L'extraction d'informations est particulièrement utilisée en intelligence économique et dans le renseignement civil ou militaire.
L'état de la technique en extraction d'informations est bien représenté par les travaux et communications présentés aux conférences sur la compréhension des messages qui se déroulent tous les deux ans aux États-Unis (Références : Proceedings of the 5™, 6tτH and 7,TH Message Understanding Conférence (MUC-5, MUC-6, MUC-7), Morgan Kaufmann, San Mateo, CA, USA). Les algorithmes de sélection mettent en œuvre depuis longtemps déjà des automates à états finis (Finite State Tranducers, « FST », ou Finite State Machines, « FSM »). Voir notamment les brevets US 5,610,812 615,625,554. La pertinence des résultats de ces algorithmes est cependant très dépendante de la proximité sémantique des textes qui sont traités. Si celle-ci n'est plus assurée, comme dans le cas d'un changement de domaine, les algorithmes doivent être entièrement reprogrammés, ce qui est long et coûteux.
Les brevets US 5,796,926 et 5,841 ,895 enseignent l'utilisation de certaines méthodes d'apprentissage pour programmer de manière semi- automatique les algorithmes des machines à états finis. Les méthodes de cet art antérieur sont limitées à l'apprentissage de relations syntaxiques dans le contexte d'une phrase, ce qui implique la nécessité de recourir encore de manière très importante à la programmation manuelle.
La présente invention résout ce problème en permettant l'apprentissage d'autres types de relations et en étendant le champ de l'apprentissage à la totalité d'une collection de textes d'un domaine.
A ces fins, l'invention propose un dispositif d'extraction d'informations d'un texte comprenant un module d'extraction et un module d'apprentissage coopérant entre eux et comprenant des moyens pour sélectionner automatiquement dans le texte les contextes d'occurrence de classes/entités des informations à extraire, pour sélectionner automatiquement parmi ces contextes ceux qui sont pertinents pour un domaine et pour permettre à l'utilisateur de modifier cette dernière sélection de telle sorte que le module d'apprentissage améliorera la prochaine sortie du module d'extraction, caractérisé en ce que le module d'extraction comprend en outre des moyens pour identifier les relations existant dans le texte entre les entités pertinentes en sortie des moyens.
L'invention propose également un procédé d'extraction d'informations d'un texte comprenant une méthode d'apprentissage et une méthode de sélection, la méthode de sélection comprenant une étape de sélection automatique dans le texte des contextes d'occurrence des classes/entités des informations à extraire, une étape de sélection automatique parmi ces contextes de ceux qui sont pertinents pour un domaine et une étape de modification par l'utilisateur des sorties de l'étape précédente, les sorties modifiées étant prises en compte dans la méthode d'apprentissage pour améliorer le prochain résultat de la méthode de sélection, caractérisé en ce que la méthode de sélection comprend en outre des étapes pour identifier les relations existant dans le texte entre les entités pertinentes en sortie des étapes de la méthode de sélection. L'invention sera mieux comprise, et ses différentes caractéristiques et avantages ressortiront de la description qui suit d'un exemple de réalisation et de ses figures annexées, dont :
- la figure 1 expose une modalité de réalisation matérielle du dispositif ;
- la figure 2 montre l'architecture du dispositif selon l'invention ;
- la figure 3 montre l'ordinogramme de résolution des conflits en fonction du contexte ;
- la figure 4 montre l'enchaînement des étapes du procédé selon l'invention ;
- la figure 5 montre l'ordinogramme de mise en relation des entités ;
- la figure 6 montre un exemple d'analyse morpho-syntaxique ;
- la figure 7 illustre un exemple de transduction ; - la figure 8 illustre les enchaînements des étapes de sélection sur un exemple ;
- la figure 9 illustre les enchaînements des étapes d'apprentissage sur un autre exemple.
Les dessins annexés comportent de nombreux éléments, notamment textuels, de caractère certain. En conséquence, ils pourront non seulement illustrer la description, mais aussi contribuer au besoin à la définition de l'invention.
Pour être plus lisible, la description détaillée manipule les éléments de fichier en langage naturel. Par exemple, on parlera de REUTERS comme nom de l'agence (SOURCE). En fait, informatiquement, REUTERS est une chaîne de caractères représentée par des octets correspondants. Il en est de même pour les autres objets informatiques : dates, valeurs numériques, notamment. Le marquage (TAG) est aussi une opération concrète, qui, à titre de pur exemple non limitatif, est illustrée à la manière du langage XML.
Comme montré sur la figure 1 , le dispositif pourra comprendre une unité centrale et sa mémoire associée (CPU/RAM) avec un clavier et un moniteur. L'unité centrale sera avantageusement connectée à un réseau local, lui-même connecté éventuellement à un réseau étendu (ECRAN) public ou privé, le cas échéant par des liaisons sécurisées. Les collections de textes à traiter seront disponibles en format alphanumérique de plusieurs types (traitement et texte, HTML ou XML), sur des moyens de stockage (ST_1 , ST_2) qui seront par exemple des disques redondants connectés au réseau local. Ces moyens de stockage comporteront également les textes ayant subi les traitements selon l'invention (TAG_TEXT) ainsi que les différents corpus de textes par domaine (DOM_TEXT) avec les index appropriés. Seront également stockées sur ces disques la/les bases de données (FACTJDB) alimentées par l'extraction d'informations. La base de données sera avantageusement du type relationnel ou du type objet. La structure des données sera définie d'une manière connue par l'homme du métier en fonction du cahier des charges de l'application ou générée par celle-ci (voir par exemple la fenêtre FACTJDB de la figure 4).
Les textes à traiter (TEXTE) peuvent être importés sur les moyens de stockage (ST_1 , ST_2) par disquette ou autre moyen de stockage amovible ou provenir du réseau étendu, directement en format compatible avec le sous-module PREPROCJvlOD (figure 2).
Ils peuvent également être capturés sur l'un des réseaux connectés au dispositif selon l'invention par des dispositifs de capture. II peut s'agir de messages en forme alphanumérique venant par exemple d'une messagerie « capteur de texte », de documents scannés ou de fax « capteur de fax » ou de messages vocaux « capteur de voix ». Les périphériques informatiques permettant cette capture et les logiciels permettant de les convertir en format texte (reconnaissance d'image et reconnaissance de la parole) sont disponibles sur le marché. Dans le cas d'applications de renseignement, il peut être utile d'effectuer une interception et un traitement temps réel de documents échangés sur les réseaux de communication filaires ou hertziens. Dans ce cas les dispositifs spécifiques d'écoute seront intégrés dans le système en amont des périphériques de capture.
Le dispositif selon l'invention tel que schématisé sur la figure 2 comprend un module d'extraction (20) ou « EXT_MOD » auquel est présenté le texte à traiter (« TEXT », 10).
Ledit module d'extraction (20) comprend un premier programme de prétraitement (« PREPROCJvlOD », 211) qui reconnaît la structure du document pour en extraire de l'information. Les documents structurés permettent une extraction simple, sans analyse linguistique, parce qu'ils présentent des en-têtes ou des structures caractéristiques (en-têtes de courrier électronique, cartouche de dépêche d'agence). Ainsi dans l'exemple de la figure 4, la cartouche de la dépêche d'agence de la fenêtre STR_TEXT comporte :
- le nom de l'agence (SOURCE = « REUTERS »),
- la date de la dépêche (DATE_SOURCE = 27-04-1987,
- l'intitulé de la rubrique (SECTION = « Financial news »). Pour reconnaître des entités spécifiques, il suffit de reconnaître le type de document (dépêche d'agence) à partir de la présence d'un cartouche caractéristique. Les trois entités sont ensuite prélevées à leur position déterminée dans le cartouche.
Le module d'extraction (20) comporte également un deuxième programme pour extraire les entités (« ENTJΞXT », 212) c'est-à-dire reconnaître les noms de personnes, de lieux d'entreprise et les expressions spécifiées dans le domaine considéré.
Le cartouche de la fenêtre TAGJTEXT de la figure 4 montre les entités/expressions avec la classe qui leur a été attribuée par marquage : « Bridgestone Sports » → COMPANY
« vendredi » → DATE
« Taïwan » → LOCATION
« une entreprise locale » → COMPANY
« clubs de golf » → PRODUCT « Japon » → LOCATION
« Brigestone Sports Taïwan » → COMPANY
« 20 millions de nouveaux dollars taïwanais → CAPITAL
« janvier 1990 » → DATE
« clubs en acier et en bois-métal » → PRODUCT La reconnaissance des entités/expressions fera appel au dictionnaire (KB3, 413) lui-même alimenté par des connaissances générales (KB„ 411) et des connaissances apprises (KB2, 412).
Par exemple « Taïwan » et « Japon » sont des noms de lieux (LOCATION) figurant dans le dictionnaire KBr . La reconnaissance utilisera également une grammaire (KB4, 414), elle-même alimentée par les connaissances générales (KB1 ( 411) et les connaissances apprises (KB2, 412). Par exemple, « Bridgestone Sports » et « Bridgestone Sports Taïwan » sont reconnus comme occurrences de l'entité 5 COMPANY car ils apparaissent dans la structure des deux phrases comme qualificatifs du mot « compagnie ». De même, « clubs de golf » et « clubs en acier » et en « bois-métal » » sont reconnus comme occurrences de l'entité « PRODUCT » car ils sont respectivement compléments d'objet direct du verbe « produire » et partie de complément circonstanciel du verbe 10 « débuter » avec pour sujet « production ».
Dictionnaire et grammaire devront pouvoir être combinés pour lever des ambiguïtés. Par exemple les trois mots « Bridgestone Sports
Taïwan » sont reconnus comme appartenant à une même occurrence de
COMPANY bien que « Bridgestone Sports » ait déjà été reconnu comme
15 occurrence de COMPANY et « Taïwan » comme occurrence de LOCATION et appartenant donc tous deux au dictionnaire (KB2, 413). En effet, aucune ponctuation ou préposition ne sépare dans la phrase les deux groupes. On en déduit donc qu'il s'agit d'un mot nouveau composé des deux groupes précédents.
20 Plusieurs types d'algorithmes seront utilisés à ce stade. Ces algorithmes sont mis en œuvre dans l'étape de sélection (1000) représentée sur la figure 3, plus particulièrement aux étapes (1100) (« Sélection de toutes les occurrences et contextes des entités dans le texte ») et (1110)
(« Première sélection des occurrences pertinentes »). Ces étapes mises en
'25 œuvre par l'ordinateur de manière automatique, c'est-à-dire sans intervention de l'utilisateur, sont suivies d'une étape (1120) (« Seconde sélection des occurrences pertinentes - Addition/soustraction des occurrences pertinentes/non pertinentes ») semi-automatique où l'utilisateur intervient par une étape (1130) en sélectionnant les occurrences/contextes de l'entité qui
30 lui paraissent pertinents. Cette étape est visualisée dans la fenêtre (3300) de la figure 5. A titre d'exemple on citera :
- la réutilisation des règles partielles ; la méthode décrite utilise les éléments déjà trouvés et les règles de la grammaire de reconnaissance des noms propres pour étendre la couverture du système initial. Il s'agit donc
35 d'un cas d'apprentissage à base d'explication. Le mécanisme se fonde sur les règles de la grammaire ayant mis en jeu des mots inconnus. Par exemple, la grammaire peut reconnaître Mr Kassianov comme étant un nom de personne même si Kassianov est un mot inconnu. Les occurrences isolées du mot peuvent dès lors être étiquetées comme nom de personne. L'apprentissage est ici utilisé comme un mécanisme inductif utilisant les connaissances du système (les règles de la grammaire) et les entités préalablement retrouvées (le jeu d'exemples positifs) pour améliorer les performances ;
- l'utilisation des structures de discours ; les structures de discours sont une autre source pour l'acquisition de connaissances, comme les énumérations, facilement repérables par exemple par la présence d'un certain nombre de noms de personnes, séparés par des connecteurs (virgules, conjonction de subordination « et » ou « ou » etc.). Par exemple, dans la séquence suivante : <PERSON_NAME> Kassianov </PERSON_NAME>, <UNKNOWN> Kostine </UNKNOWN> and <PERSON_NAME> Primakov </PERSON_NAME>, Kostine est étiqueté comme un mot inconnu. Le système infère à partir du contexte (le mot Kostine apparaît dans une énumération de noms de personne) que le mot Kostine réfère à un nom de personne, même s'il s'agit ici d'un nom de personne isolé qui ne peut être typé à partir du dictionnaire ni d'autres occurrences dans le texte.
- la gestion des conflits entre stratégies d'étiquetage ; ces processus d'apprentissage conduisent à des conflits de type, notamment quand le typage dynamique a permis d'affecter une étiquette à un mot qui est en contradiction avec l'étiquette contenue dans le dictionnaire ou identifiée par une autre stratégie dynamique. C'est le cas, par exemple, quand un mot enregistré comme nom de lieu dans le dictionnaire apparaît comme nom de personne dans une occurrence non ambiguë du texte. Considérons le passage suivant :
@ Washington, an Exchange allyn Seems @ To Be Strong Candidate to Head SEC @
<SO> WALL STREET JOURNAL (J), PAGE A2 < / SO> <DATELINE> WASHINGTON < / DATELINE> <τxτ>
<P>
Consuela Washington, a longtime House staff er and an expert in securities laws, is a leading candidate to be chairwoman of the Securities and Exchange Commission in the Clinton administration.
< / p>
Il est clair que dans ce texte Consuela Washington désigne une personne. La première occurrence du mot Washington est plus problématique, dans la mesure où la seule information permettant de faire un choix dans la phrase est une connaissance sur le monde, à savoir que c'est généralement une personne qui dirige un organisme.
Pour circonscrire ce type de problème et éviter la propagation des erreurs, le processus de typage dynamique est limité, en cas de conflit (c'est- à-dire, si un mot a reçu une étiquette qui est en conflit avec une étiquette préalablement enregistrée pour ce mot dans le dictionnaire ; c'est le cas du mot Washington dans l'exemple ci-dessus) au texte en cours d'analyse et non au corpus dans son entier. Par exemple, le système va étiqueter toutes les occurrences isolées de Washington comme nom de personne dans le texte précédent, mais dans le texte suivant, si une occurrence isolée du mot Washington apparaît, le système l'étiquettera comme nom de lieu, selon le dictionnaire. Lorsque plus d'une étiquette a été trouvée de façon dynamique dans un même texte, un choix arbitraire est alors effectué. La figure 3 illustre l'ordinogramme de résolution des conflits dans le typage des entités.
Un exemple de pseudo-code mettant en œuvre cette fonction est donné en Annexe 1.
Le module d'extraction (20) comporte un troisième programme (INT_EXT, 213) pour identifier les relations entre les entités dont les occurrences pertinentes ont été sélectionnées par le programme (212). La fenêtre FACT_DB de la figure 5 montre les relations qui ont été établies entre les entités de la fenêtre TAG_TEXT.
Ce module comporte trois sous-modules principaux dont l'ordinogramme est représenté sur la figure 5. Dans l'étape de sélection (1000) du procédé tel que représenté sur la figure 8, l'identification des relations entre les entités sont traitées au cours des étapes (1310), (1320), (1330) et (1400). L'étape (1310) (Première identification des relations pertinentes entre entités) est automatique. L'étape (1320) (Deuxième identification des relations pertinentes entre entités - Addition/soustraction des relations pertinentes/non pertinentes) est semi- automatique et suppose une étape (1330) d'interaction avec l'utilisateur. L'étape (1400) permet d'alimenter la base de données (FACTJDB, 80) avec les entités sélectionnées et les relations identifiées. Les noms de champs d'entités et de relations sont générés automatiquement et les champs de la base sont ensuite remplis avec leurs occurrences. La base de données (80) peut en fait être exploitée par des utilisateurs qui ne sont pas des spécialistes du traitement de l'information mais qui ont besoin d'une information structurée. Le dispositif selon l'invention comprend également un module d'apprentissage (LEARN_MOD, 30) qui coopère avec le module d'extraction (20). Ce module reçoit en entrée, de manière asynchrone avec le fonctionnement du module (20) une collection de textes appartenant à un domaine donné (DOM_TEXT, 50). Ce mode de fonctionnement asynchrone permet de constituer la base de connaissances KB2 (412) contenant le dictionnaire propre au domaine et la base de connaissances KB3 (413) et les règles de grammaire propres au même domaine. Il permet également de formuler des relations caractéristiques du domaine qui sont stockées dans une base de données KB5 (415) Le module (30) coopère avec le module (20) pour enrichir les bases de connaissances (KB2 KB3, KB5) comme illustré de manière générique par la figure 8 et sur un exemple particulier, par la figure 9.
Ce module comporte trois sous modules principaux dont l'ordinogramme d'enchaînement est représenté sur la figure 5 : sous-module d'analyse morpho-syntaxique, sous-module d'analyse linguistique des éléments du formulaire, et sous-module de remplissage de formulaire. Ces sous-modules s'enchaînent en cascade : l'analyse fournie à un niveau donnée est reprise et étendue au niveau suivant. Sous-module d'analyse morpho-syntaxique :
L'analyse morpho-syntaxique se compose d'un segmenteur bas niveau (tokenizeή, d'un découpeur en phrase (sentence splitteή, d'un analyseur et d'un étiqueteur morphologique. Dans l'exemple de la figure 6, les annotations sont présentées sous forme de transducteur.
Ces modules ne sont pas spécifiques à l'extraction. Ils peuvent servir dans n'importe quelle autre application ayant besoin d'une analyse morpho-syntaxique classique.
Sous-module d'analyse linguistique locale pour le repérage d'information :
Le repérage des éléments du formulaire par analyse linguistique peut se décomposer en deux étapes : la première, générique, permet l'analyse des entités nommées, la seconde, spécifique à un corpus donné, permet de typer les entités reconnues précédemment et de repérer d'autres éléments nécessaires au remplissage du formulaire.
La mise en relation des entités nommées se fait au moyen de schémas d'extraction plus spécifiques qui sont écrits au moyen d'un ensemble de transducteurs permettant d'associer une étiquette à une séquence d'items lexicaux. Ces règles exploitent l'analyse morpho- syntaxique qui a eu lieu auparavant. Un exemple de transducteur est donné à la figure 7.
Cette règle permet à partir d'une phrase comme : « La compagnie Bridgestone Sports a déclaré vendredi qu'elle avait créé une filiale commune à Taïwan avec une entreprise locale et une maison de commerce japonaise pour produire des clubs de golf à destination du Japon. » d'inférer la relation suivante :
Association(Bridgestone Sports, une entreprise locale). L'analyse, qui au début est générique, se focalise progressivement sur certains éléments caractéristiques du texte et le transforme sous forme logique.
Sous-module de remplissage de formulaire d'extraction :
La dernière étape consiste simplement à récupérer à l'intérieur du document l'information pertinente pour l'insérer dans un formulaire d'extraction. Les résultats partiels sont fusionnés en un seul formulaire par document.
Un exemple de pseudo-code mettant en œuvre ces fonctions est donné en Annexe 2. 5 Les algorithmes de sélection des entités pertinentes sont enrichis en cours de l'étape (1120) par l'interaction de l'utilisateur (1130) qui sélectionne les contextes pertinents et les contextes non pertinents des occurrences de l'entité. Les nouveaux paramètres des algorithmes sont générés au cours de l'étape (2100) puis stockés au cours de l'étape (2200). 10 Les algorithmes d'identification des relations pertinentes sont enrichis au cours de l'étape (1320) par interaction de l'utilisateur (1330) qui identifie les relations pertinentes et les relations non pertinentes. Les nouveaux paramètres des algorithmes sont générés au cours de l'étape (2300) puis stockés au cours de l'étape (2400). 15 Les mécanismes des étapes (1 120) et (1130) sont illustrés par un exemple sur la figure 5.
1. Fenêtre (3100) : l'utilisateur fournit une classe sémantique au système. Par exemple, avec les verbes de parole : affirmer, déclarer, dire, etc. 20 2. Fenêtre (3200) : cette classe sémantique est projetée sur le corpus (DOM_TEXT, 50) afin de recueillir tous les contextes d'apparition d'une expression donnée. Pour prendre l'exemple des verbes de parole, cette étape aboutit à la constitution d'une liste de tous les contextes d'apparition des verbes affirmer, déclarer, dire, etc. 25 3. Fenêtre (3300) : l'utilisateur distingue, parmi les contextes proposés, ceux qui sont pertinents et ceux qui ne le sont pas (en l'espèce la 3e de la liste).
4. Fenêtre (3400) : le système utilise la liste des exemples marqués positifs et négatifs pour élaborer, à partir d'un ensemble de
30 connaissances du domaine (essentiellement des règles linguistiques), un automate couvrant la plupart des contextes marqués positivement tout en excluant ceux marqués négativement.
Un transducteur décrit une expression linguistique et se lit généralement de gauche à droite. Chaque case décrit un item linguistique et est relié à
35 l'élément suivant par un trait. Un item linguistique peut être une chaîne de caractère (que, de), un lemme (<avoir> peut désigner aussi bien la forme a que avait ou aurons), une catégorie syntaxique (<V> désigne n'importe quel verbe), une catégorie syntaxique assortie de traits sémantiques (<N+ProperName> désigne, au sein des noms, les seuls noms propres). Les 5 éléments en grisé (à_obj) désignent l'appel à une structure complexe décrite dans un autre transducteur (récursivité). Les éléments que l'on cherche sont compris entre les balises <key> et </key> qui sont introduites pour des traitements ultérieurs.
5. Fenêtre (3500) : l'utilisateur édite l'automate résultat et apporte
10 d'éventuelles retouches. Le corpus d'apprentissage est d'abord soumis à un prétraitement qui vise à éliminer les compléments non essentiels. Cette étape est effectuée en projetant sur le texte (TEXT, 10) en mode suppression (le passage d'un automate en mode suppression permet d'obtenir un texte où les séquences reconnues par l'automate ont été supprimées) les
15 dictionnaires d'adverbes figés et des grammaires conçues pour repérer les éléments circonstanciels. Les automates de la base de connaissances sont alors à leur tour projetés sur la base d'exemples. Deux automates (3510, 3520) issus de la base de connaissances linguistiques. Les états de l'automate(35.11 , 3521) font appel à des sous-graphes utilisant des
20 indications fournies par l'étiquetage fonctionnel, pour la reconnaissance des compléments d'objet indirects introduits par la préposition à (3511) et des sujets inversés (3521).
Cette stratégie permet de couvrir de nouveaux contextes positifs illustrés sur la fenêtre(3600). "25 L'automate induit à la structure représentée sur la fenêtre (3700).
Cet automate patron est induit à partir de la base d'exemples pour la reconnaissance de verbes de parole. L'automate induit est complexe. Il couvre la base d'exemples et va alimenter le système d'extraction. ANNEXE 1
Révision dynamique de l'étiquetage des noms propres en fonction du contexte (INTJTXT, 212)
/* Etiquetage des noms propres compris dans les textes Révision automatique au cas ou le système a repéré de nouvelles étiquettes suivant le contexte. Ces étiquettes sont préférées à l 'étiquette par défaut pour les occurrences isolées et sont stockées dans le "dictionnaire du texte".
Si le "dictionnaire du texte" n'est pas vide à la fin du processus, il y a révision de l 'analyse à partir des informations apprises en corpus. */ //Le fichier dictionnaire
Fichier dictionnaireNomsPropres ; //Le fichier grammaire Fichier grammaireNomsPropres; //Procédure pour l'étiquetage d'un texte donné
Etiq eterTexte (Fichier ficEntree, Fichier ficSortie) {
//Ouverture des fichiers de 1 'application
IdentifiantFichier entrée = ouvrir (ficEntree, mode ecture) ; IdentifiantFichier intermédiaire = ouvrir (ficTemp, modeEcrit re) ;
IdentifiantFichier dicoTexte = ouvrir (ficTemp, modeEcriture); //Lecture ligne à ligne
Tant_que {(ligne = LireLigne (entrée) ) ! = null) {
//Décomposition en mots
Tant_que ((mot = LireMot (ligne) ) != null)
{
//Etiquetage du texte avec le dictionnaire des noms propres
Etiqueter (sortie, dictionnaireNomsPropres, mot, ligne) ; } } //
Fermer (entrée) ; Fermer (sortie) ; Fermer (dicoTexte) ;
//Traitement des divergences entre étiquette du dictionnaire //par défaut et étiquette inféréee d'après le contexte
IdentifiantFichier intermédiaire = ouvrir (ficTemp, modeLecture) ;
IdentifiantFichier sortie = ouvrir (ficSortie, modeEcriture); //Des cas de divergences sont apparus ssi le dictionnaire du //texte n'est pas vide
Si (Taille (dicoTexte) != 0) {
//Dans ce cas, on révise l'étiquetage ReviserEtiguetage ( intermédiaire, sortie, dicoTexte); } Else {
//Sinon, le fichier intermédiaire est recopié en tant que //fichier résul tat
Copy (intermédiaire, sortie) ;
}
//Fermeture des fichiers, destruction du fichier intermédiaire Fermer (intermédiaire) ; Effacer (intermédiaire) ; Fermer (sortie) ; }
//Etiquetage d 'un mot du texte Etiqueter (Fichier sortie. Fichier dico, Chaine mot, Chaine phrase) {
//On cherche le mot dans le dictionnaire Chaine etiquetteDico = Consulter (mot, dico) ; //On cherche le mot dans la grammaire Chaine etiquetteGram = EtiquetteContextuelle (mot, phrase); //Si divergence entre étiquettes Si (etiquetteDico .'= etiquetteGram) {
//On préfère l 'étiquette acquise d 'après le contexte Ecrire (sortie, mot+" "+etiquetteGram) ;
//On insère la nouvelle étiquet te dans le dictionnaire du texte
Insérer(dicoTexte, mot, etiquetteGram); } - //Sinon, on écri t le mot avec l 'étiquette du dictionnaire Sinon {
Ecrire (sortie, mot+" ,v+etiquetteDico) ; }
}
//Révision de l 'étiquetage
//On a trouvé que dans le texte Washington désignait plutôt un //nom de personne (et pas le lieu, qui est l 'étiquette par défaut) : //on réétiquette toutes les occurrences isolées de Washington //comme nom de personne . Il ne faut pas corriger les cas //une règle de grammaire avai t déjà pu s 'appliquer
ReviserEtiquetage (Fichier intermédiaire, Ficher sortie, Fichier dicoTexte) { Chaine ligne;
//Lecture ligne à ligne du fichier intermédiaire Tant_que ({ligne = LireLigne (intermédiaire) ) != null) {
//Lecture mot par mot Tant_que ((mot = LireMot (ligne) ) != null)
{
//Si le mot est dans le dictionnaire du texte et qu 'il //s 'agit d 'un occurrence isolée (aucune règle de //grammaire ne peut s 'appliquer: nécessaire pour ne pas //étiqueter in Washington si la correspondance
//Washington <£> Nom de personne a été trouvée //par ailleurs) ) , alors on révise l'étiquette... //Bool devient vrai si une règle //applicable a été trouvée...
If (Membre (mot, dicotexte) { booléen bool = faux;
Tant_que ((règle = LireRegle (grammaire) ) != null)
{ if (EstApplicable (règle, phrase)) bool
}
If (Ibool) Etiqueter (sortie, dicoTexte, mot, ligne) ;
//Sinon, on écrit le mot Else
Ecrire (sortie, mot) ;
//Renvoie l'étiquette de mot stockée dans le dictionnaire //Washington ==> Nom de lieu Chaine ConsulterDictionnaire (Chaine mot)
{
Chaine étiquette = "";
IdentifiantFichier die = Ouvrir (dictionnaireNomsPropres) ; //Parcours du actionnaire ligne à ligne Tant_que ((ligne = LireLigne (die) ) != null)
{
//Le mot commence la ligne : on doit alors récupérer 1 'étiquette if (SousChaine (ligne, 0, Length(mot) ) == mot) { étiquette = SousChaine (ligne, Length(mot)+l) ; } }
//On renvoie 1 'étiquette trouvée Retourner étiquette;
}
//Recherche d'un étiquette en fonction du contexte
//cf. Mrs. Washington ==> Washington désigne un nom de personne, //d'après le contexte (la règle "Mrs <M0T>" a pu s'appliquer, qui désigne
//un nom de personne (alors que par défaut "Washington" est étiqueté comme
//nom de ville Chaine EtiquetteContextuelle (Chaine mot)
{
Chaine étiquette = w";
IdentifiantFichier grammaire = Ouvrir (grammaireNoms Propres ) ; //Parcours de la grammaire à la recherche d'une règle //qui pourrait s'appliquer au contexte courant
Tant_que ((règle = LireRegle ( grammaire ) ) != null) {
//Si une règle est applicable (cf . ci-dessus) : //On renvoie l 'étiquet te associée if (ΞstApplicable (règle, phrase) ) { étiquette = RetourneΞtiquetteAssociee (mot) ; } } Retourner étiquette;
ANNEXE 2
Analyse et remplissage de formulaire (INTJTXT, 213) : /* Traitement procédural des textes
Il s 'agit en fait d 'un ensemble de tratements appliqués en cascade, Un niveau reprenant l 'analyse du niveau précédent . */ //Nom de la base de données
Chaine NomBd = c : \\base\\de\\donnee;
//Fonction principale
//Un argument : le nom du fichier d 'entrée Main (Fichier ficEntree) {
//Initialisations Chaine phrase = " " ; BaseDonnees bd= initialise (NomBd) ; Formulaire formulaire;
//Ouverture du fichier d 'entrée
IdentifiantFichier entrée = ouvrir(ficEntree, modeLecture) ; DécoupageEnPhrase (entrée) //Lecture phrase par phrase //et traitements associés
Tant_que ((phrase = LirePhrase (entrée) ) != null)
{
DécoupageEnMot (phrase) ; AnalyseSyntaxique (phrase) ; AnalyseScenario (phrase) ;
AnalyseCoreference (phrase) ; Inference (phrase, bd) ; }
GenerationFormulaire (bd, formulaire) ; }
//Découpage du texte en phrase DécoupageEnPhrase (IdentifiantFichier entrée)
{ //Lecture ligne à ligne : si un patron de fin de phrase est //trouvé : on insère une marque de fin de phrase Tant_que {(ligne = LireLigne (entrée) ) != null) {
Si (Contient (ligne, w. ") || Contient (ligne, "! ") jj
Contient (ligne, "? ") jj
)
Insérer (ligne, finDePhrase) ; }
} }
//Découpage de la phrase en mots DécoupageEnMot (Chaine phrase) Entier i = 0;
//Parcours de la phrase : si le caractère courant est un //séparateur : insertion d ' une marque spéciale Tant_que (i < Longueur (phrase) )
{
Si (Séparateur (phrase [i])
{
Insérer (phrase, "#"); }
} }
//Repérage des groupes nominaux et verbaux, liens entre eux... AnalyseSyntaxique (Chaine phrase)
{
IdentifiantFichier grammaire = Ouvrir(fichierGrammaire) ; //Parcours de la grammaire à la recherche d 'une règle //qui pourrai t s 'appliquer aux contexte courant Tant_que ((règle = LireRegle (grammaire) ) != null)
{
//Si une règle est applicable //On la projette sur la phrase courante if (ΞstApplicable (règle, phrase)) {
AppliquerRegle (règle, phrase); } } }
//Repérage de relations entre groupes syntaxiques spécifiques //au domaine d 'application AnalyseScenario (Chaine phrase)
{ IdentifiantFichier scénario = Ouvrir(fichierScenario) ; //Recherche des règles spécfiques au domaine //qui pourrai t s 'appliquer aux contexte courant Tant_que ((règle = LireRegle (scénario) ) != null) { //Si une règle est applicable
//On la projette sur la phrase courante f (ΞstApplicable (règle, phrase))
{
AppliquerRegle (phrase) ; }
} }
//.Résout les problèmes de référence associés aux pronoms //Remplace "il ", "elle" par "Pierre ", "marie", ... AnalyseCoreference (Chaine phrase)
{
IdentifiantFichier coreference = Ouvrir (fichierCoreference) //Recherche des règles spécfiques au domaine //qui pourraient s 'appliquer aux contexte courant
Tant_que ((règle = LireRegle (coreference) ) != null) //Si une règle est applicable
//On la projette sur la phrase courante if (ΞstApplicable (règle, phrase))
{
AppliquerRegle (phrase) ;
}
}
//Constructiuon et remplissage d 'une base de faits à partir de //règles d 'inférences propres au domaine et opérant sur les résultats
//des étapes précédentes de l 'analyse Inference (Chaine phrase) {
IdentifiantFichier inference = Ouvrir (fichierlnference) ; //Recherche des règles spécfiques au domaine //qui pourrai t s 'appliquer aux contexte courant Tant_que ({règle = LireRegle (inference) ) != null) {
//Si une règle est applicable :
//On insère le fait associé dans la base de données if (EstApplicable (règle, phrase)) {
Connaissance connaissance = AppliquerRegle (phrase) ; InsererDansBD(bd, connaissance) ; } } }
//Génération du formulaire : choix dans la bd des informations nécessaires
//aux différents champs GenerationFormulaire(BaseDonneθS bd, Formulaire formulaire) {
Tant_que ( (slot = LireSlot (formulaire) ) != null) {
Chaine valeur = Trouver nfo(slot, bd) ; Ecrire (formulaire. slot, valeur;
} }

Claims

REVENDICATIONS
1. Dispositif d'extraction d'informations d'un texte (10) comprenant un module d'extraction (20) et un module d'apprentissage (30) coopérant entre eux comprenant des moyens (212) pour sélectionner automatiquement dans le texte (10) les contextes d'occurrence de classes/entités des informations à extraire, pour sélectionner automatiquement parmi ces contextes ceux qui sont pertinents pour un domaine et pour permettre à l'utilisateur de modifier cette dernière sélection de telle sorte que le module d'apprentissage (30) améliorera la prochaine sortie (70, 80) du module d'extraction (20), caractérisé en ce que le module d'extraction (20) comprend en outre des moyens (213) pour identifier les relations existant dans le texte (10) entre les entités pertinentes en sortie des moyens (212).
2. Dispositif d'extraction d'informations selon la revendication 1 , caractérisé en ce que le module de sélection (20) comprend un programme (211) apte à reconnaître la structure du texte (10).
3. Dispositif d'extraction d'informations selon la revendication 1 ou la revendication 2, caractérisé en ce que le module de sélection (20) applique à la fois des règles définies a priori et des règles calculées par le module d'apprentissage (30).
4. Dispositif d'extraction d'informations selon l'une des revendications précédentes, caractérisé en ce que le module de sélection (20) est apte à appliquer automatiquement des règles de similitude inférées du contexte.
5. Dispositif d'extraction d'informations selon l'une des revendications précédentes, caractérisé en ce que le module d'apprentissage (30) et le module de sélection (20) sont aptes à gérer des homonymes appartenant à des classes/entités différentes.
6. Dispositif d'extraction d'informations selon l'une des revendications précédentes, caractérisé en ce que le module d'apprentissage (30) est apte à ne pas générer de nouvelles règles à partir d'éléments non essentiels.
7. Dispositif d'extraction d'informations selon l'une des revendications précédentes, caractérisé en ce que le module d'apprentissage (30) est apte à générer de nouvelles règles à partir de sélections positives et de sélections négatives effectuées par l'utilisateur.
8. Dispositif d'extraction d'informations selon l'une des revendications précédentes, caractérisé en ce que les sorties du module de sélection peuvent être rangées dans un fichier ou une base de données.
9. Dispositif d'extraction d'informations selon l'une des revendications précédentes, caractérisé en ce que le vocabulaire et la grammaire du domaine sont représentés par des automates à états finis.
10. Dispositif d'extraction d'informations selon la revendication précédente, caractérisé en ce que les automates à états finis sont représentés à l'utilisateur sous forme de graphes.
11. Procédé d'extraction d'informations d'un texte (10) comprenant une méthode d'apprentissage (2000) et une méthode de sélection (1000), la méthode de sélection comprenant une étape (1100) de sélection automatique dans le texte des contextes d'occurrence des classes/entités des informations à extraire, une étape (1110) de sélection automatique parmi ces contextes de ceux qui sont pertinents pour un domaine et une étape (1130) de modification par l'utilisateur des sorties de l'étape précédente, les sorties modifiées étant prises en compte dans la méthode d'apprentissage (2000) pour améliorer le prochain résultat de la méthode de sélection (1000), caractérisé en ce que la méthode de sélection (1000) comprend en outre des étapes (1310, 1320, 1330) pour identifier les relations existant dans le texte (10) entre les entités pertinentes en sortie des étapes (1120, 1130) de la méthode de sélection (1000).
12. Procédé d'extraction d'informations selon la revendication 11 , caractérisé en ce que la méthode de sélection (1000) comprend une étape de reconnaissance de la structure du texte (10).
13. Procédé d'extraction d'informations selon la revendication 11 ou la revendication 12, caractérisé en ce que la méthode de sélection (1000) applique à la fois des règles définies a priori et des règles calculées par le module d'apprentissage (30).
14. Procédé d'extraction d'informations selon l'une des revendications 11 à 13, caractérisé en ce que la méthode de sélection (1000) peut comporter l'application automatique de règles de similitude inférées du contexte.
15. Procédé d'extraction d'informations selon l'une des revendications 11 à 14, caractérisé en ce que la méthode d'apprentissage (2000) et la méthode de sélection (1000) permettent la gestion des homonymes appartenant à des classes différentes.
16. Procédé d'extraction d'informations selon l'une des revendications 11 à 15, caractérisé en ce que la méthode d'apprentissage (2000) est apte à ne pas générer de nouvelles règles à partir d'éléments non essentiels.
17. Procédé d'extraction d'informations selon l'une des revendications 11 à 16, caractérisé en ce que la méthode d'apprentissage
(2000) est apte à générer de nouvelles règles à partir de sélections positives et de sélections négatives effectuées par l'utilisateur.
18. Procédé d'extraction d'informations selon l'une des revendications 11 à 16, caractérisé en ce que les sorties de la méthode de sélection (1000) peuvent être rangées dans un fichier ou une base de données (80).
PCT/FR2002/000631 2001-02-20 2002-02-19 Dispositif d'extraction d'informations d'un texte a base de connaissances WO2002067142A2 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US10/467,937 US20040073874A1 (en) 2001-02-20 2002-02-19 Device for retrieving data from a knowledge-based text
EP02704865A EP1364316A2 (fr) 2001-02-20 2002-02-19 Dispositif d'extraction d'informations d'un texte a base de connaissances

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR01/02270 2001-02-20
FR0102270A FR2821186B1 (fr) 2001-02-20 2001-02-20 Dispositif d'extraction d'informations d'un texte a base de connaissances

Publications (2)

Publication Number Publication Date
WO2002067142A2 true WO2002067142A2 (fr) 2002-08-29
WO2002067142A3 WO2002067142A3 (fr) 2003-02-13

Family

ID=8860217

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2002/000631 WO2002067142A2 (fr) 2001-02-20 2002-02-19 Dispositif d'extraction d'informations d'un texte a base de connaissances

Country Status (4)

Country Link
US (1) US20040073874A1 (fr)
EP (1) EP1364316A2 (fr)
FR (1) FR2821186B1 (fr)
WO (1) WO2002067142A2 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8779920B2 (en) 2008-01-21 2014-07-15 Thales Nederland B.V. Multithreat safety and security system and specification method thereof

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
US7966078B2 (en) 1999-02-01 2011-06-21 Steven Hoffberg Network media appliance system and method
US20030233232A1 (en) * 2002-06-12 2003-12-18 Lucent Technologies Inc. System and method for measuring domain independence of semantic classes
US20040015775A1 (en) * 2002-07-19 2004-01-22 Simske Steven J. Systems and methods for improved accuracy of extracted digital content
FR2845174B1 (fr) * 2002-09-27 2005-04-08 Thales Sa Procede permettant de rendre l'interaction utilisateur-systeme independante de l'application et des medias d'interaction
US20040167886A1 (en) * 2002-12-06 2004-08-26 Attensity Corporation Production of role related information from free text sources utilizing thematic caseframes
US7707039B2 (en) 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
US8442331B2 (en) 2004-02-15 2013-05-14 Google Inc. Capturing text from rendered documents using supplemental information
US20060104515A1 (en) * 2004-07-19 2006-05-18 King Martin T Automatic modification of WEB pages
US7812860B2 (en) 2004-04-01 2010-10-12 Exbiblio B.V. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US10635723B2 (en) 2004-02-15 2020-04-28 Google Llc Search engines and systems with handheld document data capture devices
US8146156B2 (en) 2004-04-01 2012-03-27 Google Inc. Archive of text captures from rendered documents
US8081849B2 (en) 2004-12-03 2011-12-20 Google Inc. Portable scanning and memory device
US9143638B2 (en) 2004-04-01 2015-09-22 Google Inc. Data capture from rendered documents using handheld device
US20060081714A1 (en) 2004-08-23 2006-04-20 King Martin T Portable scanning device
US20060098900A1 (en) 2004-09-27 2006-05-11 King Martin T Secure data gathering from rendered documents
US7990556B2 (en) 2004-12-03 2011-08-02 Google Inc. Association of a portable scanner with input/output and storage devices
US9008447B2 (en) 2004-04-01 2015-04-14 Google Inc. Method and system for character recognition
US7894670B2 (en) 2004-04-01 2011-02-22 Exbiblio B.V. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US9116890B2 (en) 2004-04-01 2015-08-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US8713418B2 (en) 2004-04-12 2014-04-29 Google Inc. Adding value to a rendered document
US8874504B2 (en) 2004-12-03 2014-10-28 Google Inc. Processing techniques for visual capture data from a rendered document
US8620083B2 (en) 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
US8489624B2 (en) 2004-05-17 2013-07-16 Google, Inc. Processing techniques for text capture from a rendered document
US8346620B2 (en) 2004-07-19 2013-01-01 Google Inc. Automatic modification of web pages
GB2419432A (en) * 2004-10-20 2006-04-26 Ibm A method and system for creating hierarchical classifiers of software components in natural language processing
US20070067320A1 (en) * 2005-09-20 2007-03-22 International Business Machines Corporation Detecting relationships in unstructured text
US7930319B2 (en) * 2008-01-10 2011-04-19 Qin Zhang Search method and system using thinking system
US8019714B2 (en) * 2005-12-12 2011-09-13 Qin Zhang Thinking system and method
US10345922B2 (en) * 2006-04-21 2019-07-09 International Business Machines Corporation Office system prediction configuration sharing
US8600916B2 (en) * 2006-04-21 2013-12-03 International Business Machines Corporation Office system content prediction based on regular expression pattern analysis
EP2067119A2 (fr) 2006-09-08 2009-06-10 Exbiblio B.V. Scanners optiques, tels que des scanners optiques portables
US7689527B2 (en) * 2007-03-30 2010-03-30 Yahoo! Inc. Attribute extraction using limited training data
US8638363B2 (en) 2009-02-18 2014-01-28 Google Inc. Automatically capturing information, such as capturing information using a document-aware device
WO2010105246A2 (fr) 2009-03-12 2010-09-16 Exbiblio B.V. Accès à des ressources fondé sur la capture d'informations issues d'un document restitué
US8447066B2 (en) 2009-03-12 2013-05-21 Google Inc. Performing actions based on capturing information from rendered documents, such as documents under copyright
US9081799B2 (en) 2009-12-04 2015-07-14 Google Inc. Using gestalt information to identify locations in printed information
US9323784B2 (en) 2009-12-09 2016-04-26 Google Inc. Image search using text-based elements within the contents of images
EP3371724A1 (fr) 2015-11-05 2018-09-12 Koninklijke Philips N.V. Système d'annotation de texte externalisé à grande échelle destiné à être utilisé par des applications d'extraction d'informations

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5841895A (en) * 1996-10-25 1998-11-24 Pricewaterhousecoopers, Llp Method for learning local syntactic relationships for use in example-based information-extraction-pattern learning
US6076088A (en) * 1996-02-09 2000-06-13 Paik; Woojin Information extraction system and method using concept relation concept (CRC) triples
EP1072986A2 (fr) * 1999-07-30 2001-01-31 Academia Sinica Système et dispositif pour extraire des données de textes semi-structurés

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6965857B1 (en) * 2000-06-02 2005-11-15 Cogilex Recherches & Developpement Inc. Method and apparatus for deriving information from written text

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6076088A (en) * 1996-02-09 2000-06-13 Paik; Woojin Information extraction system and method using concept relation concept (CRC) triples
US5841895A (en) * 1996-10-25 1998-11-24 Pricewaterhousecoopers, Llp Method for learning local syntactic relationships for use in example-based information-extraction-pattern learning
EP1072986A2 (fr) * 1999-07-30 2001-01-31 Academia Sinica Système et dispositif pour extraire des données de textes semi-structurés

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KIM J-T ET AL: "Acquisition of semantic patterns for information extraction from corpora" PROCEEDINGS OF THE CONFERENCE ON ARTIFICIAL INTELLIGENCE FOR APPLICATIONS. ORLANDO, MAR. 1 - 5, 1993, LOS ALAMITOS, IEEE COMP. SOC. PRESS, US, vol. CONF. 9, 1 mars 1993 (1993-03-01), pages 171-176, XP002187758 ISBN: 0-8186-3840-0 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8779920B2 (en) 2008-01-21 2014-07-15 Thales Nederland B.V. Multithreat safety and security system and specification method thereof

Also Published As

Publication number Publication date
FR2821186B1 (fr) 2003-06-20
WO2002067142A3 (fr) 2003-02-13
US20040073874A1 (en) 2004-04-15
EP1364316A2 (fr) 2003-11-26
FR2821186A1 (fr) 2002-08-23

Similar Documents

Publication Publication Date Title
EP1364316A2 (fr) Dispositif d&#39;extraction d&#39;informations d&#39;un texte a base de connaissances
US11720572B2 (en) Method and system for content recommendation
Boyd-Graber et al. Care and feeding of topic models: Problems, diagnostics, and improvements
BE1011964A3 (fr) Methode, dispositif et systeme pour la desambiguisation des parties du discours.
EP1836651B1 (fr) Procédé de recherche, reconnaissance et localisation d&#39;un terme dans l&#39;encre, dispositif, programme d&#39;ordinateur correspondants
US20130159277A1 (en) Target based indexing of micro-blog content
US20120036130A1 (en) Systems, methods, software and interfaces for entity extraction and resolution and tagging
WO2007082948A1 (fr) Procede et dispositif pour extraire des informations et les transformer en donnees qualitatives d&#39;un document textuel
Arendarenko et al. Ontology-based information and event extraction for business intelligence
EP1525538A2 (fr) Systeme d&#39;extraction d&#39;informations dans un texte en langage naturel
Abadie et al. A Benchmark of Named Entity Recognition Approaches in Historical Documents Application to 19 th Century French Directories
EP3248111A1 (fr) Procédé de lemmatisation, dispositif et programme correspondant
WO2005069166A1 (fr) Systeme automatique de traitement des informations portees par des textes courts
US11017172B2 (en) Proposition identification in natural language and usage thereof for search and retrieval
Galitsky et al. Building chatbot thesaurus
FR2986882A1 (fr) Procede d&#39;identification d&#39;un ensemble de phrases d&#39;un document numerique, procede de generation d&#39;un document numerique, dispositif associe
Dung et al. Ontology-based information extraction and information retrieval in health care domain
Blouin Event extraction from facsimiles of ancient documents for history studies
FR2880708A1 (fr) Procede de recherche dans l&#39;encre par conversion dynamique de requete.
FR2970795A1 (fr) Procede de filtrage de synonymes.
WO2018115616A1 (fr) Moteur de regles universel et optimise pour le traitement de documents de gestion
US20240070387A1 (en) Method for Determining News Ticker Related to News Based on Sentence Ticker and Apparatus for Performing the Method
EP4300326A1 (fr) Procédé d&#39;appariement d&#39;un ensemble à évaluer et d&#39;une liste de référence, moteur d&#39;appariement et programme d&#39;ordinateur correspondants
WO2015132342A1 (fr) Procédé d&#39;analyse d&#39;une pluralité de messages, produit programme d&#39;ordinateur et dispositif associés
EP3079076A1 (fr) Procédé de détermination d&#39;un gap sémantique, dispositif et programme correspondant

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A2

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NO NZ OM PH PL PT RO RU SD SE SG SI SK SL TJ TM TN TR TT TZ UA UG US UZ VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A2

Designated state(s): GH GM KE LS MW MZ SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
AK Designated states

Kind code of ref document: A3

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NO NZ OM PH PL PT RO RU SD SE SG SI SK SL TJ TM TN TR TT TZ UA UG US UZ VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A3

Designated state(s): GH GM KE LS MW MZ SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
WWE Wipo information: entry into national phase

Ref document number: 2002238672

Country of ref document: AU

WWE Wipo information: entry into national phase

Ref document number: 10467937

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2002704865

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 2002704865

Country of ref document: EP

REG Reference to national code

Ref country code: DE

Ref legal event code: 8642

NENP Non-entry into the national phase

Ref country code: JP

WWW Wipo information: withdrawn in national office

Country of ref document: JP