WO1999046698A1

WO1999046698A1 - Processeur de documents et support d'enregistrement

Info

Publication number: WO1999046698A1
Application number: PCT/JP1998/005926
Authority: WO
Inventors: Minako Hashimoto; Wakako Kashino; Ryo Ochitani; Fumihito Nishino
Original assignee: Fujitsu Limited
Priority date: 1998-03-10
Filing date: 1998-12-24
Publication date: 1999-09-16
Also published as: GB0022066D0; CN1286776A; US6523025B1; JP3597370B2; GB2350712B; GB2350712A; JPH11259498A; CN1109994C

Description

明細書文書処理装置および記録媒体技術分野

本発明は入力された文書に対して所定の処理を施して記憶するとともに、与えられたクエリに対応する文書を、記憶されている文書の中から検索またはクリッビングする処理を行う文書処理装置およびそのような処理をコンピュータに実行させるプログラムを記録した記録媒体に関する。背景技術

近年、インターネットの普及や全文デ一夕ベースの増加に伴って、個人が利用可能な情報が飛躍的に増加している。

このような多量の情報の中から所望の情報を取得する方法としては、例えば、得ようとするデータの特徴を記述した検索式（クエリ）をキーとして、検索処理ゃクリッピング処理等を行う方法が一般的であった。しかし、従来の大規模な商用オンラインデータベースや全文検索システムでは、検索式の条件を緩やかにすると検索結果に含まれているノィズ（不要なデ一夕）が増加し、また、逆に厳しくすると検索洩れが発生するなど、ユーザが望む通りのデータを取得することが困難であるという問題があった。

即ち、従来の文書フィルタリングにおける文書絞り込み処理や文書検索処理では、クエリと文書の内容の一致度や関連度に基づくランキング検索が行われている程度であるので、文書に含まれている重要情報ゃュ一ザの検索意図を十分に反映した文書絞り込みを行うことは困難であつた。

そのため、例えば、組織としての「橋本」が検索したいと思っても、「橋本」という地名が含まれた文書が検索されたりすることが多かった。また、 2 0万円台の新製品について検索したい場合には、「二十万円」「2 0万円」、「二十一万円」、「二五万円」のように、あらゆる可能性を考慮して生成したクエリを用いる必要があった。

更に、文書が作成された日時を用いて検索することは可能であっても、文書に含まれている日時情報を活用した検索を行うことができないという問題点があった。

例えば、以下の文では、同じ「 1 日」でも示している日が異なる。

(a) A社は、 1 日、 B製品を発売する。

(b) A社は、 1 日、 B製品を発売した。

ここで、この文が作成された日が 1 9 9 7年 2月 1 5日だとすると、 ( a ) の場合では、「 1 日」は 1 9 9 7年 3月 1 日を指し、また、 ( b) では 1 9 9 7年 2月 1 日を指すことになる。

従来の方法においては、文書中の日時情報の属性を認知した上で、このような情報を検索に使用（活用）することが困難であるという問題点があった。発明の開示

本発明はこのような点に鑑みてなされたものであり、ュ一ザの検索意図を十分に反映した文書検索または文書絞り込みを行うことが可能な文書処理装置を提供することを目的とする。

また、本発明は、ユーザの検索意図を十分に反映した文書検索処理またはクリッビング処理を行う文書処理を行うプログラムを記録した記録媒体を提供することを目的とする。図 1は、上記目的を達成する本発明の原理図である。本発明は、入力された文書に対して所定の処理を施して記憶するとともに、与えられたクエリに対応する文書を、記憶されている文書の中から検索またはクリッビングする処理を行う文書処理装置において、知識情報記憶手段 3と、事象特定手段 4と、属性値抽出手段 5と、対応付け手段 1 0と、文書記憶手段 1 1 と、文書抽出手段 1 2とから構成されている。

ここで、知識情報記憶手段 3は、入力された文書を処理するために必要な知識情報を記憶する。事象特定手段 4は、入力された文書に記述されている事象の種類を、知識情報記憶手段 3に記憶されている知識情報を参照して特定する。属性値抽出手段 5は、事象特定手段 4によって特定された事象に係わる属性の属性値を、知識情報記憶手段 3に記憶されている知識情報を参照して文書から抽出する。対応付け手段 1 0は、知識情報記憶手段 3に記憶されている知識情報を参照して、属性値抽出手段 5によって抽出された属性値と、実世界の実体との対応付けを行う。文書記憶手段 1 1は、対応付け手段 1 0によって対応付けがなされた属性値と、文書または文書の格納場所を特定するための情報とを関連付けて記憶する。文書抽出手段 1 2は、属性値とクエリとを参照して、対象となる文書に対して検索処理またはクリッビング処理を行う。

知識情報記憶手段 3には、事象とそれに関する属性、および、属性を構成する属性値を抽出するための情報とが関連付けられて記憶されている。事象特定手段 4は、入力された文書と、知識情報記憶手段 3に記憶されている知識情報とを照合することにより、文書中に記述されている事象を特定する。属性値抽出手段 5は、知識情報記憶手段 3を参照して、特定された事象に関する属性の属性値を文書から抽出する。対応付け手段 1 0は、知識情報記憶手段 3に記憶されている知識情報を参照して、抽出された属性値と実世界の実体とを 1対 1に対応付ける処理を行う。文書記憶手段 1 1は、対応付けがなされた属性値と文書または文書の格納場所を特定するための情報とを関連付けて記憶する。文書抽出手段 1 2は、入力されたクエリに含まれている情報と、文書記憶手段 1 1に記憶されている属性値とを照合することにより所望の文書を抽出する。

これにより、対象となる文書に記述されている内容を、事象という観点から把握し、把握した事象を構成する属性の属性値を抽出するとともに、抽出した属性値を実世界の実体と対応付けることによって生成された情報を参照して文書を検索またはクリッビングするようにしたので、検索またはクリッビングの精度を向上させることが可能となる。

本発明の上記および他の目的、特徴および利点は本発明の例として好ましい実施の形態を表す添付の図面と関連した以下の説明により明らかになるであろう。図面の簡単な説明

図 1は、本発明の実施の形態の構成例を示すブロック図である。

図 2は、図 1に示す文書処理装置を含む通信システムの構成例である。図 3は、文書の正規化処理の一例を説明するフローチャートである。図 4は、文書の正規化処理の一例を説明するフローチヤ一トである。図 5は、知識情報の一例を示す図である。

図 6は、図 3に示す日付表現変換処理の詳細を説明するフローチヤ一トである。

図 7は、数字変換テーブルの一例を示す図である。

図 8は、日時表現変換テーブルの一例を示す図である。

図 9は、図 6に示す日付推定処理の詳細を示すフローチヤ一トである。図 1 0は、図 9に示す％year 推定処理の詳細を説明するフローチヤ一トである。図 1 1は、図 9に示す％mon t h 推定処理の詳細を説明するフローチヤ —トである。

図 1 2は、図 9に示す％day 推定処理の詳細を説明するフローチヤ一トである。

図 1 3は、図 3に示す金額表現変換処理の詳細を説明するフローチヤ一卜である。

図 1 4は、金額表現変換テーブルの一例を示す図である。

図 1 5は、図 1に示す実施の形態に入力される文書の一例である。図 1 6は、図 1 5に示す文書を処理した結果生成される正規化情報の一例である。

図 1 7は、図 1に示す実施の形態に入力される文書の他の一例を示す図である。

図 1 8は、図 1 7に示す文書を処理した結果生成される正規化情報の一例である。

図 1 9は、製品販売情報に関する文書を検索する際の入力画面の一例である。

図 2 0は、図 1 9に示す入力画面に入力がなされた場合の一例である。図 2 1は、図 1 9に示す入力画面に対応する検索結果表示画面の一例である。

図 2 2は、図 2 0に示す入力画面に対応する検索結果の画面の一例である。

図 2 3は、組織合併情報に関する文書を検索する際の入力画面の一例である。

図 2 4は、図 2 3に示す入力画面に入力がなされた場合の一例である。図 2 5は、図 2 3に示す入力画面に対応する検索結果表示画面の一例である。図 2 6は、図 2 4に示す入力画面に対応する検索結果の画面の一例である。

図 2 7は、クエリに対する正規化処理の一例を説明するフローチヤ一トである。

図 2 8は、クエリに対する正規化処理の一例を説明するフローチヤ一トである。

図 2 9は、文書のクリッピングを行う場合において、ユーザからのクェリに対する処理の一例を説明するフローチヤ一トである。

図 3 0は、図 2 9に示す関連度判定処理の詳細を説明するフローチヤ一卜である。

図 3 1は、文書のクリッピングを行う場合において実行される、文書に対する処理の一例を説明するフローチヤ一トである。発明を実施するための最良の形態

以下、本発明の実施の形態を図面を参照して説明する。

図 1は、本発明の実施の形態の構成例を示すブロック図である。この図において、文書入力部 1からは、処理対象の文書が入力される。ユーザィンタフエ一ス部 2は、ユーザからのクエリを受け付ける。

知識情報記憶手段 3は、後述する事象やその事象に係わる属性に関する情報および固有名を固有コードに変換するための情報を記憶している。事象特定手段 4は、知識情報記憶手段 3に記憶されている知識情報 (事象の種類に関する情報）を参照して、文書入力部 1またはユーザィン夕フェース部 2から入力された文書ゃクエリに記述されている事象の種類を特定する。

ここで、「事象」とは、実世界で生起する「できごと」を示している。例えば、新聞記事などでは「A社が Xを発売する。」というような実世界で発生した（または、これから発生する）事象に種々の補足情報が付加されて記述されていると考える。

従って、事象特定手段 4に対して、例えば、前述の「A社が Xを発売する。」が入力されると、この文章に記述されている事象は、 <新製品の発売 >であると特定されることになる。ここで、 < >は、その内部の語句が抽象化されて得られた概念であることを示している。

なお、新聞記事などのように、記述の対象となる事象が明確であり、また、その表現様式が限られている文書においては、記述された事象のとりうる構造（以下、事象構造と適宜略記する）にも所定の制約条件が自ずと生ずることから、このような「事象」に着目して文書を解析することにより、効果的な処理を行うことが可能となる。

属性値抽出手段 5は、知識情報記憶手段 3に記憶されている知識情報 (所定の事象に係わる属性に関する情報）を参照して、文書またはクェリから属性値を抽出する。

例えば、知識情報記憶手段 3は、前述の <新製品の発売 >という事象に関しては、ぐ販売会社 >、 <製品情報 >、 <日付〉、および、 <変更点 >などの属性を記憶しており、属性値抽出手段 5は、事象特定手段 4 によって特定された事象に対応する属性を知識情報記憶手段 3から取得し、その属性に対応する属性値を文書またはクエリから抽出する。例えば、前述の「A社が Xを発売する。」という事象では、属性 <販売会社 >に対応する属性値「A社」が取得され、また、属性ぐ製品情報 >に対応する属性値「X」などが抽出される。

作成日時取得手段 6は、文書またはクエリの作成日時を取得する。時制取得手段 7は、文書またはクエリを構成する文章の時制（t en s e ) を取得する。

正規化手段 8は、属性値抽出手段 5によって抽出された属性のうち、数値に変換可能なものを選択し、対応する数値に変換（正規化）する。単位変換手段 9は、正規化手段 8が正規化した数値の単位を変換する処理を行う。

対応付け手段 1 0は、知識情報記憶手段 3に記憶されている知識情報を参照して、属性値抽出手段 5によって抽出された属性値を、実世界における実体に対応付ける処理を行う。なお、この「実体」とは、文書に記述されている属性値が示す実世界の「オブジェクト」を意味している。例えば、前述の例では、「A社」と呼ばれる企業が複数存在する場合には、文書中に記述されている「A社」がどの企業（オブジェクト）を示しているのかを特定する必要があるので、対応付け手段 1 0は、文書中の他の属性値（例えば、「社長の名前」や「本社地」など）を参照して「A社」を特定する。

文書記憶手段 1 1は、対応付け手段 1 0によって対応付けがなされた属性値集合と、もとの文書（または、もとの文書の格納場所を特定する情報）とを対応付けて記憶する。

文書抽出手段 1 2は、対応付け手段 1 0から供給されたクエリに対応する文書を、属性値を参照して文書記憶手段 1 1から取得する。そして、重要度算出手段 1 3によって算出された個々の文書の重要度を参照し、ある閾値以上の重要度を有する文書を出力する。

重要度算出手段 1 3は、所定のキーワードの出現頻度などを求めることにより、対象とする文書の重要度を算出する。

図 2を参照して、図 1に示す実施の形態を含む通信システムの構成例について説明する。

図 2において、図 1に示す文書処理装置 2 0は、例えば、インターネットなどのネットワーク 2 1 に接続されている。

このネットワーク 2 1 には、端末装置 2 2 a， 2 2 bや、サーバ 2 3 などが接続されている。

端末装置 2 2 a , 2 2 bは、その入力部をユーザが操作して入力したクエリなどを受け付けて、文書処理装置 2 0に送信するとともに、送信したクエリに対応する文書を文書処理装置 2 0が送信した場合には、その文書を受信して、例えば、 C R T ( Ca t hode Ray Tube) モニタなどへ表示出力する。

サーバ 2 3は、記憶部 2 3 aに記憶している文書や画像などの情報を、ネットワーク 2 1 を介して、要求を行った装置に対して送信する。

文書処理装置 2 0は、端末装置 2 2 a， 2 2 bなどから送信されたクエリを記憶しておき、例えば、サーバ 2 3から新たな文書が供給された場合には、その文書と前述のクエリとの関連度が高い場合には、端末装置 2 2 aまたは端末装置 2 2 bに対して送信する。

次に、以上の実施の形態の動作について説明する。

図 3は、図 1に示す実施の形態において、新たな文書が文書入力部 1 から入力された場合（例えば、図 2に示すサーバ 2 3から新たな文書が供給された場合）に実行される処理の一例を説明するフローチヤ一卜である。

このフローチヤ一トが開始されると、以下の処理が実行されることになる。

[ S 1 ] 文書入力部 1は、新たな文書を入力する。

[ S 2 ] 事象特定手段 4は、文書に記述されている事象の種類を特定する。

即ち、事象特定手段 4は、知識情報記憶手段 3に記憶されている事象と表現とのマッピング規則情報（図 5参照）を参照して、文書に記述されている事象の種類を特定する。図 5 に示すマッピング規則では、

"modu l e " " end " で囲繞された部分が一つの事象（または実体）と表現とのマツビング規則であり、 1つの事象に対する表現のバリエーションを記述している。なお、図 5に示すマッピング規則の詳細については後述する。

[S 3 ] 属性値抽出手段 5は、知識情報記憶手段 3に記憶されている知識情報を参照して属性値を抽出する。

例えば、属性値抽出手段 5は、図 5に示す「module main 」内に記述されている事象のバリエ一ションのうち、入力された文書に対応する定義に含まれている属性（例えば、 <会社情報 >、 <製品〉等）の属性値を、他の「module」や「def 」などを参照することにより文書から抽出する。例えば、属性ぐ会社情報〉に対応する属性値は、第 1 7行目〜第 2 1行目に記述されている定義および、第 1 2行目〜第 1 5行目に記述されている定義を参照してパターンマッチングを行うことにより、文書から抽出する。

[S 4] 正規化手段 8は、抽出された属性値に日付表現が含まれているか否かを判定し、日付表現が含まれている場合にはステップ S 5に進み、それ以外の場合にはステツプ S 7に進む。

CS 5] 作成日時取得手段 6は、文書が作成された日時を取得し、また、時制取得手段 7 は、対象となる事象が記述されている文章の時制 (tense ) を取得する。

[S 6 ] 正規化手段 8は、取得した文書作成日時情報と時制情報とを参照して、日付表現を対応する数値に変換する「日付表現変換処理」を実行する。

なお、この処理の詳細については、図 6を参照して後述する。

[S 7 ] 正規化手段 8は、抽出された属性値に金額表現が含まれているか否かを判定し、金額表現が含まれている場合には、ステップ S 8に進み、それ以外の場合にはステップ S 1 1に進む。 [S 8] 正規化手段 8は、注目している金額表現が規定された通貨単位であるか否かを判定し、規定された通貨単位である場合にはステツプ S 1 0に進み、それ以外の場合にはステツプ S 9に進む。

例えば、規定されている通貨単位が「円」ある場合に、「$」を単位とする金額表現が存在している場合にはステツプ S 9に進む。

[S 9] 単位変換手段 9は、内蔵されている記憶部に記憶している交換レートを読み出し、規定されている通貨単位に変換する処理を行う。例えば、「$ 1 0 0」という表現が存在している場合に、交換レートが「 1 $ = 1 3 0円」であるとすると、「 $ 1 0 0」は「 1 3 0 0 0 円」に変換されることになる。

[S 1 0 ] 正規化手段 8は、金額表現を数値に変換する「金額表現変換処理」を行う。なお、この処理の詳細は、図 1 3を参照して詳述する。前述の例では、「 1 3 0 0 0円」（文字列）が「 13000 」（数値）に変換される。

[S 1 1 ] 正規化手段 8は、他の数値表現が存在するか否かを判定し、他の数値表現が存在する場合にはステップ S 1 2に進み、それ以外の場合にはステツプ S 1 3に進む。

例えば、「出荷台数 5 0 0 0 0台」などの表現が存在する場合には、ステップ S 1 2に進む。

[S 1 2] 正規化手段 8は、属性値に含まれている数値表現を対応する数値に変換する。例えば、前述の例では、「 5 0 0 0 0」（文字列）が計算可能な数値「 50000」に変換されることになる。

[S 1 3 ] 対応付け手段 1 0は、属性値に固有名（例えば、「橋本電気」等）が含まれているか否かを判定し、含まれている場合にはステツプ S 1 4に進み、それ以外の場合にはステップ S 1 5に進む。

[S 1 4] 対応付け手段 1 0は、固有名を抽出し、その固有名に対応する固有名コ一ドを知識情報記憶手段 3から取得して付与する。

例えば、前述の「橋本電気」に対応する固有名コード「 0 0 0 1 1」が、知識情報記憶手段 3から読み出されて付与される。

なお、知識情報記憶手段 3には、関連する固有名を相互に関連づけて生成した情報が記憶されているので、文書中のある固有名が複数の候補を有する場合には、関連付けられている他の固有名を参照することにより、固有名を正確に特定することが可能となる。

即ち、「橋本電気」に対応する候補が「橋本電気株式会社」と「株式会社橋本電気」の 2つである場合（同名の会社が存在する場合）には、文書中に記載されている、例えば、社長名や所在地などと、知識情報記憶手段 3に関連付けられて記憶されている固有名とを比較することにより、これらの候補を絞り込んで正確な固有名を取得することができる。

[ S 1 5 ] 対応付け手段 1 0は、参照表現（「同」または「両」などの表現）が存在するか否かを判定し、参照表現が存在する場合にはステツプ S 1 6に進み、それ以外の場合にはステップ S 1 8に進む。

例えば、参照表現である（同）が存在する場合には、ステップ S 1 6 に進むことになる。

[ S 1 6 ] 対応付け手段 1 0は、参照表現が参照している対象を同定する。

例えば、「橋本電気（中山社長）は、橋本電算機（同）の独立を · · · 」の場合では、参照表現「同」が参照している対象として「中山社長」を同定する。

なお、この同定方法としては、「同」や「両」が内挿された括弧

" 0 " が検出された場合には、その括弧より前に出現する括弧内の属性値を、参照表現が参照している対象であると同定するようにすればよい。 [ S 1 7 ] 対応付け手段 1 0は、参照表現が参照している対象に対応する固有コードを取得し、取得した固有名コードを参照表現に対して付与する。

前述の例では、「中山社長」の固有コード「 0 0 0 1」が参照表現「同」に付与されることになる。

[ S 1 8 ] 対応付け手段 1 0は、正規化された属性値（以下、正規化情報と略記する）と、元の文書（または、元の文書の格納場所を特定するための情報）とを関連付けて文書記憶手段 1 1に記憶させる。

以上の処理により、入力された文書に記述されている事象が特定されるとともに、その事象に係わる属性の属性値が取得される。そして、取得された属性値と実世界の実体とが対応付けられて得られた正規化情報と、もとの文書（または、元の文書の格納場所を特定するための情報）とが文書記憶手段 1 1に記憶されることになる。

次に、図 3のステップ S 6に示す、「日付表現変換処理」の詳細について説明する。

図 6は、図 3に示す「日付表現変換処理」の詳細を説明するフローチヤートである。このフローチャートが開始されると、以下の処理が実行されることになる。

[ S 3 0 ] 作成日時取得手段 6 は、文書の作成日時を取得して、％docyear， ¾docmon t h , %doc d ay に代入する。なお、文書の作成日時は、例えば、新聞記事であればその記事の発行日を取得する。また、新聞記事以外の文書であれば、ファイルの属性を参照して、その作成日時を取得する。

[ S 3 1 ] 正規化手段 8は、属性値から日付表現を抽出する。

例えば、対象となる文章が「橋本電気は新たなコンピュータを 1 日に発売。」であれば、日付表現として「 1 日」を抽出する。 [S 3 2 ] 正規化手段 8は、抽出した日付表現が数字と「年」、「月」、または、「日」によって構成されているか否かを判定し、 YE Sと判定した場合にはステツプ S 3 3に進み、それ以外の場合にはステツプ S 3 4に進む。

例えば、前述の「 1 日」の例では、数字「 1」と「日」とによって構成されていることから、 YE Sと判定されてステツプ S 3 3に進む。

[S 3 3 ] 正規化手段 8は、数字変換テーブル（図 7参照）を参照して、日付表現を変換する処理を行う。

図 7に示す数字変換テーブルでは、数字表現に対応する正規化数値が関連付けられており、ある数字表現（文字列）が与えられると、その表現に対応する数値が与えられることになる。

[S 34] 正規化手段 8は、図 8に示す日時表現変換テーブルを参照して、日時表現を対応する数値に変換する。

図 8に示す日時表現変換テーブルでは、表現と、そのタイプと、対応する正規化数値とが対応付けられている。なお、タイプとは表現の型であり、例えば、「d a t e」は特定の日時を示し、また、「d a t e r a n g e」は所定の期間を示している。例えば、 1 9 9 8年に作成された文書に「昨年の 3 月 4 日」という表現があれば、 year には ( %docyear- 1 ) = ( 1998-1 ) =1997 が代入され、また、％month と％dayには、それぞれ " 3 " と "4" が代入される。

また、 1 9 9 7に作成された文書に「 1 9 9 8年の春」という表現があれば、％year には " 1998 " が代入されるので、 from 1998-3-1 to 1998-5-30 という正規化値が得られることになる。

なお、この日時表現テーブルは、一例であるので、図示したテ一ブル以外にも種々の実施の形態が考えられる。

[S 3 5 ] 正規化手段 8は、全ての値が取得されたか否かを判定し、取得されたと判定した場合にはステップ S 3 7に進み、それ以外の場合にはステツプ S 3 6に進む。

例えば、年月日に対応する全ての値が取得された場合にはステツプ S 3 7に進む。

[S 3 6 ] 正規化手段 8は、日付の推定処理を行う。なお、この処理の詳細は、図 9を参照して後述する。

[S 3 7 ] 正規化手段 8は、正規化された数値を％year, %month, ¾day にそれぞれ代入して処理を終了する。

以上の処理によれば、文書に含まれている日付表現を、対応する数値に変換することが可能となる。

次に、図 9を参照して図 6のステップ S 3 6に示す「日付推定処理」の詳細について説明する。図 9に示すフローチヤ一卜が開始されると、以下の処理が実行されることになる。

[S 5 0 ] 正規化手段 8は、％year のみ値が未代入であるか否かを判定し、未代入である場合にはステップ S 5 1 に進み、それ以外の場合にはステップ S 5 2に進む。

[S 5 1 ] 正規化手段 8は、％year 推定処理を行う。なお、この処理の詳細については、図 1 0を参照して後述する。

[S 5 2 ] 正規化手段 8は、％day 以外の値が未代入であるか否かを判定し、未代入である場合にはステップ S 5 3に進み、それ以外の場合にはステツプ S 5 5に進む。

[ S 5 3 ] 正規化手段 8は、％month 推定処理を行う。なお、この処理の詳細については、図 1 1 を参照して詳述する。

[S 54] 正規化手段 8は、％year 推定処理を行う。

[ S 5 5 ] 正規化手段 8は、％inonth 以外の値が未代入であるか否かを判定し、その結果、未代入である場合にはステップ S 5 6に進み、それ以外の場合にはステツプ S 5 8に進む。

[S 5 6 ] 正規化手段 8は、 day 推定処理を行う。なお、この処理の詳細については図 1 2を参照して詳述する。

[S 5 7 ] 正規化手段 8は、％year 推定処理を行う。

[S 5 8 ] 正規化手段 8は、％year 以外の値が未代入であるか否かを判定し、未代入の場合にはステップ S 5 9に進み、それ以外の場合には処理を終了する。

[ S 5 9 ] 正規化手段 8は、推定日時を「from ¾year-l-l to %year- 12-31 」とする。即ち、％year 以外の値が未代入である場合には、検索漏れが生ずることを防止するために、正規化値をできるだけ広い値に設定する。

次に、図 1 0を参照して、図 8のステップ S 5 1， S 5 4 , S 5 7に示す「 year 推定処理」の詳細について説明する。このフローチャートが開始されると、以下の処理が実行されることになる。

[S 6 0 ] 正規化手段 8は、対象となる文章から時制取得手段 7によつて取得された時制が未来形である場合にはステップ S 6 1に進み、それ以外の場合にはステツプ S 6 5に進む。

[ S 6 1 ] 正規化手段 8は、％docmonth が^ onth よりも大きいか否かを判定し、大きいと判定した場合にはステップ S 6 2に進み、それ以外の場合にはステップ S 6 3に進む。

[S 6 2 ] 正規化手段 8は、％year に値（％docyear+l) を代入する。例えば、文書が作成された月が 4月である場合に、「 3月に · · · する予定である」という表現が文章中にある場合には、この「 3月」は、来年の 3 月を示していると推定されることから、％year には値 (%docyear + l) が代入される。

[ S 6 3 ] 正規化手段 8は、 ocmonth が％month 以下であるか否かを判定し、 YE Sと判定した場合にはステップ S 6 4に進み、それ以外の場合にはステツプ S 6 5に進む。

[ S 6 4 ] 正規化手段 8は、％year に％docyearの値を代入する。

[S 6 5 ] 正規化手段 8は、時制取得手段 7によって取得された時制が過去であるか否かを判定し、 Y E Sと判定した場合にはステップ S 6 6 に進み、それ以外の場合には図 9の処理に復帰（リターン）する。

[ S 6 6 ] 正規化手段 8は、％docmonth の値が¾011 の値以上であるか否かを判定し、 YE Sと判定した場合にはステップ S 6 7に進み、それ以外の場合にはステツプ S 6 8に進む。

[ S 6 7 ] 正規化手段 8は、 docyearの値を％year に代入する。

[ S 6 8 ] 正規化手段 8は、％docmonth の値が％month の値よりも小さいか否かを判定し、 YE Sと判定した場合にはステツプ S 6 9に進み、それ以外の場合には図 9の処理に復帰する。

[S 6 9 ] 正規化手段 8は、値（％docyear- 1) を％year に代入する。例えば、文書が作成された月が 4月である場合に、「 6月に · · · した」という表現が文章中にある場合には、この「 6月」は、昨年の 6月を示していると推定されることから、％year には値（％docyear-l) が代入される。

次に、図 1 1 を参照して、図 9のステップ S 5 3に示す「％month 推定処理」の詳細について説明する。このフローチャートが開始されると、以下の処理が実行されることになる。

[S 8 0] 正規化手段 8は、時制取得手段 7によって取得された対象となる文章の時制が未来形である場合にはステップ S 8 1 に進み、それ以外の場合にはステツプ S 8 5に進む。

[ S 8 1 ] 正規化手段 8は、％docday が％day よりも大きいか否かを判定し、 Y E Sと判定した場合にはステップ S 8 2に進み、それ以外の場合にはステツプ S 8 3に進む。

[ S 8 2 ] 正規化手段 8は、％monthに値 docmonth + 1 ) を代入する。例えば、文書が作成された日が 2 日である場合に、「4日に · · ' する予定である」という表現が文章中にある場合には、この「4日」は、同じ月の 4 日を示していると推定されることから、％month には値 (¾docmonth + l ) が代入されることになる。

[ S 8 3 ] 正規化手段 8は、 ocday の値が day の値以下であるか否かを判定し、 Y E Sと判定した場合にはステップ S 8 4に進み、それ以外の場合にはステツプ S 8 5に進む。

[S 8 4 ] 正規化手段 8は、％monthに％docmonth の値を代入する。

[ S 8 5 ] 正規化手段 8は、時制取得手段 7によって取得された時制が過去であるか否かを判定し、 Y E Sと判定した場合にはステツプ S 8 6 に進み、それ以外の場合には図 9の処理に復帰（リターン）する。

[ S 8 6 ] 正規化手段 8は、％docday の値が day の値以上であるか否かを判定し、 Y E Sと判定した場合にはステップ S 8 7に進み、それ以外の場合にはステップ S 8 8に進む。

[ S 8 7 ] 正規化手段 8は、％docmonth の値を％monthに代入する。

[ S 8 8 ] 正規化手段 8は、 ocday の値が day の値よりも小さいか否かを判定し、 Y E Sと判定した場合にはステップ S 8 9に進み、それ以外の場合には図 9の処理に復帰する。

[ S 8 9 ] 正規化手段 8は、値（％docmonth- 1 ) を％mon thに代入する。例えば、文書が作成された日が 4日である場合に、「 6 日に · · · した」という表現が文章中にある場合には、この「 6 日」は、前の月の 6 日を示していると推定されることから、 month には値（％docmonth- 1 ) が代入される。

次に、図 1 2を参照して、図 9のステップ S 5 6に示す day 推定処理」の詳細について説明する。このフローチャートが開始されると、以下の処理が実行されることになる。

[ S 1 0 0 ] 正規化手段 8は、％month の値が 1 , 3 , 5 , 6， 8， 1 0，または， 1 2のうちの何れかであるか否かを判定し、 YE Sと判定した場合にはステップ S 1 0 1に進み、それ以外の場合にはステップ S 1 0 2に進む。

[ S 1 0 1 ] 正規化手段 8は、日付情報として「from %year-¾month-l to %year-%month-31J を生成する。

[ S 1 0 2 ] 正規化手段 8は、％month の値が 4， 6 , 9 , または， 1 1のうちの何れかであるか否かを判定し、 YE Sと判定した場合にはステツプ S 1 0 3に進み、それ以外の場合にはステツプ S 1 0 4に進む。

[S 1 0 3 ] 正規化手段 8は、日付情報として「from ¾year-%mon th-1 to %year- month- 30」を生成する。

[S I 0 4] 正規化手段 8は、「年」に関する属性値を参照して、閏年か否かを判定し、閏年である場合にはステップ S 1 0 5に進み、それ以外の場合にはステツプ S 1 0 6に進む。

[ S 1 0 5 ] 正規化手段 8は、日付情報として「from ¾year-¾month-l to %year- %month- 29」を生成する。

[ S 1 0 6 ] 正規化手段 8は、日付情報として「from ¾year-¾month-l to %year- onth- 28」を生成する。

以上の処理によれば、文書に含まれている日付情報が不十分な情報しか含んでいない場合においても、文書の作成日時と、注目する文章の時制とに応じて日付情報を推定するようにしたので、文書に含まれている日付情報を検索を行う際に有効に活用することが可能となる。

例えば、「来年の春」のような曖昧な表現も、具体的な数値（例えば、 1 9 9 8年 3月 1 日〜 1 9 9 8年 5月 3 1 日）に変換（正規化）することが可能となるので、このような曖昧な表現も検索の際に活用することが可能となる。

次に、図 1 3を参照して、図 3のステップ S 1 0に示す「金額表現変換処理」の詳細について説明する。このフローチヤ一卜が開始されると以下の処理が実行されることになる。

[S 1 2 0 ] 正規化手段 8は、図 1 4に示す金額表現変換テーブルを参照して、金額表現を対応する数値に変換し、変数 Xに代入する。

例えば、「二十万円」という表現では、先ず、「二」が "2 " に変換され、「十」が "X10" に、また、「万」力 S " X 10000 " に変換されるので、全体として値 "200000" が得られることになる。

[S 1 2 1 ] 正規化手段 8は、金額表現が「以上」で終わるか否かを判定し、「以上」で終わる場合にはステップ S 1 2 2に進み、それ以外の場合にはステツプ S 1 2 3に進む。

[ S 1 2 2 ] 正規化手段 8は、正規化表現として「from x to * 」を生成する。ここで、「*」は任意の値を意味している。

前述の例では、 x = 2000 であるので、「from 2000 to *j が生成される。

[S 1 2 3 ] 正規化手段 8は、金額表現が「以下」で終わるか否かを判定し、「以下」で終わる場合にはステップ S 1 2 4に進み、それ以外の場合にはステップ S 1 2 5に進む。

[S 1 2 4] 正規化手段 8は、正規化表現として「from * to x 」を生成する。

[S 1 2 5 ] 正規化手段 8は、金額表現が「台」で終わるか否かを判定し、「台」で終わる場合にはステップ S 1 2 6に進み、それ以外の場合にはステツプ S 1 2 8に進む。

[ S 1 2 6 ] 正規化手段 8は、正規化表現として「 from X to X 」を生成する。

[ S 1 2 7 ] 正規化手段 8は、「to」の後の Xに含まれている "0 " を "9 " に全て変換する。

例えば、「 1 0万円台」という表現では、 x = 100000 となるので、この場合には「to」の後の Xに含まれている "0 " 力 "9 " に全て変換されるので、 19999 9 となる。従って、正規化表現としては、「from 100000 to 199999 」が生成されることになる。

[ S 1 2 8 ] 正規化手段 8は、金額表現が「台前半」で終わるか否かを判定し、「台前半」で終わる場合にはステップ S 1 2 9に進み、それ以外の場合にはステップ S 1 3 1に進む。

[ S 1 2 9 ] 正規化手段 8は、正規化表現として「from x to x 」を生成する。

[ S 1 3 0 ] 正規化手段 8は、「to」の後の Xに含まれている最初の

"0 " を "5 " に変換する。

例えば、「 1 0万円台前半」という表現では、 x = 100000 となる。この場合には「to」の後の Xに含まれている最初の "0 " が "5 " に変換されるので、 150000 となる。従って、正規化表現としては、「from 100000 to 150000 」が生成されることになる。

[ S 1 3 1 ] 正規化手段 8は、金額表現が「台後半」で終わるか否かを判定し、「台後半」で終わる場合にはステップ S 1 3 2に進み、それ以外の場合には図 3の処理に復帰する。

[ S 1 3 2 ] 正規化手段 8は、正規化表現として「from X to X 」を生成する。

[ S 1 3 3 ] 正規化手段 8は、「from」の後の xに含まれている最初の "0 " を "6 " に変換する。

[ S 1 3 4 ] 正規化手段 8は、「to」の後の Xに含まれている "0 " を "9 " に変換する。

例えば、「 1 0万円台後半」という表現では、 x = 100000 となるので、この場合には「to」の後の Xに含まれている最初の "0 " が "6 " にステップ S 1 3 3において変換され、また、「to」の後の Xに含まれている "0 " 力 "9 " に全て変換されるので、正規化表現としては、 rfrom 160000 to 199999 」が生成されることになる。

以上の処理によれば、例えば、漢数字によって記述されている金額表現を対応する数値に変換するとともに、例えば、「以上」や「台前半」などの曖昧な表現を含む金額表現も対応する数値に変換することが可能となる。

次に、具体的な例を挙げて以上の実施の形態の動作について説明する。いま、図 1 5に示す文書が図 1に示す文書入力部 1から入力されたとする。なお、図 1 5に示す例文は、新製品の発売に関する文書である。

このような文書が文書入力部 1から入力されると、事象特定手段 4は文書に記述されている事象を、知識情報記憶手段 3に記憶されている知識情報を参照して特定する（図 3のステップ S 2) 。

図 1 5 の例では、図 5 の第 4行目〜 1 1 行目に記述されている「module main 」の中の第 1番目の項目（<会社情報〉は [、 ] ? <日付 >、 <製品 >を発売した。）に該当することから、この文書に記述されている事象が「新製品の発売」であると判定されることになる。

なお、図 5に示す知識情報では、事象の定義が「module main 」〜 rend module] によって囲繞された部分に記述されている。また、事象の定義の中に含まれている、例えば、ぐ会社情報 >などの属性は、 rmodulej や「def 」などにおいて定義されている。例えば、属性 <会社情報〉は、第 1 7行目〜第 2 1行目の「module」内に定義されており、その内容は、（ぐ業種〉、ぐ会社名 >) 、（<業種 2〉 &連結語；ぐ会社名〉）、および、（<会社名〉）の 3種類である。

ここで、 <業種 >に関する定義は、第 1 2行目の「de f 」の後に記述されており、し *メーカし *会社し *大手し *開発に *販売 I . *製造し *業）の中の何れかに該当するものが属性 <業種 >の属性値であるとされる。従って、「パソコンメ一力」や「パソコン大手」などの表現は、 <業種 >の属性値であると判定される。なお、「 I 」は「or」を意味している。

また、同意語または類義語を含めて定義を行う場合には、第 1 9行目に示されているように、同意語を含める部分を「&」と「；」の間に挿入する。この例では、「連結語」が同意語または類義語を含む部分となり、その詳細は、第 1 6行目に定義されており、「連結語」 = (を専門とする I である I している I する I の）となる。従って、「オフィスォ一トメ一シヨンを専門とする橋本電機」という表現は、会社情報の第 2 番目の定義（ぐ業種 2〉 &連結語； <会社名 > ) に該当することになる。

このように、本実施の形態においては、トップダウン的な処理が実行されることから、文脈に応じたパターンマツチングが可能となる。

以上のような処理によって事象の種類が特定されると、時制取得手段

7は、事象が記述されている文章を取得し、その時制情報を取得する。図 1 5に示す文書の例では、その時制は過去形（「発売した」）であるので、「過去形」が時制情報として取得される。なお、このようにして取得された時制は、図 1 6の第 2行目に示すように「アスペクト過去」として、正規化情報に付加される。

次に、属性値抽出手段 5は、特定された事象の種類に応じて、属性値を抽出する（図 3のステップ S 3 ) 。即ち、属性値抽出手段 5は、図 5 に示す知識情報と文書との間でパターンマッチングを行うことによって属性値を抽出する。図 1 5の例では、例えば、 <組織名 >として「橋本電機」が抽出され、また、新たに発売する <製品情報 >の<種別 >としては「 J CN互換パソコン」が抽出され、そのく製品名 >としては、「GNWシリーズ」が抽出されている。

続いて、正規化手段 8は、文書に日付表現が存在するか否かを判定し (図 3ステップ S 4) 、存在する場合には対応する数値に変換する処理を行う。

図 1 5に示す文書では、「十八日」という表現が含まれていることから、正規化手段 8は、図 3に示すステップ S 5において文書作成日時情報と時制情報とを取得して、ステップ S 6において日付表現変換処理を行う。

例えば、文書作成日時が「 1 9 9 3年 1 0月 1 9 日」であるとすると、図 1 6の第 6行目に示すように、「発表日付」としてそのタイプが rdatej であり、また、その値が「 1998-10-18」である情報が正規化情報に付加されることになる。続いて、正規化手段 8は、図 3のステツプ S 7において、金額表現が存在するか否かを判定する。図 1 5に示す文書では、「十七万八千円」などの表現があることから、ステップ S 8 に進み、そこで、規定された通貨単位か否かが判定される。例えば、規定された通貨単位が「円」であるとし、対象となる表現が前述の「十七万八千円」である場合には、ステップ S 1 0に進むことになる。

なお、「 $ 1 5 0」などの表現が含まれている場合には、ステップ S 9において交換レート（ 1 $ = 1 3 0円）に応じて、通貨単位の変換が行われた後、ステップ S 1 0に進む。

ステップ S 1 0では、文字列「十七万八千円」、値 " 178000" に変換される。

続くステップ S 1 1では、他の数値表現が存在するか否かが判定されるが、図 1 5に示す例の第 1番目の文章には、日付表現以外の数値表現は存在しないことから、ステップ S 1 3に進む。

ステップ S 1 3では、対応付け手段 1 0が固有名が存在するか否かを判定する。図 1 5の例では、固有名「橋本電機」が存在することから、ステップ S 1 4に進む。

ステップ S 1 4では、対応付け手段 1 0が知識情報記憶手段 3に記憶されている知識情報のうち、橋本電機に対応する情報を取得する。なお、この情報は、例えば、以下のような情報である。

0 0 0 1 橋本電機ぐ会社名〉 0 0 0 1 1 橋本太郎<社長名〉 0 0 0 1 2 岡山県 <所在地 >

取得された「橋本電機」に対する候補が複数存在する場合には、橋本電機に関連付けられて記憶されている他の固有名（橋本太郎、岡山県）などが文書中に含まれていないか判定され、候補が絞り込まれることになる。

そして、ステップ S 1 4において、絞り込みの結果得られた固有名コ —ド（例えば、 0 0 0 1 ) が、正規化情報に付与されることになる（図 1 6第 4行目参照）。

ステップ S 1 5では、対応付け手段 1 0は、参照表現が存在するか否かを判定する。図 1 5に示す例では、参照表現は存在しないから、 N O と判定されてステップ S 1 8において、生成された正規化情報と文書 (または、文書が格納されている場所を示す情報）とを文書記憶手段 1 1に記憶して処理を終了する。

図 1 7は、他の文書例を示している。また、図 1 8は、図 1 7に示す文書を処理して得られた正規化情報の一例を示している。

図 1 8の第 3行目に示すように、図 1 7に示す文書に記述されている事象は、合併情報（f i e l d 合併情報）であり、その時制は過去（ァスぺクト =過去）である。また、「発表した」という表現が第 1番目の文章中にないことから、第 2行目に示すように、「文末表現発表述語なし」とされている。

更に、第 5行目から第 2 7行目に示されている「合併主体組織情報」の内容としては、第 8行目と第 1 8行目に示されている北海道大木リフ卜と、東北海道大木リフトとが合併する主体組織であり、それ以外の行には、これらの組織を補足するための <合併組織補足情報 >が記載されている。

第 3 4行目以降には、分析の対象となった文以外の残りの文章が記載されている。

なお、この例では、図 1 7の第 3行目に「同」という参照表現が含まれているので、図 1 8の第 2 3行目に示すように「参照先前」という記述が追加され、参照表現「同」が、第 1 3〜第 1 6行目に示されている「芥川龍太郎（ 0 2 5 1 ) 」（要素 2 ) であることが示されている。次に、以上のようにして生成された正規化情報を参照して、文書を検索する場合の処理の一例について説明する。

図 1 9は、図 1に示すユーザィン夕フェース部 2に表示される入力画面の表示例である。この例では、製品の販売情報が記載された文書を検索の対象としている。即ち、ぐ製品の販売 >が事象として記述された文書が検索の対象とされる。この例では、第 1番目に示すボックス「組織名」に、製品を発売した組織名が入力される。また、第 2番目に示すボックス「製品種」には、製品の種類が入力される。更に、ボックス「価格」には製品の価格の範囲が入力される。ボックス「発売日」には、発売された日の範囲が入力される。なお、最下行に表示されているボタン「検索」は、全ての入力が終了し、検索を開始する場合に操作される。図 2 0は、図 1 9に示す画面に所定のクエリが入力された場合の入力例を示している。この例では、組織名として「AAA」力また、製品種として「パソコン」が入力されている。

更に、価格は、「 1 0 0 0 0 0」円以上「 3 0 0 0 0 0」円以下とされており、発売日は「 1 9 9 7」年「 1」月「 1」日から「 1 9 9 7」年「 6」月「 3 0」日までとされている。

このような入力画面から入力されたクエリは、各入力項目の属性を示す情報が付与された後、事象特定手段 4、属性値抽出手段 5、および、対応付け手段 1 0を介して、文書抽出手段 1 2に供給される。なお、付与される情報としては、例えば、「AAA」に対してはタグぐ組織名〉が付与される。また、価格はタグく価格 type=price unit= 円 value = " from 100000 to 300000" 〉に変換される。更に、発売日は、タグ < 発売日 type = date value= "from 1997-1-1 to 1997-6-30 " >に変換される。

文書抽出手段 1 2は、ユーザインタフェース部 2から供給されたクェリとタグとに対応する属性値を有する文書を文書記憶手段 1 1から取得する。即ち、文書記憶手段 1 1には、元の文書とともに正規化情報が記憶されているので、文書抽出手段 1 2は、この正規化情報に含まれている属性値と、クエリのタグとを照合することにより、所望の文書を抽出する。

このようにして検索された結果は、図示せぬ表示装置に表示出力される。

図 2 1は、検索結果を表示する画面のテンプレートを示している。この例では、検索結果の属性値として「組織名」、「製品種」、「製品名」、「価格」、「発売日」、および、「見出し」が表示される。

図 2 2は、実際の表示例を示している。この例の第 1行目の項目は、「 A A A」という組織が、デスクトップ型のパソコンを、 200000〜 299999 円で、 1997/02/29 に発売しており、その文書の見出しは「低価格パソコン発売」であることを示している。

図 2 3は、図 1に示すユーザィン夕フェース部 2に表示される入力画面の他の表示例である。この例では、「組織の合併情報」が記載された文書を検索の対象としている。即ち、組織の合併が事象として記述された文書が検索の対象とされる。この例では、第 1番目と第 2番目に示すボックス「組織名」に、合併する組織名が入力される。また、ボックス「合併日」には、合併が行われる日の範囲が入力される。なお、最下行に表示されているボタン「検索」は、全ての入力が終了した後に、検索を開始する場合に操作される。

図 24は、図 2 3に示す入力画面に所定のクエリが入力された場合の入力例を示している。この例では、組織名として「AAA」が、また、合併日として「 1 9 9 7」年「 1」月「 1」日から、「 1 9 9 7」年「 1 2」月「 3 1」日までが入力されている。

このような入力画面において、ボタン「検索」が操作されると、前述の場合と同様にタグが生成され、文書記憶手段 1 1 に記憶されている正規化情報と、このタグとを照合することにより、文書が検索される。図 2 5は、図 2 4の検索結果を表示する画面の表示例である。この表示例では、検索結果の属性として「組織名」、「組織名」、「新組織名」、「合併日」、および、「見出し」が表示される。

図 2 6は、実際の表示例を示している。

この例では、検索結果の文書には、組織名が「AAA」および「B B B」である会社が「 1997/04/01」に合併し、新組織名は「C C C」であることが示されており、また、その文書の見出しは、「AAA， BBB， 2社合併」であることが示されている。

以上の実施の形態によれば、検索の対象となる事象に対応した入力画面を用意して、その入力画面から必要な項目を入力することにより、所望の文書が取得されることになる。ところで、文書記憶手段 1 1に記憶されている文書には、前述の正規化情報が関連付けられて記憶されているので、その正規化情報を参照することにより、例えば、対象とする文書に、新たに発売されたパソコンの価格が「二十五万円」と漢数字で記載されているような場合においても、「200000」円〜「300000」円と記述されたクエリによつて取得されることになる。

なお、以上の実施の形態においては、検索しょうとする事象に対応した入力画面から所定の項目を入力し、入力された項目に対応する文書を検索するようにしたが、クエリを文章として入力し、入力された文章に対して正規化処理を行った後、対応する文書を検索するようにしてもよレ以下、そのような方法により、クエリを正規化する処理の一例について、図 2 7を参照して説明する。このフローチヤ一卜が開始されると以下の処理が実行されることになる。

[ S 1 5 1 ] ユーザインタフェース部 2は、文章として記述されたクェリを入力する。

[ S 1 5 2 ] 事象特定手段 4は、クエリに記述されている事象の種類を特定する。即ち、事象特定手段 4は、知識情報記憶手段 3に記憶されている事象と表現とのマッピング規則情報（図 5参照）を参照して、クェリに記述されている事象の種類を特定する。

[ S 1 5 3 ] 属性値抽出手段 5は、知識情報記憶手段 3に記憶されている知識情報を参照して属性値を抽出する。

[ S 1 5 4 ] 正規化手段 8は、抽出された属性値に日付表現が含まれているか否かを判定し、日付表現が含まれている場合にはステップ S 1 5 5に進み、それ以外の場合にはステップ S 1 5 7に進む。

[ S 1 5 5 ] 作成日時取得手段 6は、クエリが作成された日時を取得し、また、時制取得手段 7は、クエリの時制（tense ) を取得する。

[S 1 5 6 ] 正規化手段 8は、取得したクエリ作成日時情報と時制情報とを参照して、日付表現を対応する数値に変換する「日付表現変換処理」を実行する。なお、この処理の詳細については、図 6を参照して既述したので、その説明は省略する。

[S 1 5 7] 正規化手段 8は、抽出された属性値に金額表現が含まれているか否かを判定し、金額表現が含まれている場合には、ステップ S 1 5 8に進み、それ以外の場合にはステツプ S 1 6 1に進む。

[S 1 5 8] 正規化手段 8は、注目している金額表現が規定された通貨単位であるか否かを判定し、規定された通貨単位である場合にはステツプ S 1 6 0に進み、それ以外の場合にはステツプ S 1 5 9に進む。例えば、規定されている通貨単位が「円」ある場合に、「$」を単位とする金額表現が既述されている場合にはステツプ S 1 5 9に進む。

[S 1 5 9] 単位変換手段 9は、内蔵されている記憶部に記憶している交換レートを読み出し、規定されている通貨単位に変換する処理を行う。例えば、「$ 1 0 0」という表現が存在している場合に、交換レートが「 1 $ = 1 3 0円」であるとすると、「 $ 1 0 0」は「 1 3 0 0 0 円」に変換されることになる。

[S 1 6 0] 正規化手段 8は、金額表現を数値に変換する「金額表現変換処理」を行う。なお、この処理の詳細は、図 1 3を参照して既述したので、その説明は省略する。

前述の例では、「 1 3 0 0 0円」（文字列）が「 13000 」（数値）に変換されることになる。

[S 1 6 1 ] 正規化手段 8は、他の数値表現が存在するか否かを判定し、他の数値表現が存在する場合にはステップ S 1 6 2に進み、その他の場合にはステツプ S 1 6 3に進む。例えば、「出荷台数 5 0 0 0 0台」などが存在する場合には、ステツプ S 1 6 2に進む。

[ S 1 6 2 ] 正規化手段 8は、属性値に含まれている数値表現を対応する数値に変換する。例えば、前述の例では、文字列「 5 0 0 0 0」が計算可能な数値「50000」に変換されることになる。

[ S 1 6 3 ] 対応付け手段 1 0は、属性値に固有名（例えば、「橋本電気」等）が含まれているか否かを判定し、含まれている場合にはステツプ S 1 6 4に進み、それ以外の場合にはステツプ S 1 6 5に進む。

[ S 1 6 4 ] 対応付け手段 1 0は、固有名を抽出し、その固有名に対応する固有名コードを知識情報記憶手段 3から取得して属性値に付与する。例えば、前述の「橋本電気」に対応する固有名コード「 0 0 0 1 1」が、知識情報記憶手段から読み出されて付与される。

なお、知識情報記憶手段 3には、関連する固有名を相互に関連づけて生成した情報が記憶されているので、ある固有名が複数の候補を有する場合には、関連付けられている他の固有名を参照することにより、固有名を正確に特定することが可能となる。

即ち、「橋本電気」に対応する候補が「橋本電気株式会社」と「株式会社橋本電気」の 2つである場合（同名の会社が存在する場合）には、クエリ中に記載されている、例えば、社長名や所在地などと、知識情報記憶手段 3に関連付けられて記憶されている固有名とを比較することにより、これらの候補を絞り込んで正確な固有名コードを取得することができる。

[ S 1 6 5 ] 対応付け手段 1 0は、参照表現（同または両などの表現）が存在するか否かを判定し、参照表現が存在する場合にはステップ S 1 6 6に進み、それ以外の場合にはステップ S 1 6 8に進む。

例えば、参照表現である（同）が存在する場合には、ステップ S 1 6 6に進むことになる。

[ S 1 6 6 ] 対応付け手段 1 0は、参照表現が参照している対象を同定する。

" 0 " が検出された場合には、その括弧より前に出現する括弧内の属性値を、参照表現が参照している対象であると同定するようにすればよい。

[ S 1 6 7 ] 対応付け手段 1 0は、参照表現が参照している対象に対応する固有コードを取得し、取得した固有コードを参照表現に対して付与する。

前述の例では、「中山社長」の固有コード「 0 0 0 1 0」が参照表現「同」に付与されることになる。

[ S 1 6 8 ] 対応付け手段 1 0は、以上のようにして生成されたクエリの正規化情報を、文書抽出手段 1 2に供給する。その結果、文書抽出手段 1 2は、以上のようにして生成されたクエリの正規化情報を参照して、文書記憶手段 1 1に記憶されている文書を検索する。

例えば、クエリとして「橋本酒造が純米酒、橋本を発売した。」が入力された場合には、事象特定手段 4は、知識情報記憶手段 3に記憶されている知識情報を参照し、入力されたクエリが「新製品の発売」という事象を示していることを特定する。

属性値抽出手段 5は、 <組織名 >として「橋本酒造」を抽出し、また、ぐ製品種 >として「純米酒」を、また、 <製品名 >として「橋本」を抽出する。対応付け手段 1 0は、「橋本酒造」に対応する固有名コードが存在する場合には、その固有名コードを取得して付与する。例えば、

「橋本酒造」の固有名コードが " 0 1 1 1 " である場合には、 <組織名 >橋本酒造（ 0 1 1 1 ) <Z組織名〉というタグが生成されることになる。

文書抽出手段 1 2は、以上のようにして生成された正規化情報を参照して、文書記憶手段 1 1から該当する文書を抽出する。即ち、文書抽出手段 1 2は、組織名タグと固有名コード（ 0 1 1 1 ) が付けられた「橋本酒造」、製品種タグが付けられた「橋本」、および、製品名タグが付けられた「橋本」を含み、その事象が「新製品の発売」である文書を文書記憶手段 1 1から抽出する。

このような処理によれば、例えば、「橋本さんは、橋本酒造製の純米酒を注文した。」という一文が含まれている文書が検索結果として取得されることを防止することができる。即ち、クエリと文書の正規化情報には、抽出された属性を示すタグがそれぞれ付与されていることから、例えば、 <製品名 >である「橋本」を、 <人名 >と混同すること防止することができる。

次に、以上の実施の形態により文書をクリッピングする場合の処理の一例について説明する。図 2 9は、文書をクリッピングする場合に、ュ一ザから送信されたクエリを正規化する処理の一例を説明するフ口一チャ一トである。このフローチャートが開始されると、以下の処理が実行されることになる。

[ S 1 8 0 ] ュ一ザィン夕フェース部 2は、所定のユーザからのクエリを入力する。

[ S 1 8 1 ] 事象特定手段 4、属性値抽出手段 5、および、対応付け手段 1 0は、図 2 7および図 2 8のステップ S 1 5 1〜 S 1 6 7の処理を実行して、クエリを正規化する。 [ S I 8 2 ] 文書抽出手段 1 2は、正規化されたクエリ（正規化情報）と、それを送信したユーザを特定する情報とを関連付けて記憶する。

[ S 1 8 3 ] 文書抽出手段 1 2と重要度算出手段 1 3は、文書記憶手段 1 1 に記憶されている文書と、ユーザ毎のクエリの関連度を判定する「関連度判定処理」を実行する。なお、この処理の詳細は、図 3 0を参照して後述する。

次に、図 3 0を参照して、図 2 9に示す「関連度判定処理」の詳細について説明する。このフローチャートが開始されると、以下の処理が実行されることになる。

[ S 2 0 1 ] 重要度算出手段 1 3は、正規化情報が付与された文書と、正規化されたクエリとの関連度をユーザ単位で計算する。

なお、計算方法としては、例えば、正規化されたクエリに含まれている重要表現を対象となる文書がいくつ含んでいるかに応じてスコアリングを行い、スコアの高い文書を関連度の高い文書とする方法を採用することができる。

[ S 2 0 2 ] 文書抽出手段 1 2は、重要度算出手段 1 3の計算結果を参照し、関連度の高い文書を抽出する。

[ S 2 0 3 ] 文書抽出手段 1 2は、正規化したクエリに含まれている日付、金額、および、数値が、文書の正規化情報に含まれているそれらの値と一致する文書を抽出する。

[ S 2 0 4 ] 文書抽出手段 1 2は、一致した文書をネッ卜ワーク 2 1を介してユーザに送付する。

続いて、図 3 1を参照して、例えば、サーバ 2 3から新たな文書が送信されてきた場合に、文書処理装置 2 0において実行される処理の一例を説明する。

[ S 2 3 0 ] 文書入力部 1は、ネットワーク 2 1を介して、例えば、サ —バ 2 3から新たな文書の入力を受ける。

[ S 2 3 1 ] 事象特定手段 4、属性値抽出手段 5、および、対応付け手段 1 0は、文書の正規化処理を実行する。

即ち、事象特定手段 4、属性値抽出手段 5、および、対応付け手段 1 0は、図 3および図 4に示す処理を実行することにより入力された文書に対応する正規化情報を生成する。

[ S 2 3 2 ] 文書抽出手段 1 2および重要度算出手段 1 3は、図 3 0に示す「関連度判定処理」を実行する。その結果、生成された正規化情報に一致するクエリが存在している場合には、そのクエリを送信したユーザに対して、新たに入力された文書が送付される。

以上の処理によれば、新たな文書が入力された場合には、入力された文書の正規化情報と、各ユーザの正規化されたクエリとの関連度を算出して、関連度が高い場合には対応するユーザに対して文書を送信するようにしたので、ュ一ザの要求に適合した文書を正確に選択して送信することが可能となる。

なお、上記の処理機能は、コンピュータによって実現することができる。その場合、文書処理装置が有すべき機能の処理内容は、コンピュー夕で読み取り可能な記録媒体に記録されたプログラムに記述されており、このプログラムをコンピュータで実行することにより、上記処理がコンピュー夕で実現される。コンピュータで読み取り可能な記録媒体としては、磁気記録装置や半導体メモリ等がある。

市場に流通させる場合には、 C D— R O M (Compac t D i sk Re ad On l y Memo ry) やフロッピーディスク等の可搬型記録媒体にプログラムを格納して流通させたり、ネッ卜ワークを介して接続されたコンピュータの記憶装置に格納しておき、ネットワークを通じて他のコンピュータに転送することもできる。コンピュータで実行する際には、コンピュータ内のハードディスク装置等にプログラムを格納しておき、メインメモリに口 ―ドして実行するようにすればよい。

以上説明したように本発明では、対象となる文書に記述されている事象を特定し、特定された事象に関する属性の属性値を抽出し、抽出した属性値と実世界の実体とを対応付けすることによって生成された情報を参照して、文書を検索またはクリッピングするようにしたので、各属性値を正確に認識して文書を検索またはクリッピングすることが可能となるので、結果として、文書の検索またはクリッピング精度を向上させることが可能となる。

上記については単に本発明の原理を示すものである。さらに、多数の変形、変更が当業者にとって可能であり、本発明は上記に示し、説明した正確な構成および応用例に限定されるものではなく、対応するすべての変形例および均等物は、添付の請求項およびその均等物による本発明の範囲とみなされる。

Claims

請求の範囲

1 . 入力された文書に対して所定の処理を施して記憶するとともに、与えられたクエリに対応する文書を、記憶されている文書の中から検索またはクリッビングする処理を行う文書処理装置において、

前記入力された文書を処理するために必要な知識情報を記憶する知識情報記憶手段と、

前記入力された文書に記述されている事象の種類を、前記知識情報記憶手段に記憶されている知識情報を参照して特定する事象特定手段と、前記事象特定手段によって特定された事象に係わる属性の属性値を、前記知識情報記憶手段に記憶されている知識情報を参照して前記文書から抽出する属性値抽出手段と、

前記知識情報記憶手段に記憶された知識情報を参照して、前記属性値抽出手段によって抽出された属性値と、実世界の実体との対応付けを行う対応付け手段と、

前記対応付け手段によって対応付けがなされた属性値と、前記文書または前記文書の格納場所を特定するための情報とを関連付けて記憶する文書記憶手段と、

前記属性値と前記クエリとを参照して、対象となる文書に対して検索処理またはクリッビング処理を行う文書抽出手段と、

を有することを特徴とする文書処理装置。

2 . 前記対応付け手段は、前記属性値の中で固有名であるものに対しては、他の属性値を参照してその固有名が示す実世界の実体を特定するとともに、特定された実体を一意に示す所定の情報を付与し、

前記文書抽出手段は、前記対応付け手段によって付与された前記所定の情報を参照して、検索処理またはクリッビング処理を行うことを特徴とする請求項 1記載の文書処理装置。

3 . 前記対応付け手段は、前記属性値が参照表現である「同」または「両」を含む場合に、それらの参照表現が参照する属性値を特定することを特徴とする請求項 1記載の文書処理装置。

4 . 前記文書に含まれているキーワードの出現頻度を参照して対象とする文書の重要度を算出する重要度算出手段を更に有し、

前記重要度算出手段は、前記対応付け手段によって参照先が特定された参照表現もキーヮードと同等に処理することを特徴とする請求項 3記載の文書処理装置。

5 . 前記属性値のうち、数値化可能なものに関しては、対応する数値に変換して正規化する正規化手段を更に有し、

前記文書抽出手段は、前記正規化手段によって正規化された情報を参照して、検索処理またはクリッビング処理を行うことを特徴とする請求項 1記載の文書処理装置。

6 . 前記正規化手段によって得られた数値が有する単位を、他の所定の単位に変換する単位変換手段を更に有することを特徴とする請求項 5記載の文書処理装置。

7 . 前記文書を構成する所定の文章の時制を取得する時制取得手段と、前記文書が作成された日時を取得する作成日時取得手段とを更に有し、前記正規化手段は、前記時制取得手段によって取得された文書の時制と、前記作成日時取得手段によつて取得された作成日時とを参照して、日時または期間を示す属性値の具体的な値を推定することを特徴とする請求項 5記載の文書処理装置。

8 . 前記文書に含まれているキーヮードの出現頻度を参照して対象とする文書の重要度を算出する重要度算出手段を更に有し、

前記重要度算出手段は、前記正規化手段によって推定された日時または期間を加味して重要度を算出することを特徴とする請求項 7記載の文書処理装置。

9 . 前記事象特定手段、前記属性抽出手段、および、対応付け手段は、前記クエリに対しても文書の場合と同様の処理を行い、

前記文書抽出手段は、前記対応付け手段によって対応付けがなされた文書の属性値とクエリの属性値とを参照して、検索またはクリッビング処理を行うことを特徴とする請求項 1記載の文書処理装置。

1 0 . 入力された文書に対して所定の処理を施して記憶するとともに、与えられたクエリに対応する文書を、記憶されている文書の中から検索またはクリッビングする処理をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体において、

コンピュータを、

前記入力された文書を処理するために必要な知識情報を記憶する知識情報記憶手段、

前記入力された文書に記述されている事象の種類を、前記知識情報記憶手段に記憶されている知識情報を参照して特定する事象特定手段、前記事象特定手段によって特定された事象に係わる属性の属性値を、前記知識情報記憶手段に記憶されている知識情報を参照して前記文書から抽出する属性値抽出手段、

前記知識情報記憶手段に記憶されている知識情報を参照して、前記属性値抽出手段によって抽出された属性値と、実世界の実体との対応付けを行う対応付け手段、

前記対応付け手段によって対応付けがなされた属性値と、前記文書または前記文書の格納場所を特定するための情報とを関連付けて記憶する文書記憶手段、

前記属性値と前記クエリとを参照して、対象となる文書に対して検索処理またはクリッビング処理を行う文書抽出手段、

として機能させるプログラムを記録したコンビュ一夕読み取り可能な記録媒体。