WO1999046698A1 - Processeur de documents et support d'enregistrement - Google Patents

Processeur de documents et support d'enregistrement Download PDF

Info

Publication number
WO1999046698A1
WO1999046698A1 PCT/JP1998/005926 JP9805926W WO9946698A1 WO 1999046698 A1 WO1999046698 A1 WO 1999046698A1 JP 9805926 W JP9805926 W JP 9805926W WO 9946698 A1 WO9946698 A1 WO 9946698A1
Authority
WO
WIPO (PCT)
Prior art keywords
document
attribute value
knowledge information
unit
event
Prior art date
Application number
PCT/JP1998/005926
Other languages
English (en)
French (fr)
Inventor
Minako Hashimoto
Wakako Kashino
Ryo Ochitani
Fumihito Nishino
Original Assignee
Fujitsu Limited
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Limited filed Critical Fujitsu Limited
Priority to GB0022066A priority Critical patent/GB2350712B/en
Publication of WO1999046698A1 publication Critical patent/WO1999046698A1/ja
Priority to US09/630,553 priority patent/US6523025B1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Definitions

  • the present invention provides a document processing apparatus that performs a predetermined process on an input document and stores the document, and also performs a process of searching or clipping a document corresponding to a given query from the stored documents.
  • the present invention relates to a recording medium on which a program for causing a computer to execute such processing is recorded.
  • a method of obtaining desired information from such a large amount of information for example, a method of performing a search process ⁇ a clipping process using a search expression (query) describing characteristics of data to be obtained as a key.
  • a search expression query
  • the conventional method has a problem in that it is difficult to use (utilize) such information for searching after recognizing the attribute of date and time information in a document. Disclosure of the invention
  • the present invention has been made in view of such a point, and an object of the present invention is to provide a document processing apparatus capable of performing document search or document narrowing-down that sufficiently reflects a user's search intention. I do.
  • FIG. 1 is a principle diagram of the present invention for achieving the above object.
  • the present invention provides a document processing apparatus that performs predetermined processing on an input document and stores the document, and performs a process of searching or clipping a document corresponding to a given query from among the stored documents.
  • the apparatus comprises a knowledge information storage means 3, an event identification means 4, an attribute value extraction means 5, an association means 10, a document storage means 11 and a document extraction means 12.
  • the knowledge information storage means 3 stores knowledge information necessary for processing the input document.
  • the event specifying means 4 specifies the type of the event described in the input document with reference to the knowledge information stored in the knowledge information storage means 3.
  • the attribute value extracting means 5 extracts the attribute value of the attribute relating to the event specified by the event specifying means 4 from the document with reference to the knowledge information stored in the knowledge information storage means 3.
  • the associating means 10 refers to the knowledge information stored in the knowledge information storage means 3 and associates the attribute value extracted by the attribute value extracting means 5 with the real world entity.
  • the document storage unit 11 associates and stores the attribute value associated by the association unit 10 with the document or the information for specifying the storage location of the document.
  • the document extracting means 12 performs a search process or a clipping process on the target document with reference to the attribute value and the query.
  • the knowledge information storage means 3 stores an event, its attribute, and information for extracting attribute values constituting the attribute in association with each other.
  • the event identification unit 4 identifies the event described in the document by comparing the input document with the knowledge information stored in the knowledge information storage unit 3.
  • the attribute value extracting unit 5 refers to the knowledge information storage unit 3 and extracts the attribute value of the attribute related to the specified event from the document.
  • the associating means 10 refers to the knowledge information stored in the knowledge information storage means 3 and performs a process of associating the extracted attribute values with the real world entities on a one-to-one basis.
  • the document storage means 11 stores the associated attribute value and information for specifying the document or the storage location of the document in association with each other.
  • the document extracting means 12 extracts a desired document by comparing information included in the input query with attribute values stored in the document storing means 11.
  • the contents described in the target document are grasped from the viewpoint of events, the attribute values of the attributes that compose the grasped events are extracted, and the extracted attribute values are correlated with the real world entity.
  • the document is searched or clipped by referring to the generated information, thereby improving the accuracy of the search or clipping.
  • FIG. 1 is a block diagram illustrating a configuration example of an embodiment of the present invention.
  • FIG. 2 is a configuration example of a communication system including the document processing device shown in FIG.
  • FIG. 3 is a flowchart illustrating an example of a document normalization process.
  • FIG. 4 is a flowchart illustrating an example of a document normalization process.
  • FIG. 5 is a diagram illustrating an example of the knowledge information.
  • FIG. 6 is a flowchart illustrating details of the date representation conversion process shown in FIG.
  • FIG. 7 is a diagram illustrating an example of the number conversion table.
  • FIG. 8 is a diagram illustrating an example of the date / time expression conversion table.
  • FIG. 9 is a flowchart showing details of the date estimation processing shown in FIG.
  • FIG. 10 is a flowchart illustrating details of the% year estimation processing shown in FIG.
  • FIG. 11 is a flowchart illustrating details of the% mon th estimation process shown in FIG.
  • FIG. 12 is a flowchart illustrating details of the% day estimation processing shown in FIG.
  • FIG. 13 is a flowchart for explaining the details of the money amount expression conversion process shown in FIG.
  • FIG. 14 is a diagram illustrating an example of the money amount expression conversion table.
  • FIG. 15 is an example of a document input to the embodiment shown in FIG.
  • FIG. 16 is an example of normalized information generated as a result of processing the document shown in FIG.
  • FIG. 17 is a diagram showing another example of the document input to the embodiment shown in FIG.
  • FIG. 18 is an example of the normalized information generated as a result of processing the document shown in FIG.
  • Figure 19 shows an example of the input screen when searching for documents related to product sales information.
  • FIG. 20 shows an example in which an input is made on the input screen shown in FIG.
  • FIG. 21 is an example of a search result display screen corresponding to the input screen shown in FIG.
  • FIG. 22 is an example of a search result screen corresponding to the input screen shown in FIG.
  • Figure 23 is an example of the input screen when searching for documents related to organization merger information.
  • FIG. 24 is an example of a case where an input is made on the input screen shown in FIG.
  • FIG. 25 is an example of a search result display screen corresponding to the input screen shown in FIG.
  • FIG. 26 is an example of a search result screen corresponding to the input screen shown in FIG.
  • FIG. 27 is a flowchart illustrating an example of a normalization process for a query.
  • FIG. 28 is a flowchart illustrating an example of a normalization process for a query.
  • FIG. 29 is a flowchart illustrating an example of a process for a query from a user when clipping a document.
  • FIG. 30 is a flowchart illustrating details of the association degree determination process shown in FIG.
  • FIG. 31 is a flowchart illustrating an example of processing on a document, which is performed when clipping a document.
  • FIG. 1 is a block diagram illustrating a configuration example of an embodiment of the present invention.
  • a document to be processed is input from a document input unit 1.
  • the user interface 2 receives a query from the user.
  • the knowledge information storage means 3 stores information about an event to be described later, an attribute related to the event, and information for converting a unique name into a unique code.
  • the event identification unit 4 refers to the knowledge information (information on the type of event) stored in the knowledge information storage unit 3 and describes the information in the document query input from the document input unit 1 or the user interface unit 2. Identify the type of event being performed.
  • Event refers to “event” that occurs in the real world.
  • the real world such as “Company A releases X.” It is assumed that an event that has occurred (or will occur) in the world is described with various supplementary information added.
  • the attribute value extracting means 5 extracts attribute values from a document or a query by referring to the knowledge information (information on attributes relating to a predetermined event) stored in the knowledge information storage means 3.
  • the knowledge information storage means 3 stores attributes such as a sales company, a ⁇ product information>, a ⁇ date>, and a ⁇ changed point> for the event of ⁇ new product release> described above.
  • the attribute value extracting means 5 acquires an attribute corresponding to the event specified by the event specifying means 4 from the knowledge information storage means 3 and extracts an attribute value corresponding to the attribute from a document or a query. For example, in the above-mentioned event "Company A releases X.”, the attribute value "Company A" corresponding to the attribute ⁇ sales company> is acquired, and the attribute value " X ”etc. are extracted.
  • the creation date and time acquisition means 6 acquires the creation date and time of the document or query.
  • the tense obtaining means 7 obtains the tense (tense) of a sentence constituting a document or a query.
  • the normalizing means 8 includes, among the attributes extracted by the attribute value extracting means 5, Select a value that can be converted to a numerical value and convert it to the corresponding numerical value (normalization).
  • the unit conversion unit 9 performs a process of converting the unit of the numerical value normalized by the normalization unit 8.
  • the document storage unit 11 stores the attribute value set associated by the association unit 10 and the original document (or information specifying the storage location of the original document) in association with each other.
  • the document extracting means 12 acquires a document corresponding to the query supplied from the associating means 10 from the document storing means 11 with reference to the attribute value. Then, by referring to the importance of each document calculated by the importance calculation means 13, the document having the importance equal to or more than a certain threshold is output.
  • the importance calculating means 13 calculates the importance of the target document by obtaining the appearance frequency of a predetermined keyword.
  • the network 21 includes terminal devices 22 a and 22 b and a server 23. Etc. are connected.
  • the server 23 transmits information such as a document and an image stored in the storage unit 23a to the device that has made the request via the network 21.
  • the document processing device 20 stores the queries transmitted from the terminal devices 22a, 22b and the like. For example, when a new document is supplied from the server 23, the document If the degree of association with the query is high, it is transmitted to the terminal device 22a or 22b.
  • FIG. 3 is executed when a new document is input from the document input unit 1 in the embodiment shown in FIG. 1 (for example, when a new document is supplied from the server 23 shown in FIG. 2).
  • 5 is a flowchart illustrating an example of a process.
  • the event specifying means 4 refers to the mapping rule information (see FIG. 5) between the event and the expression stored in the knowledge information storage means 3 to specify the type of the event described in the document.
  • the mapping rule shown in Figure 5 is the mapping rule shown in Figure 5.
  • the attribute value extracting means 5 may be configured to include, among variations of the event described in “module main” shown in FIG. 5, attributes included in the definition corresponding to the input document (for example, ⁇
  • the attribute values of (company information>, ⁇ product>, etc.) are extracted from the document by referring to other “module”, “def”, etc.
  • the attribute values corresponding to Attributed Company Information> are the definitions described in the 17th to 21st lines and the definitions described in the 1st to 15th lines. Is extracted from the document by performing pattern matching with reference to.
  • the normalizing means 8 determines whether or not the extracted attribute value includes a date expression. If the extracted attribute value includes a date expression, the process proceeds to step S 5; otherwise, Go to step S7.
  • the creation date and time acquisition means 6 acquires the date and time when the document was created, and the tense acquisition means 7 acquires the tense of the text in which the target event is described.
  • the normalizing means 8 executes “date expression conversion processing” for converting the date expression into a corresponding numerical value with reference to the acquired document creation date / time information and tense information.
  • step S9 For example, if the prescribed currency unit is “yen” and there is a monetary expression in “$”, the process proceeds to step S9.
  • the normalizing means 8 performs “money expression conversion processing” for converting the money amount expression into a numerical value. The details of this processing will be described in detail with reference to FIG. In the above example, “13000 yen” (character string) is converted to “13000” (numerical value).
  • the normalizing means 8 determines whether or not another numerical expression exists. If another numerical expression exists, the process proceeds to step S12. Otherwise, the process proceeds to step S12. Proceed to S13.
  • step S12 For example, if there is an expression such as “the number of shipped 50,000”, the process proceeds to step S12.
  • the normalizing means 8 converts the numerical expression included in the attribute value into a corresponding numerical value. For example, in the above example, "50000" (a character string) would be converted to a computable number "50000".
  • the associating means 10 determines whether or not the attribute value includes a unique name (for example, “Hashimoto Denki”), and if so, the step S 14 Otherwise, go to step S15.
  • a unique name for example, “Hashimoto Denki”.
  • the knowledge information storage means 3 stores information generated by associating related unique names with each other, so that when a certain unique name in a document has a plurality of candidates, the related information By referring to the unique name of the user, the unique name can be specified accurately.
  • step S16 when the reference expression (same) exists, the process proceeds to step S16.
  • the associating means 10 identifies an object referred to by the reference expression.
  • the associating means 10 includes a normalized attribute value (hereinafter abbreviated as normalized information) and an original document (or information for specifying a storage location of the original document). Is stored in the document storage unit 11 in association with normalized information.
  • normalized information hereinafter abbreviated as normalized information
  • original document or information for specifying a storage location of the original document.
  • FIG. 6 is a flowchart illustrating details of the “date expression conversion process” shown in FIG. When this flowchart is started, the following processing is executed.
  • Creation date and time acquiring means 6 acquires the creation date and time of the document, and substitutes them into% docyear, 3 ⁇ 4docmon th and% docday. For example, if a document is a newspaper article, the publication date of the article is acquired. If it is a document other than a newspaper article, it refers to the attribute of the file and obtains its creation date and time.
  • the normalizing means 8 extracts a date expression from the attribute value.
  • the normalizing means 8 refers to the date / time expression conversion table shown in FIG. 8 and converts the date / time expression into a corresponding numerical value.
  • the normalizing means 8 determines whether all values have been acquired, and If it is determined that it has been obtained, the process proceeds to step S37, otherwise, the process proceeds to step S36.
  • the normalizing means 8 performs date estimation processing. The details of this processing will be described later with reference to FIG.
  • the normalizing means 8 performs% month estimation processing. The details of this processing will be described in detail with reference to FIG.
  • the normalizing means 8 performs% year estimation processing.
  • the normalizing means 8 performs% year estimation processing.
  • the normalizing means 8 determines whether a value other than% year is unsubstituted. If not, the process proceeds to step S59, otherwise the process is performed. To end.
  • the normalizing means 8 sets the estimated date and time as "from $ year-l-l to% year-12-31". That is, when a value other than% year is unassigned, the normalized value is set as wide as possible to prevent search omission.
  • the normalizing means 8 proceeds to step S61 if the tense acquired by the tense acquiring means 7 from the target sentence is a future tense, and otherwise proceeds to step S61. Proceed to S65.
  • the normalizing means 8 determines whether% docmonth is greater than ⁇ onth. If it is, the process proceeds to step S62. Otherwise, the process proceeds to step S63. Proceed to.
  • the normalizing means 8 substitutes the value of% docyear for% year.
  • the normalizing means 8 determines whether or not the tense acquired by the tense acquiring means 7 is in the past. If YES is determined, the process proceeds to step S66, otherwise, Returns to the process of FIG.
  • the normalizing means 8 determines whether or not the value of% docmonth is greater than or equal to the value of 3 ⁇ 4011, and if it is determined to be YE S, the process proceeds to step S67. Otherwise, Goes to step S68.
  • the normalizing means 8 substitutes the value of docyear for% year.
  • the normalizing means 8 determines whether the value of% docmonth is smaller than the value of% month, and if it is YES, proceeds to step S69, otherwise, Returns to the processing of FIG.
  • the normalizing means 8 substitutes the value (% docyear-1) for% year. For example, if the month in which the document was created is April, and the expression “June in June” is in the text, "June” indicates June of last year. Therefore, the value (% docyear-l) is substituted for% year.
  • the normalizing means 8 proceeds to step S81 when the tense of the target sentence acquired by the tense acquiring means 7 is a future tense, and otherwise proceeds to step S8. Go to 5.
  • the normalizing means 8 determines whether% docday is greater than% day, and if YES, proceeds to step S82, and if not, proceeds to step S82. If so, proceed to step S83.
  • the normalizing means 8 substitutes the value docmonth + 1) for% month. For example, if the document was created on the second day, and the phrase “I'm going to do it on the fourth day” is in the text, the “4th day” is the same month. Since it is estimated to be four days,% month is assigned the value (3 ⁇ 4docmonth + l).
  • the normalizing means 8 determines whether or not the value of ocday is equal to or less than the value of day. If the determination is YES, the process proceeds to step S84. Otherwise, the process proceeds to step S84. Proceed to S85.
  • the normalizing means 8 substitutes the value of% docmonth for% month.
  • the normalizing means 8 determines whether or not the tense acquired by the tense acquiring means 7 is in the past. If YES is determined, the process proceeds to step S86, otherwise, Returns to the process of FIG.
  • the normalizing means 8 determines whether or not the value of% docday is greater than or equal to the value of day. If it is determined to be YES, the process proceeds to step S87. Proceed to step S88.
  • the normalizing means 8 determines whether or not the value of ocday is smaller than the value of day. If it is determined to be YES, the process proceeds to step S89. It returns to the processing of.
  • the normalizing means 8 determines whether the value of% month is one of 1, 3, 5, 6, 8, 10 or 12 and If it is determined, the process proceeds to step S101, otherwise, the process proceeds to step S102.
  • the normalizing means 8 determines whether the value of% month is 4, 6, 9, or 11; Proceed to step S103, otherwise proceed to step S104.
  • the normalizing means 8 generates "from $ year-% month-1 to% year-month-30" as date information.
  • the normalizing means 8 generates “from $ year- $ month-l to% year-% month-29” as date information.
  • the normalizing means 8 generates “from $ year- $ month-l to% year-onth-28” as date information.
  • an ambiguous expression such as "next spring” is also converted (normalized) to a concrete numerical value (for example, March 1, 1998 to May 31, 1998). This makes it possible to use such ambiguous expressions in searches.
  • the normalizing means 8 converts the monetary expression into a corresponding numerical value with reference to the monetary expression conversion table shown in FIG.
  • the normalizing means 8 determines whether or not the monetary expression ends with “greater than or equal to”, and if it ends with “greater than or equal to”, proceeds to step S 122, otherwise, Proceed to step S 1 2 3.
  • the normalizing means 8 determines whether or not the monetary expression ends with “less than or equal to”, and if it ends with “less than or equal to”, proceeds to step S 1 24, otherwise, Proceed to step S1 25.
  • the normalizing means 8 generates “from * to x” as a normalized expression.
  • the normalizing means 8 determines whether or not the monetary expression ends with “unit”. If the expression ends with “unit”, the process proceeds to step S 1 26. Otherwise, the process proceeds to step S 1 26. Go to S128.
  • the normalizing means 8 converts all “0” included in X after “to” into “9”.
  • the normalizing means 8 determines whether or not the monetary expression ends with “lower half”. If it ends with “lower half”, the process proceeds to step S 12 9, otherwise To step S1 3 1.
  • the normalizing means 8 generates “from x to x” as a normalized expression.
  • the normalization means 8 calculates the first X included in X after "to".
  • the normalization means 8 converts the first "0" included in x after "from” to "6".
  • the monetary value expression described by the Chinese numeral is converted into the corresponding numerical value, and the monetary value expression including an ambiguous expression such as “more than” or “lower half” is also supported. It can be converted to numerical values.
  • the example sentence shown in Figure 15 is a document related to the launch of a new product.
  • the event identification unit 4 identifies the event described in the document by referring to the knowledge information stored in the knowledge information storage unit 3 (see FIG. Step 3 of 2).
  • the definition of an event is described in a part surrounded by "module main" to rend module].
  • attributes included in the definition of the event such as, for example, the company information, are defined in rmodulej and “def”.
  • the attribute ⁇ company information> is defined in the “module” on the 17th line to the 21st line, and its contents are ((business type), business name>), ((business type) 2 ⁇ & Connected words; (Company name)) and ( ⁇ company name>).
  • the tense acquisition means When the type of event is specified by the above processing, the tense acquisition means
  • the tense 7 obtains the sentence in which the event is described, and obtains the tense information.
  • the tense is the past tense ("released"), so the "past tense” is acquired as tense information.
  • the tense acquired in this way is added to the normalized information as “aspect past” as shown in the second line of FIG.
  • the attribute value extracting means 5 extracts an attribute value according to the type of the specified event (step S3 in FIG. 3). That is, the attribute value extracting means 5 extracts an attribute value by performing pattern matching between the knowledge information shown in FIG. 5 and the document.
  • the attribute value extracting means 5 extracts an attribute value by performing pattern matching between the knowledge information shown in FIG. 5 and the document.
  • "Hashimoto Denki” is extracted as ⁇ Organization name>
  • "JCN compatible personal computer” is extracted as ⁇ Type> of newly released ⁇ Product information>.
  • GNW series is extracted.
  • the normalizing means 8 determines whether or not a date expression exists in the document (step S4 in FIG. 3), and if it exists, performs a process of converting the date expression into a corresponding numerical value.
  • the normalizing means 8 obtains the document creation date and time information and the tense information in step S5 shown in FIG. Then, a date representation conversion process is performed in step S6.
  • the normalizing means 8 determines whether or not a monetary expression exists in step S7 of FIG. In the document shown in Fig. 15, since there is an expression such as "178,000 yen", the process proceeds to step S8, where it is determined whether or not the currency unit is the specified currency unit. For example, if the specified currency unit is “yen” and the target expression is “178,000 yen”, the process proceeds to step S10.
  • step S10 the character string "178,000 yen” is converted to a value "178000".
  • step S11 it is determined whether another numerical expression exists. However, since the first sentence in the example shown in FIG. 15 does not include a numerical expression other than the date expression, the process proceeds to step S13.
  • step S13 the associating means 10 determines whether a unique name exists. In the example of FIG. 15, since the unique name “Hashimoto Electric” exists, the process proceeds to step S 14.
  • step S14 the associating means 10 acquires information corresponding to Hashimoto Denki among the knowledge information stored in the knowledge information storage means 3.
  • This information is, for example, the following information.
  • step S15 the associating means 10 determines whether or not a reference expression exists. In the example shown in FIG. 15, since there is no reference expression, it is determined as NO, and in step S 18, the generated normalization information and the document (or information indicating the location where the document is stored) are compared. The document is stored in the document storage means 11 and the processing is terminated.
  • FIG. 18 shows an example of normalized information obtained by processing the document shown in FIG.
  • the expression “announced” is not in the first sentence, as shown in the second line, it is described as “no sentence end expression announcement predicate”.
  • the contents of the “merger entity information” shown in lines 5 to 27 include the Hokkaido Oki lift shown in lines 8 and 18 and the East It is the main organization that merges with Hokkaido Oki Lift, and the other lines contain ⁇ Merger organization supplementary information> to supplement these organizations.
  • the third and subsequent lines contain the remaining sentences other than the sentence that was analyzed.
  • the third line in Fig. 17 contains the reference expression “same”, so the description "reference before” was added as shown in the second and third lines in Fig. 18. It is shown that the reference expression “do” is “Ryutaro Akutagawa (0 2 5 1)” (element 2) shown in the 13th to 16th lines.
  • FIG. 19 is a display example of an input screen displayed on the user interface 2 shown in FIG.
  • a document containing product sales information is searched.
  • documents in which “product sales” are described as events are searched.
  • the name of the organization that launched the product is entered in the first box, “Organization name”.
  • the second box “Product type”, the product type is entered.
  • the price range of the product is entered in the box "Price”.
  • the box "Release date” the range of the release date is entered.
  • the button “Search” displayed at the bottom line is operated when all input is completed and search is started.
  • Figure 20 shows the input when a predetermined query is entered on the screen shown in Figure 19 An example is shown. In this example, "AAA" is entered as the organization name and "PC" is entered as the product type.
  • the price is between ⁇ 100,000 and ⁇ 3,000, and the release date is from “1" on “1” on “1977”. It is set to "June”, “June” and "30".
  • the query input from such an input screen is provided with information indicating the attribute of each input item, and then sent to the document via the event specifying means 4, the attribute value extracting means 5, and the associating means 10. It is supplied to the extraction means 12.
  • information to be given for example, “organization name of tag” is added to “AAA”.
  • the document extracting means 12 acquires a document having attribute values corresponding to the query and the tag supplied from the user interface unit 2 from the document storing means 11. That is, since the document storage means 11 stores the normalization information together with the original document, the document extraction means 12 stores the attribute value included in the normalization information and the query tag. By collating, a desired document is extracted.
  • the result searched in this way is displayed and output on a display device (not shown).
  • Figure 21 shows a screen template that displays search results.
  • “organization name”, “product type”, “product name”, “price”, “release date”, and “heading” are displayed as the attribute values of the search result.
  • Fig. 22 shows an actual display example.
  • the organization named “AAA” has a desktop PC, It sold for 299,999 yen on February 29, 1997, indicating that the headline of the document is "Release of low-cost personal computers.”
  • FIG. 23 shows another display example of the input screen displayed on the user interface 2 shown in FIG.
  • the search target is a document that contains "Information merger information". That is, documents in which the merger of organizations is described as an event are searched.
  • the name of the merged organization is entered in the first and second boxes "Organization Name”. In the box "Merger date”, enter the range of dates on which the merger will take place.
  • the button “Search” displayed at the bottom line is operated when starting the search after all input is completed.
  • FIG. 24 shows an input example when a predetermined query is input on the input screen shown in FIG.
  • “AAA” is the organization name
  • “1”, “1”, “1”, “3”, “1”, “1”, “1”, “1”, “1”, “1”, “1”, “1”, “1”, “1”” The day has been entered.
  • FIG. 25 is a display example of a screen displaying the search results of FIG. In this display example, “organization name”, “organization name”, “new organization name”, “merger date”, and “headline” are displayed as attributes of the search result.
  • Figure 26 shows an actual display example.
  • search results document shows that the companies with the organization names "AAA” and “BBB” merged on “04/01/1997” and the new organization name was "CCC”. It also indicates that the headline of the document is “AAA, BBB, merger of two companies”.
  • a predetermined item is input from an input screen corresponding to an event to be searched, and a document corresponding to the input item is searched.
  • a query is input as a sentence. Then, after normalizing the input text, the corresponding document may be searched.
  • the following is an example of the process for normalizing a query by such a method. This will be described with reference to 27. When this flowchart starts, the following processing is executed.
  • the event specifying means 4 specifies the type of the event described in the query. That is, the event specifying means 4 specifies the type of the event described in the query with reference to the mapping rule information (see FIG. 5) between the event and the expression stored in the knowledge information storage means 3.
  • the attribute value extracting means 5 refers to the knowledge information stored in the knowledge information storage means 3 and extracts the attribute value.
  • the normalizing means 8 determines whether or not the extracted attribute value includes a date expression. If the extracted attribute value includes a date expression, the process proceeds to step S155, where Otherwise, the process proceeds to step S157.
  • creation date and time acquisition means 6 acquires the date and time when the query was created,
  • the tense acquiring means 7 acquires the tense of the query.
  • the normalizing means 8 executes “date expression conversion processing” for converting the date expression to the corresponding numerical value with reference to the acquired query creation date / time information and tense information. Note that the details of this processing have already been described with reference to FIG. 6, and a description thereof will be omitted.
  • the normalizing means 8 determines whether or not the monetary expression of interest is in the specified currency unit, and if the monetary expression is in the specified currency unit, the process proceeds to step S 160 Proceed, otherwise proceed to step S159. For example, if the specified currency unit is “yen” and the monetary expression with “$” as the unit is already described, the process proceeds to step S159.
  • the normalization means 8 performs “money expression conversion processing” for converting the money amount expression into a numerical value. Note that the details of this processing have already been described with reference to FIG.
  • the normalizing means 8 determines whether or not another numerical expression exists. If another numerical expression exists, the process proceeds to step S 16 2, otherwise, Proceed to step S163. For example, if there is “5,000 shipments”, the process proceeds to step S 162.
  • the normalizing means 8 converts the numerical expression included in the attribute value into a corresponding numerical value. For example, in the above example, the character string “500 0 0” would be converted to a computable numerical value “50000”.
  • the associating means 10 determines whether or not the attribute value includes a unique name (for example, “Hashimoto Denki”), and if so, the step S1 Proceed to 64, otherwise proceed to step S165.
  • a unique name for example, “Hashimoto Denki”.
  • the associating means 10 extracts the unique name, acquires the unique name code corresponding to the unique name from the knowledge information storage means 3, and adds it to the attribute value. For example, the unique name code “00001 1” corresponding to the above “Hashimoto Electric” is read from the knowledge information storage means and given.
  • the knowledge information storage means 3 stores information generated by associating related unique names with each other. Therefore, when a certain unique name has a plurality of candidates, another related unique name is used. By referring to, the unique name can be specified accurately.
  • the associating means 10 determines whether or not a reference expression (an expression such as the same or both) exists. If the reference expression exists, the process proceeds to step S166, where Otherwise, the flow advances to step S166.
  • step S 16 You will go to 6.
  • the associating means 10 identifies an object referred to by the reference expression.
  • the attribute value in parentheses that appears before the parenthesis may be identified as the target to which the reference expression refers.
  • the associating means 10 supplies the query extraction means 12 with the query normalization information generated as described above.
  • the document extraction means 12 searches for the document stored in the document storage means 11 with reference to the query normalization information generated as described above.
  • the event identification unit 4 refers to the knowledge information stored in the knowledge information storage unit 3 and inputs the query. Query that indicates a “new product launch” event.
  • the attribute value extracting means 5 extracts “Hashimoto Sake Brewery” as the ⁇ organization name>, extracts “Junmai sake” as the product type, and “Hashimoto” as the ⁇ product name>.
  • the associating means 10 is that the unique name code corresponding to “Hashimoto Sake Brewery” is If it exists, acquire its unique name code and add it. For example,
  • the document extracting means 12 extracts the relevant document from the document storing means 11 with reference to the normalization information generated as described above. That is, the document extraction means 12 includes “Hashimoto Sake Brewery” with an organization name tag and a unique name code (0 1 1 1), “Hashimoto” with a product type tag, and a product name tag. Documents that contain “Hashimoto” and whose event is “New product release” are extracted from the document storage unit 11.
  • the user interface unit 2 inputs a query from a predetermined user.
  • the event specifying means 4, the attribute value extracting means 5, and the associating means 10 execute the processing of steps S151-1 to S1667 in Figs. 27 and 28.
  • the document extracting means 12 stores the normalized query (normalized information) in association with information specifying the user who transmitted the query.
  • the document extraction means 12 selects a document in which the date, amount, and numerical value included in the normalized query match those values included in the normalized information of the document. Extract.
  • the document extracting means 12 sends the matched document to the user via the network 21.
  • the event specifying means 4, the attribute value extracting means 5, and the associating means 10 execute the processing shown in FIGS. 3 and 4 to generate normalized information corresponding to the input document.
  • the degree of relevance between the normalized information of the input document and the normalized query of each user is calculated. Since the document is transmitted to the corresponding user, it is possible to accurately select and transmit a document that meets the user's requirements.
  • Computer-readable recording media include magnetic recording devices and semiconductor memories.
  • the program When distributing to the market, the program is stored in a portable recording medium such as CD-ROM (Compact Disk Read Only Memory) or a floppy disk, distributed, or connected via a network. Computer description They can be stored on storage devices and transferred to other computers over a network.
  • the program When the program is executed by the computer, the program may be stored in a hard disk device or the like in the computer, and may be executed by being read into the main memory.
  • the event described in the target document is specified, the attribute value of the attribute related to the specified event is extracted, and the extracted attribute value is associated with the real world entity.
  • the document is searched or clipped by referring to the information generated as a result, and it is possible to search or clip the document by accurately recognizing each attribute value. It is possible to improve the search or clipping accuracy of the search.

Description

明 細 書 文書処理装置および記録媒体 技術分野
本発明は入力された文書に対して所定の処理を施して記憶するととも に、 与えられたクエリに対応する文書を、 記憶されている文書の中から 検索またはクリッビングする処理を行う文書処理装置およびそのような 処理をコンピュータに実行させるプログラムを記録した記録媒体に関す る。 背景技術
近年、 インターネッ トの普及や全文デ一夕ベースの増加に伴って、 個 人が利用可能な情報が飛躍的に増加している。
このような多量の情報の中から所望の情報を取得する方法としては、 例えば、 得ようとするデータの特徴を記述した検索式 (クエリ) をキー として、 検索処理ゃクリ ッピング処理等を行う方法が一般的であった。 しかし、 従来の大規模な商用オンラインデータベースや全文検索シス テムでは、 検索式の条件を緩やかにすると検索結果に含まれているノィ ズ (不要なデ一夕) が増加し、 また、 逆に厳しくすると検索洩れが発生 するなど、 ユーザが望む通りのデータを取得することが困難であるとい う問題があった。
即ち、 従来の文書フィルタリングにおける文書絞り込み処理や文書検 索処理では、 クエリと文書の内容の一致度や関連度に基づくランキング 検索が行われている程度であるので、 文書に含まれている重要情報ゃュ 一ザの検索意図を十分に反映した文書絞り込みを行うことは困難であつ た。
そのため、 例えば、 組織としての 「橋本」 が検索したいと思っても、 「橋本」 という地名が含まれた文書が検索されたりすることが多かった。 また、 2 0万円台の新製品について検索したい場合には、 「二十万 円」 「2 0万円」 、 「二十一万円」 、 「二五万円」 のように、 あらゆる 可能性を考慮して生成したクエリを用いる必要があった。
更に、 文書が作成された日時を用いて検索することは可能であっても、 文書に含まれている日時情報を活用した検索を行うことができないとい う問題点があった。
例えば、 以下の文では、 同じ 「 1 日」 でも示している日が異なる。
(a) A社は、 1 日、 B製品を発売する。
(b) A社は、 1 日、 B製品を発売した。
ここで、 この文が作成された日が 1 9 9 7年 2月 1 5日だとすると、 ( a ) の場合では、 「 1 日」 は 1 9 9 7年 3月 1 日を指し、 また、 ( b) では 1 9 9 7年 2月 1 日を指すことになる。
従来の方法においては、 文書中の日時情報の属性を認知した上で、 こ のような情報を検索に使用 (活用) することが困難であるという問題点 があった。 発明の開示
本発明はこのような点に鑑みてなされたものであり、 ュ一ザの検索意 図を十分に反映した文書検索または文書絞り込みを行うことが可能な文 書処理装置を提供することを目的とする。
また、 本発明は、 ユーザの検索意図を十分に反映した文書検索処理ま たはクリッビング処理を行う文書処理を行うプログラムを記録した記録 媒体を提供することを目的とする。 図 1は、 上記目的を達成する本発明の原理図である。 本発明は、 入力 された文書に対して所定の処理を施して記憶するとともに、 与えられた クエリに対応する文書を、 記憶されている文書の中から検索またはクリ ッビングする処理を行う文書処理装置において、 知識情報記憶手段 3と、 事象特定手段 4と、 属性値抽出手段 5と、 対応付け手段 1 0と、 文書記 憶手段 1 1 と、 文書抽出手段 1 2とから構成されている。
ここで、 知識情報記憶手段 3は、 入力された文書を処理するために必 要な知識情報を記憶する。 事象特定手段 4は、 入力された文書に記述さ れている事象の種類を、 知識情報記憶手段 3に記憶されている知識情報 を参照して特定する。 属性値抽出手段 5は、 事象特定手段 4によって特 定された事象に係わる属性の属性値を、 知識情報記憶手段 3に記憶され ている知識情報を参照して文書から抽出する。 対応付け手段 1 0は、 知 識情報記憶手段 3に記憶されている知識情報を参照して、 属性値抽出手 段 5によって抽出された属性値と、 実世界の実体との対応付けを行う。 文書記憶手段 1 1は、 対応付け手段 1 0によって対応付けがなされた属 性値と、 文書または文書の格納場所を特定するための情報とを関連付け て記憶する。 文書抽出手段 1 2は、 属性値とクエリとを参照して、 対象 となる文書に対して検索処理またはクリッビング処理を行う。
知識情報記憶手段 3には、 事象とそれに関する属性、 および、 属性を 構成する属性値を抽出するための情報とが関連付けられて記憶されてい る。 事象特定手段 4は、 入力された文書と、 知識情報記憶手段 3に記憶 されている知識情報とを照合することにより、 文書中に記述されている 事象を特定する。 属性値抽出手段 5は、 知識情報記憶手段 3を参照して、 特定された事象に関する属性の属性値を文書から抽出する。 対応付け手 段 1 0は、 知識情報記憶手段 3に記憶されている知識情報を参照して、 抽出された属性値と実世界の実体とを 1対 1に対応付ける処理を行う。 文書記憶手段 1 1は、 対応付けがなされた属性値と文書または文書の格 納場所を特定するための情報とを関連付けて記憶する。 文書抽出手段 1 2は、 入力されたクエリに含まれている情報と、 文書記憶手段 1 1に記 憶されている属性値とを照合することにより所望の文書を抽出する。
これにより、 対象となる文書に記述されている内容を、 事象という観 点から把握し、 把握した事象を構成する属性の属性値を抽出するととも に、 抽出した属性値を実世界の実体と対応付けることによって生成され た情報を参照して文書を検索またはクリッビングするようにしたので、 検索またはクリッビングの精度を向上させることが可能となる。
本発明の上記および他の目的、 特徴および利点は本発明の例として好 ましい実施の形態を表す添付の図面と関連した以下の説明により明らか になるであろう。 図面の簡単な説明
図 1は、 本発明の実施の形態の構成例を示すブロック図である。
図 2は、 図 1に示す文書処理装置を含む通信システムの構成例である。 図 3は、 文書の正規化処理の一例を説明するフローチャートである。 図 4は、 文書の正規化処理の一例を説明するフローチヤ一トである。 図 5は、 知識情報の一例を示す図である。
図 6は、 図 3に示す日付表現変換処理の詳細を説明するフローチヤ一 トである。
図 7は、 数字変換テーブルの一例を示す図である。
図 8は、 日時表現変換テーブルの一例を示す図である。
図 9は、 図 6に示す日付推定処理の詳細を示すフローチヤ一トである。 図 1 0は、 図 9に示す%year 推定処理の詳細を説明するフローチヤ一 トである。 図 1 1は、 図 9に示す%mon t h 推定処理の詳細を説明するフローチヤ —トである。
図 1 2は、 図 9に示す%day 推定処理の詳細を説明するフローチヤ一 トである。
図 1 3は、 図 3に示す金額表現変換処理の詳細を説明するフローチヤ 一卜である。
図 1 4は、 金額表現変換テーブルの一例を示す図である。
図 1 5は、 図 1に示す実施の形態に入力される文書の一例である。 図 1 6は、 図 1 5に示す文書を処理した結果生成される正規化情報の 一例である。
図 1 7は、 図 1に示す実施の形態に入力される文書の他の一例を示す 図である。
図 1 8は、 図 1 7に示す文書を処理した結果生成される正規化情報の 一例である。
図 1 9は、 製品販売情報に関する文書を検索する際の入力画面の一例 である。
図 2 0は、 図 1 9に示す入力画面に入力がなされた場合の一例である。 図 2 1は、 図 1 9に示す入力画面に対応する検索結果表示画面の一例 である。
図 2 2は、 図 2 0に示す入力画面に対応する検索結果の画面の一例で ある。
図 2 3は、 組織合併情報に関する文書を検索する際の入力画面の一例 である。
図 2 4は、 図 2 3に示す入力画面に入力がなされた場合の一例である。 図 2 5は、 図 2 3に示す入力画面に対応する検索結果表示画面の一例 である。 図 2 6は、 図 2 4に示す入力画面に対応する検索結果の画面の一例で ある。
図 2 7は、 クエリに対する正規化処理の一例を説明するフローチヤ一 トである。
図 2 8は、 クエリに対する正規化処理の一例を説明するフローチヤ一 トである。
図 2 9は、 文書のクリッピングを行う場合において、 ユーザからのク ェリに対する処理の一例を説明するフローチヤ一トである。
図 3 0は、 図 2 9に示す関連度判定処理の詳細を説明するフローチヤ 一卜である。
図 3 1は、 文書のクリッピングを行う場合において実行される、 文書 に対する処理の一例を説明するフローチヤ一トである。 発明を実施するための最良の形態
以下、 本発明の実施の形態を図面を参照して説明する。
図 1は、 本発明の実施の形態の構成例を示すブロック図である。 この 図において、 文書入力部 1からは、 処理対象の文書が入力される。 ユー ザィンタフエ一ス部 2は、 ユーザからのクエリを受け付ける。
知識情報記憶手段 3は、 後述する事象やその事象に係わる属性に関す る情報および固有名を固有コードに変換するための情報を記憶している。 事象特定手段 4は、 知識情報記憶手段 3に記憶されている知識情報 (事象の種類に関する情報) を参照して、 文書入力部 1またはユーザィ ン夕フェース部 2から入力された文書ゃクエリに記述されている事象の 種類を特定する。
ここで、 「事象」 とは、 実世界で生起する 「できごと」 を示している。 例えば、 新聞記事などでは 「A社が Xを発売する。 」 というような実世 界で発生した (または、 これから発生する) 事象に種々の補足情報が付 加されて記述されていると考える。
従って、 事象特定手段 4に対して、 例えば、 前述の 「A社が Xを発売 する。 」 が入力されると、 この文章に記述されている事象は、 <新製品 の発売 >であると特定されることになる。 ここで、 < >は、 その内部の 語句が抽象化されて得られた概念であることを示している。
なお、 新聞記事などのように、 記述の対象となる事象が明確であり、 また、 その表現様式が限られている文書においては、 記述された事象の とりうる構造 (以下、 事象構造と適宜略記する) にも所定の制約条件が 自ずと生ずることから、 このような 「事象」 に着目して文書を解析する ことにより、 効果的な処理を行うことが可能となる。
属性値抽出手段 5は、 知識情報記憶手段 3に記憶されている知識情報 (所定の事象に係わる属性に関する情報) を参照して、 文書またはクェ リから属性値を抽出する。
例えば、 知識情報記憶手段 3は、 前述の <新製品の発売 >という事象 に関しては、 ぐ販売会社 >、 <製品情報 >、 <日付〉、 および、 <変更 点 >などの属性を記憶しており、 属性値抽出手段 5は、 事象特定手段 4 によって特定された事象に対応する属性を知識情報記憶手段 3から取得 し、 その属性に対応する属性値を文書またはクエリから抽出する。 例えば、 前述の 「A社が Xを発売する。 」 という事象では、 属性 <販 売会社 >に対応する属性値 「A社」 が取得され、 また、 属性ぐ製品情報 >に対応する属性値 「X」 などが抽出される。
作成日時取得手段 6は、 文書またはクエリの作成日時を取得する。 時 制取得手段 7は、 文書またはクエリを構成する文章の時制 (t en s e ) を 取得する。
正規化手段 8は、 属性値抽出手段 5によって抽出された属性のうち、 数値に変換可能なものを選択し、 対応する数値に変換 (正規化) する。 単位変換手段 9は、 正規化手段 8が正規化した数値の単位を変換する 処理を行う。
対応付け手段 1 0は、 知識情報記憶手段 3に記憶されている知識情報 を参照して、 属性値抽出手段 5によって抽出された属性値を、 実世界に おける実体に対応付ける処理を行う。 なお、 この 「実体」 とは、 文書に 記述されている属性値が示す実世界の 「オブジェク ト」 を意味している。 例えば、 前述の例では、 「A社」 と呼ばれる企業が複数存在する場合に は、 文書中に記述されている 「A社」 がどの企業 (オブジェク ト) を示 しているのかを特定する必要があるので、 対応付け手段 1 0は、 文書中 の他の属性値 (例えば、 「社長の名前」 や 「本社地」 など) を参照して 「A社」 を特定する。
文書記憶手段 1 1は、 対応付け手段 1 0によって対応付けがなされた 属性値集合と、 もとの文書 (または、 もとの文書の格納場所を特定する 情報) とを対応付けて記憶する。
文書抽出手段 1 2は、 対応付け手段 1 0から供給されたクエリに対応 する文書を、 属性値を参照して文書記憶手段 1 1から取得する。 そして、 重要度算出手段 1 3によって算出された個々の文書の重要度を参照し、 ある閾値以上の重要度を有する文書を出力する。
重要度算出手段 1 3は、 所定のキーワードの出現頻度などを求めるこ とにより、 対象とする文書の重要度を算出する。
図 2を参照して、 図 1に示す実施の形態を含む通信システムの構成例 について説明する。
図 2において、 図 1に示す文書処理装置 2 0は、 例えば、 インターネ ッ トなどのネッ トワーク 2 1 に接続されている。
このネッ トワーク 2 1 には、 端末装置 2 2 a, 2 2 bや、 サーバ 2 3 などが接続されている。
端末装置 2 2 a , 2 2 bは、 その入力部をユーザが操作して入力した クエリなどを受け付けて、 文書処理装置 2 0に送信するとともに、 送信 したクエリに対応する文書を文書処理装置 2 0が送信した場合には、 そ の文書を受信して、 例えば、 C R T ( Ca t hode Ray Tube) モニタなどへ 表示出力する。
サーバ 2 3は、 記憶部 2 3 aに記憶している文書や画像などの情報を、 ネッ トワーク 2 1 を介して、 要求を行った装置に対して送信する。
文書処理装置 2 0は、 端末装置 2 2 a, 2 2 bなどから送信されたク エリを記憶しておき、 例えば、 サーバ 2 3から新たな文書が供給された 場合には、 その文書と前述のクエリとの関連度が高い場合には、 端末装 置 2 2 aまたは端末装置 2 2 bに対して送信する。
次に、 以上の実施の形態の動作について説明する。
図 3は、 図 1に示す実施の形態において、 新たな文書が文書入力部 1 から入力された場合 (例えば、 図 2に示すサーバ 2 3から新たな文書が 供給された場合) に実行される処理の一例を説明するフローチヤ一卜で ある。
このフローチヤ一トが開始されると、 以下の処理が実行されることに なる。
[ S 1 ] 文書入力部 1は、 新たな文書を入力する。
[ S 2 ] 事象特定手段 4は、 文書に記述されている事象の種類を特定す る。
即ち、 事象特定手段 4は、 知識情報記憶手段 3に記憶されている事象 と表現とのマッピング規則情報 (図 5参照) を参照して、 文書に記述さ れている事象の種類を特定する。 図 5 に示すマッ ピング規則では、
"modu l e " " end " で囲繞された部分が一つの事象 (または実体) と表 現とのマツビング規則であり、 1つの事象に対する表現のバリエーショ ンを記述している。 なお、 図 5に示すマッピング規則の詳細については 後述する。
[S 3 ] 属性値抽出手段 5は、 知識情報記憶手段 3に記憶されている知 識情報を参照して属性値を抽出する。
例えば、 属性値抽出手段 5は、 図 5に示す 「module main 」 内に記述 されている事象のバリエ一ションのうち、 入力された文書に対応する定 義に含まれている属性 (例えば、 <会社情報 >、 <製品〉等) の属性値 を、 他の 「module」 や 「def 」 などを参照することにより文書から抽出 する。 例えば、 属性ぐ会社情報〉に対応する属性値は、 第 1 7行目〜第 2 1行目に記述されている定義および、 第 1 2行目〜第 1 5行目に記述 されている定義を参照してパターンマッチングを行うことにより、 文書 から抽出する。
[S 4] 正規化手段 8は、 抽出された属性値に日付表現が含まれている か否かを判定し、 日付表現が含まれている場合にはステップ S 5に進み、 それ以外の場合にはステツプ S 7に進む。
CS 5] 作成日時取得手段 6は、 文書が作成された日時を取得し、 また、 時制取得手段 7 は、 対象となる事象が記述されている文章の時制 (tense ) を取得する。
[S 6 ] 正規化手段 8は、 取得した文書作成日時情報と時制情報とを参 照して、 日付表現を対応する数値に変換する 「日付表現変換処理」 を実 行する。
なお、 この処理の詳細については、 図 6を参照して後述する。
[S 7 ] 正規化手段 8は、 抽出された属性値に金額表現が含まれている か否かを判定し、 金額表現が含まれている場合には、 ステップ S 8に進 み、 それ以外の場合にはステップ S 1 1に進む。 [S 8] 正規化手段 8は、 注目している金額表現が規定された通貨単位 であるか否かを判定し、 規定された通貨単位である場合にはステツプ S 1 0に進み、 それ以外の場合にはステツプ S 9に進む。
例えば、 規定されている通貨単位が 「円」 ある場合に、 「$」 を単位 とする金額表現が存在している場合にはステツプ S 9に進む。
[S 9] 単位変換手段 9は、 内蔵されている記憶部に記憶している交換 レートを読み出し、 規定されている通貨単位に変換する処理を行う。 例えば、 「$ 1 0 0」 という表現が存在している場合に、 交換レート が 「 1 $ = 1 3 0円」 であるとすると、 「 $ 1 0 0」 は 「 1 3 0 0 0 円」 に変換されることになる。
[S 1 0 ] 正規化手段 8は、 金額表現を数値に変換する 「金額表現変換 処理」 を行う。 なお、 この処理の詳細は、 図 1 3を参照して詳述する。 前述の例では、 「 1 3 0 0 0円」 (文字列) が 「 13000 」 (数値) に 変換される。
[S 1 1 ] 正規化手段 8は、 他の数値表現が存在するか否かを判定し、 他の数値表現が存在する場合にはステップ S 1 2に進み、 それ以外の場 合にはステツプ S 1 3に進む。
例えば、 「出荷台数 5 0 0 0 0台」 などの表現が存在する場合には、 ステップ S 1 2に進む。
[S 1 2] 正規化手段 8は、 属性値に含まれている数値表現を対応する 数値に変換する。 例えば、 前述の例では、 「 5 0 0 0 0」 (文字列) が 計算可能な数値 「 50000」 に変換されることになる。
[S 1 3 ] 対応付け手段 1 0は、 属性値に固有名 (例えば、 「橋本電 気」 等) が含まれているか否かを判定し、 含まれている場合にはステツ プ S 1 4に進み、 それ以外の場合にはステップ S 1 5に進む。
[S 1 4] 対応付け手段 1 0は、 固有名を抽出し、 その固有名に対応す る固有名コ一ドを知識情報記憶手段 3から取得して付与する。
例えば、 前述の 「橋本電気」 に対応する固有名コード 「 0 0 0 1 1」 が、 知識情報記憶手段 3から読み出されて付与される。
なお、 知識情報記憶手段 3には、 関連する固有名を相互に関連づけて 生成した情報が記憶されているので、 文書中のある固有名が複数の候補 を有する場合には、 関連付けられている他の固有名を参照することによ り、 固有名を正確に特定することが可能となる。
即ち、 「橋本電気」 に対応する候補が 「橋本電気株式会社」 と 「株式 会社橋本電気」 の 2つである場合 (同名の会社が存在する場合) には、 文書中に記載されている、 例えば、 社長名や所在地などと、 知識情報記 憶手段 3に関連付けられて記憶されている固有名とを比較することによ り、 これらの候補を絞り込んで正確な固有名を取得することができる。
[ S 1 5 ] 対応付け手段 1 0は、 参照表現 ( 「同」 または 「両」 などの 表現) が存在するか否かを判定し、 参照表現が存在する場合にはステツ プ S 1 6に進み、 それ以外の場合にはステップ S 1 8に進む。
例えば、 参照表現である (同) が存在する場合には、 ステップ S 1 6 に進むことになる。
[ S 1 6 ] 対応付け手段 1 0は、 参照表現が参照している対象を同定す る。
例えば、 「橋本電気 (中山社長) は、 橋本電算機 (同) の独立 を · · · 」 の場合では、 参照表現 「同」 が参照している対象として 「中 山社長」 を同定する。
なお、 この同定方法としては、 「同」 や 「両」 が内挿された括弧
" 0 " が検出された場合には、 その括弧より前に出現する括弧内の属 性値を、 参照表現が参照している対象であると同定するようにすればよ い。 [ S 1 7 ] 対応付け手段 1 0は、 参照表現が参照している対象に対応す る固有コードを取得し、 取得した固有名コードを参照表現に対して付与 する。
前述の例では、 「中山社長」 の固有コード 「 0 0 0 1」 が参照表現 「同」 に付与されることになる。
[ S 1 8 ] 対応付け手段 1 0は、 正規化された属性値 (以下、 正規化情 報と略記する) と、 元の文書 (または、 元の文書の格納場所を特定する ための情報) とを関連付けて文書記憶手段 1 1に記憶させる。
以上の処理により、 入力された文書に記述されている事象が特定され るとともに、 その事象に係わる属性の属性値が取得される。 そして、 取 得された属性値と実世界の実体とが対応付けられて得られた正規化情報 と、 もとの文書 (または、 元の文書の格納場所を特定するための情報) とが文書記憶手段 1 1に記憶されることになる。
次に、 図 3のステップ S 6に示す、 「日付表現変換処理」 の詳細につ いて説明する。
図 6は、 図 3に示す 「日付表現変換処理」 の詳細を説明するフローチ ヤートである。 このフローチャートが開始されると、 以下の処理が実行 されることになる。
[ S 3 0 ] 作成 日時取得手段 6 は、 文書の作成 日時を取得し て、 %docyear, ¾docmon t h , %doc d ay に代入する。 なお、 文書の作成日 時は、 例えば、 新聞記事であればその記事の発行日を取得する。 また、 新聞記事以外の文書であれば、 ファイルの属性を参照して、 その作成日 時を取得する。
[ S 3 1 ] 正規化手段 8は、 属性値から日付表現を抽出する。
例えば、 対象となる文章が 「橋本電気は新たなコンピュータを 1 日に 発売。 」 であれば、 日付表現として 「 1 日」 を抽出する。 [S 3 2 ] 正規化手段 8は、 抽出した日付表現が数字と 「年」 、 「月」 、 または、 「日」 によって構成されているか否かを判定し、 YE Sと判定 した場合にはステツプ S 3 3に進み、 それ以外の場合にはステツプ S 3 4に進む。
例えば、 前述の 「 1 日」 の例では、 数字 「 1」 と 「日」 とによって構 成されていることから、 YE Sと判定されてステツプ S 3 3に進む。
[S 3 3 ] 正規化手段 8は、 数字変換テーブル (図 7参照) を参照して、 日付表現を変換する処理を行う。
図 7に示す数字変換テーブルでは、 数字表現に対応する正規化数値が 関連付けられており、 ある数字表現 (文字列) が与えられると、 その表 現に対応する数値が与えられることになる。
[S 34] 正規化手段 8は、 図 8に示す日時表現変換テーブルを参照し て、 日時表現を対応する数値に変換する。
図 8に示す日時表現変換テーブルでは、 表現と、 そのタイプと、 対応 する正規化数値とが対応付けられている。 なお、 タイプとは表現の型で あり、 例えば、 「d a t e」 は特定の日時を示し、 また、 「d a t e r a n g e」 は所定の期間を示している。 例えば、 1 9 9 8年に作成され た文書に 「昨年の 3 月 4 日」 という表現があれば、 year には ( %docyear- 1 ) = ( 1998-1 ) =1997 が代入され、 また、 %month と%dayには、 それぞれ " 3 " と "4" が代入される。
また、 1 9 9 7に作成された文書に 「 1 9 9 8年の春」 という表現が あれば、 %year には " 1998 " が代入されるので、 from 1998-3-1 to 1998-5-30 という正規化値が得られることになる。
なお、 この日時表現テーブルは、 一例であるので、 図示したテ一ブル 以外にも種々の実施の形態が考えられる。
[S 3 5 ] 正規化手段 8は、 全ての値が取得されたか否かを判定し、 取 得されたと判定した場合にはステップ S 3 7に進み、 それ以外の場合に はステツプ S 3 6に進む。
例えば、 年月日に対応する全ての値が取得された場合にはステツプ S 3 7に進む。
[S 3 6 ] 正規化手段 8は、 日付の推定処理を行う。 なお、 この処理の 詳細は、 図 9を参照して後述する。
[S 3 7 ] 正規化手段 8は、 正規化された数値を%year, %month, ¾day にそれぞれ代入して処理を終了する。
以上の処理によれば、 文書に含まれている日付表現を、 対応する数値 に変換することが可能となる。
次に、 図 9を参照して図 6のステップ S 3 6に示す 「日付推定処理」 の詳細について説明する。 図 9に示すフローチヤ一卜が開始されると、 以下の処理が実行されることになる。
[S 5 0 ] 正規化手段 8は、 %year のみ値が未代入であるか否かを判定 し、 未代入である場合にはステップ S 5 1 に進み、 それ以外の場合には ステップ S 5 2に進む。
[S 5 1 ] 正規化手段 8は、 %year 推定処理を行う。 なお、 この処理の 詳細については、 図 1 0を参照して後述する。
[S 5 2 ] 正規化手段 8は、 %day 以外の値が未代入であるか否かを判 定し、 未代入である場合にはステップ S 5 3に進み、 それ以外の場合に はステツプ S 5 5に進む。
[ S 5 3 ] 正規化手段 8は、 %month 推定処理を行う。 なお、 この処理 の詳細については、 図 1 1 を参照して詳述する。
[S 54] 正規化手段 8は、 %year 推定処理を行う。
[ S 5 5 ] 正規化手段 8は、 %inonth 以外の値が未代入であるか否かを 判定し、 その結果、 未代入である場合にはステップ S 5 6に進み、 それ 以外の場合にはステツプ S 5 8に進む。
[S 5 6 ] 正規化手段 8は、 day 推定処理を行う。 なお、 この処理の 詳細については図 1 2を参照して詳述する。
[S 5 7 ] 正規化手段 8は、 %year 推定処理を行う。
[S 5 8 ] 正規化手段 8は、 %year 以外の値が未代入であるか否かを判 定し、 未代入の場合にはステップ S 5 9に進み、 それ以外の場合には処 理を終了する。
[ S 5 9 ] 正規化手段 8は、 推定日時を 「from ¾year-l-l to %year- 12-31 」 とする。 即ち、 %year 以外の値が未代入である場合には、 検 索漏れが生ずることを防止するために、 正規化値をできるだけ広い値に 設定する。
次に、 図 1 0を参照して、 図 8のステップ S 5 1, S 5 4 , S 5 7に 示す 「 year 推定処理」 の詳細について説明する。 このフローチャート が開始されると、 以下の処理が実行されることになる。
[S 6 0 ] 正規化手段 8は、 対象となる文章から時制取得手段 7によつ て取得された時制が未来形である場合にはステップ S 6 1に進み、 それ 以外の場合にはステツプ S 6 5に進む。
[ S 6 1 ] 正規化手段 8は、 %docmonth が^ onth よりも大きいか否か を判定し、 大きいと判定した場合にはステップ S 6 2に進み、 それ以外 の場合にはステップ S 6 3に進む。
[S 6 2 ] 正規化手段 8は、 %year に値 (%docyear+l) を代入する。 例えば、 文書が作成された月が 4月である場合に、 「 3月に · · · す る予定である」 という表現が文章中にある場合には、 この 「 3月」 は、 来年の 3 月 を示している と推定される こ とか ら、 %year には値 (%docyear + l) が代入される。
[ S 6 3 ] 正規化手段 8は、 ocmonth が%month 以下であるか否かを 判定し、 YE Sと判定した場合にはステップ S 6 4に進み、 それ以外の 場合にはステツプ S 6 5に進む。
[ S 6 4 ] 正規化手段 8は、 %year に%docyearの値を代入する。
[S 6 5 ] 正規化手段 8は、 時制取得手段 7によって取得された時制が 過去であるか否かを判定し、 Y E Sと判定した場合にはステップ S 6 6 に進み、 それ以外の場合には図 9の処理に復帰 (リターン) する。
[ S 6 6 ] 正規化手段 8は、 %docmonth の値が¾011 の値以上である か否かを判定し、 YE Sと判定した場合にはステップ S 6 7に進み、 そ れ以外の場合にはステツプ S 6 8に進む。
[ S 6 7 ] 正規化手段 8は、 docyearの値を%year に代入する。
[ S 6 8 ] 正規化手段 8は、 %docmonth の値が%month の値よりも小さ いか否かを判定し、 YE Sと判定した場合にはステツプ S 6 9に進み、 それ以外の場合には図 9の処理に復帰する。
[S 6 9 ] 正規化手段 8は、 値 (%docyear- 1) を%year に代入する。 例えば、 文書が作成された月が 4月である場合に、 「 6月に · · · し た」 という表現が文章中にある場合には、 この 「 6月」 は、 昨年の 6月 を示していると推定されることから、 %year には値 (%docyear-l) が代 入される。
次に、 図 1 1 を参照して、 図 9のステップ S 5 3に示す 「%month 推 定処理」 の詳細について説明する。 このフローチャートが開始されると、 以下の処理が実行されることになる。
[S 8 0] 正規化手段 8は、 時制取得手段 7によって取得された対象と なる文章の時制が未来形である場合にはステップ S 8 1 に進み、 それ以 外の場合にはステツプ S 8 5に進む。
[ S 8 1 ] 正規化手段 8は、 %docday が%day よりも大きいか否かを判 定し、 Y E Sと判定した場合にはステップ S 8 2に進み、 それ以外の場 合にはステツプ S 8 3に進む。
[ S 8 2 ] 正規化手段 8は、 %monthに値 docmonth + 1 ) を代入する。 例えば、 文書が作成された日が 2 日である場合に、 「4日に · · ' す る予定である」 という表現が文章中にある場合には、 この 「4日」 は、 同じ月の 4 日を示していると推定されることから、 %month には値 (¾docmonth + l ) が代入されることになる。
[ S 8 3 ] 正規化手段 8は、 ocday の値が day の値以下であるか否 かを判定し、 Y E Sと判定した場合にはステップ S 8 4に進み、 それ以 外の場合にはステツプ S 8 5に進む。
[S 8 4 ] 正規化手段 8は、 %monthに%docmonth の値を代入する。
[ S 8 5 ] 正規化手段 8は、 時制取得手段 7によって取得された時制が 過去であるか否かを判定し、 Y E Sと判定した場合にはステツプ S 8 6 に進み、 それ以外の場合には図 9の処理に復帰 (リターン) する。
[ S 8 6 ] 正規化手段 8は、 %docday の値が day の値以上であるか否 かを判定し、 Y E Sと判定した場合にはステップ S 8 7に進み、 それ以 外の場合にはステップ S 8 8に進む。
[ S 8 7 ] 正規化手段 8は、 %docmonth の値を%monthに代入する。
[ S 8 8 ] 正規化手段 8は、 ocday の値が day の値よりも小さいか 否かを判定し、 Y E Sと判定した場合にはステップ S 8 9に進み、 それ 以外の場合には図 9の処理に復帰する。
[ S 8 9 ] 正規化手段 8は、 値 (%docmonth- 1 ) を%mon thに代入する。 例えば、 文書が作成された日が 4日である場合に、 「 6 日に · · · し た」 という表現が文章中にある場合には、 この 「 6 日」 は、 前の月の 6 日を示していると推定されることから、 month には値 (%docmonth- 1 ) が代入される。
次に、 図 1 2を参照して、 図 9のステップ S 5 6に示す day 推定 処理」 の詳細について説明する。 このフローチャートが開始されると、 以下の処理が実行されることになる。
[ S 1 0 0 ] 正規化手段 8は、 %month の値が 1 , 3 , 5 , 6, 8, 1 0, または, 1 2のうちの何れかであるか否かを判定し、 YE Sと判定 した場合にはステップ S 1 0 1に進み、 それ以外の場合にはステップ S 1 0 2に進む。
[ S 1 0 1 ] 正規化手段 8は、 日付情報として 「from %year-¾month-l to %year-%month-31J を生成する。
[ S 1 0 2 ] 正規化手段 8は、 %month の値が 4, 6 , 9 , または, 1 1のうちの何れかであるか否かを判定し、 YE Sと判定した場合にはス テツプ S 1 0 3に進み、 それ以外の場合にはステツプ S 1 0 4に進む。
[S 1 0 3 ] 正規化手段 8は、 日付情報として 「from ¾year-%mon th-1 to %year- month- 30」 を生成する。
[S I 0 4] 正規化手段 8は、 「年」 に関する属性値を参照して、 閏年 か否かを判定し、 閏年である場合にはステップ S 1 0 5に進み、 それ以 外の場合にはステツプ S 1 0 6に進む。
[ S 1 0 5 ] 正規化手段 8は、 日付情報として 「from ¾year-¾month-l to %year- %month- 29」 を生成する。
[ S 1 0 6 ] 正規化手段 8は、 日付情報として 「from ¾year-¾month-l to %year- onth- 28」 を生成する。
以上の処理によれば、 文書に含まれている日付情報が不十分な情報し か含んでいない場合においても、 文書の作成日時と、 注目する文章の時 制とに応じて日付情報を推定するようにしたので、 文書に含まれている 日付情報を検索を行う際に有効に活用することが可能となる。
例えば、 「来年の春」 のような曖昧な表現も、 具体的な数値 (例えば、 1 9 9 8年 3月 1 日〜 1 9 9 8年 5月 3 1 日) に変換 (正規化) するこ とが可能となるので、 このような曖昧な表現も検索の際に活用すること が可能となる。
次に、 図 1 3を参照して、 図 3のステップ S 1 0に示す 「金額表現変 換処理」 の詳細について説明する。 このフローチヤ一卜が開始されると 以下の処理が実行されることになる。
[S 1 2 0 ] 正規化手段 8は、 図 1 4に示す金額表現変換テーブルを参 照して、 金額表現を対応する数値に変換し、 変数 Xに代入する。
例えば、 「二十万円」 という表現では、 先ず、 「二」 が "2 " に変換 され、 「十」 が "X10" に、 また、 「万」 力 S " X 10000 " に変換される ので、 全体として値 "200000" が得られることになる。
[S 1 2 1 ] 正規化手段 8は、 金額表現が 「以上」 で終わるか否かを判 定し、 「以上」 で終わる場合にはステップ S 1 2 2に進み、 それ以外の 場合にはステツプ S 1 2 3に進む。
[ S 1 2 2 ] 正規化手段 8は、 正規化表現として 「from x to * 」 を生 成する。 ここで、 「*」 は任意の値を意味している。
前述の例では、 x = 2000 であるので、 「from 2000 to *j が生成され る。
[S 1 2 3 ] 正規化手段 8は、 金額表現が 「以下」 で終わるか否かを判 定し、 「以下」 で終わる場合にはステップ S 1 2 4に進み、 それ以外の 場合にはステップ S 1 2 5に進む。
[S 1 2 4] 正規化手段 8は、 正規化表現として 「from * to x 」 を生 成する。
[S 1 2 5 ] 正規化手段 8は、 金額表現が 「台」 で終わるか否かを判定 し、 「台」 で終わる場合にはステップ S 1 2 6に進み、 それ以外の場合 にはステツプ S 1 2 8に進む。
[ S 1 2 6 ] 正規化手段 8は、 正規化表現として 「 from X to X 」 を生 成する。
[ S 1 2 7 ] 正規化手段 8は、 「to」 の後の Xに含まれている "0 " を "9 " に全て変換する。
例えば、 「 1 0万円台」 という表現では、 x = 100000 となるので、 この場合には 「to」 の後の Xに含まれている "0 " 力 "9 " に全て変換 されるので、 19999 9 となる。 従って、 正規化表現としては、 「from 100000 to 199999 」 が生成されることになる。
[ S 1 2 8 ] 正規化手段 8は、 金額表現が 「台前半」 で終わるか否かを 判定し、 「台前半」 で終わる場合にはステップ S 1 2 9に進み、 それ以 外の場合にはステップ S 1 3 1に進む。
[ S 1 2 9 ] 正規化手段 8は、 正規化表現として 「from x to x 」 を生 成する。
[ S 1 3 0 ] 正規化手段 8は、 「to」 の後の Xに含まれている最初の
"0 " を "5 " に変換する。
例えば、 「 1 0万円台前半」 という表現では、 x = 100000 となる。 この場合には 「to」 の後の Xに含まれている最初の "0 " が "5 " に変 換されるので、 150000 となる。 従って、 正規化表現としては、 「from 100000 to 150000 」 が生成されることになる。
[ S 1 3 1 ] 正規化手段 8は、 金額表現が 「台後半」 で終わるか否かを 判定し、 「台後半」 で終わる場合にはステップ S 1 3 2に進み、 それ以 外の場合には図 3の処理に復帰する。
[ S 1 3 2 ] 正規化手段 8は、 正規化表現として 「from X to X 」 を生 成する。
[ S 1 3 3 ] 正規化手段 8は、 「from」 の後の xに含まれている最初の "0 " を "6 " に変換する。
[ S 1 3 4 ] 正規化手段 8は、 「to」 の後の Xに含まれている "0 " を "9 " に変換する。
例えば、 「 1 0万円台後半」 という表現では、 x = 100000 となるの で、 この場合には 「to」 の後の Xに含まれている最初の "0 " が "6 " にステップ S 1 3 3において変換され、 また、 「to」 の後の Xに含まれ ている "0 " 力 "9 " に全て変換されるので、 正規化表現としては、 rfrom 160000 to 199999 」 が生成されることになる。
以上の処理によれば、 例えば、 漢数字によって記述されている金額表 現を対応する数値に変換するとともに、 例えば、 「以上」 や 「台前半」 などの曖昧な表現を含む金額表現も対応する数値に変換することが可能 となる。
次に、 具体的な例を挙げて以上の実施の形態の動作について説明する。 いま、 図 1 5に示す文書が図 1に示す文書入力部 1から入力されたと する。 なお、 図 1 5に示す例文は、 新製品の発売に関する文書である。
このような文書が文書入力部 1から入力されると、 事象特定手段 4は 文書に記述されている事象を、 知識情報記憶手段 3に記憶されている知 識情報を参照して特定する (図 3のステップ S 2) 。
図 1 5 の例では、 図 5 の第 4行目〜 1 1 行目に記述されている 「module main 」 の中の第 1番目の項目 (<会社情報〉は [、 ] ? <日 付 >、 <製品 >を発売した。 ) に該当することから、 この文書に記述さ れている事象が 「新製品の発売」 であると判定されることになる。
なお、 図 5に示す知識情報では、 事象の定義が 「module main 」 〜 rend module] によって囲繞された部分に記述されている。 また、 事象 の定義の中に含まれている、 例えば、 ぐ会社情報 >などの属性は、 rmodulej や 「def 」 などにおいて定義されている。 例えば、 属性 <会 社情報〉は、 第 1 7行目〜第 2 1行目の 「module」 内に定義されており、 その内容は、 (ぐ業種〉、 ぐ会社名 >) 、 (<業種 2〉 &連結語 ; ぐ会 社名〉) 、 および、 (<会社名〉) の 3種類である。
ここで、 <業種 >に関する定義は、 第 1 2行目の 「de f 」 の後に記述 されており、 し *メーカ し *会社 し *大手 し *開発 に *販売 I . *製造 し *業) の中の何れかに該当するものが属性 <業種 >の属 性値であるとされる。 従って、 「パソコンメ一力」 や 「パソコン大手」 などの表現は、 <業種 >の属性値であると判定される。 なお、 「 I 」 は 「or」 を意味している。
また、 同意語または類義語を含めて定義を行う場合には、 第 1 9行目 に示されているように、 同意語を含める部分を 「&」 と 「 ; 」 の間に挿 入する。 この例では、 「連結語」 が同意語または類義語を含む部分とな り、 その詳細は、 第 1 6行目に定義されており、 「連結語」 = (を専門 とする I である I している I する I の) となる。 従って、 「オフィスォ 一トメ一シヨンを専門とする橋本電機」 という表現は、 会社情報の第 2 番目の定義 (ぐ業種 2〉 &連結語; <会社名 > ) に該当することになる。
このように、 本実施の形態においては、 トップダウン的な処理が実行 されることから、 文脈に応じたパターンマツチングが可能となる。
以上のような処理によって事象の種類が特定されると、 時制取得手段
7は、 事象が記述されている文章を取得し、 その時制情報を取得する。 図 1 5に示す文書の例では、 その時制は過去形 ( 「発売した」 ) である ので、 「過去形」 が時制情報として取得される。 なお、 このようにして 取得された時制は、 図 1 6の第 2行目に示すように 「アスペク ト 過 去」 として、 正規化情報に付加される。
次に、 属性値抽出手段 5は、 特定された事象の種類に応じて、 属性値 を抽出する (図 3のステップ S 3 ) 。 即ち、 属性値抽出手段 5は、 図 5 に示す知識情報と文書との間でパターンマッチングを行うことによって 属性値を抽出する。 図 1 5の例では、 例えば、 <組織名 >として 「橋本電機」 が抽出され、 また、 新たに発売する <製品情報 >の<種別 >としては 「 J CN互換パ ソコン」 が抽出され、 そのく製品名 >としては、 「GNWシリーズ」 が 抽出されている。
続いて、 正規化手段 8は、 文書に日付表現が存在するか否かを判定し (図 3ステップ S 4) 、 存在する場合には対応する数値に変換する処理 を行う。
図 1 5に示す文書では、 「十八日」 という表現が含まれていることか ら、 正規化手段 8は、 図 3に示すステップ S 5において文書作成日時情 報と時制情報とを取得して、 ステップ S 6において日付表現変換処理を 行う。
例えば、 文書作成日時が 「 1 9 9 3年 1 0月 1 9 日」 であるとすると、 図 1 6の第 6行目に示すように、 「発表日付」 としてそのタイプが rdatej であり、 また、 その値が 「 1998-10-18」 である情報が正規化情 報に付加されることになる。 続いて、 正規化手段 8は、 図 3のステツ プ S 7において、 金額表現が存在するか否かを判定する。 図 1 5に示す 文書では、 「十七万八千円」 などの表現があることから、 ステップ S 8 に進み、 そこで、 規定された通貨単位か否かが判定される。 例えば、 規 定された通貨単位が 「円」 であるとし、 対象となる表現が前述の 「十七 万八千円」 である場合には、 ステップ S 1 0に進むことになる。
なお、 「 $ 1 5 0」 などの表現が含まれている場合には、 ステップ S 9において交換レート ( 1 $ = 1 3 0円) に応じて、 通貨単位の変換が 行われた後、 ステップ S 1 0に進む。
ステップ S 1 0では、 文字列 「十七万八千円」 、 値 " 178000" に変 換される。
続くステップ S 1 1では、 他の数値表現が存在するか否かが判定され るが、 図 1 5に示す例の第 1番目の文章には、 日付表現以外の数値表現 は存在しないことから、 ステップ S 1 3に進む。
ステップ S 1 3では、 対応付け手段 1 0が固有名が存在するか否かを 判定する。 図 1 5の例では、 固有名 「橋本電機」 が存在することから、 ステップ S 1 4に進む。
ステップ S 1 4では、 対応付け手段 1 0が知識情報記憶手段 3に記憶 されている知識情報のうち、 橋本電機に対応する情報を取得する。 なお、 この情報は、 例えば、 以下のような情報である。
0 0 0 1 橋本電機ぐ会社名〉 0 0 0 1 1 橋本太郎<社長名〉 0 0 0 1 2 岡山県 <所在地 >
取得された 「橋本電機」 に対する候補が複数存在する場合には、 橋本 電機に関連付けられて記憶されている他の固有名 (橋本太郎、 岡山県) などが文書中に含まれていないか判定され、 候補が絞り込まれることに なる。
そして、 ステップ S 1 4において、 絞り込みの結果得られた固有名コ —ド (例えば、 0 0 0 1 ) が、 正規化情報に付与されることになる (図 1 6第 4行目参照) 。
ステップ S 1 5では、 対応付け手段 1 0は、 参照表現が存在するか否 かを判定する。 図 1 5に示す例では、 参照表現は存在しないから、 N O と判定されてステップ S 1 8において、 生成された正規化情報と文書 (または、 文書が格納されている場所を示す情報) とを文書記憶手段 1 1に記憶して処理を終了する。
図 1 7は、 他の文書例を示している。 また、 図 1 8は、 図 1 7に示す 文書を処理して得られた正規化情報の一例を示している。
図 1 8の第 3行目に示すように、 図 1 7に示す文書に記述されている 事象は、 合併情報 (f i e l d 合併情報) であり、 その時制は過去 (ァス ぺク ト =過去) である。 また、 「発表した」 という表現が第 1番目の文 章中にないことから、 第 2行目に示すように、 「文末表現 発表述語な し」 とされている。
更に、 第 5行目から第 2 7行目に示されている 「合併主体組織情報」 の内容としては、 第 8行目と第 1 8行目に示されている北海道大木リフ 卜と、 東北海道大木リフ トとが合併する主体組織であり、 それ以外の行 には、 これらの組織を補足するための <合併組織補足情報 >が記載され ている。
第 3 4行目以降には、 分析の対象となった文以外の残りの文章が記載 されている。
なお、 この例では、 図 1 7の第 3行目に 「同」 という参照表現が含ま れているので、 図 1 8の第 2 3行目に示すように 「参照先 前」 という 記述が追加され、 参照表現 「同」 が、 第 1 3〜第 1 6行目に示されてい る 「芥川龍太郎 ( 0 2 5 1 ) 」 (要素 2 ) であることが示されている。 次に、 以上のようにして生成された正規化情報を参照して、 文書を検 索する場合の処理の一例について説明する。
図 1 9は、 図 1に示すユーザィン夕フェース部 2に表示される入力画 面の表示例である。 この例では、 製品の販売情報が記載された文書を検 索の対象としている。 即ち、 ぐ製品の販売 >が事象として記述された文 書が検索の対象とされる。 この例では、 第 1番目に示すボックス 「組 織名」 に、 製品を発売した組織名が入力される。 また、 第 2番目に示す ボックス 「製品種」 には、 製品の種類が入力される。 更に、 ボックス 「価格」 には製品の価格の範囲が入力される。 ボックス 「発売日」 には、 発売された日の範囲が入力される。 なお、 最下行に表示されているボタ ン 「検索」 は、 全ての入力が終了し、 検索を開始する場合に操作される。 図 2 0は、 図 1 9に示す画面に所定のクエリが入力された場合の入力 例を示している。 この例では、 組織名として 「AAA」 力 また、 製品 種として 「パソコン」 が入力されている。
更に、 価格は、 「 1 0 0 0 0 0」 円以上 「 3 0 0 0 0 0」 円以下とさ れており、 発売日は 「 1 9 9 7」 年 「 1」 月 「 1」 日から 「 1 9 9 7」 年 「 6」 月 「 3 0」 日までとされている。
このような入力画面から入力されたクエリは、 各入力項目の属性を示 す情報が付与された後、 事象特定手段 4、 属性値抽出手段 5、 および、 対応付け手段 1 0を介して、 文書抽出手段 1 2に供給される。 なお、 付 与される情報としては、 例えば、 「AAA」 に対してはタグぐ組織名〉 が付与される。 また、 価格はタグく価格 type=price unit= 円 value = " from 100000 to 300000" 〉に変換される。 更に、 発売日は、 タグ < 発売日 type = date value= "from 1997-1-1 to 1997-6-30 " >に変換 される。
文書抽出手段 1 2は、 ユーザインタフェース部 2から供給されたクェ リとタグとに対応する属性値を有する文書を文書記憶手段 1 1から取得 する。 即ち、 文書記憶手段 1 1には、 元の文書とともに正規化情報が記 憶されているので、 文書抽出手段 1 2は、 この正規化情報に含まれてい る属性値と、 クエリのタグとを照合することにより、 所望の文書を抽出 する。
このようにして検索された結果は、 図示せぬ表示装置に表示出力され る。
図 2 1は、 検索結果を表示する画面のテンプレートを示している。 こ の例では、 検索結果の属性値として 「組織名」 、 「製品種」 、 「製品 名」 、 「価格」 、 「発売日」 、 および、 「見出し」 が表示される。
図 2 2は、 実際の表示例を示している。 この例の第 1行目の項目は、 「 A A A」 という組織が、 デスク トップ型のパソコンを、 200000〜 299999 円で、 1997/02/29 に発売しており、 その文書の見出しは 「低価 格パソコン発売」 であることを示している。
図 2 3は、 図 1に示すユーザィン夕フェース部 2に表示される入力画 面の他の表示例である。 この例では、 「組織の合併情報」 が記載された 文書を検索の対象としている。 即ち、 組織の合併が事象として記述され た文書が検索の対象とされる。 この例では、 第 1番目と第 2番目に示す ボックス 「組織名」 に、 合併する組織名が入力される。 また、 ボックス 「合併日」 には、 合併が行われる日の範囲が入力される。 なお、 最下行 に表示されているボタン 「検索」 は、 全ての入力が終了した後に、 検索 を開始する場合に操作される。
図 24は、 図 2 3に示す入力画面に所定のクエリが入力された場合の 入力例を示している。 この例では、 組織名として 「AAA」 が、 また、 合併日として 「 1 9 9 7」 年 「 1」 月 「 1」 日から、 「 1 9 9 7」 年 「 1 2」 月 「 3 1」 日までが入力されている。
このような入力画面において、 ボタン 「検索」 が操作されると、 前述 の場合と同様にタグが生成され、 文書記憶手段 1 1 に記憶されている正 規化情報と、 このタグとを照合することにより、 文書が検索される。 図 2 5は、 図 2 4の検索結果を表示する画面の表示例である。 この表 示例では、 検索結果の属性として 「組織名」 、 「組織名」 、 「新組織 名」 、 「合併日」 、 および、 「見出し」 が表示される。
図 2 6は、 実際の表示例を示している。
この例では、 検索結果の文書には、 組織名が 「AAA」 および 「B B B」 である会社が 「 1997/04/01」 に合併し、 新組織名は 「C C C」 であ ることが示されており、 また、 その文書の見出しは、 「AAA, BBB, 2社 合併」 であることが示されている。
以上の実施の形態によれば、 検索の対象となる事象に対応した入力画 面を用意して、 その入力画面から必要な項目を入力することにより、 所 望の文書が取得されることになる。 ところで、 文書記憶手段 1 1に記憶 されている文書には、 前述の正規化情報が関連付けられて記憶されてい るので、 その正規化情報を参照することにより、 例えば、 対象とする文 書に、 新たに発売されたパソコンの価格が 「二十五万円」 と漢数字で記 載されているような場合においても、 「200000」 円〜 「300000」 円と記 述されたクエリによつて取得されることになる。
なお、 以上の実施の形態においては、 検索しょうとする事象に対応し た入力画面から所定の項目を入力し、 入力された項目に対応する文書を 検索するようにしたが、 クエリを文章として入力し、 入力された文章に 対して正規化処理を行った後、 対応する文書を検索するようにしてもよ レ 以下、 そのような方法により、 クエリを正規化する処理の一例につ いて、 図 2 7を参照して説明する。 このフローチヤ一卜が開始されると 以下の処理が実行されることになる。
[ S 1 5 1 ] ユーザインタフェース部 2は、 文章として記述されたクェ リを入力する。
[ S 1 5 2 ] 事象特定手段 4は、 クエリに記述されている事象の種類を 特定する。 即ち、 事象特定手段 4は、 知識情報記憶手段 3に記憶されて いる事象と表現とのマッピング規則情報 (図 5参照) を参照して、 クェ リに記述されている事象の種類を特定する。
[ S 1 5 3 ] 属性値抽出手段 5は、 知識情報記憶手段 3に記憶されてい る知識情報を参照して属性値を抽出する。
[ S 1 5 4 ] 正規化手段 8は、 抽出された属性値に日付表現が含まれて いるか否かを判定し、 日付表現が含まれている場合にはステップ S 1 5 5に進み、 それ以外の場合にはステップ S 1 5 7に進む。
[ S 1 5 5 ] 作成日時取得手段 6は、 クエリが作成された日時を取得し、 また、 時制取得手段 7は、 クエリの時制 (tense ) を取得する。
[S 1 5 6 ] 正規化手段 8は、 取得したクエリ作成日時情報と時制情報 とを参照して、 日付表現を対応する数値に変換する 「日付表現変換処 理」 を実行する。 なお、 この処理の詳細については、 図 6を参照して 既述したので、 その説明は省略する。
[S 1 5 7] 正規化手段 8は、 抽出された属性値に金額表現が含まれて いるか否かを判定し、 金額表現が含まれている場合には、 ステップ S 1 5 8に進み、 それ以外の場合にはステツプ S 1 6 1に進む。
[S 1 5 8] 正規化手段 8は、 注目している金額表現が規定された通貨 単位であるか否かを判定し、 規定された通貨単位である場合にはステツ プ S 1 6 0に進み、 それ以外の場合にはステツプ S 1 5 9に進む。 例え ば、 規定されている通貨単位が 「円」 ある場合に、 「$」 を単位とする 金額表現が既述されている場合にはステツプ S 1 5 9に進む。
[S 1 5 9] 単位変換手段 9は、 内蔵されている記憶部に記憶している 交換レートを読み出し、 規定されている通貨単位に変換する処理を行う。 例えば、 「$ 1 0 0」 という表現が存在している場合に、 交換レート が 「 1 $ = 1 3 0円」 であるとすると、 「 $ 1 0 0」 は 「 1 3 0 0 0 円」 に変換されることになる。
[S 1 6 0] 正規化手段 8は、 金額表現を数値に変換する 「金額表現変 換処理」 を行う。 なお、 この処理の詳細は、 図 1 3を参照して既述した ので、 その説明は省略する。
前述の例では、 「 1 3 0 0 0円」 (文字列) が 「 13000 」 (数値) に 変換されることになる。
[S 1 6 1 ] 正規化手段 8は、 他の数値表現が存在するか否かを判定し、 他の数値表現が存在する場合にはステップ S 1 6 2に進み、 その他の場 合にはステツプ S 1 6 3に進む。 例えば、 「出荷台数 5 0 0 0 0台」 などが存在する場合には、 ステツ プ S 1 6 2に進む。
[ S 1 6 2 ] 正規化手段 8は、 属性値に含まれている数値表現を対応す る数値に変換する。 例えば、 前述の例では、 文字列 「 5 0 0 0 0」 が計 算可能な数値 「50000」 に変換されることになる。
[ S 1 6 3 ] 対応付け手段 1 0は、 属性値に固有名 (例えば、 「橋本電 気」 等) が含まれているか否かを判定し、 含まれている場合にはステツ プ S 1 6 4に進み、 それ以外の場合にはステツプ S 1 6 5に進む。
[ S 1 6 4 ] 対応付け手段 1 0は、 固有名を抽出し、 その固有名に対応 する固有名コードを知識情報記憶手段 3から取得して属性値に付与する。 例えば、 前述の 「橋本電気」 に対応する固有名コード 「 0 0 0 1 1」 が、 知識情報記憶手段から読み出されて付与される。
なお、 知識情報記憶手段 3には、 関連する固有名を相互に関連づけて 生成した情報が記憶されているので、 ある固有名が複数の候補を有する 場合には、 関連付けられている他の固有名を参照することにより、 固有 名を正確に特定することが可能となる。
即ち、 「橋本電気」 に対応する候補が 「橋本電気株式会社」 と 「株式 会社橋本電気」 の 2つである場合 (同名の会社が存在する場合) には、 クエリ中に記載されている、 例えば、 社長名や所在地などと、 知識情報 記憶手段 3に関連付けられて記憶されている固有名とを比較することに より、 これらの候補を絞り込んで正確な固有名コードを取得することが できる。
[ S 1 6 5 ] 対応付け手段 1 0は、 参照表現 (同または両などの表現) が存在するか否かを判定し、 参照表現が存在する場合にはステップ S 1 6 6に進み、 それ以外の場合にはステップ S 1 6 8に進む。
例えば、 参照表現である (同) が存在する場合には、 ステップ S 1 6 6に進むことになる。
[ S 1 6 6 ] 対応付け手段 1 0は、 参照表現が参照している対象を同定 する。
例えば、 「橋本電気 (中山社長) は、 橋本電算機 (同) の独立 を · · · 」 の場合では、 参照表現 「同」 が参照している対象として 「中 山社長」 を同定する。
なお、 この同定方法としては、 「同」 や 「両」 が内挿された括弧
" 0 " が検出された場合には、 その括弧より前に出現する括弧内の属 性値を、 参照表現が参照している対象であると同定するようにすればよ い。
[ S 1 6 7 ] 対応付け手段 1 0は、 参照表現が参照している対象に対応 する固有コードを取得し、 取得した固有コードを参照表現に対して付与 する。
前述の例では、 「中山社長」 の固有コード 「 0 0 0 1 0」 が参照表現 「同」 に付与されることになる。
[ S 1 6 8 ] 対応付け手段 1 0は、 以上のようにして生成されたクエリ の正規化情報を、 文書抽出手段 1 2に供給する。 その結果、 文書抽出手 段 1 2は、 以上のようにして生成されたクエリの正規化情報を参照して、 文書記憶手段 1 1に記憶されている文書を検索する。
例えば、 クエリとして 「橋本酒造が純米酒、 橋本を発売した。 」 が入 力された場合には、 事象特定手段 4は、 知識情報記憶手段 3に記憶され ている知識情報を参照し、 入力されたクエリが 「新製品の発売」 という 事象を示していることを特定する。
属性値抽出手段 5は、 <組織名 >として 「橋本酒造」 を抽出し、 また、 ぐ製品種 >として 「純米酒」 を、 また、 <製品名 >として 「橋本」 を抽 出する。 対応付け手段 1 0は、 「橋本酒造」 に対応する固有名コードが 存在する場合には、 その固有名コードを取得して付与する。 例えば、
「橋本酒造」 の固有名コードが " 0 1 1 1 " である場合には、 <組織名 >橋本酒造 ( 0 1 1 1 ) <Z組織名〉というタグが生成されることにな る。
文書抽出手段 1 2は、 以上のようにして生成された正規化情報を参照 して、 文書記憶手段 1 1から該当する文書を抽出する。 即ち、 文書抽出 手段 1 2は、 組織名タグと固有名コード ( 0 1 1 1 ) が付けられた 「橋 本酒造」 、 製品種タグが付けられた 「橋本」 、 および、 製品名タグが付 けられた 「橋本」 を含み、 その事象が 「新製品の発売」 である文書を文 書記憶手段 1 1から抽出する。
このような処理によれば、 例えば、 「橋本さんは、 橋本酒造製の純米 酒を注文した。 」 という一文が含まれている文書が検索結果として取得 されることを防止することができる。 即ち、 クエリと文書の正規化情報 には、 抽出された属性を示すタグがそれぞれ付与されていることから、 例えば、 <製品名 >である 「橋本」 を、 <人名 >と混同すること防止す ることができる。
次に、 以上の実施の形態により文書をクリッピングする場合の処理の 一例について説明する。 図 2 9は、 文書をクリッピングする場合に、 ュ 一ザから送信されたクエリを正規化する処理の一例を説明するフ口一チ ャ一トである。 このフローチャートが開始されると、 以下の処理が実行 されることになる。
[ S 1 8 0 ] ュ一ザィン夕フェース部 2は、 所定のユーザからのクエリ を入力する。
[ S 1 8 1 ] 事象特定手段 4、 属性値抽出手段 5、 および、 対応付け手 段 1 0は、 図 2 7および図 2 8のステップ S 1 5 1〜 S 1 6 7の処理を 実行して、 クエリを正規化する。 [ S I 8 2 ] 文書抽出手段 1 2は、 正規化されたクエリ (正規化情報) と、 それを送信したユーザを特定する情報とを関連付けて記憶する。
[ S 1 8 3 ] 文書抽出手段 1 2と重要度算出手段 1 3は、 文書記憶手段 1 1 に記憶されている文書と、 ユーザ毎のクエリの関連度を判定する 「関連度判定処理」 を実行する。 なお、 この処理の詳細は、 図 3 0を参 照して後述する。
次に、 図 3 0を参照して、 図 2 9に示す 「関連度判定処理」 の詳細に ついて説明する。 このフローチャートが開始されると、 以下の処理が実 行されることになる。
[ S 2 0 1 ] 重要度算出手段 1 3は、 正規化情報が付与された文書と、 正規化されたクエリとの関連度をユーザ単位で計算する。
なお、 計算方法としては、 例えば、 正規化されたクエリに含まれてい る重要表現を対象となる文書がいくつ含んでいるかに応じてスコアリン グを行い、 スコアの高い文書を関連度の高い文書とする方法を採用する ことができる。
[ S 2 0 2 ] 文書抽出手段 1 2は、 重要度算出手段 1 3の計算結果を参 照し、 関連度の高い文書を抽出する。
[ S 2 0 3 ] 文書抽出手段 1 2は、 正規化したクエリに含まれている日 付、 金額、 および、 数値が、 文書の正規化情報に含まれているそれらの 値と一致する文書を抽出する。
[ S 2 0 4 ] 文書抽出手段 1 2は、 一致した文書をネッ 卜ワーク 2 1を 介してユーザに送付する。
続いて、 図 3 1を参照して、 例えば、 サーバ 2 3から新たな文書が送 信されてきた場合に、 文書処理装置 2 0において実行される処理の一例 を説明する。
このフローチヤ一トが開始されると、 以下の処理が実行されることに なる。
[ S 2 3 0 ] 文書入力部 1は、 ネッ トワーク 2 1を介して、 例えば、 サ —バ 2 3から新たな文書の入力を受ける。
[ S 2 3 1 ] 事象特定手段 4、 属性値抽出手段 5、 および、 対応付け手 段 1 0は、 文書の正規化処理を実行する。
即ち、 事象特定手段 4、 属性値抽出手段 5、 および、 対応付け手段 1 0は、 図 3および図 4に示す処理を実行することにより入力された文書 に対応する正規化情報を生成する。
[ S 2 3 2 ] 文書抽出手段 1 2および重要度算出手段 1 3は、 図 3 0に 示す 「関連度判定処理」 を実行する。 その結果、 生成された正規化情報 に一致するクエリが存在している場合には、 そのクエリを送信したユー ザに対して、 新たに入力された文書が送付される。
以上の処理によれば、 新たな文書が入力された場合には、 入力された 文書の正規化情報と、 各ユーザの正規化されたクエリとの関連度を算出 して、 関連度が高い場合には対応するユーザに対して文書を送信するよ うにしたので、 ュ一ザの要求に適合した文書を正確に選択して送信する ことが可能となる。
なお、 上記の処理機能は、 コンピュータによって実現することができ る。 その場合、 文書処理装置が有すべき機能の処理内容は、 コンピュー 夕で読み取り可能な記録媒体に記録されたプログラムに記述されており、 このプログラムをコンピュータで実行することにより、 上記処理がコン ピュー夕で実現される。 コンピュータで読み取り可能な記録媒体として は、 磁気記録装置や半導体メモリ等がある。
市場に流通させる場合には、 C D— R O M (Compac t D i sk Re ad On l y Memo ry) やフロッピーディスク等の可搬型記録媒体にプログラムを格納 して流通させたり、 ネッ 卜ワークを介して接続されたコンピュータの記 憶装置に格納しておき、 ネッ トワークを通じて他のコンピュータに転送 することもできる。 コンピュータで実行する際には、 コンピュータ内の ハードディスク装置等にプログラムを格納しておき、 メインメモリに口 ―ドして実行するようにすればよい。
以上説明したように本発明では、 対象となる文書に記述されている事 象を特定し、 特定された事象に関する属性の属性値を抽出し、 抽出した 属性値と実世界の実体とを対応付けすることによって生成された情報を 参照して、 文書を検索またはクリッピングするようにしたので、 各属性 値を正確に認識して文書を検索またはクリッピングすることが可能とな るので、 結果として、 文書の検索またはクリッピング精度を向上させる ことが可能となる。
上記については単に本発明の原理を示すものである。 さらに、 多数の 変形、 変更が当業者にとって可能であり、 本発明は上記に示し、 説明し た正確な構成および応用例に限定されるものではなく、 対応するすべて の変形例および均等物は、 添付の請求項およびその均等物による本発明 の範囲とみなされる。

Claims

請 求 の 範 囲
1 . 入力された文書に対して所定の処理を施して記憶するとともに、 与 えられたクエリに対応する文書を、 記憶されている文書の中から検索ま たはクリッビングする処理を行う文書処理装置において、
前記入力された文書を処理するために必要な知識情報を記憶する知識 情報記憶手段と、
前記入力された文書に記述されている事象の種類を、 前記知識情報記 憶手段に記憶されている知識情報を参照して特定する事象特定手段と、 前記事象特定手段によって特定された事象に係わる属性の属性値を、 前記知識情報記憶手段に記憶されている知識情報を参照して前記文書か ら抽出する属性値抽出手段と、
前記知識情報記憶手段に記憶された知識情報を参照して、 前記属性値 抽出手段によって抽出された属性値と、 実世界の実体との対応付けを行 う対応付け手段と、
前記対応付け手段によって対応付けがなされた属性値と、 前記文書ま たは前記文書の格納場所を特定するための情報とを関連付けて記憶する 文書記憶手段と、
前記属性値と前記クエリとを参照して、 対象となる文書に対して検索 処理またはクリッビング処理を行う文書抽出手段と、
を有することを特徴とする文書処理装置。
2 . 前記対応付け手段は、 前記属性値の中で固有名であるものに対して は、 他の属性値を参照してその固有名が示す実世界の実体を特定すると ともに、 特定された実体を一意に示す所定の情報を付与し、
前記文書抽出手段は、 前記対応付け手段によって付与された前記所定 の情報を参照して、 検索処理またはクリッビング処理を行うことを特徴 とする請求項 1記載の文書処理装置。
3 . 前記対応付け手段は、 前記属性値が参照表現である 「同」 または 「両」 を含む場合に、 それらの参照表現が参照する属性値を特定するこ とを特徴とする請求項 1記載の文書処理装置。
4 . 前記文書に含まれているキーワードの出現頻度を参照して対象とす る文書の重要度を算出する重要度算出手段を更に有し、
前記重要度算出手段は、 前記対応付け手段によって参照先が特定され た参照表現もキーヮードと同等に処理することを特徴とする請求項 3記 載の文書処理装置。
5 . 前記属性値のうち、 数値化可能なものに関しては、 対応する数値に 変換して正規化する正規化手段を更に有し、
前記文書抽出手段は、 前記正規化手段によって正規化された情報を参 照して、 検索処理またはクリッビング処理を行うことを特徴とする請求 項 1記載の文書処理装置。
6 . 前記正規化手段によって得られた数値が有する単位を、 他の所定の 単位に変換する単位変換手段を更に有することを特徴とする請求項 5記 載の文書処理装置。
7 . 前記文書を構成する所定の文章の時制を取得する時制取得手段と、 前記文書が作成された日時を取得する作成日時取得手段とを更に有し、 前記正規化手段は、 前記時制取得手段によって取得された文書の時制と、 前記作成日時取得手段によつて取得された作成日時とを参照して、 日時 または期間を示す属性値の具体的な値を推定することを特徴とする請求 項 5記載の文書処理装置。
8 . 前記文書に含まれているキーヮードの出現頻度を参照して対象とす る文書の重要度を算出する重要度算出手段を更に有し、
前記重要度算出手段は、 前記正規化手段によって推定された日時また は期間を加味して重要度を算出することを特徴とする請求項 7記載の文 書処理装置。
9 . 前記事象特定手段、 前記属性抽出手段、 および、 対応付け手段は、 前記クエリに対しても文書の場合と同様の処理を行い、
前記文書抽出手段は、 前記対応付け手段によって対応付けがなされた 文書の属性値とクエリの属性値とを参照して、 検索またはクリッビング 処理を行うことを特徴とする請求項 1記載の文書処理装置。
1 0 . 入力された文書に対して所定の処理を施して記憶するとともに、 与えられたクエリに対応する文書を、 記憶されている文書の中から検索 またはクリッビングする処理をコンピュータに実行させるプログラムを 記録したコンピュータ読み取り可能な記録媒体において、
コンピュータを、
前記入力された文書を処理するために必要な知識情報を記憶する知識 情報記憶手段、
前記入力された文書に記述されている事象の種類を、 前記知識情報記 憶手段に記憶されている知識情報を参照して特定する事象特定手段、 前記事象特定手段によって特定された事象に係わる属性の属性値を、 前記知識情報記憶手段に記憶されている知識情報を参照して前記文書か ら抽出する属性値抽出手段、
前記知識情報記憶手段に記憶されている知識情報を参照して、 前記属 性値抽出手段によって抽出された属性値と、 実世界の実体との対応付け を行う対応付け手段、
前記対応付け手段によって対応付けがなされた属性値と、 前記文書ま たは前記文書の格納場所を特定するための情報とを関連付けて記憶する 文書記憶手段、
前記属性値と前記クエリとを参照して、 対象となる文書に対して検索 処理またはクリッビング処理を行う文書抽出手段、
として機能させるプログラムを記録したコンビュ一夕読み取り可能な 記録媒体。
PCT/JP1998/005926 1998-03-10 1998-12-24 Processeur de documents et support d'enregistrement WO1999046698A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
GB0022066A GB2350712B (en) 1998-03-10 1998-12-24 Document processing system and recording medium
US09/630,553 US6523025B1 (en) 1998-03-10 2000-08-01 Document processing system and recording medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP10/58384 1998-03-10
JP5838498A JP3597370B2 (ja) 1998-03-10 1998-03-10 文書処理装置および記録媒体

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US09/630,553 Continuation US6523025B1 (en) 1998-03-10 2000-08-01 Document processing system and recording medium

Publications (1)

Publication Number Publication Date
WO1999046698A1 true WO1999046698A1 (fr) 1999-09-16

Family

ID=13082851

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP1998/005926 WO1999046698A1 (fr) 1998-03-10 1998-12-24 Processeur de documents et support d'enregistrement

Country Status (5)

Country Link
US (1) US6523025B1 (ja)
JP (1) JP3597370B2 (ja)
CN (1) CN1109994C (ja)
GB (1) GB2350712B (ja)
WO (1) WO1999046698A1 (ja)

Families Citing this family (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6658624B1 (en) * 1996-09-24 2003-12-02 Ricoh Company, Ltd. Method and system for processing documents controlled by active documents with embedded instructions
US6772160B2 (en) 2000-06-08 2004-08-03 Ingenuity Systems, Inc. Techniques for facilitating information acquisition and storage
US7577683B2 (en) 2000-06-08 2009-08-18 Ingenuity Systems, Inc. Methods for the construction and maintenance of a knowledge representation system
US6741986B2 (en) * 2000-12-08 2004-05-25 Ingenuity Systems, Inc. Method and system for performing information extraction and quality control for a knowledgebase
US8230323B2 (en) * 2000-12-06 2012-07-24 Sra International, Inc. Content distribution system and method
US7184611B2 (en) * 2000-12-26 2007-02-27 Sony Corporation Data recording apparatus and method, data reproducing apparatus and method, data recording and reproducing apparatus and method, and map image data format
JP2002278988A (ja) * 2001-03-15 2002-09-27 Just Syst Corp 語句列変換装置、検索装置、語句列変換方法、検索方法、ならびに、記録媒体
US7860706B2 (en) * 2001-03-16 2010-12-28 Eli Abir Knowledge system method and appparatus
JP4617015B2 (ja) * 2001-03-26 2011-01-19 株式会社MetaMoJi 文書表示装置、文書表示方法ならびに、プログラム
US7133862B2 (en) * 2001-08-13 2006-11-07 Xerox Corporation System with user directed enrichment and import/export control
US7284191B2 (en) 2001-08-13 2007-10-16 Xerox Corporation Meta-document management system with document identifiers
US6820075B2 (en) * 2001-08-13 2004-11-16 Xerox Corporation Document-centric system with auto-completion
AU2006201478B2 (en) * 2001-11-09 2009-11-26 QIAGEN Redwood City, Inc. Method and system for performing information extraction and quality control for a knowledge base
DE10157487C1 (de) * 2001-11-23 2003-06-18 Sgl Carbon Ag Faserverstärkter Verbundkörper für Schutzpanzerungen, seine Herstellung und Verwendungen
EP1490822A2 (en) 2002-02-04 2004-12-29 Ingenuity Systems Inc. Drug discovery methods
US8793073B2 (en) 2002-02-04 2014-07-29 Ingenuity Systems, Inc. Drug discovery methods
US7428517B2 (en) * 2002-02-27 2008-09-23 Brands Michael Rik Frans Data integration and knowledge management solution
JP2004178490A (ja) * 2002-11-29 2004-06-24 Oki Electric Ind Co Ltd 数値情報検索装置
CN1306430C (zh) * 2002-12-31 2007-03-21 上海科泰世纪科技有限公司 基于构件的用户自定义事件方法
JP2005250980A (ja) * 2004-03-05 2005-09-15 Oki Electric Ind Co Ltd 文書検索システム、検索条件入力装置、検索実行装置、文書検索方法、および文書検索プログラム
US20070255553A1 (en) * 2004-03-31 2007-11-01 Matsushita Electric Industrial Co., Ltd. Information Extraction System
JP2006031108A (ja) * 2004-07-12 2006-02-02 Shinichiro Fujitani ウエブ上の商品・サービスの検索システム
JP2006040058A (ja) * 2004-07-28 2006-02-09 Mitsubishi Electric Corp 文書分類装置
US20060117252A1 (en) * 2004-11-29 2006-06-01 Joseph Du Systems and methods for document analysis
US20060149767A1 (en) * 2004-12-30 2006-07-06 Uwe Kindsvogel Searching for data objects
EP1677208A1 (en) * 2004-12-30 2006-07-05 Sap Ag Method and system for searching for data objects
JP2006209257A (ja) * 2005-01-25 2006-08-10 Ns Solutions Corp 情報処理装置、情報処理方法及びプログラム
JP4618045B2 (ja) * 2005-05-18 2011-01-26 沖電気工業株式会社 範囲情報抽出装置、範囲情報抽出方法及び範囲情報抽出プログラム
JP4940596B2 (ja) * 2005-08-24 2012-05-30 株式会社日立製作所 省略日付表現からの年月日推定プログラムおよび装置
JP4321549B2 (ja) * 2005-09-28 2009-08-26 セイコーエプソン株式会社 文書作成システム、文書作成方法、プログラムおよび記憶媒体
US10026112B2 (en) * 2005-10-18 2018-07-17 Robert D. Fish Systems and methods for storing and retrieving goods and services information using parameter/value databases
JP2007287134A (ja) * 2006-03-20 2007-11-01 Ricoh Co Ltd 情報抽出装置、及び情報抽出方法
JP5437557B2 (ja) * 2006-10-19 2014-03-12 富士通株式会社 検索処理方法及び検索システム
US10621203B2 (en) * 2007-01-26 2020-04-14 Information Resources, Inc. Cross-category view of a dataset using an analytic platform
US8504598B2 (en) 2007-01-26 2013-08-06 Information Resources, Inc. Data perturbation of non-unique values
US20080288522A1 (en) * 2007-01-26 2008-11-20 Herbert Dennis Hunt Creating and storing a data field alteration datum using an analytic platform
US20090006309A1 (en) * 2007-01-26 2009-01-01 Herbert Dennis Hunt Cluster processing of an aggregated dataset
US20080294372A1 (en) * 2007-01-26 2008-11-27 Herbert Dennis Hunt Projection facility within an analytic platform
US9390158B2 (en) * 2007-01-26 2016-07-12 Information Resources, Inc. Dimensional compression using an analytic platform
US9262503B2 (en) * 2007-01-26 2016-02-16 Information Resources, Inc. Similarity matching of products based on multiple classification schemes
US8160984B2 (en) 2007-01-26 2012-04-17 Symphonyiri Group, Inc. Similarity matching of a competitor's products
US20080294996A1 (en) * 2007-01-31 2008-11-27 Herbert Dennis Hunt Customized retailer portal within an analytic platform
US20090063470A1 (en) * 2007-08-28 2009-03-05 Nogacom Ltd. Document management using business objects
US20090187467A1 (en) * 2008-01-23 2009-07-23 Palo Alto Research Center Incorporated Linguistic extraction of temporal and location information for a recommender system
JP5156456B2 (ja) * 2008-03-31 2013-03-06 株式会社日立製作所 文書評価支援方法及びシステム
US20090319505A1 (en) * 2008-06-19 2009-12-24 Microsoft Corporation Techniques for extracting authorship dates of documents
US8788977B2 (en) 2008-11-20 2014-07-22 Amazon Technologies, Inc. Movement recognition as input mechanism
JP5434146B2 (ja) * 2009-03-04 2014-03-05 日本電気株式会社 未来表現収集システム、未来表現収集方法および未来表現収集用プログラム
US8321398B2 (en) * 2009-07-01 2012-11-27 Thomson Reuters (Markets) Llc Method and system for determining relevance of terms in text documents
US8878773B1 (en) 2010-05-24 2014-11-04 Amazon Technologies, Inc. Determining relative motion as input
CN102262630A (zh) * 2010-05-31 2011-11-30 国际商业机器公司 进行扩展化搜索的方法和装置
US9285895B1 (en) 2012-03-28 2016-03-15 Amazon Technologies, Inc. Integrated near field sensor for display devices
US11199906B1 (en) 2013-09-04 2021-12-14 Amazon Technologies, Inc. Global user input management
JP6507682B2 (ja) * 2015-01-30 2019-05-08 富士通株式会社 符号化プログラム、符号化方法および符号化装置
JP6684233B2 (ja) * 2017-01-12 2020-04-22 株式会社日立製作所 テスト入力情報検索装置及び方法
CN111859876A (zh) * 2019-04-21 2020-10-30 桂林电子科技大学 一种表格自动录入方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6373423A (ja) * 1986-09-17 1988-04-04 Matsushita Electric Ind Co Ltd 情報の登録、検索装置
JPH0546670A (ja) * 1991-08-20 1993-02-26 Fuji Xerox Co Ltd 情報検索装置
JPH06266765A (ja) * 1993-03-16 1994-09-22 Toshiba Corp 文章検索装置
JPH08115327A (ja) * 1994-10-19 1996-05-07 Fuji Xerox Co Ltd 情報検索装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5046670A (ja) * 1973-08-20 1975-04-25
EP0720090A2 (en) * 1994-12-28 1996-07-03 Canon Kabushiki Kaisha Information processing system for completing or resolving ambiguity of input information and method therefor
US5963940A (en) * 1995-08-16 1999-10-05 Syracuse University Natural language information retrieval system and method
US6026388A (en) * 1995-08-16 2000-02-15 Textwise, Llc User interface and other enhancements for natural language information retrieval system and method
US6076088A (en) * 1996-02-09 2000-06-13 Paik; Woojin Information extraction system and method using concept relation concept (CRC) triples
JP3001460B2 (ja) * 1997-05-21 2000-01-24 株式会社エヌイーシー情報システムズ 文書分類装置
US5999925A (en) * 1997-07-25 1999-12-07 Claritech Corporation Information retrieval based on use of sub-documents
US5953718A (en) * 1997-11-12 1999-09-14 Oracle Corporation Research mode for a knowledge base search and retrieval system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6373423A (ja) * 1986-09-17 1988-04-04 Matsushita Electric Ind Co Ltd 情報の登録、検索装置
JPH0546670A (ja) * 1991-08-20 1993-02-26 Fuji Xerox Co Ltd 情報検索装置
JPH06266765A (ja) * 1993-03-16 1994-09-22 Toshiba Corp 文章検索装置
JPH08115327A (ja) * 1994-10-19 1996-05-07 Fuji Xerox Co Ltd 情報検索装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
FUJISAWA, HATAKEYAMA, FUJINAWA, "Gainen Network o Mochiita Chiteki Filing System", THE HITACHI HYORON, A MAGAZINE FOR ELECTRIC & MECHANICAL ENGINEERS, Vol. 69, No. 3, 25 March 1987, p. 29-36. *
KAMIO, "Shimbun Kiji Data Base ni Okeru Key Word Jidou Tekishutsu", INFORMATION & DOCUMENTATION, Vol. 32, No. 4, 1 July 1989, p. 283-293. *
TANAKA, "Tokushuu Multimedia Directry o Sasaeru System Kouchiku Gijutsu InfoBee Kensaku Engine o Mochiita Directry Kensaku Servise", NTT GIJUTSU JOURNAL, Vol. 8, No. 8, 1 August 1996, p. 24-27. *
WAKAO, "Eigo Shimbun Kiji Karano Koyuu Meishi Jidou Tekishutsu Gijutsu", JOHO SHORI GAKKAI KENKYU HOUKOKU (96-FI-43-1), Vol. 96, No. 88, 12 September 1996, p. 1-8. *

Also Published As

Publication number Publication date
GB0022066D0 (en) 2000-10-25
CN1286776A (zh) 2001-03-07
US6523025B1 (en) 2003-02-18
JP3597370B2 (ja) 2004-12-08
GB2350712B (en) 2003-09-03
GB2350712A (en) 2000-12-06
JPH11259498A (ja) 1999-09-24
CN1109994C (zh) 2003-05-28

Similar Documents

Publication Publication Date Title
WO1999046698A1 (fr) Processeur de documents et support d&#39;enregistrement
US10204121B1 (en) System and method for providing query recommendations based on search activity of a user base
DK177142B1 (da) Fremgangsmåde til præsentation af et datasæt ved brug af søgning, computerlæsbart medium og computer
JP2000348041A (ja) 文書検索方法及びその装置並びにプログラムを記録した機械読み取り可能な記録媒体
WO2008106667A1 (en) Searching heterogeneous interrelated entities
JP6390139B2 (ja) 文書検索装置、文書検索方法、プログラム、及び、文書検索システム
JP2002099561A (ja) データ変換方法およびデータ変換システム並びに記憶媒体
CN112989010A (zh) 数据查询方法、数据查询装置和电子设备
CN112927057A (zh) 对象信息展示方法、装置、计算机设备及可读存储介质
CN110674087A (zh) 文件查询方法、装置及计算机可读存储介质
JP2004029906A (ja) 文書検索装置および方法
JP3786233B2 (ja) 情報検索方法および情報検索システム
TWI547888B (zh) A method of recording user information and a search method and a server
US20090187585A1 (en) Comparing very large xml data
JP5281354B2 (ja) 検索システム
JP2018088182A (ja) モデル生成装置、クリックログ正解尤度算出装置、文書検索装置、方法、及びプログラム
JP5954742B2 (ja) 文書を検索する装置及び方法
JP2018005633A (ja) 関連コンテンツ抽出装置、関連コンテンツ抽出方法及び関連コンテンツ抽出プログラム
KR101137056B1 (ko) 자동 상품모델 추천 로직을 이용한 상품 정보 등록 방법 및시스템
CN111930967B (zh) 一种基于知识图谱的数据查询方法、装置及存储介质
JP2019164557A (ja) 検索システム
CN113177116B (zh) 信息展示方法及装置、电子设备、存储介质及程序产品
TWM529875U (zh) 拆解資料欄位以分類專利之檢索系統
JP3998201B2 (ja) 文書検索方法
Nurkholis et al. Web Scraping for Summarization of Freelance Job Website Using Vector Space Model

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 98813873.5

Country of ref document: CN

AK Designated states

Kind code of ref document: A1

Designated state(s): CN GB US

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
WWE Wipo information: entry into national phase

Ref document number: 09630553

Country of ref document: US

ENP Entry into the national phase

Ref document number: 200022066

Country of ref document: GB

Kind code of ref document: A