CN100367299C - 图像处理装置和图像处理方法 - Google Patents
图像处理装置和图像处理方法 Download PDFInfo
- Publication number
- CN100367299C CN100367299C CNB2005100563197A CN200510056319A CN100367299C CN 100367299 C CN100367299 C CN 100367299C CN B2005100563197 A CNB2005100563197 A CN B2005100563197A CN 200510056319 A CN200510056319 A CN 200510056319A CN 100367299 C CN100367299 C CN 100367299C
- Authority
- CN
- China
- Prior art keywords
- graph area
- character string
- document
- extraction unit
- image processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
Abstract
一种图像处理装置具有:读取单元;图形区提取单元;文字区提取单元;字符串提取单元;和关联单元。所述读取单元读取文档。所述图形区提取单元从所述读取单元所读取的文档中提取图形区。所述文字区提取单元从所述读取单元所读取的文档中提取文字区。所述字符串提取单元提取所述图形区中存在的字符串。所述关联单元基于所述字符串提取单元所提取的字符串将文字区的信息与图形区关联起来。
Description
技术领域
本发明涉及从图像提取字符信息和图形信息并对所提取的信息进行组织的技术。
背景技术
由于存储纸质文档需要大量的空间,因此近年来使用扫描仪或其它读取装置读取文档、将所读取的文档数字化并且在计算机中将其归档的技术得到越来越多的重视。
当使用这些技术将文档数字化和归档时,把所读取的文档存储为图像会使文档中的字符串也被存储为图像,这防碍了关键字检索,并且当检索所需文档时,必须执行逐个检查表示这些文档的各幅图像的复杂过程。
鉴于这个原因,当将文档数字化和归档时,希望准确地识别出显示图形的区域和显示字符串的区域,并且希望将表示字符串的图像内的字符串转换成文本以便于文档检索。
在日本特开平1-266689A中公开了能够准确识别文档中的字符串区和图形区的技术的例子,而且采用这种技术能够准确识别文档中的字符串从而将其转换成文本。
转换成文本并将文档内字符串区域中的字符串归档使得可以进行关键字检索并有利于数字化文档的再使用。然而,有时不仅希望再使用数字化文档来检索书写内容,还希望用于检索文档中包含的图形和照片等。由于通过与字符串相匹配来检索所需信息,所以使用上述的将书写内容转换成文本并将其归档的方法不可能检索文档内的图形和照片等,并且因此不可能检索所需信息。
考虑到上述情况而制造出本发明,并且本发明提供了一种有利于检索数字化文档的图形区的技术。
发明内容
为了解决上文所讨论的问题,本发明提供了一种图像处理装置,其包括:读取单元,其读取文档并生成表示所读取文档的图像的图像文件;图形区提取单元,其在所述图像文件所表示的图像中提取图形区;文字区提取单元,其在所述图像文件所表示的图像中提取文字区;字符串提取单元,其提取该图形区提取单元所提取的图形区中的字符串;文本提取单元,其从所述文字区提取单元所提取的文字区中提取包括与该字符串提取单元所提取的字符串相同的字符串的文本;和文档数据生成单元,其生成表示文档的文档数据,该文档包含所述图形区提取单元所提取的图形区和所述文本提取单元所提取的文本。
根据这种图像处理装置,生成表示所读取文档的图像文件,并提取所述图像文件所表示的图像中的图形区和所述图像文件所表示的所述图像中的文字区。从文字区提取包括与所提取的图形区中的字符串相同的字符串的文本;并且生成表示包括所提取的图形区和所提取的文本的文档的文档数据。
由于生成了表示包括图形区和该图形区中的文本的文档的文档数据,所以在检索文档数据以获得与图形区相关的字符串时,会返回包括图形区的文档数据作为检索结果。
根据本发明的一个实施例,有利于检索数字化文档中的图形区。
附图说明
基于下图详细描述本发明的实施例,其中:
图1表示根据本发明一个实施例的通信系统的结构;
图2是表示根据本发明一个实施例的图像处理装置的主要部件的结构的方框图;
图3表示存储在根据该实施例的图像处理装置中的关联表的格式;
图4是表示在CPU 102生成结构化文档时执行的处理的流程图;
图5是表示在CPU 102生成结构化文档时执行的处理的流程图;
图6表示图像输入单元所读取的文档;
图7表示从图像文件提取的区域;
图8表示图像处理装置所生成的结构化文档;
图9表示图像处理装置所提供的页面;
图10表示结构化文档所表示的页面;
图11表示图像输入单元所读取的文档;
图12表示图像处理装置所生成的结构化文档。
具体实施方式
<实施例结构>
图1表示包括根据本发明一个实施例的图像处理装置100的通信系统的示例。
PC(个人计算机)200是个人计算机装置,并且与LAN(局域网)300相连。PC 200存储有WWW(万维网)浏览器软件,当运行该软件时,从与LAN 300相连的图像处理装置100获取各种文件,所获取的文件中的内容可以被解译并显示页面。
图2是表示位于根据本发明一个实施例的图像处理装置100的硬件结构内的、根据本发明的主要组件的结构的方框图。如图2所示,图像处理装置100的组件与总线101相连,并通过该总线101在组件间进行数据传输。
通信单元107通过通信线路(未示出)与LAN 300相连,并用作与PC 200和连接到LAN 300上的其它外部装置之间进行通信的通信界面。通信单元107在CPU 102的控制下,将从LAN 300发送的数据提供给CPU 102,并通过总线101将CPU 102所提供的数据发送到LAN 300。
图像输入单元108具有将文档读取为图像的图像扫描仪,并在CPU102的控制下,读取放在图像扫描仪上的文档并将表示所读取文档的图像文件存储在存储单元105中。
U/I(用户界面)单元106具有多个用于操作图像处理装置100的键(未示出),并根据用户的按键向CPU 102提供指令。例如,U/I单元106可具有读取键,当按下该读取键时,向CPU 102提供读取指令,指示读取放在图像输入单元108上的文档。此外,U/I单元106具有液晶显示器(未示出),所述液晶显示器在CPU 102的控制下,在其自身上显示文本、图形画面、菜单画面等。
存储单元105具有能存储数据的装置(诸如硬盘装置),并存储以下这些程序:服务器程序,其使图像处理装置100用作WWW服务器装置;控制程序,其控制图像处理装置100的各个单元;和CGI(公共网关接口)程序,其根据来自外部装置的指令进行工作。
存储单元105还存储各种类型的文件,例如由图像输入单元108生成的图像文件和用HTML(超文本标记语言)写成的文件。
如图3所示,存储单元105还存储格式关联表TB1。所述关联表TB1是使表示所读取文档中的图形区的文件与和所述图形区相关的字符串关联起来的表,并且该表包括表示文档中的图形区的图像文件的文件名、表示所述图形区标题的字符串、描述所述图形区的字符串和表示所述图形特征的字符串。
ROM 103包含例如称为IPL(初始程序装入程序)的程序。一旦由电源(图中未示出)进行供电,CPU 102就从ROM 103读取IPL并执行它。当执行IPL时,CPU 102通过把RAM 104用作工作区来读取存储在存储单元105中的服务器程序和控制程序、运行这些程序、并控制图像处理装置100的各个单元。
当CPU 102运行服务器程序时,图像处理装置100用作WWW服务器,并执行按照HTTP协议的通信。此外,CPU 102运行控制程序来执行图4和图5所示的流程图中所示的处理、从图像输入单元108读取文档并生成显示所读取文档概要的结构化文档。该结构化文档是文本数据并且用例如XHTML(扩展超文本标记语言)写成。此外,结构化文档语言不限于XHTML,而可以是XML(扩展标记语言)、HTML、SGML(标准通用标记语言)或可表示结构化文档的任何其它语言。
如上所述,从CPU执行程序来实现各种功能的意义上来说,图像处理装置100的结构和普通计算机的硬件结构相同。
<实施例的操作>
下面描述本实施例的操作。首先,参考图4中的流程图描述图像处理装置100生成结构化文档的操作,随后描述图像处理装置100使用所生成的结构化文档为PC 200提供检索服务的另一操作。应注意在以下的操作描述中,假设向图像处理装置100提供了电力并且CPU 102已正在执行控制程序。并且,在这些操作描述中,假设图像处理装置100读取如图6所示的文档。
<生成结构化文档时的操作>
当图像处理装置100的用户按下U/I单元106所提供的读取键时,将用于读取放在图像输入单元108上的文档的读取指令从U/I单元106输出到CPU 102。当提供了上述读取指令时,CPU 102使图像输入单元108读取放在该图像输入单元上的文档(图4,步骤SA1)。当图像输入单元108完成文档的读取时,其在存储单元105中生成表示所读取文档的图像文件;对于所述图像文件提供文件名,该文件名唯一识别所生成的文件(例如“image001.jpg”);并发送终止消息,该消息向CPU 102报告完成了文档读取。
当CPU 102接收到上述终止消息时,其分析存储单元105中所生成的图像文件、提取显示文本的区域和显示图形的区域、并为各个提取区域生成表示所提取区域的图像的数据(步骤SA2)。
例如,当图像输入单元108读取了图6所示的文档时,如图7所示,提取文字区EA1到EA3作为显示文本的区域,提取图形区EB1到EB3作为显示图形的区域。然后,生成以下文件:表示文本区EA1的文本区图像数据DA1(文件名:da1.jpg);表示文本区EA2的文本区图像数据DA2(文件名:da2.jpg);表示文本区EA3的文本区图像数据DA3(文件名:da3.jpg);表示图形区EB1的图形区图像数据DB1(文件名:db1.jpg);表示图形区EB2的图形区图像数据DB2(文件名:db2.jpg);和表示图形区EB3的图形区图像数据DB3(文件名:db3.jpg)。在这些生成文件中,表示图形区的图像数据的文件名存储在关联表TB1的图形区字段中。
此外,除了包括诸如曲线图和表的图表的区域外,还提取了包括照片、图片等的区域作为显示图形的区域。换句话说,在本描述中,图形不仅包括曲线图和表,还包括了广泛的概念,包括照片、图片等。
接着,CPU 102分析表示文本区的文本区图像数据DA1到DA3;提取文本区中的字符串;并生成表示所提取的字符串的文本数据DT1(文件名:dt1.txt)到DT3(文件名:dt3.txt)(步骤SA3)。
当CPU 102完成文本数据的生成时,其分析表示图形区的图形区图像数据DB1到DB3并识别由图形区图像数据所表示的图像(步骤SA4)。例如,对于图6所示的文档来说,图形区图像数据DB1和图形区图像数据DB2所表示的图像被识别为条线图,而图形区图像数据DB3所表示的图像被识别为照片。
接着,CPU 102按顺序从存储单元105读取所生成的图形区图像数据(步骤SA5),并且基于步骤SA4中的识别结果判定所读取的图形区图像数据所表示的图像是否是显示曲线图的图像(步骤SA6)。
例如,当CPU 102读取图形区图像数据DB1时,由于该数据在步骤SA4中被识别为条线图,所以在步骤SA6中将图形区图像数据DB1所表示的图像判定为曲线图(步骤SA6:是)。
当在步骤SA6中判定为“是”时,CPU 102分析图形区图像数据,并且判定在该图形区图像数据所表示的图像内是否存在表示曲线图标题的字符串(步骤SA7)。具体而言,CPU 102在图形区图像数据所表示的图像中提取字符串,如果在所提取的字符串中存在包含字符串“图”或“表”的文本,则判定该字符串是图形区所表示的图像的标题。
例如,如图7所示,在图形区图像数据DB1的情况下,该数据所表示的图形区EB1包含字符串“图1:1996-2000移动产品的趋势”,所以CPU 102判定该字符串是图形区图像数据EB1所表示的图像的标题(步骤SA7:是)。
当在步骤SA7中判断为“是”时,CPU 102将表示标题的字符串关联为图形区图像数据DB1中的表示标题的字符串。具体而言,如图3所示,CPU 102将字符串“图1:1996-2000移动产品的趋势”存储在关联表TB1中的存储有图形区图像数据DB1的文件名为“db1.jpg”的一行中的标题字段中(步骤SA8),。
接着,CPU 102检索如下文本数据,该文本数据包括与标题中所含的字符串相同的字符串(步骤SA9)。例如,文本数据DT1包括与标题中所含的“图1”相同的字符串,从而提取文本数据DT1,作为包括与所述标题相同的字符串的文本数据。
当CPU 102提取包含与标题相同的字符串(步骤SA10:是)的文本数据DT1时,其判断所提取的文本数据是否是与图形区图像数据DB1关联的段落,并使图形区图像数据DB1与文本数据DT1关联起来。具体而言,如图3所示,CPU 102将所提取的文本数据DT1的文件名存储在存储有图形区图像数据DB1的文件名为“db1.jpg”的一行中的段落字段中(步骤SA11)。
接着,CPU 102提取图形区图像数据所表示的曲线图的特征并生成表示所提取特征的字符串。例如,在图形区图像数据DB1所表示的曲线图的情况下,该曲线图表示上升趋势,所以生成了字符串“上升趋势”。基于诸如曲线图标题、轴向、轴单位等的因素生成表示曲线图特征的字符串。接着,CPU 102使所生成的字符串与图形区图像数据产生关联。具体而言,如图3所示,CPU 102将所生成的字符串“上升趋势”存储在关联表TB1中的存储有图形区图像数据DB1的文件名为“db1.jpg”的一行中的特征字段中(步骤SA12)。
当CPU 102完成步骤SA12中的处理时,其判断是否所有图形区图像数据的标题、段落和特征均关联(步骤SA13)。由于CPU 102此时尚未完成图形区图像数据DB2与图形区图像数据DB3的关联,所以返回到步骤SA5并继续上述处理(步骤SA13:否)。
接着,CPU 102读取图形区图像数据DB2(步骤SA5),并基于步骤SA4的识别结果判断所读取的图形区图像数据DB2所表示的图像是否为表示曲线图的图像(步骤SA6)。由于在步骤SA4中图形区图像数据DB2被识别为曲线图,所以在步骤SA6中,图形区图像数据DB2所表示的图像被判定为曲线图(步骤SA6:是)。
当在步骤SA6中判定为“是”时,CPU 102分析图形区图像数据,并且判断在图形区图像数据所表示的图像内是否存在表示曲线图标题的字符串(步骤SA7)。在图形区图像数据DB2的情况下,该数据所表示的图形区EB2不包含字符串“图”或“表”,所以CPU 102判定在图形区图像数据DB2所表示的图像中不存在表示曲线图标题的字符串(步骤SA7:否)。
当在步骤SA7中判定为“否”时,CPU 102接着提取在图形区图像数据DB2所表示的图像区域中所包含的字符串(步骤SA14),并检索包括与所提取的字符串相同的字符串的文本数据(步骤SA15)。在图形区图像数据DB2的情况下,从该数据所表示的图形区EB2提取字符串“公司A”、“公司B”、“公司C”、“台数”和“年(每半年)”。由于文本数据DT2包括与所提取的字符串“公司A”相同的字符串,所以发现文本数据DT2是与图形区图像数据DB2关联的段落。
当CPU 102判定文本数据DT2是与图形区图像数据DB2关联的段落时,CPU 102将对应的文本数据DT2的文件名“dt2.txt”存储在关联表TB1中的存储有图形区图像数据DB2的文件名为“db2.jpg”的一行中的段落字段中,如图3所示。
接着,CPU 102提取图形区图像数据DB2所表示的曲线图的特征,并且生成表示所提取的特征的字符串。在图形区图像数据DB2所表示的曲线图的情况下,该曲线图表示上升趋势,所以CPU 102生成字符串“上升趋势”并将生成的字符串“上升趋势”存储在关联表TB1中的存储有图形区图像数据DB2的文件名为“db2.jpg”的一行中的特征字段中(步骤SA12),如图3所示。
当CPU 102完成了步骤SA12中的处理时,其判断是否所有图形区图像数据的标题、段落和特征均关联(步骤SA13)。由于CPU 102在此时尚未完成对于图形区图像数据DB3的关联,所以其返回到步骤SA5并继续处理(步骤SA13:否)
接着,CPU 102读取图形区图像数据DB3(步骤SA5),并且基于步骤SA4的识别结果判定所读取的图形区图像数据DB3所表示的图像是否为显示曲线图的图像(步骤SA6)。由于在步骤SA4中图形区图像数据DB3被识别为照片,所以在步骤SA6中,图形区图像数据DB3所表示的图像被判定为照片(步骤SA6:否)。
当在步骤SA6中判定为“否”时,CPU 102分析图形区图像数据,并判定在图形区图像数据所表示的图像内是否存在表示图像标题的字符串(步骤SA17)。在图形区图像数据DB3的情况下,该数据所表示的图形区EB3包含字符串“图3”,所以CPU 102判定该字符串是图形区图像数据EB3所表示的图像的标题(步骤SA17:是)。
当在步骤SA17中判定为“是”时,CPU 102使表示标题的字符串关联为表示图形区图像数据DB3的标题的字符串。CPU 102将字符串“图3”存储在关联表TB1中的存储有图形区图像数据DB3的文件名为“db3.jpg”的一行中的标题字段中,如图3所示(步骤SA18)。
接着,CPU 102检索文本数据,该文本数据包括与标题中包含的字符串相同的字符串(步骤SA19)。文本数据DT3包括与标题中包含的“图3”相同的字符串,所以文本数据DT3被提取为包括与标题相同的字符串的文本数据。当CPU 102提取包含与标题相同的字符串的文本数据DT3时(步骤SA20:是),其判定所提取的文本数据是否为与图形区图像数据DB3关联的段落,并且如图3所示,将所提取的文本数据DT3的文件名存储在关联表TB1中的存储有图形区图像数据DB3的文件名为“db3.jpg”的一行中的段落字段中(步骤SA21)。
当CPU 102在步骤SA21中完成处理时,其判定是否所有图形区图像数据的标题、段落和特征均关联(步骤SA13)。由于CPU 102此时完成了所有图形区图像数据DB1到DB3的标题、段落和特征的关联,所以在步骤SA13判定为“是”。
当在步骤SA13中判定为“是”时,CPU 102开始生成结构化文档,该文档显示了图像输入单元108所读取的文档的概要。
首先,CPU 102将表示了对所读取文档进行表示的图像文件的存储位置的URL(统一资源定位符)写入该结构化文档中(图5:步骤SA22)。
接着,CPU 102读取存储在关联表TB1中的图形区图像数据的文件名“db1.jpg”(图5:步骤SA23),并将作为属性值的文件名“db1.jpg”与标记符“img”一起写入,所述标记符使图像得以显示(步骤SA24),如图8所示。
接着,CPU 102读取图形区图像数据DB1的标题“图1:1996-2000移动产品的趋势”,该标题与图形区图像数据DB1的文件名关联并存储在关联表TB1中(步骤SA25),并且将所提取的标题与标记符“tabletitle”一起写入,如图8所示(步骤SA26)。
接着,CPU 102读取文本数据的文件名“dt1.txt”,该文件名与图形区图像数据DB1的文件名关联并存储在关联表TB1的段落字段中(步骤SA27),并将所读取文件名的文件中所写的字符串与标记符“pre”一起写入,这使字符串得以显示,如图8所示(步骤SA28)。
接着,CPU 102读取字符串“上升趋势”,其与图形区图像数据DB1的文件名关联并存储在关联表TB1的特征字段中(步骤SA29),并将所读取的字符串与标记符“tableComment”一起写入,如图8所示(步骤SA30)。
当CPU 102完成步骤SA29中的处理时,CPU 102判定其是否已读取了存储在关联表TB1中的所有图形区图像数据的文件名(步骤SA31)。由于CPU 102尚未读取完图形区图像数据DB2和图形区图像数据DB3,所以其返回到步骤SA23并继续该处理。
然后,CPU 102按照与图形区图像数据DB1相同的方式,通过步骤SA23到步骤SA31中的处理生成如图8所示的结构化文档。
当CPU 102在步骤SA31中判定其已读取了关联表TB1中所存储的所有图形区图像数据的文件名时(步骤SA31:是),完成结构化文档的生成,将唯一识别所生成的结构化文档的文件名“bunnsyo001”附在结构化文档上,并且将所生成的结构化文档存储在存储单元105中。
<向PC 200提供结构化文档时的操作>
下文描述当图像处理装置100向PC 200提供所生成的结构化文档时的操作。应注意在以下描述中,假设在PC 200中已经运行着WWW浏览器。
当PC 200的用户操作PC 200,从存储在图像处理装置100中的多个HTML文件中输入表示页面的一HTML文件的URL(如图9中所示),并执行操作来显示此页面时,PC 200向图像处理装置100发送包括输入URL的HTTP请求消息。
当图像处理装置100的通信单元107接收到所述HTTP请求消息时,CPU 102从存储单元105中读取由该消息中包含的URL所指定的HTML文件。然后,CPU 102生成包含所读取的HTML文件的HTTP响应消息并将该消息发送到PC 200。
当PC 200接收到该消息时,由PC 200上运行的WWW浏览器解译该消息中包含的HTML文件,并可以在PC 200的显示屏上显示如图9所示的页面P01,在该页面上可输入用于检索的检索关键字。然后,当PC 200的用户在页面P01的文本框中输入例如字符串“mobile”,并随后点击页面P01上的“检索”按钮时,PC 200从接收到的HTML文件中提取存储在图像处理装置100中的CGI程序的URL,并将包含所提取的URL和文本框中输入的字符串的HTTP请求消息发送到图像处理装置100。
当CPU 102接收到该消息时,其提取所接收的消息中的字符串“mobile”和CGI程序的URL。然后,CPU 102从存储单元105中读取由所提取的URL指定的CGI程序,并通过将所提取的字符串用作CGI程序的参数来运行该CGI程序。
当CPU 102运行该CGI程序时,其使用作为参数的数据(即键入页面P01中的字符串)作为检索关键字,并且从存储在存储单元105中的结构化文档中检索包含与检索关键字相同的字符串的结构化文档。
当CPU 102找到例如由上述操作生成的文件名为“bunnsyo001”的结构化文档,以作为包含与用作检索关键字的字符串相同的字符串的结构化文档时,CPU 102生成HTML文件;写入表示结构化文档存储位置的URL作为超链接;生成包含该HTML文件的HTTP响应消息;并将生成的HTTP响应消息发送到PC 200。
当PC 200接收到该消息时,由WWW浏览器解译该消息中包含的HTML文件,并且在PC 200的显示屏上显示包含用作检索关键字的字符串的结构化文档的URL。
然后,当PC 200的用户点击该URL时,PC 200从HTML文件中提取作为超链接写入该HTML文件中的结构化文档的URL,并且将包括所提取的URL的HTTP请求消息发送到图像处理装置100。
当图像处理装置100的通信单元107接收到HTTP请求消息时,CPU
102从存储单元105中读取由该消息中包含的URL所指定的结构化文档。然后,CPU 102生成包含所读取结构化文档的HTTP响应消息,并将该消息发送到PC 200。当PC 200接收到该消息时,由PC 200上运行的WWW浏览器解译该消息中包含的结构化文档,并且例如在PC 200的显示屏上显示出显示所述结构化文档的页面P02,如图10所示。
随后,当PC 200的用户点击页面P02的上部所显示的图像文件的文件名时,将包括该图像文件的URL的HTTP请求消息从PC 200发送到图像处理装置100。
当图像处理装置100的通信单元107接收到所述HTTP请求消息时,CPU 102从存储单元105中读取由该消息中包含的URL所指定的图像文件。随后,CPU 102生成包括所读取图像文件的HTTP响应消息并将该消息发送到PC 200。
当PC 200接收到该消息时,由WWW浏览器解译该消息中包含的所述图像文件,并且在PC 200的显示屏上显示图6所示的文档的图像。
如上所述,根据本实施例,当读取文档时,生成表示所读取文档的图像文件,并且还生成结构化文档,该文档包含与所读取文档内的图形区相关的信息。由于仅将与图形区相关的字符串而不是所读取文档中的所有字符串写入结构化文档中,所以检索结构化文档中的字符串使得可以间接检索图形区中的图像。
<变型例>
尽管在上文中给出了本发明实施例的描述,但是本发明还可以通过许多其它方式来实施,且并不限于上文所述实施例。例如,可利用下文所描述的方式对上文的实施例作一些变化来实现本发明。
根据上文的实施例,在图形区表示照片或图片的情况下,也可以生成表示图形区特征的字符串,并且将其与曲线图一起写入结构化文档中。例如,如果图形区显示一张人的照片,则可以识别出人数并将其写入“tableComment”标记符中,或者,如果图形区显示风景图,则可识别出上述风景,并将表示风景特征的诸如“山”或“海”的字符串写入“tableComment”标记符中。
被识别为上文实施例中的曲线图的图形不限于条线图,而可以是其它类型的曲线图,诸如饼形图表或线状图。
根据上文实施例,生成所读取文档的结构化文档,但也可以对于各个图形区的图像数据生成结构化文档。
另外,如果生成各个图形区的图像数据的结构化文档,则可以将与图形区中的图像相关的其它图形区的标题和其它图形区的图像数据的URL写入结构化文档中。例如,如果图像处理装置100读取图11所示的文档,则提取字符串“图1:1996-2000移动产品的趋势”、字符串“图2”和字符串“图3:2001-2002移动产品的趋势”,作为标题。当生成各个图形区的图像数据的结构化文档时,CPU 102从关联表TB1读取与这些标题的字符串类似的标题,并且读取与所读取标题关联的图形区图像数据的文件名。在图11所示的文档的情况下,文档上部中的曲线图标题“图1:1996-2000移动产品的趋势”与文档下部中的曲线图标题“图3:2001-2002移动产品的趋势”的比较显示字符串“移动产品的趋势”相匹配,并存在相似性。当生成与文档上部中的曲线图相关的结构化文档时,CPU 102从关联表TB1中读取标题“图3:2001-2002移动产品的趋势”和与这个标题关联的图形区图像数据的文件名,并将其与例如标记符“related_figure”一起写入图12中所示的结构化文档中。根据该实施例,可容易检测到文档中的相关绘图。
如果图像处理装置100在图形区中没有发现任何字符串“图”或“表”,则其识别出图形区中的字符串,并且将所识别的字符串与包含相同字符串的文本数据产生关联,以使上述文本数据作为与图形区相关的段落,但是,如果包括多个与所识别的字符串相同的字符串的文本数据,则图像处理装置100可以将文档中接近图形区的段落关联起来,以作为与图形区相关的段落。还可以将包含与所识别的字符串相同的字符串最多的文本数据产生关联,以作为与图形区相关的段落。
另外,如果在图形区中没有发现诸如“图”或“表”的字符串,则可以识别出图形区中的图像,并且使包含表示图形区中的图像特征的文字的文本数据产生关联,以作为与图形区相关的段落。
图像处理装置100的用户可以通过操作U/I单元106把表示个人感兴趣的条目的关键字预先存储在存储单元105中,之后,图像处理装置100可生成用于与存储在存储单元105中的关键字相关的图形和书写的结构化文档。例如,如果图像处理装置100的用户对“公司A”感兴趣,并且在存储单元105中存储字符串“公司A”,则图像处理装置100读取图6所示的文档;识别图形区中的字符串;使图形区图像数据DB1和DB2的文件名(其包括字符串“公司A”)关联,并将它们存储在关联表TB1中。图像处理装置100提取与图形区图像数据DB1和DB2相关的标题、段落和特征,并生成结构化文档。
根据该实施例,仅仅从所读取文档提取与指定关键字相关的图形和书写内容,并生成结构化文档。因此,通过指定检索关键字就可能省去检索结构化文档的工作。
当根据上文实施例无法显示图形区的标题(标记符“tabletitle”之间的字符串)和图形特征(标记符“tableComment”检的字符串)时,可以生成结构化文档以显示这些内容。
图像处理装置100可具有诸如打印机的打印单元,并根据用户输入的指令打印结构化文档。图像处理装置100可以打印由文档检索所提取的结构化文档。
根据上文实施例的图像处理装置100可接收表示通过LAN 300发送的文档的图像文件,并对于所接收的图像文件,生成与这些图像文件相关的结构化文档。
如上所述,本发明提供了一种图像处理装置,其包括:读取单元,其读取文档并生成表示所读取文档的图像的图像文件;图形区提取单元,其在所述图像文件所表示的图像中提取图形区;文字区提取单元,其在所述图像文件所表示的图像中提取文字区;字符串提取单元,其提取所述图形区提取单元所提取的图形区中的字符串;文本提取单元,其从所述文字区提取单元所提取的所述文字区中提取包括与所述字符串提取单元所提取的字符串相同的字符串的文本;和文档数据生成单元,其生成表示文档的文档数据,该文档包含所述图形区提取单元所提取的图形区和所述文本提取单元所提取的文本。
根据该图像处理装置,生成表示所读取文档的图像文件,并提取所述图像文件所表示的图像中的图形区和所述图像文件所表示的图像中的文字区。从所述文字区中提取包含与所提取的图形区中的字符串相同的字符串的文本,并生成表示包括所提取的图形区和所提取的文本的文档的文档数据。
由于生成了表示包括图形区和图形区中的文本的文档的文档数据,所以检索文本数据,以寻找与图形区相关的字符串会返回包括所述图形区的文档数据以作为检索结果。
上文对本发明实施例的描述是出于说明和描述的目的。而并不旨在穷举或将本发明限于所公开的精确形式。显然,本领域的技术人员能够进行许多修改和变化。选择并描述这些实施例以最好地解释本发明的原理及其实际应用,因而使所属领域的其它技术人员能理解本发明的各种实施例及其各种修改,以适应特定的预期使用。本发明的范围由下文的权利要求及其等价物来限定。
Claims (19)
1.一种图像处理装置,其包括:
读取单元,其读取文档并生成表示所读取文档的图像的图像文件;
图形区提取单元,其在所述图像文件所表示的图像中提取图形区;
文字区提取单元,其在所述图像文件所表示的图像中提取文字区;
字符串提取单元,其提取所述图形区提取单元所提取的图形区中存在的字符串;
文本提取单元,其从所述文字区提取单元所提取的文字区中提取包含与所述字符串提取单元提取的字符串相同的字符串的文本;以及
文档数据生成单元,其生成表示包含所述图形区提取单元所提取的图形区和所述文本提取单元所提取的文本的文档的文档数据。
2.根据权利要求1所述的图像处理装置,其中:
所述文档数据生成单元生成表示包含所述图形区提取单元所提取的图形区、所述字符串提取单元所提取的字符串以及所述文本提取单元所提取的文本的文档的文档数据。
3.根据权利要求1所述的图像处理装置,其中:
所述文档数据生成单元生成包含表示所述图像文件的存储位置的信息的文档数据。
4.根据权利要求1所述的图像处理装置,其中:
所述文档数据生成单元从所述文本提取单元所提取的文本中提取与所指定的字符串相同的字符串,并生成表示包含所提取字符串的文档的文档数据。
5.根据权利要求1所述的图像处理装置,其中:
所述图形区提取单元提取多个图形区;
所述图像处理装置进一步包括相关信息提取单元,其对于所述图形区提取单元所提取的多个图形区中的每一个,提取与所述图形区相关的其它图形区的相关信息;并且
所述文档数据生成单元生成包含所述相关信息提取单元所提取的信息的文档数据。
6.根据权利要求1所述的图像处理装置,其进一步包括:
特征提取单元,其提取所述图形区提取单元所提取的图形区的特征,其中,
所述文档数据生成单元生成包含表示所述特征提取单元所提取的特征的字符串的文档数据。
7.根据权利要求1所述的图像处理装置,还包括:
格式关联表,其将表示所述图形区的文件和与所述图形区相关的字符串关联起来,
其中所述格式关联表包含表示所述图形区的文件的文件名,以及表示所述图形区的标题的字符串、描述所述图形区的字符串和表示所述图形区的特征的字符串中的至少一个。
8.一种图像处理方法,其包括:
读取文档并生成表示所读取文档的图像的图像文件;
在所述图像文件所表示的图像中提取图形区;
在所述图像文件所表示的图像中提取文字区;
提取所述图形区中存在的字符串;
从所述文字区提取包含与在提取所述字符串的处理中所提取的字符串相同的字符串的文本;并且
生成表示包含所述图形区和所述文本的文档的文档数据。
9.根据权利要求8所述的图像处理方法,其中,
在生成所述文档数据的处理中,生成表示包含所述图形区、所述字符串和所述文本的文档的文档数据。
10.根据权利要求8所述的图像处理方法,其中,
在生成所述文档数据的处理中,生成包含表示所述图像文件的存储位置的信息的文档数据。
11.根据权利要求8所述的图像处理方法,其中,
在生成所述文档数据的处理中,从所述文本中提取与所指定的字符串相同的字符串,并生成表示包含所提取字符串的文档的文档数据。
12.根据权利要求8所述的图像处理方法,其中,
在提取所述图形区的处理中,提取多个图形区;
所述图像处理方法进一步包括如下处理:
对于所述多个图形区中的每一个,提取与所述图形区相关的其它图形区的相关信息;并且
在生成所述文档数据的处理中,生成包含所述信息的文档数据。
13.根据权利要求8所述的图像处理方法,进一步包括:
提取所述图形区的特征,其中,
在生成所述文档数据的处理中,生成包含表示所述特征的字符串的文档数据。
14.一种图像处理装置,其包括:
读取单元,其读取文档;
图形区提取单元,其从所述读取单元所读取的文档中提取图形区;
文字区提取单元,其从所述读取单元所读取的文档中提取文字区;
字符串提取单元,其提取所述图形区中存在的字符串;
文本提取单元,其从所述文字区提取包含与所述字符串提取单元所提取的字符串相同的字符串的文本;和
格式关联单元,其将所述文本的信息与所述图形区关联起来。
15.根据权利要求14所述的图像处理装置,进一步包括:
文档数据生成单元,其生成表示包含所述图形区提取单元所提取的图形区和所述文本提取单元所提取的文本的文档的文档数据。
16.根据权利要求14所述的图像处理装置,其中
所述格式关联单元具有一个将表示所述图形区的文件和与所述图形区相关的字符串关联起来的表。
17.根据权利要求16所述的图像处理装置,其中所述表包含表示所述图形区的文件的文件名,以及表示所述图形区的标题的字符串、描述所述图形区的字符串和表示所述图形区的特征的字符串中的至少一个。
18.一种图像处理装置,其包括:
读取单元,其读取文档;
图形区提取单元,其从所述读取单元所读取的文档中提取图形区;
文字区提取单元,其从所述读取单元所读取的文档中提取文字区;
字符串提取单元,其提取所述图形区中存在的字符串;和
关联单元,其基于所述字符串提取单元所提取的字符串将所述文字区的信息与所述图形区关联起来。
19.一种图像处理方法,所述方法包括以下步骤:
读取文档;
从所读取出的文档中提取图形区;
从所读取出的文档中提取文字区;
提取所述图形区中存在的字符串;
基于所提取出的所述字符串将所述文字区的信息与所述图形区关联起来。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004109031 | 2004-04-01 | ||
JP2004109031A JP4349183B2 (ja) | 2004-04-01 | 2004-04-01 | 画像処理装置および画像処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1677435A CN1677435A (zh) | 2005-10-05 |
CN100367299C true CN100367299C (zh) | 2008-02-06 |
Family
ID=35049934
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2005100563197A Expired - Fee Related CN100367299C (zh) | 2004-04-01 | 2005-03-17 | 图像处理装置和图像处理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7715625B2 (zh) |
JP (1) | JP4349183B2 (zh) |
CN (1) | CN100367299C (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4977452B2 (ja) * | 2006-01-24 | 2012-07-18 | 株式会社リコー | 情報管理装置、情報管理方法、情報管理プログラム、記録媒体及び情報管理システム |
JP5223284B2 (ja) * | 2006-11-10 | 2013-06-26 | 株式会社リコー | 情報検索装置、方法およびプログラム |
JP4865526B2 (ja) * | 2006-12-18 | 2012-02-01 | 株式会社日立製作所 | データマイニングシステム、データマイニング方法及びデータ検索システム |
US8825670B2 (en) * | 2010-02-26 | 2014-09-02 | Rakuten, Inc. | Information processing device, information processing method, and recording medium that has recorded information processing program |
JP5733907B2 (ja) | 2010-04-07 | 2015-06-10 | キヤノン株式会社 | 画像処理装置、画像処理方法、コンピュータプログラム |
JP5676942B2 (ja) * | 2010-07-06 | 2015-02-25 | キヤノン株式会社 | 画像処理装置、画像処理方法、及びプログラム |
JP5743443B2 (ja) * | 2010-07-08 | 2015-07-01 | キヤノン株式会社 | 画像処理装置、画像処理方法、コンピュータプログラム |
JP5741792B2 (ja) * | 2010-09-22 | 2015-07-01 | 富士ゼロックス株式会社 | 画像処理装置、画像処理プログラム |
EP2442238A1 (en) | 2010-09-29 | 2012-04-18 | Accenture Global Services Limited | Processing a reusable graphic in a document |
CN103186540A (zh) * | 2011-12-27 | 2013-07-03 | 北大方正集团有限公司 | 一种电子文档的处理方法、服务器、阅读终端及系统 |
JP6003705B2 (ja) * | 2013-02-14 | 2016-10-05 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
JP6171807B2 (ja) * | 2013-10-02 | 2017-08-02 | 富士ゼロックス株式会社 | 文書データ処理システム、文書データ処理プログラム |
KR101988883B1 (ko) * | 2013-10-30 | 2019-06-13 | 에이치피프린팅코리아 유한회사 | 화상형성장치에서 웹 어플리케이션을 실행하는 방법 및 이를 수행하기 위한 화상형성장치 |
WO2017009910A1 (ja) | 2015-07-10 | 2017-01-19 | 楽天株式会社 | 電子書籍表示装置、電子書籍表示方法、及びプログラム |
KR102385457B1 (ko) * | 2017-03-20 | 2022-04-13 | (주)광개토연구소 | 인공 지능 기술 기반의 머신 러닝을 사용하는 도면 부호를 포함하는 특허 도면 이미지에 도면 부호의 설명을 맵핑 처리하는 방법 |
KR102465029B1 (ko) * | 2017-03-21 | 2022-11-10 | (주)광개토연구소 | 도면 상의 도면 부호 및 명세서 상의 도면 부호의 설명 간의 연계 및 결합 콘텐츠를 제공하는 인공 지능 기술 기반의 정보 처리 방법 및 장치 |
CN106934383B (zh) * | 2017-03-23 | 2018-11-30 | 掌阅科技股份有限公司 | 文件中图片标注信息识别方法、装置及服务器 |
CN107358184A (zh) * | 2017-06-30 | 2017-11-17 | 中国科学院自动化研究所 | 文档文字的提取方法及提取装置 |
EP3660733B1 (en) * | 2018-11-30 | 2023-06-28 | Tata Consultancy Services Limited | Method and system for information extraction from document images using conversational interface and database querying |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5619594A (en) * | 1994-04-15 | 1997-04-08 | Canon Kabushiki Kaisha | Image processing system with on-the-fly JPEG compression |
CN1297208A (zh) * | 1999-10-29 | 2001-05-30 | 索尼公司 | 文件编辑处理方法和设备以及程序装载介质 |
JP2002278984A (ja) * | 2001-03-22 | 2002-09-27 | Fujitsu Ltd | 文書管理装置 |
CN1471036A (zh) * | 2002-07-08 | 2004-01-28 | ��ʿͨ��ʽ���� | 备注图像管理装置、备注图像管理系统和备注图像管理方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01266689A (ja) | 1988-04-19 | 1989-10-24 | Canon Inc | 画像認識装置 |
FR2681454B1 (fr) * | 1991-09-16 | 1995-08-18 | Aerospatiale | Procede et dispositif de traitement d'informations alphanumeriques et graphiques pour la constitution d'une banque de donnees. |
US5671067A (en) * | 1994-09-26 | 1997-09-23 | Matsushita Graphic Communication Systems, Inc. | Facsimile apparatus for optically recognizing characters and transmitting the recognized characters and communication system for transmitting the recognized characters between a terminal and a center |
JP3504054B2 (ja) | 1995-07-17 | 2004-03-08 | 株式会社東芝 | 文書処理装置および文書処理方法 |
JPH1063674A (ja) | 1996-08-19 | 1998-03-06 | Tokyo Electric Power Co Inc:The | 記号画像の自動リンク方法 |
JPH10228473A (ja) | 1997-02-13 | 1998-08-25 | Ricoh Co Ltd | 文書画像処理方法、文書画像処理装置および記憶媒体 |
DE69942595D1 (de) | 1998-05-27 | 2010-08-26 | Nippon Telegraph & Telephone | Verschachtelungsvorrichtung und Verfahren mit Fehlerschutz |
JP2000048041A (ja) | 1998-07-29 | 2000-02-18 | Matsushita Electric Ind Co Ltd | データ検索システム及びこれに用いる装置 |
JP3768743B2 (ja) | 1999-09-20 | 2006-04-19 | 株式会社東芝 | ドキュメント画像処理装置及びドキュメント画像処理方法 |
JP5033277B2 (ja) | 2000-09-12 | 2012-09-26 | コニカミノルタビジネステクノロジーズ株式会社 | 画像処理装置および画像処理方法並びにコンピュータ読み取り可能な記録媒体 |
US6792145B2 (en) * | 2001-04-20 | 2004-09-14 | Robert W. Gay | Pattern recognition process for text document interpretation |
-
2004
- 2004-04-01 JP JP2004109031A patent/JP4349183B2/ja not_active Expired - Fee Related
-
2005
- 2005-03-16 US US11/080,630 patent/US7715625B2/en not_active Expired - Fee Related
- 2005-03-17 CN CNB2005100563197A patent/CN100367299C/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5619594A (en) * | 1994-04-15 | 1997-04-08 | Canon Kabushiki Kaisha | Image processing system with on-the-fly JPEG compression |
CN1297208A (zh) * | 1999-10-29 | 2001-05-30 | 索尼公司 | 文件编辑处理方法和设备以及程序装载介质 |
JP2002278984A (ja) * | 2001-03-22 | 2002-09-27 | Fujitsu Ltd | 文書管理装置 |
CN1471036A (zh) * | 2002-07-08 | 2004-01-28 | ��ʿͨ��ʽ���� | 备注图像管理装置、备注图像管理系统和备注图像管理方法 |
Also Published As
Publication number | Publication date |
---|---|
US7715625B2 (en) | 2010-05-11 |
JP2005293351A (ja) | 2005-10-20 |
US20050232484A1 (en) | 2005-10-20 |
JP4349183B2 (ja) | 2009-10-21 |
CN1677435A (zh) | 2005-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100367299C (zh) | 图像处理装置和图像处理方法 | |
JP4509366B2 (ja) | 文書上の情報をスキャンしてフォーマット化するシステム | |
US8204896B2 (en) | Image processing apparatus and image processing method | |
JP4290011B2 (ja) | ビューワ装置及びその制御方法、プログラム | |
US6040920A (en) | Document storage apparatus | |
US7240281B2 (en) | System, method and program for printing an electronic document | |
US20080115046A1 (en) | Program, copy and paste processing method, apparatus, and storage medium | |
US8332745B2 (en) | Electronic filing system and electronic filing method | |
CN101615181A (zh) | 创建国际化网络应用的系统和方法 | |
CN101739224A (zh) | 略图创建方法以及图像形成装置 | |
JP2001014303A (ja) | 文書管理装置 | |
US7746491B2 (en) | Information processing method and apparatus | |
JPWO2002103554A1 (ja) | データ処理方法、データ処理プログラム、およびデータ処理装置 | |
JP4021525B2 (ja) | 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法 | |
CN102685347B (zh) | 图像处理装置和图像处理方法 | |
WO2002006981A1 (en) | Method of reformatting web page and method of providing web page using the same | |
US20100188674A1 (en) | Added image processing system, image processing apparatus, and added image getting-in method | |
JP4934181B2 (ja) | 付加画像処理システム、画像形成装置及び付加画像追加方法 | |
JP4752020B2 (ja) | 文字列取得方法及び文字列取得システム | |
KR20000049891A (ko) | 구조화된 데이터를 이용한 전자 출판 시스템 및 서비스 방법 | |
KR100569151B1 (ko) | 웹페이지 변환장치 및 그 방법 | |
JP2004145736A (ja) | 文字認識装置および文字認識データ出力方法およびプログラムおよび記録媒体 | |
KR100953627B1 (ko) | 웹 페이지에 포함되는 이미지 상의 텍스트를 판독하고 이에대한 번역 서비스를 제공하기 위한 방법, 장치 및 컴퓨터판독 가능한 기록 매체 | |
JP5069322B2 (ja) | 帳票生成装置、帳票生成方法および帳票生成プログラム | |
JP4337309B2 (ja) | ブラウザ装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20080206 Termination date: 20180317 |