最近の文字認識技術の研究動向

秋元 良仁

1.はじめに

 近年における半導体技術・コンピュータ技術の進歩はめざましく、人間にとって使いやすいコンピュータを構築することへの要求が増している。マン・マシン・インターフェースと呼ばれるこれらの要求に対して、人間同士が情報の交換や記録の際に用いる媒体、つまり記号であったり音であったりする媒体をコンピュータ上で再現することが注目を集めている。これらの技術は、人間が持つ情報交換・記録の媒体をパターンと呼び、そのパターンを人間が認識するかのようにコンピュータが認識することから、パターン認識技術と呼ばれる。

 パターン認識技術のうち、日本においては文字種の多さから文字認識技術の研究がさかんである。文字認識は最も歴史が古く、かつ実用化が進んだ分野でもある。文字は人間にとって身近な存在であり、記録性に優れ、再現性が良く、人間の直観を生かしやすく、1文字に1つの概念が対応するなど、パターン認識研究の素材としては格好の性質を備えている。また、文字を認識する技術は、コンピュータへのデータ入力を、キーボードを経ずに直接行う省力装置の開発にもつながることから、強い社会的ニーズに支えられて発展してきたとも言える。

 文字認識技術は世界的に見て、日本と米国で発展してきた。米国の場合、文字種が英字26文字のみであり、タイプライタの早期普及など、文字認識研究自体は一段落している感がある。しかし、日本においては数千種におよぶ漢字を常用しており、タイプライタよりも手書きのほうが利用されている。そのため、過去40年におよぶ研究技術開発にもかかわらず、字種や字体に関する制限を完全に取り除ける段階にない。

 以上の問題点を踏まえる意味で、本稿では日本における文字認識技術の研究動向を把握するために、電子情報通信学会技術報告に掲載された文字認識関連の文献をキーワード、抄録を利用して分類し、文字認識技術の中でもどの分野が話題になっているのかを探る。また、文献に記載された研究機関を分析することで実際にはどこでそれらの研究が盛んに行われているのかを探る。

 2章では、研究のアプローチとしてデータ収集とその方法、データ内容、データ分析手法について述べる。3章ではパターン認識理論、OCR、OLCR、周辺領域、その他について各々がいかなるものか述べ、また収集データから見る分析を行う。4章では研究機関名から、具体的にどこの研究機関で文字認識がさかんに行われているのかを把握・分析を行う。5章ではまとめとして、各章の分析結果をまとめ、総合的な考察を加える。また、分析結果から応用への示唆を加える。

2.研究へのアプローチ

2.1データ収集

2.1.1対象とするデータ

 本稿で扱うデータは、1997年、1998年の『電子情報通信学会技術報告』(パターン認識・メディア理解)の「文書・文字メディアにおけるパターン認識・理解」および「文字・文書メディアの認識・理解」をテーマとする特集記事を対象とする。

 これらの文献を対象とした理由としては、テーマとして「文字・文書メディア」が設定されているため、文字認識分野の範囲外の文献を収集してしまう危険性がないこと、文字認識関連の文献が特集されているため収集が容易であることが考えられる。

 また、1997年と1998年の文献を収集した理由として、最近の文字認識技術の研究動向なので近年発行された論文集から1999年の文献を収集しなかった理由として、1999年度の文献はまだ発行途中であり、現段階では文字認識特集は組まれておらず、収集データが文字認識特集のものとする、という上記の決定に反するためである。

 表1に収集した文献数を示す。表1は年度、発行日、文献数の項目を設置した。年度は文字認識関連の最近の研究動向を探る、というテーマから新しい年度の文献数を把握する意味で97年、98年のものとした。発行日は各々の年度で文字・文書メディア関連の特集記事の発行日を示す。また、文献数は各々の発行日に発行された雑誌の文字・文書メディア関連の文献の数を示す。また、文献数の末尾には対象データの総数がわかるように総文献数を示している。

 収集した総文献数78件の文献をもとに、論文分析の手がかりとする。

表1 対象となるデータ

年度  発行日  文献数

1997 3.18 12
1997 3.19 10
1998 2.19 15
1998 2.20 11
1998 12.18 14
1998 12.19 16
計78

2.1.2 対象データ収集法

 対象データの収集は手作業で行った。具体的には図書館情報大学付属図書館において、1997年度、1998年度の電子情報通信学会技術報告』(パターン認識・メディア理解)の「文書・文字メディアにおけるパターン認識・理解」および「文字・文書メディアの認識・理解」をテーマとする特集記事の収集を行った。

2.1.3 分析対象および分析手法

 分析の対象には収集した文献に含まれるキーワード、抄録、および研究機関名を用いた。キーワード、抄録はその文献の内容を顕著に現すものであり、文字認識分野を簡易に把握できるという点で有効である。また、キーワード、抄録を用いた分類は今後、文字認識分野に参入したいと考えている人々にその全体像を把握してもらうのに有効である。さらに研究機関名の分類は、現実にはどこでさかんに研究がなされているのか、場所を調査することにより、その具体的イメージを得るために有効である。

 分析手法はまず、文献中に設けられているキーワード項目から全キーワードを抜き出す。これらのキーワードはすでに文献を発表した著者がキーワードとして設定したものである。

 次に得られたキーワードを文字認識の体系に振り分けることを行う。文字認識体系は著者の組み立てたキーワード体系による。この体系は、文字認識分野をさらに5分野にわけ、それぞれの分野での動向を調査できるように作成したものである。そのため、文献中のキーワードが文字認識体系に当てはまらない場合が生じる。そこで、それらを補完する意味で抄録を用いる。ここではまず抄録中の全名詞をキーワードとみなし抽出する。そして抽出されたキーワードを文字認識体系に使用できるものと使用できないものに分類し、使用できるキーワードを用いて文字認識体系の補完を行う。つまり、第1段階で文献のキーワードによる分類、第2段階で抄録からのキーワードによる分類を行う。こうすることで著者が組み立てた文字認識体系に収集データ全てを分類する。

 全収集データの文字認識体系への分類を行った後で、分析を行う。分析は各分野ごのでの文献数の多さを尺度とし、文献数の多い分野は盛んに研究が行われている分野であるとみなす。逆に文献数の少ない分野はあまり盛んに研究がなされていない分野であるとする。文献数のみを分析の尺度とした理由としては、文字認識分野内のある分野について、客観的な量(文献数)を見ることで文献数が少なくても盛んな分野である、あるいは文献数が多いが研究自体は収束ぎみである、といった主観を排他できるであろうと考えたことによる。

 ここで注意すべき点は、キーワードが1つではない、あるいは抄録中の名詞は1つではない、という点である。複数のキーワード中に、あるいは抄録中の複数の名詞に体系中の相反する分野に含まれるキーワードが出現した場合、各々の分野におけるキーワード数、もしくは名詞数を数え、その数の多いほうの文献を体系に分類することとする。また、1つの文献のキーワード中、あるいは抄録中に一意にある特定の分野を示すキーワードが現れた場合、その文献はその分野に属するものとみなし、その文献中に含まれる他のキーワードの分類は行わない。この一意に特定分野を示すキーワードとは、著者が組み立てた文字認識体系のキーワードと合致したものとする。

 また、これらとは別に研究機関名の分析を行う。この分析も基本的には研究内容の分析と同様に研究機関名の多さ、つまり、文献数の多さをその尺度とする。ただし、文献によっては他の機関と連携して論文を投稿している例も多く見られる。そこで、研究機関を「国の機関」、「大学」、「企業」、「高等専門学校」の4部門に分け、さらに各機関のすべての連携を見る。こうすることでまず、研究機関のうちどの部門の研究機関が盛んに研究しているのかを把握する。次に、実際に研究機関名を分析し、どの機関において盛んに研究が行われているのかを把握する。ここでは、まず収集データから投稿機関名の抽出を行う。次にその機関名を数え、その量を盛んに研究が行われているか否かの評価尺度とする。

2.2 文字認識体系

 本節では、前述の文字認識体系について述べる。文字認識分野を以下の5つの分野に分類し、文字認識分野の総合的把握を目指す。2.2.1項では分類の意図と全体像の説明、2.2.2項ではパターン認識理論の概観、2.2.3項ではOCRの概観、2.2.4項ではOLCRの概観、2.2.5項では周辺領域の概観、2.2.6項ではその他の概観を行う。

2.2.1 文字認識

 文字認識分野は大きく分けて「パターン認識」、「OCR」、「OLCR」、「周辺領域」、「その他」に分類できる。各々の分野はその目的もさることながら、アプローチの手法もまったく異なる場合がある。そこで、以下の項では各々の分野についておおまかな内容の説明を施し、各々の分野の概観を述べる。その上で前述したキーワードおよび抄録の分類の手がかり的な文字認識体系を作成する。

2.2.2 パターン認識理論

 パターン認識理論は、数学的にパターン(人間が持つ情報交換・記録の媒体)の定量化を図る分野である。パターン認識理論には大きく分けて2つの方法がある。1つはパターン認識装置を設計する上で設計者が経験と直観に基づいて認識対象に対してパラメータを設定するやり方である。つまり、文字認識を行う際、人間の経験と直観が認識率の向上に大きく影響を及ぼすやり方である。もう1つはパターン認識をモデル化し、理論的な考察からパターン認識装置に用いる理論を決定するやり方である。前者は設計者の経験に基づくものなので、パターン認識理論の論文として発表されるものは少ないが、後者に関しては理論的にパターン認識をモデル化できることから、多くの論文が発表されている。

 また、パターン認識理論は文字認識分野に限らず、パターン認識技術一般の基本的な研究分野であるため、文字認識以外の音声認識、画像認識等の分野でも多く取り入れられている。以下の項で述べる、OCR、OLCR、周辺領域、その他については、いずれも何らかの形でこのパターン認識理論に基づいて文字認識を可能なものとしている。

2.2.3 OCR

 OCR(Optical Character Recognition:光学式文字認識)はすでに書かれた文字、つまり文字としてその形が完成している文字に対して光学的に文字を読み取る認識方式のことを言う。すでに書かれた文字というのは、大きく2つに分類することができる。印刷活字文字と手書き文字である。さらに印刷活字文字はシングルフォントとマルチフォントに分類できる。シングルフォントとは、フォントの形式が1つのことを言う。マルチフォントとは、複数のフォント形式が混在していることを言う。また、手書き文字は制限付き手書き文字、常用手書き文字、自由手書き文字に分類できる。制限付き手書き文字とは、点線・文字シートなどに沿って書かれる文字のことである。常用手書き文字とは・・・自由手書き文字とは、なんら制限を加えずに自由に筆記者が書く文字のことを言う。これらの対象文字によっても取り得る認識方式は異なる。

 一般的なOCRの認識方式であるが、まず、入力部に完成した形をなす文字がアナログデータとして入力される。入力部では機構走査・光電変換・量子化と呼ばれる処理が施される。ここでは入力文書内のどの位置にに文字があるかを調べ、アナログデータをディジタルデータに変換する。

 次の前処理部では、文字の認識を行いやすくするための処理を施す部分である。ここでは、文字を読み取る際に入り込んでしまう雑音の除去、文字の大きさの正規化などを行う。

 正規化された文字データは次の特徴抽出部に送り込まれる。特徴抽出部ではその文字が表わす特徴を抽出する。これは正規化しただけではデータとして次元数が高いため、よりその文字が表わす次元数の低いデータに圧縮することを行う。文字認識においてはこの特徴抽出のやり方が認識率を左右する。

 次に、特徴が抽出された文字データは識別部に送られる。識別部においてはもともと用意されている辞書と呼ばれるものと、送られてきた文字データの照合を行う。辞書とは、標準的な文字パターンがしまい込まれている。このことから特徴抽出された文字データを入力パターンと呼ぶのに対して辞書内の文字パターンを標準パターンと呼ぶ。

 照合の結果、最も一致する文字パターンを出力部で結果として示す。以上がOCRの認識方式の概略である。概略図を図1に示す。

図1 OCRの認識方法

2.2.4 OLCR

 OLCR(On-line Character Recognition:オンライン文字認識方式)は、前節のOCRに対して書き途中の情報をも使用して認識を行う方式である。OLCRはタブレットとスタイラスペンと呼ばれる文字入力装置を用いて認識を行う。タブレットとは、座標入力装置の1つである。ボード上に座標を入力するスペースがあり、そこでスタイラスペンと呼ばれる座標入力ペンで文字を書くと、タブレットはペンの動きを観測し、時系列データを収集できる。時系列データとは、時間軸で変化する量を時間軸に合わせて測ることのできるデータのことを言う。

 OLCRの対象となる文字は筆記者がペンを使って入力することから印刷活字文字はその対象外となる。したがって、手書きで書かれた文字のみを対象とする。前項で述べたとおり、手書き文字は制限付き手書き文字と常用手書き文字、自由手書き文字に分類できる。

 一般的なOLCRの認識方式は、基本的にはOCRと同様、入力部、前処理部、特徴抽出部、識別部、出力部に分けられる。OCRとの違いは、扱うデータが最初からディジタルデータとして入力されるので2次元の形を持つアナログデータの情報を持たないこと、識別の際に用いる辞書の内容が時系列データであるため、OCR辞書とは異なること、等である。

 OLCRの利点として、入力部において書き途中の情報もカバーできるという点が挙げられる。具体的には、文字を構成するストローク(字画)の区切りをペンの上下動で知ることができる、各ストロークの形状をペンの軌跡から知ることができる、書き準をペンの軌跡から知ることができる、タブレットで筆圧、筆速を観測できる、等が挙げられる。また、人間がペンで直に文字を入力するため、認識結果がすぐに筆記者にフィードバックされる、誰もが訓練なしに使い始められる、などの利点もある。

 しかし、人間が直に入力するので、大量文書の入力には向かない、手書き文字の入力となるので文字の激しい崩れに対処できない、等の欠点も同時に備え持つ。OLCRの概略図を図2に示す。

図2 OLCRの認識方法

2.2.5 周辺領域

 ここで周辺領域という分野を設けた理由として、前節のOCRとOLCRは認識方式の違いはあるが、基本的には文字を読み取ることに主眼を置いている。それに比べ、周辺領域とは、OCR、OLCRいずれかの認識方式を用いて実際の人間生活の場に何らかの形で応用させようとする分野である。

 具体的には、署名照合、文書認識、図面解析、映像中の文字認識等がその対象となる。署名照合とは、筆記者が書いた文字を本当にその筆記者が書いたものであるかどうか照合するための技術である。文書認識とは、文書内に存在する文字の部分をその他の画像、表などの部分と区別するための技術である。図面解析とは、建築で用いられる図面、あるいは地図などに含まれる文字をその他の部分から切り出す技術のことである。文書認識、図面解析ではいずれも画像から、写真、絵、文字、図形、図表などの領域を分割するセグメンテーションと呼ばれる切り出し技術、OCRとセグメンテーションの複合技術などが要求される。また、静止している文字に限らず、動画像中の文字の切り出し、認識を行う例もある。

 ここで挙げた周辺領域は先にそのような分野区分は存在しないが、筆者が独自に区分を行った分野である。

2.2.6 その他

 「その他」という区分を設けた理由として、次のことが想像できる。まず、収集した文献がすべて前項までで述べてきた体系に収まれば問題はないが、特集記事の中に上記の分類では収めることができない文献が表れたとき、「その他」区分に収集することで全文献の分析が可能となる。

 また、文献によっては、認識方式を問題にしているのではなく、認識系を評価するための手段を提示している文献もある。これらの文献は認識系そのものではなく、評価手段の手法の構築、あるいは効率化を目指しているものなので、上記の分類では分類しきれない。

 以上のような範疇に入れるべきであると判断した文献に対しては「その他」分野に分類することとする。

3.文字認識体系における文献の分類

 本章では、前章で提案した文字認識体系を実際に作成し、さらに収集したデータを分類し、それらに分析を加えることを行う。以下、3.1節でパターン認識理論、OCR、OLCR、周辺領域の文献のキーワード項目を用いた分類を行う。その他分野に関しては分類を行った結果としてそのような分野を設けることとする。次に3.2節で各々の分野の抄録を用いた分類を行う。最後に3.3節で3.1節、3.2節での分類に対しての考察を行う。

3.1 文字認識体系のキーワードによる分類

 本節では各文字認識分野のキーワードによる分類を行う。各々の分野の分類は前章で述べたように文字認識技術の総合的把握と盛んな分野の把握を可能にし、文字認識に参入したいと考えている人々にとって有効である。表2、表3、表4、表5、表6、に示すキーワードを含む場合、その文献を各々の分野の範疇に属する文献であるとみなす。

表2 文字認識体系におけるキーワード(パターン認識理論)

キーワード

パターン認識、ベイズ識別器、ベイズ決定理論、定正準化、パターン識別、Goberフィルタ


 パターン認識理論における、これらのキーワードを選択した理由として、これらのキーワードはパターン認識そのもの、あるいは基本となる理論を示している言葉である、ということが考えられる。例えば、「パターン認識」、「パターン識別」はパターン認識理論をそのまま表現したキーワードであるし、「ベイズ識別器」、「ベイズ決定理論」はパターン認識理論において有名な理論である。

表3 文字認識体系におけるキーワード(OCR)

キーワード

オフライン、オフライン文字認識、OCR、郵便番号、郵便番号認識、フォント、2次元図形認識、ETL−9B、低解像度、参考文献


 OCRにおけるこれらのキーワードを選択した理由として、これらのキーワードには、OCRそのものを示すもの、OCRの応用技術を示すもの、OCR認識実験に用いられる手法を示すものとして選択されている。例えば、「オフライン」、「オフライン文字認識」、「OCR」などはOCRそのものを言い換えた言葉であり、「郵便番号」、「郵便番号認識」はOCRを商用機として用いた例であるため、OCRの応用分野であると言える。また「ETL−9B」はOCRの認識実験の際に使用される認識辞書として有名である。

表4 文字認識体系におけるキーワード(OLCR)

キーワード

オンライン手書き文字認識、オンライン手書き文字切り出し、経時変化、On−Line 手書き認識、オンライン文字認識


 OLCRにおけるこれらのキーワードを選択した理由として、これらのキーワードがOLCRそのものを示すもの、またはOLCRを実現するための技術的な事柄を示すものとして選択されている。例えば、「オンライン手書き文字認識」、「On−Line手書き認識」はそのままOLCRを表現しているキーワードである。また、「オンライン手書き文字切り出し」はオンラインデータから1文字を切り出す際の技術として使われるキーワードである。

表5 文字認識体系におけるキーワード(周辺領域)

キーワード

文書画像の領域分割、カラー画像、ジェスチャー画像、カラー文書画像、任意文書、手書き宛名認識、文書画像理解、文書画像解析、文書解析、文書管理、映像文字、手書き住所


 周辺領域において、これらのキーワードを選択した理由として、文字認識技術の応用分野を特徴づけるものが選択されている。例えば、「文書画像の領域分割」、「文書画像認識」、「文書解析」は各種の形態の情報(写真、図、テキスト等)を領域ごとに分割するセグメンテーション法を示すキーワードである。また、「ジェスチャー画像」、「映像文字」は静止画像ではなく、動画像中の文字を切り出し、認識するための技術として使われるキーワードである。

 これらのキーワードは著者が文字認識の体系を考える上で、各々の分野のキーワードであろうと考えられる単語を挙げたものである。収集した文献のキーワード項目中にこれらのキーワードと合致するキーワードが存在した場合、一意にそれを各々の分野の文献とみなす。また、文献中のキーワード項目中にこれらのキーワードが存在しなくても、抄録中の名詞にこれらの単語が出現した場合、やはりその文献を各々の分野の文献とみなす。なお、抄録中より抽出したキーワードは上記の文字認識体系のキーワードと合致しなくとも、著者が類似の意味を含むとした場合、各々の分野への分類を行う。

 表7に収集データのキーワード項目から取り出した各々の分野のキーワード、およびその文献数を示す。

表7 各々の分野におけるキーワードと文献数

キーワード 文献数

パターン認識 3
ベイズ識別器 1
ベイズ決定理論 1
定正準化 1
パターン識別 0
Goberフィルタ 1
計7
オフライン 2
オフライン文字認識 5
OCR 8
郵便番号 2
郵便番号認識 1
フォント 1
2次元図形認識 1
ETL-9B 6
低解像度 2
参考文献 1
計29
オンライン手書き文字認識 3
オンライン手書き文字切り出し 1
経時変化 0
On-Line手書き認識 1
オンライン文字認識 1
計6
文書画像の領域分割 1
カラー画像 1
ジェスチャー認識 1
カラー文書画像 1
任意文書 1
手書き宛名認識 1
文書画像理解 1
署名照合 2
署名 1
文書画像認識 1
文書画像解析 1
文書解析 1
文書管理 1
映像文字 0
手書き住所 1
計15
総計57

 

 表7から、パターン認識理論の文献が7件、OCRの文献が29件、OLCRの文献が6件、周辺領域の文献が15件あった。

 これらの分類はすべて文献に付与されているキーワード項目からの分類であり、抄録は用いていない。したがって、「その他」に属する文献は挙げられていない。また、全収集データを用いていないので、次節の抄録を用いた分類を終えた時点で考察を加えることとする。

3.2 文字認識分野の抄録による分類と分析

 本節では各文字認識分野の抄録による分類を行う。前節ではキーワードを用いた分類を行った。本節ではキーワードでは拾いきれなかった文献に対して、抄録中の名詞を切り出し、その名詞自体を新たにキーワードとして追加することで全収集データを分類することを行う。これにより、前節で述べた「文字認識技術の総合的把握と盛んな分野の把握」を補完し、文字認識に参入したいと考えている人々にとって有効な文字認識体系、および盛んな分野の把握が可能なものになる。なお、抄録を用いたキーワードの選択、および抄録による分類は著者が独自に行った。また、抄録中より抽出したキーワードは3.1節で作成した文字認識体系のキーワードに合致しなくとも、著者が類似の意味を含むとした場合、各々の分野への分類を行う。

 表8に抄録から切り出したキーワード、およびそれらの分類を示す。

表8 抄録からのキーワードとその分類

キーワード 分類結果

画像の濃淡特徴</TD> OCR
個人筆記特性 OCR
文字品質 OCR
2値化画像 OCR
ETL-8B OCR
NIST SD-19 OCR
文字画像 OCR
交叉マスク OCR
劣化印刷文字 OCR
ETL-9B OCR
文字パターンの形状 OCR
文字の外郭形状 OCR
文字ストローク OCR
計13
住所読取り 周辺領域
住所読取装置 周辺領域
2
差分主成分1 その他
共通差分主成分1 その他
ニューラルネットワーク2 その他
遺伝アルゴリズム1 その他
正準判別分析1 その他
計6
総計21

 以上、抄録からのキーワード分類を行った。結果として、OCR関連の文献が13件、周辺領域関連の文献が2件、その他の文献が6件であった。したがって、前節の結果と合わせると、パターン認識理論の文献が7件、OCRの文献が42件、OLCRの文献が6件、周辺領域の文献が17件、その他の文献が6件あった。

 分析結果から、文献数の量を比較すると、OCR関連の文献が多いことがわかる。これは、OCRが文字認識分野において、盛んな分野であることがわかる。OCRにおいてはパターン認識理論を確立するよりも、現存するパターン認識理論を経験主義的に改変・改良し認識率の向上を図ることを目的とする文献が多い。認識率の向上は結果的によい認識装置の開発につながる。そのため、論文としてその成果を発表しやすい。したがって、認識率の向上という点に焦点を絞れば、OCR関連の文献は必然的に多くなるものと考えられる。

 また、周辺領域の文献が多いことにも注目したい。これらはいわゆる文字認識技術の応用分野である。文字認識技術は単なる技術として確立するのではその意味をなさないと考える。それらの技術をいかに社会に還元し、人々が便利に生活できるかを考えるべきである。そういった意味で、周辺領域の文献がOCR関連の文献の次に多い、ということは文字認識分野の研究が社会と密接に関わりを保っていることを示している。

 また、この分析でその他の文献が6件あった。これらのキーワードはすべて既存の文字認識系を評価するときに用いる手法であり、その効率化を示す論文であるので、本来の文字認識技術自体とさほど関連性を持たない文献である。

4.研究機関名の分類と分析

 本章では研究機関名の分類と分析を行う。本章では文献数の多さをその尺度とし、研究機関名からどの機関において文字認識の研究が盛んに行われているかを把握することを目的とする。

 文献によっては他の機関と連携して論文を投稿している例も多く見られる。そこで、研究機関を「国の機関」、「大学」、「企業」、「高等専門学校」の4つにわけ、さらに各々の機関のすべての連携を見る。

 表9に4部門に分類した研究機関の文献数、および各機関で連携している文献数を示す。なお、大学における学科、企業、国の機関における部署などが異なる場合、表8の分類では各々独立した機関として処理した。これは、表9においては4部門の文献数の差異、あるいはその連携の度合いを調べるためのものであり、例えば同一の大学でも学科が異なり、異なる研究成果を発表している可能性があるためである。

表9 研究機関の分類

研究機関 文献数

国の機関 3
大学 67
企業 32
高等専門学校 2
計104
国の機関−大学連携 5
国の機関−企業連携 0
国の機関−高等専門学校連携 0
国の機関間連携 0
大学−企業連携 3
大学−高等専門学校連携 2
大学間連携 10
企業−高等専門学校連携 0
企業間連携 2
高等専門学校間連携 0
計22
総計126

 研究機関については、文字認識研究は大学で盛んに行われていることがわかる。これは半導体の低価格化に伴う大学内への計算機の導入が考えられる。かつては文字認識を専門に行う研究所等の機関でしか文字認識研究を進めることができなかったが、近年の計算機の機能向上と低価格化により、大学でも高い性能を持つ計算機を扱えるようになり、しいてはそれが大学での文字認識研究を盛んにしているのではないか、と考えられる。

 また、連携を見てみると、大学間での連携は見られるが、その他は国の機関と大学の連携が5件、大学と企業間の連携が3件、大学−高等専門学校間、企業間の連携が各々2件と、全体的に見ても少量である。企業はその業績を伸ばすために企業秘密を設け、技術自体を売買の対象として用いている。したがって、企業がさほど他の機関と連携して研究しないのもうなずける。しかし、国民に研究成果をフィードバックさせる義務のある、国の機関、あるいは大学においてはさらなる連携作業が可能となれば、より一層文字認識関連の技術躍進に貢献できるのではないかと考えられる。

 表10に研究機関名による文献数を示す。各々の研究機関名は頻度順に示す。なお、大学における学科、企業、国の機関における部署などが異なる場合、表10の分類では各々同一機関として処理した。これは、表10においては各研究機関の文献数の差異を調べるためのものであり、例えば同一の大学でも学科が異なる場合、独立した研究機関として処理してしまうと、具体的にどの機関で研究が盛んに行われているのか明確に示されない可能性があると判断したためである。研究機関単位で処理することで各々の研究機関名の差異が明らかになると考えられる。

表10 研究機関名の分類

研究機関 文献数

電子技術総合研究所 2
郵政省郵政研究所 1
計3
東京農工大学 9
三重大学 9
東北大学 7
日本大学 4
山口大学 4
大分大学 3
九州大学 3
慶應義塾大学 3
埼玉大学 3
大阪大学 2
大阪府立大学 2
岐阜大学 2
東京理科大学 2
富山大学 2
福岡教育大学 2
横浜国立大学 2
早稲田大学 2
信州大学 1
中部大学 1
東京大学 1
名古屋工業大学 1
名古屋市立大学 1
北海道大学 1
山形大学 1
計68
富士通 8
NTT 7
NEC 5
東芝 4
ヒューレット・パッカード研究所 3
三洋電機 1
富士ゼロックス 1
三菱電機 1
リコー情報通信研究所 1
計31
東京工業高等専門学校 1
富山商船高等専門学校 1
計2
総計136

 研究機関名について、大学においては「東京農工大学」、「三重大学」、「東北大学」などが盛んに研究を行っている。また、企業に関しては、「富士通」、「NTT」、「NEC」などが盛んに研究を行っている。

 今回の収集データは『電子情報通信学会技術報告』という、理工系の雑誌を対象としたため、どの機関においても、理工系大学の電子・情報学科、あるいは情報産業の企業のうち、独自の研究所を持つ企業が多い。文字認識技術の発展を考えた場合、情報工学系に偏るのではなく、文字を科学する、という意味で、心理学系、脳科学系、生理学系の研究対象への参入を自発的に行うことでさらなる発展が期待できると考えられる。

5.考察 −文字認識技術の応用への示唆−

 本稿では、最近の文字認識技術の研究動向について、文献に付与されているキーワード項目、抄録を利用し、全収集データを文字認識体系に分類することで、文字認識分野の中でも、どの分野が盛んに研究が行われているかを分析した。その結果、OCR関連の分野が最も盛んに研究がなされていることがわかった。これは、OCRが文字認識において最も注目されていることを示す。OCRにおいてはその認識率の向上が大きな目的として挙げられる。本稿で用いた収集データを見ても、OCR関連の文献の大部分が認識率の向上を図るため、既存のパターン認識理論を経験主義的に改変している論文が多い。

 もう一点、注目すべき点がある。周辺領域の文献が多いことである。周辺領域の文献は社会に還元可能な応用分野を示す文献が多い。文字認識が社会的に利用されるとともに、多くの人々がこの技術を生活に生かすことを、文字認識技術の研究においては常に考えなければならない。具体的には、文書の中からテキスト、写真、絵、図表等を切り分ける、セグメンテーション技術の文献が多かった。

 さらに、本稿では、文献に記載されている研究機関名から具体的にどの機関で盛んに文字認識研究が行われているのかを示した。結果として、全体的に大学が多く、その中でも、東京農工大学、三重大学、東北大学の理工系学部および大学院において盛んに研究されていることがわかった。これは、計算機が高性能化・低価格化したことにより、以前では文字認識専用の計算機を用いていたところを汎用性の高いパソコン上などで行えるようになり、大学等の機関でも研究が行えるようになったことによるものと思われる。また、企業では、富士通、NTT、NEC等、情報産業の企業であり、かつ独自の研究所を持つ機関においてさかんに研究がなされていることがわかった。本稿では、文字認識技術の全体像の把握、盛んに研究が行われている分野および研究機関の把握ができた。今後、本稿をもとに文字認識への総合的把握が可能になるものと考える。

 今後の課題としては、常に新しい文献に目を通すことによる、文字認識技術の研究動向の一層の把握、近年の文献だけでなく、過去に文献調査をさかのぼることによる、歴史的な発展の経緯の調査等が挙げられる。これらを行うことにより、文字認識技術の研究動向を一層深く把握できるものと考える。

参考文献

森健一監修(1988).『パターン認識』.東京:電子情報通信学会

小川英光編(1994).『パターン認識・理解の新たな展開』.東京:電子情報通信学会

森俊二(1984).『文字・図形認識の基礎』.東京:オーム社

直井聡(1998).「企業から個人のためのOCRへ」.『電子情報通信学会技術報告』.PRMU97−249,pp.63−72

黄瀬浩一(1998).「文書画像の目指すもの」.『電子情報通信学会技術報告』.PRMU97−248,pp.55−62

津雲淳(1997).「文字認識研究の新たな展開に向けて−欧米における文字認識の動向」.『電子情報通信学会技術報告』.PRMU96−191,pp.55−62

長尾真ほか編(1990).『岩波情報科学辞典』.東京:岩波書店

情報処理学会編(1997).『情報処理ハンドブック』.東京:情報処理学会




戻る