くずし字の画像から文字を検索してくれるシステムには、奈良時代から江戸時代までのさまざまな文字に対応した「木簡・くずし字解読システム」(奈良文化財研究所、東京大学史料編纂所)があり、専門家でも読めなかった文字が解読できるような発見もあるそうです。

当サイトでは、くずし字認識のスタディとして、ディープラーニングに基づいた変体仮名の認識を行うシステムを公開しています。認識対象は、約320の漢字を字源とする変体仮名となっており、初学者がかな字典を引くための参考になればという位置付けです。(やはり人間が読めるようになるのが一番なので、くずし字学習支援アプリ「KuLA」もお勧めです。)

入力された文字画像は、約320の字母(学術情報交換用変体仮名セットに挙げられた字母215+α)に分類され、音価、確率とともに表示されます。同一字母で異なる字体を持つものについて、字体の区別は認識結果には表示していません。第1候補であっても、確率が極端に低い場合や、第2候補以下と確率があまり変わらない場合には、当システムが学習していない漢字等が入力された場合や、他の文字の一部分も含んだ画像を指定された結果であることなどが考えられますので、認識結果の確率にもご注意ください。

ニューラルネットワークの訓練データの一部には、東京外国語大学アジア・アフリカ言語文化研究所 岡田一祐氏による「『和翰名苑』仮名字体データベース」の画像を利用させていただきました。(『和翰名苑』の約3,600画像に、その他に用意した約5,200画像を加えた計約8,800画像の一部をベースとして訓練を行いました。)

当サイトでは、変体仮名の画像認識APIを提供しています。デジタルアーカイブ等の閲覧に用いられるビューワからAPIを利用することにより、ユーザが文字画像ファイルを準備する手間なしに、文字認識結果を表示することができます。

次の例では、閲覧画面左上の□ボタンまたはcキー押下で領域選択モード切替、文字を選択すると文字認識結果がダイアログ表示されます。

また、人文情報学研究所 永崎研宣氏による「国文研データセット簡易Web閲覧」では、閲覧画面上で文字範囲を選択し当システムへ問い合わせることによって文字認識結果を表示できるようになっています。文字範囲の指定の仕方は、「IIIF対応URLで古典籍から画像や文字を切り出せるように!(日本の古典籍のオープンデータ!その4)」をご覧ください。

なお、営利目的での利用については、こちら(2SC1815J+hentaigana [at] gmail.com)にお問い合わせください。

画像ファイルの準備には、「木簡・くずし字解読システム」提供による「画像準備マニュアル」を参考にしてください。当サイトではGIF形式には対応していません。PNGまたはJPEG, BMP形式を指定してください。

文字画像は、カラーのものも受け付けますが、事前に白黒2値化したものである方が良い結果が得られます。

当システムでは、濁点や半濁点の付いた形は学習していないため、それらを含まない範囲で切り出した画像である方が、良い結果が得られます。

解析に用いられた画像について、サーバ上で意図的に蓄積することは一切行っていませんが、予期せぬシステムトラブル等に備え、守秘性の高い画像の指定はお控えください。

herokuの無料枠で公開しているため、アクセスしてから表示されるまでに時間がかかる場合や、同時処理能力が低く応答に時間がかかる場合などがあります。

当システム作成者は、このサイトのご利用に関して生じたいかなる損害についても責任を負うものではありません。