こんにちは!井上咲です✨
縁あってソフトウェア周りを少しだけ手伝わせてもらってます!
まだまだ新米ですが、ちょっぴり技術系のことも紹介していきたいです!

これまでの記事

前回は本シリーズの要であるKuroNetを使い、1ページまるごと自動認識を試し、その精度を確認しました。
検証に使った画像ではおよそ6割が正解でしたが、残りの4割は誤った文字として認識していました。

実はKuroNetを公開しているCODHのサービスには、1ページまるごと認識させるKuroNetがの他に、1文字ずつ解析をかけるKogumaNetというサービスもあります。
こちらのKogumeNetでは、候補となった上位の文字を複数出力する仕様になっており「実はこの文字だったかもしれない」みたいな結果も含めて確認することができます。

そこで今回の記事では「前回KuroNetで認識に失敗した文字に対してKogumaNetで認識をかけ、正解の文字が候補として出てくるか」を検証してみました!

KogumaNetの使い方

KogumaNetの使い方はKuroNetと概ね同じです。

  1. IIIF の画像を用意
  2. KogumaNet くずし字認識ビューアを開く
  3. IIIF マニフェストのURLをドラッグしてビューワの起動
  4. 解析対象の文字領域を選択

IIIFの画像用意の方法については過去の記事を参照してください。

ビューワを開くと「Drop a manifest URL to open」と出ますが、↓のようにもう一個ウィンドウを開いたりして、
URLのテキストをビューワーの画面内にドラッグすれば良いようです。

KogumaNetの見た目はほぼKuroNetと同じ、使い勝手もほぼ同じです。
大きな違いとしては、KogumaNetは1文字ずつ矩形の範囲を指定して解析させるところです。

解析を開始すると、以下のような結果が出力されます。

左側に解析対象にした矩形区間、右側に候補となる文字が上から順に並びます。
右側の数字は”AIから見た確率”みたいなものです(※)。

1ページまるごと解析するKuroNetとは違い、上位5文字が出てきますね!

※ 0~1(0~100%)の値が出るので“確率みたい”と書いてますが、厳密には異なります。

KuroNet の誤認識結果に対してKogumaNetを使ってみる

改めて、前回の記事でKuroNetで解析した正誤結果を見てみましょう。


評価用に使用した画像の引用元
出典:八潮市立資料館寄託 大瀬高橋義一家文書2061(複製本CH1309)『れきナビ』講座:くずし字にチャレンジ! 往来物

赤が正解、青が誤った結果です。誤って認識した青色の文字に対してKogumaNetをしてみました。

結果は以下の通り。正解文字を出力したところは赤文字にしています。
一番左の列が正解の文字、次いで第1候補~第5候補の認識結果をまとめました。

正解 第1候補 第2候補 第3候補 第4候補 第5候補

KuroNetで不正解だった17文字のうち、6文字が第1~第5候補の中に出てきました!
残りの11文字は第5候補まで確認しても正解は出せませんでしたが、KuroNetが誤認識した文字の1/3ぐらいを拾うことが出来てます🥳


今回KogumaNetを使い、KuroNetの誤認識した文字を別の方法で評価してみました。
各文字に対して第5候補の認識結果までを評価し、その中に正解の文字も含まれるケースがあることを確認しました。

KuroNetとKogumaNetを使いこなせば、

  1. まずはKuroNetで1ページまるごと認識させる
  2. 認識結果が怪しい文字に対しては、KogumaNetで1文字ずつ解析させる
  3. 第5候補まで確認して、文脈的に意味の通る正解文字を探す

といった使い方もできそうです🤔

本シリーズでは特にIIIFの画像の解析ができる「KuroNet」と「KogumaNet」について、使い方やその精度を検証してきました。
これらサービスでお世話になっているCODH様ですが、最近「みを(miwo) – AIくずし字認識アプリ」というスマホで解析できるアプリも公開されたみたいです!

次の記事ではこちらも使ってみようと思います。ではまた次の記事で!