くずし字のくずし字の自動認識にチャレンジ!⑦〜1文字ずつの評価〜

こんにちは!井上咲です✨
縁あってソフトウェア周りを少しだけ手伝わせてもらってます!
まだまだ新米ですが、ちょっぴり技術系のことも紹介していきたいです!
これまでの記事
- くずし字の自動認識にチャレンジ!①〜くずし字〜
- くずし字の自動認識にチャレンジ!②〜史料の画像化〜
- くずし字の自動認識にチャレンジ!③〜くずし字認識のお試し〜
- くずし字の自動認識にチャレンジ!④〜IIIFホスティングサービスでの画像公開〜
- くずし字の自動認識にチャレンジ!⑤〜IIIFマニフェストの作成〜
- くずし字の自動認識にチャレンジ!⑥〜くずし字認識の精度検証〜
前回は本シリーズの要であるKuroNetを使い、1ページまるごと自動認識を試し、その精度を確認しました。
検証に使った画像ではおよそ6割が正解でしたが、残りの4割は誤った文字として認識していました。
実はKuroNetを公開しているCODHのサービスには、1ページまるごと認識させるKuroNetがの他に、1文字ずつ解析をかけるKogumaNetというサービスもあります。
こちらのKogumeNetでは、候補となった上位の文字を複数出力する仕様になっており「実はこの文字だったかもしれない」みたいな結果も含めて確認することができます。
そこで今回の記事では「前回KuroNetで認識に失敗した文字に対してKogumaNetで認識をかけ、正解の文字が候補として出てくるか」を検証してみました!
KogumaNetの使い方
KogumaNetの使い方はKuroNetと概ね同じです。
- IIIF の画像を用意
- KogumaNet くずし字認識ビューアを開く
- IIIF マニフェストのURLをドラッグしてビューワの起動
- 解析対象の文字領域を選択
IIIFの画像用意の方法については過去の記事を参照してください。
ビューワを開くと「Drop a manifest URL to open」と出ますが、↓のようにもう一個ウィンドウを開いたりして、
URLのテキストをビューワーの画面内にドラッグすれば良いようです。
KogumaNetの見た目はほぼKuroNetと同じ、使い勝手もほぼ同じです。
大きな違いとしては、KogumaNetは1文字ずつ矩形の範囲を指定して解析させるところです。
解析を開始すると、以下のような結果が出力されます。
左側に解析対象にした矩形区間、右側に候補となる文字が上から順に並びます。
右側の数字は”AIから見た確率”みたいなものです(※)。
1ページまるごと解析するKuroNetとは違い、上位5文字が出てきますね!
※ 0~1(0~100%)の値が出るので“確率みたい”と書いてますが、厳密には異なります。
KuroNet の誤認識結果に対してKogumaNetを使ってみる
改めて、前回の記事でKuroNetで解析した正誤結果を見てみましょう。
評価用に使用した画像の引用元
出典:八潮市立資料館寄託 大瀬高橋義一家文書2061(複製本CH1309)『れきナビ』講座:くずし字にチャレンジ! 往来物
赤が正解、青が誤った結果です。誤って認識した青色の文字に対してKogumaNetをしてみました。
結果は以下の通り。正解文字を出力したところは赤文字にしています。
一番左の列が正解の文字、次いで第1候補~第5候補の認識結果をまとめました。
正解 | 第1候補 | 第2候補 | 第3候補 | 第4候補 | 第5候補 |
撰 | 挽 | 模 | 様 | 授 | 挾 |
凢 | 鬼 | 飛 | 然 | 龍 | 花 |
可 | て | で | 卿 | 可 | 無 |
員 | 欠 | 免 | め | 夜 | 更 |
数 | 数 | 麸 | 秋 | 発 | 穀 |
記 | 起 | 乱 | 記 | 龍 | 乾 |
證 | 諧 | 證 | 証 | 詰 | 談 |
注 | ぼ | ば | ず | づ | ぶ |
文 | 又 | み | 丈 | 夫 | 匁 |
質 | 賀 | 質 | 模 | 斐 | 髪 |
取 | 故 | ふ | 様 | 好 | 歌 |
券 | 春 | 竜 | 巻 | 梅 | 菴 |
譲 | 覆 | 鏡 | 霞 | 護 | 薩 |
預 | 歌 | 声 | 家 | 斯 | 趣 |
足 | 盛 | を | 豆 | 置 | 器 |
勘 | 拵 | 梅 | 勸 | 趣 | 鱸 |
帳 | 性 | 帳 | 姓 | 拙 | 味 |
KuroNetで不正解だった17文字のうち、6文字が第1~第5候補の中に出てきました!
残りの11文字は第5候補まで確認しても正解は出せませんでしたが、KuroNetが誤認識した文字の1/3ぐらいを拾うことが出来てます🥳
今回KogumaNetを使い、KuroNetの誤認識した文字を別の方法で評価してみました。
各文字に対して第5候補の認識結果までを評価し、その中に正解の文字も含まれるケースがあることを確認しました。
KuroNetとKogumaNetを使いこなせば、
- まずはKuroNetで1ページまるごと認識させる
- 認識結果が怪しい文字に対しては、KogumaNetで1文字ずつ解析させる
- 第5候補まで確認して、文脈的に意味の通る正解文字を探す
といった使い方もできそうです🤔
本シリーズでは特にIIIFの画像の解析ができる「KuroNet」と「KogumaNet」について、使い方やその精度を検証してきました。
これらサービスでお世話になっているCODH様ですが、最近「みを(miwo) – AIくずし字認識アプリ」というスマホで解析できるアプリも公開されたみたいです!
次の記事ではこちらも使ってみようと思います。ではまた次の記事で!