こんにちは!井上咲です✨
縁あってソフトウェア周りを少しだけ手伝わせてもらってます!
まだまだ新米ですが、ちょっぴり技術系のことも紹介していきたいです!

これまでの記事

前回の記事では高解像度の画像で史料を保存していることを紹介してきました!
でも、撮影するだけではまだ足りません!
眠っていた数々の史料に何が書いてあるか解読することも重要です。

今回は、くずし字の認識サービスのお試し記事です🥳

くずし字の自動認識サービスをお試し

井上会では眠っていた古文書の解読も活動の一つです!
古文書の解析をしたら、もしかすると、井上氏に関する重要な記述が見つかるかもしれません。
秘仏もCTスキャンで胎内に古文書が隠されているという発見をしてますし、
とてつもない物が他にあってもおかしくはありません。あながち冗談じゃないです(笑)

古文書の解析と言いましたが、浄運寺が保存している史料は「くずし字」で書かれています。
現代人にとってこのくずし字を読むにはそれなりの知識が必要です。
ですが、くずし字関連で調べてていたらこんなサービスを発見しました!

KuroNetくずし字認識サービスは、IIIF (International Image Interoperability Framework)に準拠した画像を対象に、多文字くずし字OCR機能を提供します。

これならくずし字が読めない私でも解読のお手伝いできそうです!
しかも、こちらのサービスはなんと無料で使えます👏

今回はサンプルで自動認識を試してみました。本記事では利用する手順を説明します!

KuroNetくずし字認識サービスの利用手順

  1. 解析対象の画像を選び、IIIFマニフェストのURIを確認
  2. IIIFマニフェストを使い、くずし字認識ビューアビューアで閲覧
  3. ビューワ上で解析対象の矩形を選択、解析開始
  4. 解析結果の確認

手順2でIIIFマニフェストという聞き慣れない言葉があります。
単純にアップロードして利用とはなっていないないようで、それに合わせて手順がやや複雑になっています。

利用する際にはアカウントの登録が必要となります。
以下で説明する手順は登録後から解析までの手順です。

1.解析結果の画像を選び、IIIFマニフェストのURIを確認

KuroNetくずし字サービスが解析できる画像は、IIIF(International Image Interoperability Framework)という形態で配信されたものになります。
IIIFで配信された画像には、画像一つ一つを製本させるような役割をもつ「IIIFマニフェスト」というものが必ずあり、
このIIIFマニフェストのURIが必要になります。

CODHさんのページにも公開された画像が多くありますが、あえて他のサイトで公開されている画像を使用したいと思います。
今回は 東京大学総合図書館所蔵『源氏物語」 に自動認識をかけてみます。

東京大学総合図書館所蔵『源氏物語」
 

こちらのサイトでは右下に「Manifest」というリンクがありました。

2.IIIFマニフェストを使い、くずし字認識ビューアで閲覧

IIIFマニフェストを利用し、ビューアで閲覧します。

先程確認したIIIFマニフェストのURIをビューワの起動画面に入力し、「起動」をクリックします。
http://codh.rois.ac.jp/kuronet/

KuroNetくずし字認識ビューアの起動

正常に読み込みが完了すると、次のような画面が表示されます。
KuroNetくずし字ビューワの閲覧画面

3.ビューワ上で解析対象の矩形を選択、解析開始

「次」ボタンをクリックし、解析したいページに遷移します。
遷移後、右上の「■」をクリックし、解析する領域の選択モードにします。
解析対象の画面

 
 
ドラッグ&ドロップで解析領域を選択します。この時、矩形の選択はページ全体など広めに入れてしまって良いようです。
ココらへんは解析の精度にも関わっているようなので調整が必要かもしれません。
 
 
解析対象の矩形選択

領域を選択すると、上記のようなポップアップが表示されます。
「KuroNetくずし字認識サービス」をクリックすると、解析対象の画像と領域が登録されます。
クリックすると、下のような画面(ダッシュボード)に遷移します。

 

ダッシュボード画面

「予約:実行」をクリックすると、解析が始まります。

4.解析結果の確認

解析が成功すると、以下のように解析結果を閲覧するためのリンクが追加されます。

解析完了後のダッシュボード画面

「成功:閲覧」をクリックすると、解析対象の画像と解析結果を確認できます。
ひらがなの箇所を見比べると、しっかりと解析できていそうですね!

解析結果

ダッシュボードへのリンクを見失ってしまった時は、再度ログインしてみてください。
https://mp.ex.nii.ac.jp/kuronet/login/

無事、KuroNetくずし字認識サービスの使い方を確認できました👏
今回は解析結果の精度については調べられていませんが、
浄運寺の史料にも同じことができれば解析が捗りそうです!

ただし、このサービスを自前の画像に対して利用する際に少し複雑なセットアップが必要です。
具体的にはIIIFのサーバーを構築する必要があります。
今後の記事では、自前の画像でサービスを利用するためのセットアップを進めていきます!

ではまた、次の記事で😉