2023/05/22

国立国会図書館デジタルコレクション

url→https://dl.ndl.go.jp/ja/

全文検索できるようなって、大変便利なんだが、検索が度々オカシイ

1_202305221501242c2.jpg
横書き文なのに縦書きとしてテキスト化したりする
文字数が違うんだから横書きと判り易そうなんだが・・・
すんごくトリッキーに最初は縦書き、あとは横書きと認識したりもする

2_2023052215012684c.jpg
こうなると、何が何だか判らん
最初の2列は縦書きと認識(テキスト側マーク)してるが
残りは暗号化か文字化けのごとく。何がなんだが

縦横の文字数を見て、横が違うなら横書き、縦が違うなら縦書き
と割と簡単に判断できそなんだがなぁ

さいで時折出て来る「電話本局」
もち、対象にそんな文字は無い

3_20230522150128d78.jpg
縦書き誤認から逃れるため、縦書きで判り易すそな奴で試す
テキスト側の「電話本局」と対になる箇所をアンダーライン・傍線にしたが、
このケースでは「()」の中の文字装飾が複雑だと「電話本局」が出現する
さするに、ちゃんとテキスト化できず、何かしらの条件でリンクがおかしくなり、
テーブル先頭にたまたま入ってた「電話本局」が出て来るんだと思う

対象にありながら、テキスト化がちゃんと出来ないと、検索できない
・・のは困りものなんだが、
よりによって「電話」を検索してる時は非常に困る(実際にやってる)

直るんかなぁ



スポンサーサイト



コメント

非公開コメント

No title

そうなんですよね。どういうロジックで行を認識する仕組みになっているのかわからないんですが、デジコレのOCRって特に行認識が弱い傾向が見えてますね。

それでもこれまで探してみようと考えてもみなかった資料がヒットしたりして、結構新たな発見があるのも事実なんですが、何れOCRをやり直す日が…来ないと困りますがどうなんでしょうね。