自炊書籍を分離したい。
★
わかりやすい本として「Q&A300問」という本がある。約700頁ある。自炊目次は、章立てとなって2階層となっている。
第1章 総則
1問 *** …〇〇頁
2問 *** …〇〇頁
第2章 各論1
3問 *** …〇〇頁
4問 *** …〇〇頁
300問 *** …〇〇頁
この***タイトル毎に分割し、且つこのタイトルをファイル名にしたい。
★
★
私が推測するには、1「既存の目次からしおりを生成する」が頼りになる。2だから、この既存の目次が正確でなければならない。そこで、既存の目次をOCRしたものをワードに落として丁寧にチェックして差し替えるほうがいい。3その際頁番号は無関係。
★
うまくいかない。
★その他
スキャンしてOCR化しているので、
バラバラにして検索が目的であるから、はしがき・索引・あとがきは削除している。
また、N章の末紙の白紙には頁数が書かれているが邪魔だから削除してい る。
また、N章の末紙の白紙には頁数が書かれているが邪魔だから削除してい
頁番号は、ほとんど100%フッター中央にある。
目次に頁番号が振られ、本文にもその連続した頁番号が振られている書籍がある。
例 目次1・2・2、本文4・5・5…
いっぽう、本文に独立した頁番号振られることもあり、これが多い。
自炊目次を置き換え・はしがき等を削除すると、1ワード目次と、2自炊本文の2つになる。
1ワード目次には頁番号を無視しているし、自炊本文は連続していない場合がある。
0 件のコメント:
コメントを投稿