鵲の作業部屋
2025年2月25日火曜日
OCR【1】
PDF【01】
2025年2月20日木曜日
Sharepoint【3】
Sharepoint【2】
sharepoint【1】
2025年1月23日木曜日
アウトライナ【11】
アウトライナ―【10】
自炊書籍を分離したい。
★
わかりやすい本として「Q&A300問」という本がある。約700頁ある。自炊目次は、章立てとなって2階層となっている。
第1章 総則
1問 *** …〇〇頁
2問 *** …〇〇頁
第2章 各論1
3問 *** …〇〇頁
4問 *** …〇〇頁
300問 *** …〇〇頁
この***タイトル毎に分割し、且つこのタイトルをファイル名にしたい。
★
★
私が推測するには、1「既存の目次からしおりを生成する」が頼りになる。2だから、この既存の目次が正確でなければならない。そこで、既存の目次をOCRしたものをワードに落として丁寧にチェックして差し替えるほうがいい。3その際頁番号は無関係。
★
うまくいかない。
★その他
スキャンしてOCR化しているので、
また、N章の末紙の白紙には頁数が書かれているが邪魔だから削除してい
頁番号は、ほとんど100%フッター中央にある。
目次に頁番号が振られ、本文にもその連続した頁番号が振られている書籍がある。
例 目次1・2・2、本文4・5・5…
いっぽう、本文に独立した頁番号振られることもあり、これが多い。
自炊目次を置き換え・はしがき等を削除すると、1ワード目次と、2自炊本文の2つになる。
1ワード目次には頁番号を無視しているし、自炊本文は連続していない場合がある。
2025年1月22日水曜日
素材の整理
70 server
71mfile
72mclient
結局、10~40を入れ物で鍛えて(整理、ファイル名変更、タグ)、それが軌道に乗るまで作業を続けなければならないのだろう。おそらくいま40%ぐらい。
2025年1月19日日曜日
常時バックアップの時間
後日談:ウインドウズバックアップはやめる、特殊ファイルにしかならないから。生のママがいい、それを素材にしてクロールするから。bunbackupにする。バックアップ間隔は、1日・3日などいろいろ試してみる。
~
設定された間隔でファイルの変更を監視し変更があった場合にバックアップが実行される。
ウインドウズの標準仕様の限界は10分らしい。ファイル履歴のバックアップ間隔が10分の場合、5分前に誤って削除したファイルは、バックアップデータには含まれていない可能性が高い。例えば、10時00分にバックアップが実行され、10時05分にファイルを削除した場合、次のバックアップは10時10分に実行される。そのため、10時05分に削除したファイルは、10時10分のバックアップには含まれない。ただし、ファイル履歴は、以前のバージョンのファイルを保持する機能がある。そのため、削除したファイルが以前のバックアップに含まれていれば、復元できる可能性がある。
完全なバックアップを考えるということは、これは入れ子理論に関係する。
バックアップの目的を「①交換」と「②取戻し」に区別し、「①交換」こそがバックアップ本来の意味であると定義づける。
当日作業が消滅しても仕方がないと考える。当日であればまだ記憶されているし、mfillの手前てあるメールなどに残っているから復元は難しくないと考える。だからリアルタイムのバックアップは行き過ぎだ。
そこで、時間は24時間とする。サブPCも1日1回であれば、楽ちんだろう。
OCR【1】
副題:アクションウイザ一ド この正月、3日かけてアクションウイザ一ド処理をしました。 別に千冊ほどあったと思う。 そして、つまり、OCR化する前の画像データという素材が既に備わっていた。 リアル本ではなくデータとしての本という有益さはかなりある。机から動かなくていい。あの本のあ...
-
filebrogと比較するために 【Inazuma Search】を導入。 filebrogと同様に 近接検索ができない。でも 、ぶちこんでおけばあるレベルの仕事をしてくれる。素材が明瞭であれば AIや近接検索がなくてもいいことになる。しかし、30万もある素材を加工するこ...
-
visitたるmskura@msoffice.bizの乱数表 足し算ができる程度で予測可能なシステムにしておく。非公開・機密秘密ではなく拡散や乱用を防止する措置。 1234 2345 3456 4567 5678 6789 機密情報ではないがゲー卜を設けています。 入室にI...