鵲の作業部屋
2025年1月23日木曜日
アウトライナ【11】
アウトライナ―【10】
自炊書籍を分離したい。
★
わかりやすい本として「Q&A300問」という本がある。約700頁ある。自炊目次は、章立てとなって2階層となっている。
第1章 総則
1問 *** …〇〇頁
2問 *** …〇〇頁
第2章 各論1
3問 *** …〇〇頁
4問 *** …〇〇頁
300問 *** …〇〇頁
この***タイトル毎に分割し、且つこのタイトルをファイル名にしたい。
★
★
私が推測するには、1「既存の目次からしおりを生成する」が頼りになる。2だから、この既存の目次が正確でなければならない。そこで、既存の目次をOCRしたものをワードに落として丁寧にチェックして差し替えるほうがいい。3その際頁番号は無関係。
★
うまくいかない。
★その他
スキャンしてOCR化しているので、
また、N章の末紙の白紙には頁数が書かれているが邪魔だから削除してい
頁番号は、ほとんど100%フッター中央にある。
目次に頁番号が振られ、本文にもその連続した頁番号が振られている書籍がある。
例 目次1・2・2、本文4・5・5…
いっぽう、本文に独立した頁番号振られることもあり、これが多い。
自炊目次を置き換え・はしがき等を削除すると、1ワード目次と、2自炊本文の2つになる。
1ワード目次には頁番号を無視しているし、自炊本文は連続していない場合がある。
2025年1月22日水曜日
素材の整理
70 server
71mfile
72mclient
結局、10~40を入れ物で鍛えて(整理、ファイル名変更、タグ)、それが軌道に乗るまで作業を続けなければならないのだろう。おそらくいま40%ぐらい。
2025年1月19日日曜日
常時バックアップの時間
後日談:ウインドウズバックアップはやめる、特殊ファイルにしかならないから。生のママがいい、それを素材にしてクロールするから。bunbackupにする。バックアップ間隔は、1日・3日などいろいろ試してみる。
~
設定された間隔でファイルの変更を監視し変更があった場合にバックアップが実行される。
ウインドウズの標準仕様の限界は10分らしい。ファイル履歴のバックアップ間隔が10分の場合、5分前に誤って削除したファイルは、バックアップデータには含まれていない可能性が高い。例えば、10時00分にバックアップが実行され、10時05分にファイルを削除した場合、次のバックアップは10時10分に実行される。そのため、10時05分に削除したファイルは、10時10分のバックアップには含まれない。ただし、ファイル履歴は、以前のバージョンのファイルを保持する機能がある。そのため、削除したファイルが以前のバックアップに含まれていれば、復元できる可能性がある。
完全なバックアップを考えるということは、これは入れ子理論に関係する。
バックアップの目的を「①交換」と「②取戻し」に区別し、「①交換」こそがバックアップ本来の意味であると定義づける。
当日作業が消滅しても仕方がないと考える。当日であればまだ記憶されているし、mfillの手前てあるメールなどに残っているから復元は難しくないと考える。だからリアルタイムのバックアップは行き過ぎだ。
そこで、時間は24時間とする。サブPCも1日1回であれば、楽ちんだろう。
手動リポジトリ(バックアップの意味)
システムの世界にリポジトリというものがある。
各バージョンを自動的にバックアップすることらしい。Wordがクラッシュしたときに直前のデータが残っていたり、ウインドウズのアップデート履歴から過去のバージョンに戻る機能は、この類いなのだろう。
私は、この仕事をするようになった直後にこれを手動でするようになった。訴状01というファイル名からはじめる。このデ一タがクラッシュしたら怖いと感じた瞬間に、上書保存(Ctl+S)したうえ訴状02にする(F12)。また、別の展開がはじまったり・それまでの内容を大幅に変えることになりそうなときも同様だ。これを手動リポジトリと呼んでおこう。
タイプ作業以外でも同じことをする。前者に該当するものはないが、大きく方針を変える場合はそれまでの書類群を一つの袋に入れ、複製したものですすめる。
そのようにして、データー(作品)がなくなった場合に備えるバックアップをしている。いや.違うな。おそらくは、昔、長い間かけたWord文書がクラッシュして手痛い目にあったとか、後者作業を怠って方向転換した結果、元に戻る必要があったとき戻れなかったという手痛い経験があったからだろう。
そういうことだろうがこれは本質的ではないだろう。機械が自動的にバックアップしているとしても安心できず、能動的にこれをすることによってその不安感を払拭しているのだ。手動リポジトリは、自身が 「ここらで、いったん保存して安心しておこう」 という意識を持って、能動的に過去のバージョンを作成する。これは、単なるデータのバックアップというだけでなく、作業の区切り や 心の安定 にも繋がっている。また、 「へんな方向にいっても元に戻れる」 という安心感は、チャレンジ精神 を与え、新たなアイデアや表現に挑戦する勇気を与えてくれる。 "創造性を刺激するリポジトリ" だ。
手動リポジトリは、デジタルデータだけでなく、アナログな世界でも見られる。例えば、画家が絵を描く際に、途中で写真を撮ったり、スケッチを残したりするのも、一種の手動リポジトリと言える。
このように、手動リポジトリは、人間の "創造性" と深く結びついていると言える。
サブマシン・引退PC
引退PCをサブPCにする。
すると引退しやすくなってサイクルがはやくなる。
引退マシンには、①常時バックアップと②常時クロールをしてもらう。
あと時間がかかる仕事が似合う。美の特有としてOCR化作業と機械学習がある。その他スタッフには、そのような仕事はいまのところ見つからないが、RAGがかなりの時間とリソースを要求するならサブマシンに逃がす。
2025年1月18日土曜日
私のモニターの数
私のモニターの数は9台です。
スタッフの平均値は3台。2台の者が2人ある。
私は、画面は多ければ多い方がいい。
問題は、物理的というか視野的な限界と思う。
この5階B室ディスクの中心は、5・6・7の三つ。他は視野に入らな)。
9が視野に入らないということは以外だ。その理由は視点が「5」を中心にやや上向きであることと私の視野は上下より左右にあるからだろう。平均値3台の理由はおそらくそこにある。
2人が2台のみとしたいと求めた理由は、それ以上は鬱陶しいということだろう。
2025年1月16日木曜日
Fessとエラクレは取り込める大丈夫。
ElasticsearchまたはN2なんとか
どこかで書いてあるが、エラクレ的はいったん構築してもメンテナンスとチューニングが常時必要となると唱われており、それゆえに月額ランニングコストがかかって金がかかり、CTIソフト80万の二の舞になると危惧していた。
しかし、CTIは10年ぐらい役に立っているので十分だったから10年もてばいいのだから、メンテナンスは無視すればいい。
そして、そこに書いてあったように、イナズマもfileblogもチューニングなしで動くのだから月額ランニングはいらんだろう。MSはそんな高度な素材でないはずだ。要常時チューニングは大きな企業の場合に限ると思う。
30万ぐらいで導入してくれるのならば、2台用意しておいて同じそれきり構築でいこう。たぶん私ならば、維持していけると思う。
1台目はハチPCを使う。2台目はクロネコPCを使う。それまでにイナズマ化による水冷PCはクロネコ主要PCになっているだろう。間に合わなければドットPCを。ドットは暫定的にノートをあてがう。
Inazuma SearchのSvr?化
アウトライナ【11】
ON しおりを自動生成する ON 既存の目次からしおりを生成する OFF 目次のページ番号でリンクを設定する とした場合の対応方法になります 対処方法ですが、下準備2で次のようにしてから自動生成ウィザードを使用してみてください 1問 *** --- 1 2問 *** -...
-
filebrogと比較するために 【Inazuma Search】を導入。 filebrogと同様に 近接検索ができない。でも 、ぶちこんでおけばあるレベルの仕事をしてくれる。素材が明瞭であれば AIや近接検索がなくてもいいことになる。しかし、30万もある素材を加工するこ...
-
RAG:リトリーバル・オーグメンテッド・ジェネレーション 蓄積文書を情報源とした質疑応答システムのこと。 より具体的に表現するならば、蓄積文書を学習データとして、RAGを実装したAIチャットボットの開発です。 約30年分の蓄積文書は、30万文書・1TBになった( ナレッジPDFと...