2025年1月12日日曜日

素材フォルダの遍歴

変遷のほうがいい。いや、この迷いは遍歴だ。

sub.素材の入れ物

フォルダ名を次に変更する。

10 qanda
20 Paper:論文
30 form:
40 book(syokoと同じ)
60 server

桁を上げたのは、そのフォルダの下位に再項目の存在を示している。
たとえば、

10 qanda
12 qanda-不登


………………………………

その素材(element(エレメント))が、ナレッジPDF(30万文書・1TB)であるわけです。

その素材を、次に分類する。

01 form
02 qanda
03 Paper
04 book
10 server

上の各フォルダの全部また一部を、検索エンジンまたRAGが目的に応じて参照する。Inazuma serchはこの構造をとる。


0 件のコメント:

コメントを投稿

OCR【1】

副題:アクションウイザ一ド この正月、3日かけてアクションウイザ一ド処理をしました。 別に千冊ほどあったと思う。 そして、つまり、OCR化する前の画像データという素材が既に備わっていた。 リアル本ではなくデータとしての本という有益さはかなりある。机から動かなくていい。あの本のあ...