ナレッジPDF(30万文書・1TB)は、その7割が書籍で1割が市販のデジタル書式集で、残りの2割が事務所として手記です。
うち、書籍の取扱いに苦労します。一つになっていてくれないと困るが、一つの命題毎になっていて欲しい。そうでないと検索満足化に耐えられない。RAGは可能なのだろうがそれは叶わぬ夢。
登録:
コメントの投稿 (Atom)
OCR【1】
副題:アクションウイザ一ド この正月、3日かけてアクションウイザ一ド処理をしました。 別に千冊ほどあったと思う。 そして、つまり、OCR化する前の画像データという素材が既に備わっていた。 リアル本ではなくデータとしての本という有益さはかなりある。机から動かなくていい。あの本のあ...
-
filebrogと比較するために 【Inazuma Search】を導入。 filebrogと同様に 近接検索ができない。でも 、ぶちこんでおけばあるレベルの仕事をしてくれる。素材が明瞭であれば AIや近接検索がなくてもいいことになる。しかし、30万もある素材を加工するこ...
-
Inazuma SearchのSvrのクロールに36時間かかった。ハチPCだと倍の3日かかるだろう。 データを計らなければならない。 Cltだと24時間だと思う。Cltは外付HDDにしている。クロールデータ量をはからなけばならい。 Clt×1.5=Svr 内部ネットワークの障...
0 件のコメント:
コメントを投稿