2025年1月12日日曜日

ナレッジPDFについて(その1)

 ナレッジPDF(30万文書・1TB)は、その7割が書籍で1割が市販のデジタル書式集で、残りの2割が事務所として手記です。
うち、書籍の取扱いに苦労します。一つになっていてくれないと困るが、一つの命題毎になっていて欲しい。そうでないと検索満足化に耐えられない。RAGは可能なのだろうがそれは叶わぬ夢。


0 件のコメント:

コメントを投稿

OCR【1】

副題:アクションウイザ一ド この正月、3日かけてアクションウイザ一ド処理をしました。 別に千冊ほどあったと思う。 そして、つまり、OCR化する前の画像データという素材が既に備わっていた。 リアル本ではなくデータとしての本という有益さはかなりある。机から動かなくていい。あの本のあ...