ナレッジPDF(30万文書・1TB)は、その7割が書籍で1割が市販のデジタル書式集で、残りの2割が事務所として手記です。うち、書籍の取扱いに苦労します。一つになっていてくれないと困るが、一つの命題毎になっていて欲しい。そうでないと検索満足化に耐えられない。RAGは可能なのだろうがそれは叶わぬ夢。
副題:アクションウイザ一ド この正月、3日かけてアクションウイザ一ド処理をしました。 別に千冊ほどあったと思う。 そして、つまり、OCR化する前の画像データという素材が既に備わっていた。 リアル本ではなくデータとしての本という有益さはかなりある。机から動かなくていい。あの本のあ...
0 件のコメント:
コメントを投稿