概要
請求書/注文書などのPDFをフォルダに入れるだけでテキストデータを抽出し、CSV形式で出力します。
基幹システムやExcelなどの各種アプリケーションで生成されたアプリPDFが処理対象です。全文OCR処理がかかっている画像PDFは処理対象外です。
一度解析をした帳票レイアウトの情報は保存され、差分があった際には自動的に更新されます。
※OCR・AI OCRではありません。
機能構成図
製品の特徴
⼀般的な注⽂書/請求書の項⽬が
出力されたCSVとRPAを
連携することで
会計ソフトなどへの⼿⼊⼒作業時間を
⼤幅に削減できます
OCRとは違い
PDFのテキストを抽出するため、
正確なデータ取得が可能です
前提条件
- 基幹システムやExcelなどの各種アプリケーションから⽣成された、テキストデータをもつアプリPDFが処理対象になります。
- 対象の帳票レイアウトが認識でき、正確にテキストデータを抽出することができるか、事前の検証が必要です。
【注意】
紙書類をスキャンして生成したPDFやFAXで受信したPDFなどは、テキストデータをもたない画像PDFになるため、処理対象外になります。
OCR処理等によりテキストデータが付与された画像PDFも処理対象外になります。
アプリPDFと画像PDFの違いについて
アプリPDF | 画像PDF(処理対象外) | |
---|---|---|
作成方法(例) |
|
|
データの違い | テキストデータを持っている | テキストデータを持っていない |
処理内容の違い |
処理⽅法→PDFデータ抽出 各フィールドや明細⾏の位置・レイアウトを解析して テキストデータを抽出する。 誤認識がない。 |
主な処理⽅法→OCR・AI OCR 画像の形状、線の⽅向など特徴を解析して PDFにテキストデータを付与する。 誤認識する可能性がある。 |
機能
帳票レイアウト⾃動認識機能(注⽂書/請求書のみ対応)
レイアウトの異なるファイルが複数混在している場合は、レイアウトが同じ帳票ごとに⾃動で分類・識別してデータ抽出処理を⾏います。
帳票のレイアウトを⾃動で認識するため、事前の帳票レイアウト登録・エリア設定作業が不要です。
テキストデータ抽出機能(注文書/請求書のみ対応)
品番、品名、数量、⾦額など、⼀般的な注⽂書・請求書に記載されている項⽬を⾃動で認識します。項⽬の意味解釈を⾏うため、帳票に記載されている項⽬が⼀般的な名称と異なっていても、ソフト側で同⼀のものを指していると判断した場合は、CSVの該当の項⽬の列へテキストデータを出⼒します。
帳票レイアウト⾃動学習機能(注⽂書/請求書のみ対応)
レイアウトが同⼀の帳票でも、ファイルごとにフィールドの有無や配置に違いがある場合、それらの差異を学習し、学習データを⾃動更新します。
学習データはレイアウトごとに保存され、学習データの編集も可能です。
学習データ編集機能
学習データは⽬視確認し、編集することができます。中央のプレビュー画⾯でエリアを編集すると、右側のフィールド⼀覧の該当項⽬に反映されます。
※請求書・⼀般帳票の明細表は自動認識のみ対応しており、レイアウトの編集には対応していません。
注⽂書や請求書以外の書式について
「⼀般帳票(表)」もしくは「⼀般帳票(フィールド)」設定機能で対応します。
※テキストデータの認識・抽出が可能か事前に試⽤版での検証が必要です。
・一般帳票(表)
帳票の表部分を自動認識し、テキストデータをCSVに出力します。
・一般帳票(フィールド)※事前設計が必要
指定されたエリアのテキストデータを抽出し、CSVに出力します。
CSV出⼒について
CSVの出⼒⽅法は2パターンあります。
・抽出結果を1つのCSVに追記する
・1つのPDFに対して1つのCSVを出⼒する
ユースケース
事例
- 概 要
-
ユーザー
業種:大手IT専門商社
従業員数:約1,600人
対象帳票
注文書(年間処理ページ数 12,000ページ)
製品の利用用途
営業部が顧客から受領する注文書PDFのテキストデータを抽出し、CSVへ出力。
業務システムへ自動入力するテキストデータを生成する。
- お悩み
-
- 紙の注文書をAI OCRソフトで認識し、テキストデータを生成していたが、
電子取引が増え、Excelなどの各種アプリケーションから作成されるPDFの注文書を
AI OCRで処理・運用するためには、印刷後にスキャンする必要があり、手間がかかると感じていた。 - 利用していたAI OCRソフトの精度もあまり良くなかった。
- 紙の注文書をAI OCRソフトで認識し、テキストデータを生成していたが、
- 検討ポイント
-
- AI OCRよりも精度が良いこと。
→事前にユーザ様環境で検証を行ってもらい、抽出精度をご確認いただきました。 - 利用者の作業負担が増えないこと。
→フォルダ監視型の製品のため、サーバの所定のフォルダにPDFを格納するだけでOK。
- AI OCRよりも精度が良いこと。
- 効 果
-
- AI OCR処理のための印刷・スキャンの手間がなくなり、営業部の作業負荷軽減を実現できました。
- 誤認識なくデータを抽出できたため、テキストデータの作成からシステムへ入力するまでの作業効率が大幅に上がりました。
対応OS
サーバー環境
- HGPscanServ に準ずる → HGPscanServ動作環境
価格表
製品名 | ライセンス | 年間保守 | 初年度保守 |
---|---|---|---|
HGPscanServPlus(買い切り) |
¥600,000 | ¥90,000 | 有償 |
製品名 | 処理ページ数 | 年間費用 |
---|---|---|
PDFデータ抽出オプション(従量課金制) | 年間1,200ページ(月間100ページ) | ¥60,000 |
年間6,000ページ(月間500ページ) | ¥180,000 | |
年間12,000ページ(月間1,000ページ) | ¥360,000 |
- PDFデータ抽出オプションの年間保守は年間費⽤に含まれています。
- 価格はすべて税別表記です。
- 帳票自動認識パターン数は最大20までです。
- 上記以上の処理ページ数をご希望の場合は個別見積です。弊社営業までご相談ください。