PDF抽出オプション

  • 概要
  • 特徴
  • 機能
  • ユース
    ケース
  • 対応OS・価格表

概要

請求書/注文書などのPDFをフォルダに入れるだけでテキストデータを抽出し、CSV形式で出力します。
基幹システムやExcelなどの各種アプリケーションで生成されたアプリPDFが処理対象です。全文OCR処理がかかっている画像PDFは処理対象外です。
一度解析をした帳票レイアウトの情報は保存され、差分があった際には自動的に更新されます。
※OCR・AI OCRではありません。

機能構成図

機能構成図

製品の特徴

POINT 01

⼀般的な注⽂書/請求書の項⽬が
事前設定されているので
すぐに運⽤を開始できます

POINT 02

出力されたCSVとRPAを
連携することで
会計ソフトなどへの⼿⼊⼒作業時間を
⼤幅に削減できます

POINT 03

OCRとは違い
PDFのテキストを抽出するため、
正確なデータ取得が可能です

前提条件

  • 基幹システムやExcelなどの各種アプリケーションから⽣成された、テキストデータをもつアプリPDFが処理対象になります。
  • 対象の帳票レイアウトが認識でき、正確にテキストデータを抽出することができるか、事前の検証が必要です。

【注意】
紙書類をスキャンして生成したPDFやFAXで受信したPDFなどは、テキストデータをもたない画像PDFになるため、処理対象外になります。
OCR処理等によりテキストデータが付与された画像PDFも処理対象外になります。

アプリPDFと画像PDFの違いについて

アプリPDF 画像PDF(処理対象外)
作成方法(例)
  • Excelから直接出⼒したPDF
  • 基幹システムやクラウドサービスから直接出⼒されたPDF
  • 複合機やスキャナでスキャンして作成したPDF
  • 取引先からFAXで受領したPDF
データの違い テキストデータを持っている テキストデータを持っていない
処理内容の違い 処理⽅法→PDFデータ抽出
各フィールドや明細⾏の位置・レイアウトを解析して
テキストデータを抽出する。
誤認識がない。
主な処理⽅法→OCR・AI OCR
画像の形状、線の⽅向など特徴を解析して
PDFにテキストデータを付与する。
誤認識する可能性がある。

機能

帳票レイアウト⾃動認識機能(注⽂書/請求書のみ対応)

レイアウトの異なるファイルが複数混在している場合は、レイアウトが同じ帳票ごとに⾃動で分類・識別してデータ抽出処理を⾏います。
帳票のレイアウトを⾃動で認識するため、事前の帳票レイアウト登録・エリア設定作業が不要です。

図

テキストデータ抽出機能(注文書/請求書のみ対応)

品番、品名、数量、⾦額など、⼀般的な注⽂書・請求書に記載されている項⽬を⾃動で認識します。項⽬の意味解釈を⾏うため、帳票に記載されている項⽬が⼀般的な名称と異なっていても、ソフト側で同⼀のものを指していると判断した場合は、CSVの該当の項⽬の列へテキストデータを出⼒します。

図

帳票レイアウト⾃動学習機能(注⽂書/請求書のみ対応)

レイアウトが同⼀の帳票でも、ファイルごとにフィールドの有無や配置に違いがある場合、それらの差異を学習し、学習データを⾃動更新します。
学習データはレイアウトごとに保存され、学習データの編集も可能です。

図

学習データ編集機能

学習データは⽬視確認し、編集することができます。中央のプレビュー画⾯でエリアを編集すると、右側のフィールド⼀覧の該当項⽬に反映されます。
※請求書・⼀般帳票の明細表は自動認識のみ対応しており、レイアウトの編集には対応していません。

図

注⽂書や請求書以外の書式について

「⼀般帳票(表)」もしくは「⼀般帳票(フィールド)」設定機能で対応します。
※テキストデータの認識・抽出が可能か事前に試⽤版での検証が必要です。

・一般帳票(表)
 帳票の表部分を自動認識し、テキストデータをCSVに出力します。

・一般帳票(フィールド)※事前設計が必要
 指定されたエリアのテキストデータを抽出し、CSVに出力します。

CSV出⼒について

CSVの出⼒⽅法は2パターンあります。
・抽出結果を1つのCSVに追記する
・1つのPDFに対して1つのCSVを出⼒する

イメージ
図

ユースケース

事例

概  要
ユーザー
業種:大手IT専門商社
従業員数:約1,600人

対象帳票
注文書(年間処理ページ数 12,000ページ)

製品の利用用途
営業部が顧客から受領する注文書PDFのテキストデータを抽出し、CSVへ出力。
業務システムへ自動入力するテキストデータを生成する。
お悩み
  • 紙の注文書をAI OCRソフトで認識し、テキストデータを生成していたが、
    電子取引が増え、Excelなどの各種アプリケーションから作成されるPDFの注文書を
    AI OCRで処理・運用するためには、印刷後にスキャンする必要があり、手間がかかると感じていた。
  • 利用していたAI OCRソフトの精度もあまり良くなかった。
検討ポイント
  • AI OCRよりも精度が良いこと。
    →事前にユーザ様環境で検証を行ってもらい、抽出精度をご確認いただきました。
  • 利用者の作業負担が増えないこと。
    →フォルダ監視型の製品のため、サーバの所定のフォルダにPDFを格納するだけでOK。
効  果
  • AI OCR処理のための印刷・スキャンの手間がなくなり、営業部の作業負荷軽減を実現できました。
  • 誤認識なくデータを抽出できたため、テキストデータの作成からシステムへ入力するまでの作業効率が大幅に上がりました。

対応OS

サーバー環境

  • Microsoft Windows Server 2022 日本語版(64bit)
  • Microsoft Windows Server 2019 日本語版(64bit)
  • Microsoft Windows Server 2016 日本語版(64bit)
  • Microsoft Windows Server 2012 R2 日本語版(64bit)
  • Microsoft Windows Server 2012 日本語版(64bit)
  • Microsoft Windows 11 日本語版(64bit)
  • Microsoft Windows 10 日本語版(32bit/64bit)
  • Microsoft Windows 8.1 日本語版(32bit/64bit)

価格表

製品名 ライセンス 年間保守 初年度保守
HGPscanServPlus+システム連携オプション
(買い切り)
¥635,000 ¥95,250 無償
製品名 処理ページ数 年間費用
PDFデータ抽出オプション(従量課金制) 年間1,200ページ(月間100ページ) ¥60,000
年間6,000ページ(月間500ページ) ¥180,000
年間12,000ページ(月間1,000ページ) ¥360,000
  • HGPscanServPlus+システム連携オプションへの保守加⼊が必須です。
  • PDFデータ抽出オプションの年間保守は年間費⽤に含まれています。
  • 価格はすべて税別表記です。
  • 帳票自動認識パターン数は最大20までです。
  • 上記以上の処理ページ数をご希望の場合は個別見積です。弊社営業までご相談ください。
ページトップ