技術概要
本技術は、画像内の文字領域を高精度に検出するための学習装置とプログラムを提供します。従来の深層学習モデルでは、文字領域の重複統合など微分不可能な処理を含む場合、モデルの直接的な最適化が困難でした。本技術は、文字検出部、統合処理部、最終スコア推定部、最終スコア誤差計算部を連携させることで、この課題を解決します。最終スコア誤差を基にモデルの内部パラメーターを効果勾配法等で直接調整することで、より複雑な文字検出タスクにおいても高い精度と学習効率を実現します。これにより、多様な環境下での文字認識性能が飛躍的に向上する可能性を秘めています。
メカニズム
本技術は、画像から文字領域の特徴量を出力する文字検出部と、重複する文字領域候補を統合し、正解データに基づいて最終スコアを算出する統合処理部を核とします。さらに、文字検出部の特徴量から最終スコアの推定値(推定最終スコア)を算出する最終スコア推定部と、最終スコアと推定最終スコアの誤差を計算する最終スコア誤差計算部を備えます。学習時、最終スコア推定部は最終スコア誤差を基に自身のモデルパラメーターを調整します。文字検出部は、特徴量と正解データの誤差である文字検出誤差と、推定最終スコアに基づいて、文字検出用モデルのパラメーターを調整します。これにより、微分不可能な処理を含む複雑な文字検出タスクでも、エンドツーエンドの学習が可能となります。
権利範囲
AI評価コメント
本特許は、残存期間14.8年と長く、有力な代理人が関与し、請求項数も8項と充実しています。先行技術文献4件を乗り越え登録された安定した権利であり、Sランク評価は、その技術的優位性と権利の堅牢性を示します。長期にわたり独占的な事業展開を可能にし、導入企業の競争力強化と持続的な成長に大きく貢献できる非常に価値の高い知的財産です。
| 比較項目 | 従来技術 | 本技術 |
|---|---|---|
| 学習対象の複雑性 | 微分可能処理に限定的 | ◎ |
| 検出精度(重複領域) | 誤検出・見逃しが発生しやすい | ◎ |
| 学習効率 | 複雑なタスクでは最適化が困難 | ◎ |
| 適用範囲(多種多様な画像) | 限定的な環境でのみ有効 | ○ |
導入企業が手作業で行っていた画像からのデータ入力・確認作業を本技術で自動化した場合、作業員5人分の年間人件費3,000万円(1人あたり600万円と仮定)を、高精度な自動化により全工程の50%削減できると試算されます。これにより、年間1,500万円の直接的なコスト削減が見込まれます。さらに、誤検出率の低減による手動修正コスト(年間100万円と仮定)が80%削減され、80万円の削減効果が加わり、合計で年間1,580万円の削減が期待されます。実際の導入では、さらに大きな効果が見込まれる可能性があります。
審査タイムライン
横軸: AI学習効率
縦軸: 検出精度・適応範囲