技術概要
本技術は、デジタル放送から字幕テキストとEPG情報を抽出し、EPG情報に基づいて字幕テキストをジャンル別に自動分類する画期的なシステムです。人手によるテキスト分類の手間を大幅に削減し、音声認識や自然言語処理(NLP)などのAI開発に必要な、高品質かつジャンル特化型のテキストコーパスを効率的に生成できます。特定の文書形式やテンプレートに依存せず、放送番組の多様なジャンルに対応することで、AIモデルの学習精度向上と開発期間短縮に貢献する可能性を秘めています。
メカニズム
ジャンル別テキスト収集装置は、デジタル放送を受信し、字幕情報とEPG情報をそれぞれ抽出します。EPG情報からは番組の時間情報とジャンルを特定し、字幕情報から、その時間区間の字幕テキストを抽出。抽出された字幕テキストは、EPG情報で特定された放送番組のジャンル(上位分類と下位分類で構成され、上位分類のみを特定し、複数設定時は最も多い上位分類を採用)と対応付けられ、ジャンル別テキストとして蓄積されます。これにより、高度なアルゴリズムで自動的にテキスト分類が実現されます。
権利範囲
AI評価コメント
本特許は、拒絶理由通知を乗り越え、かつ有力な代理人を通じて登録された極めて強固な権利です。先行技術が多数存在する中でも特許性が認められており、競合に対する優位性が際立ちます。残存期間も長く、長期的な事業展開において強力な競争優位性を確立できるSランクの特許です。
| 比較項目 | 従来技術 | 本技術 |
|---|---|---|
| テキストデータ分類精度 | キーワードベース分類ツール: △ | ◎ |
| データ収集効率 | 手動データラベリング: × | ◎ |
| ジャンル対応の柔軟性 | 汎用クローラー: △ | ○ |
| 既存システムとの連携 | 独自開発のデータ収集基盤: △ | ○ |
導入企業が年間10万時間のテキストデータ分類作業を外部委託している場合、時間単価2,500円と仮定すると、年間2.5億円のコストが発生します。本技術による自動化でその10%を削減できると試算され、年間2,500万円のコスト削減効果が見込まれる可能性があります。これはAI開発の加速と市場投入速度の向上に直結します。
審査タイムライン
横軸: データ収集効率
縦軸: AI学習データ品質