技術概要
本技術は、映像と音声の情報を統合解析し、視聴者が自然と注目するであろう領域(注視領域)を動的に特定・誘導することで、その領域に優先的に高画質を割り当てて符号化する画期的な映像符号化装置及びプログラムです。これにより、映像コンテンツ全体のデータ量を効率的に圧縮しつつ、視聴体験の質を損なうことなく、コンテンツ制作者の意図をより強く反映した効果的な視聴体験の提供が可能となります。特に、映像と音声の連携解析による注視領域の特定は、従来の静的な領域指定や単純な動き検出に比べ、より人間中心の自然な映像表現を可能にします。
メカニズム
本技術は、まず映像オブジェクト位置・形状抽出部が映像のメタデータや解析からオブジェクトの位置・形状を抽出します。次に、音声位置生成部が付随する音響メタデータや音声入力から、音声オブジェクトと紐づく映像オブジェクトの位置と音の大きさを対応付けます。誘導注視領域生成部は、これらの情報に基づき、発音体として紐づけされる映像オブジェクトの中から注視誘導すべき領域を決定します。最後に、符号化制御情報生成部がこの誘導注視領域の画質を他の領域よりも高めるよう符号量を制御し、映像符号化部がその制御に基づいて映像を符号化することで、高効率かつ高品質な映像ストリームを生成します。
権利範囲
AI評価コメント
本特許は、残存期間14.5年と長く、有力な代理人が関与し、審査過程での減点要因が一切ないSランクの優良特許です。映像と音声の連動による注視領域誘導という独自性が高く、強固な権利基盤を背景に、長期的な事業展開と市場での独占的地位確立を強力に支援するポテンシャルを秘めています。
| 比較項目 | 従来技術 | 本技術 |
|---|---|---|
| 符号化効率 | 汎用H.264/HEVCコーデック (固定ビットレート/CBR) | ◎ |
| 視聴体験のパーソナライズ | コンテンツ適応型エンコーディング (シーン全体で調整) | ◎ |
| コンテンツ制作意図の反映 | 自動シーン解析による画質調整 (制作者意図が反映されにくい) | ◎ |
| 処理のリアルタイム性 | 高負荷な詳細解析 (遅延発生の可能性) | ○ |
導入企業が年間150万時間の高画質映像コンテンツを配信している場合、本技術による符号化効率20%向上が実現すれば、年間データ転送量約300TBの削減が見込めます。データ転送コストを1TBあたり10万円と仮定した場合、年間3,000万円の直接的なコスト削減効果が期待できます。さらに、視聴者のエンゲージメント向上による間接的な収益増も加わるでしょう。
審査タイムライン
横軸: 視聴体験の没入感
縦軸: データ転送効率