技術概要
本技術は、ディープラーニングを活用した2段階の音声抽出メカニズムにより、対応可能な音声の種類を変更しても抽出精度を維持しつつ、学習回数を劇的に低減させ、処理の高速化を実現します。第1段階で入力音声から新規音声を抽出し、続く第2段階で既存の環境音や特定の音声を分離することで、未知の音環境に対しても迅速かつ効率的に適応可能です。これにより、従来の音声抽出技術が抱えていた、新規音声モデル開発時の学習コストと時間的制約という課題を根本的に解決し、多様なサービス展開を支援する基盤技術としての価値を提供します。
メカニズム
本技術の核となるのは、モデル生成部が生成する3種類のニューラルネットワークモデルです。環境音抽出用の基本モデルMo、特定の音抽出用のユーザオリジナル基本モデルMo'に加え、新規音声抽出用の第1段階抽出用モデルMを学習用データセットから生成します。抽出部では、まず第1段階抽出用モデルMを用いて入力音声から新規音声を抽出し、次にこの抽出された音声に対し、基本モデルMoおよびユーザオリジナル基本モデルMo'を適用して、個別の環境音や所定の音声を第2段階で分離します。これにより、新規音声への対応時に全ての音声を再学習する必要がなく、新規音声と環境音の分離に必要な学習が1回で完結するため、高速かつ高精度な音声抽出が可能です。
権利範囲
AI評価コメント
本特許は、残存期間が14年超と非常に長く、長期的な事業展開を強力に支える基盤となります。先行技術文献が1件のみであることから、技術の独自性と優位性が際立っており、市場における独占的ポジションの確立が期待されます。拒絶理由通知を乗り越え、審査前置登録を経て特許査定に至った経緯は、権利範囲の堅牢性と安定性を示すものであり、導入企業は極めて強固な知財基盤の上で事業を推進できるでしょう。
| 比較項目 | 従来技術 | 本技術 |
|---|---|---|
| 新規音声への対応速度 | 低速(再学習に時間) | ◎高速(学習1回で対応) |
| 学習コスト | 高コスト(データ準備・計算資源) | ◎低コスト(学習回数削減) |
| 抽出精度 | 中程度(環境依存) | ◎高精度(2段階分離) |
| リアルタイム処理 | 困難 | ◎可能 |
| 汎用性 | 低い(特定用途向け) | ◎高い(多様な音声環境に対応) |
導入企業が新規音声モデルの学習・調整にかかる年間工数を従来の1/3に削減できると試算されます。例えば、月間900人時を要するケースで本技術を導入した場合、学習工数が月間300人時に短縮され、人件費換算で年間約4,800万円の削減効果が期待できます(800人時/月 × 5,000円/人時 × 12ヶ月 = 4,800万円)。
審査タイムライン
横軸: 音声認識精度と適応性
縦軸: 導入コストと学習効率