Blog

Home > Blog > 音声処理

Qwen3-TTS: 思い通りの声を創り出すAI音声合成

Qwenチーム（Alibaba Cloud）は、最新の多言語対応音声合成（TTS）モデルシリーズ「Qwen3-TTS」を公開しました。本モデルは500万時間以上という圧倒的な規模の音声データで学習され、日本語を含む10言 […]

公開済み: 2026年2月4日
更新: 2026年1月31日
作成者: Tomonobu Inayama
カテゴリー: プログラミング, 人工知能
タグ: Python, 機械学習, 深層学習, 音声処理

Omnilingual ASR: 1600言語以上対応！オープンソース音声認識モデル

音声認識技術（ASR: Automatic Speech Recognition）の進化は目覚ましいものがありますが、その恩恵はインターネット上でリソースが豊富な一部の言語に偏重しており、世界の7,000以上の言語の大部 […]

公開済み: 2025年11月22日
更新: 2025年11月20日
作成者: Tomonobu Inayama
カテゴリー: プログラミング, 人工知能
タグ: Python, 機械学習, 深層学習, 音声処理

音声ディープフェイク検出の最前線

深層学習の目覚ましい進化は、音声合成技術に革命をもたらしました。これは、パーソナライズされた仮想アシスタントの実現や、発話能力を失った方々が再び「声」を取り戻す手助けをするなど、計り知れない利益をもたらす可能性を秘めてい […]

公開済み: 2025年9月10日
更新: 2025年9月6日
作成者: Tomonobu Inayama
カテゴリー: 人工知能
タグ: ディープフェイク, 機械学習, 深層学習, 生成AI, 音声処理

LiteASR: 低ランク近似による効率的な自動音声認識の実現

近年、OpenAIのWhisperに代表される大規模な自動音声認識（ASR）モデルが目覚ましい発展を遂げていますが、その計算コストの高さが実用上の課題となっています。特に、リアルタイム処理やリソース制約のある環境での利用 […]

公開済み: 2025年3月15日
更新: 2025年3月9日
作成者: Tomonobu Inayama
カテゴリー: プログラミング, 人工知能
タグ: Python, 文献紹介, 深層学習, 音声処理

[data-arkb-linkbox]{cursor:auto}[data-arkb-link][aria-hidden="true"]{visibility:visible;color:transparent;z-index:0;width:100%;height:100%;pointer-events:auto}a.arkb-boxLink__title{text-decoration:underline}