Qwen3-TTS: 思い通りの声を創り出すAI音声合成

Qwenチーム(Alibaba Cloud)は、最新の多言語対応音声合成(TTS)モデルシリーズ「Qwen3-TTS」を公開しました。本モデルは500万時間以上という圧倒的な規模の音声データで学習され、日本語を含む10言 […]

Omnilingual ASR: 1600言語以上対応!オープンソース音声認識モデル

音声認識技術(ASR: Automatic Speech Recognition)の進化は目覚ましいものがありますが、その恩恵はインターネット上でリソースが豊富な一部の言語に偏重しており、世界の7,000以上の言語の大部 […]

音声ディープフェイク検出の最前線

深層学習の目覚ましい進化は、音声合成技術に革命をもたらしました。これは、パーソナライズされた仮想アシスタントの実現や、発話能力を失った方々が再び「声」を取り戻す手助けをするなど、計り知れない利益をもたらす可能性を秘めてい […]

LiteASR: 低ランク近似による効率的な自動音声認識の実現

近年、OpenAIのWhisperに代表される大規模な自動音声認識(ASR)モデルが目覚ましい発展を遂げていますが、その計算コストの高さが実用上の課題となっています。特に、リアルタイム処理やリソース制約のある環境での利用 […]