150分の音声をたった98秒で文字起こし!爆速Whisper体験 — insanely-fast-whisper
insanely-fast-whisperは、OpenAIの音声認識AI「Whisper」を自分のパソコン上で驚異的な速さで動かせるコマンドラインツールです。通常なら30分以上かかる2.5時間分の音声の文字起こしを、わずか約1分半で完了できます。Hugging Face社のTransformersライブラリとFlash Attention 2という高速化技術を組み合わせることで、この圧倒的なスピードを実現しています。NVIDIA製のGPU(グラフィック処理装置)やApple Silicon搭載のMacを持っている人なら、ターミナル(黒い画面)からコマンド1つで簡単に使い始められます。動画制作者、ポッドキャスト配信者、議事録作成が必要なビジネスパーソンなど、大量の音声を素早くテキスト化したい人に最適なツールです。
🔥 なぜ話題?
AIによる音声認識の精度が飛躍的に向上した今、次の課題は「速度」であり、insanely-fast-whisperは150分の音声を98秒で処理するという衝撃的なベンチマークを示したことで注目を集めています。特にクラウドAPIに頼らずローカル環境で高速処理できる点が、コスト面やプライバシー面を重視するユーザーから支持されています。
💡 こう使える!
例えば、2時間の社内会議を録音したファイルがあるとき、insanely-fast-whisperにそのファイルを渡すだけで、約2分足らずで全文の文字起こしがJSON形式で保存されます。さらに話者分離(ダイアライゼーション)機能を使えば、「Aさんの発言」「Bさんの発言」と誰が話したかも自動で分けてくれるので、議事録作成の手間が大幅に減ります。
ユースケース: 会議の録音やポッドキャスト、YouTube動画などの音声を素早くテキストに変換したいときに使うツール
- 150分の音声をわずか約98秒で文字起こし可能(Nvidia A100使用時)
- コマンド1つで使えるシンプルなCLIツール
- 話者分離(誰が話したか識別する機能)にも対応
- NVIDIA GPUとMac(Apple Silicon)の両方で動作
- Flash Attention 2による最大15倍以上の高速化