ステップ2:WAVファイルを使ってSTTを試す

◆ ステップ2:WAVファイルを使ってSTTを試す ◆

このステップでは、Azure Speech-to-Text(STT)API を使って、既存のWAVファイルをテキストに変換 します! 🎤 → 📝

① 事前準備

✅ 1. 必要なライブラリをインストール

まず、仮想環境をアクティブ化し、必要なライブラリをインストールします。

pip install azure-cognitiveservices-speech

インストール完了後、次へ進みます

✅ 2. 音声データ(WAVファイル)の準備

  • 方法1:既存のWAVファイルを使用
    • すでに sample_audio.wav というWAVファイルがある場合、そのまま利用
  • 方法2:新しく音声を録音
    • Windows: 「ボイスレコーダー」アプリを使用
    • macOS: 「QuickTime Player」 → 「新規オーディオ録音」
    • スマホ: 標準の録音アプリで「Hello, this is a test.」と言って録音
  • ファイル形式をWAVに変換
    • Audacity や FFmpeg を使って sample_audio.wav に変換

音声データの準備ができたら、次へ進みます!

② PythonでSTTを実装

PyCharmで新しいPythonスクリプトを作成し、以下のコードを実行してください。
stt_from_wav.py という名前でファイルを作成)

📝 stt_from_wav.py

コードを保存し、次へ進みます

③ 実行と結果確認

  1. スクリプトを実行
python stt_from_wav.py
  1. 期待される出力
    • 成功すると ✅ 認識結果: <変換されたテキスト> が表示される
    • エラーが出た場合、メッセージを確認

問題が出たので確認した箇所 ①

サンプルレートが16000Hz でないとうまく認識しないらしい。
Azureの推奨のようです。変換して再度確認したところまた上手くいかなかった。

問題が出たので修正した箇所 ②

無音時間が長かった場合、無音時間で終了してしまうこともあるとの事。(繊細過ぎて使えないので恐らく設定がありそうだけど、今回は音声を文字に起こして翻訳して音声に先ずはしてみようってコンセプトなので無視する。調査だけ行った。以下図より。


無音時間や、起動時の雑音などが入ってたので、削除する。(上:削除前、下:削除後)



sample_jp.wav を使用した場合

sample_jp_trimming.wav を使用した場合

すると正常に音声データから文字おこしがおこなえた。

✅ スクリプトを実行して音声認識できればステップ2完了。次のステップを試す。

  >>>> ステップ3:WAVファイルを使ってSTTからTTSを試す