【完全無料】Apple Podcastを自動で文字起こし!話者分離もできるGoogle Colab活用術
🎙️ 【完全無料】Apple Podcastを自動で文字起こし!話者分離もできるGoogle Colab活用術
ポッドキャストを聴きながらメモを取るのは大変ですよね。今回は、Apple PodcastのURLを貼るだけで「誰が何を話したか」まで区別した文字起こしテキストが自動生成される仕組みを、Google Colab上に構築しました。プログラミング経験がなくても、この記事の手順通りに進めれば動かせます。
🚀 今すぐ使ってみる
ノートブックはGitHubで公開しています。ボタンからすぐに試せます。
🎯 このツールでできること
ざっくり言うと、以下の流れが全自動で走ります。
| ステップ | 処理内容 | 使用技術 |
|---|---|---|
| ① | Apple PodcastのURLから音声ファイルを取得 | iTunes API + RSSフィード |
| ② | 音声をWAV形式に変換 | ffmpeg |
| ③ | 音声→テキストに文字起こし | faster-whisper (large-v3) |
| ④ | 「誰が話しているか」を識別 | pyannote.audio(話者分離) |
| ⑤ | テキストと話者情報を結合してtxt出力 | Python |
🔧 事前準備
Hugging Faceアカウントの作成(無料・5分)
話者分離に使うAIモデル(pyannote)を利用するために、Hugging Faceという機械学習モデルの共有プラットフォームで無料アカウントを作成します。
アカウント作成
https://huggingface.co/join にアクセスして、メールアドレスとパスワードで登録します。GoogleアカウントやGitHubアカウントでのサインアップも可能です。
登録後、確認メールが届くので必ずリンクをクリックしてください。これをしないと次のステップに進めません。
アクセストークンの発行
https://huggingface.co/settings/tokens にアクセスして「Create new token」をクリックします。
- Token name:何でもOK(例:
colab-whisper) - Token type:
Read(読み取り専用)
作成されたトークン(hf_xxxxxxxxxxxxという形式)をコピーして控えておいてください。一度しか表示されません。
AIモデルの利用規約に同意(3つ)
以下の3つのURLにログイン済みの状態でアクセスし、それぞれ「Agree and access repository」をクリックします。Company/universityとWebsiteの入力欄がありますが、個人利用であれば「personal use」や自分のブログURLなどで問題ありません。
審査はなく、同意すればすぐにアクセスできます。
💻 Google Colabのセットアップ
ノートブックを開いてGPUを有効化
ノートブックをColabで開く
以下のボタンをクリックすると、Google Colabでノートブックが直接開きます。
または、GitHubリポジトリからノートブックファイル(.ipynb)をダウンロードして、Google Driveにアップロードする方法でもOKです。
GPUを有効にする(重要!)
メニュー → 「ランタイム」 → 「ランタイムのタイプを変更」 → ハードウェアアクセラレータを「T4 GPU」に変更 → 保存
これを忘れるとCPUで実行され、文字起こしに非常に時間がかかります。
パッケージのインストール
ノートブックのSTEP 1セルを実行します。約2〜3分でインストールが完了します。完了後、「ランタイム」→「セッションを再起動する」を実行してください。
再起動後は、STEP 1を飛ばしてSTEP 2から実行します(インストール済みのパッケージは再起動後も残っています)。
Hugging Faceトークンの設定
Colabの左サイドバーにある🔑(鍵アイコン)をクリックし、以下を設定します。
- 名前:
HF_TOKEN - 値:STEP 2で控えたトークン(
hf_xxxx...) - ノートブックからのアクセス:ONにする
一度設定すれば、以降どのノートブックでも自動的に読み込まれます。
▶️ 実際に動かしてみる
文字起こしの実行
設定セル(STEP 3)の編集
PODCAST_URLにApple PodcastのエピソードURLを貼り付けます。
PODCAST_URL = “https://podcasts.apple.com/jp/podcast/xxx/id1234567890?i=1000654321”
# Whisperモデル(large-v3が最も高精度)
WHISPER_MODEL = “large-v3”
# 話者数(わかっていれば指定すると精度UP)
NUM_SPEAKERS = 2 # 対談なら2、一人語りなら1
実行セル(STEP 4)の▶ボタンを押す
あとは待つだけです。以下の順番で処理が進みます。
- 📡 RSSフィードの取得 → エピソード特定
- ⬇️ 音声ファイルのダウンロード
- 🔄 WAV形式への変換
- 🎙️ faster-whisperで文字起こし(初回はモデルDLに数分)
- 👥 pyannoteで話者分離
- 🔗 テキストと話者情報の結合
- 💾 txtファイルに保存
・30分の音声 → 約3〜5分
・1時間の音声 → 約6〜12分
※初回はWhisperモデル(約3GB)のダウンロードがあるため+数分かかります。
📄 出力結果のイメージ
完了すると、以下のような形式のテキストファイルが生成されます。
「SPEAKER_00」「SPEAKER_01」は自動的に割り振られる識別名です。ノートブックの最後のセルで「ホスト」「ゲスト」など実際の名前に置換することもできます。
💡 使いこなしのコツ
精度を上げるためのポイント
1. 話者数は指定した方がいい
NUM_SPEAKERSをNone(自動検出)のままでも動きますが、対談番組なら2、3人トークなら3と明示した方が話者分離の精度が格段に上がります。
2. Whisperモデルの使い分け
| モデル | 精度 | 速度 | おすすめ用途 |
|---|---|---|---|
| medium | ○ | 速い | ざっくり内容を把握したいとき |
| large-v3 ★ | ◎ | 標準 | 日本語ポッドキャストに最適 |
3. URLが使えないポッドキャストの場合
一部のポッドキャストはRSSフィードを非公開にしていて、URLから音声を取得できないことがあります。その場合はPODCAST_URLを空欄にしてセルを実行すると、ファイルアップロードのダイアログが表示されます。手元にダウンロードした音声ファイル(MP3/M4A/WAV)を直接アップロードして処理できます。
4. 文字起こし結果の活用方法
生成されたテキストはそのまま以下の用途に使えます。
- Claude等のAIに渡してブログ記事の下書きを作成
- 議事録や要約の作成
- ポッドキャストの内容を検索可能にする
- 翻訳にかけて海外向けコンテンツにする
🔧 トラブルシューティング
よくあるエラーと対処法
Q. インストール後にnumpyのエラーが出る
→ 「ランタイム」→「セッションを再起動する」を実行してから、STEP 2以降を再実行してください。パッケージ更新後のメモリ上の不整合が原因です。
Q. 「403 Forbidden」「GatedRepoError」と出る
→ Hugging Faceで3つのモデルすべてに利用規約の同意が必要です。特にspeaker-diarization-community-1を忘れていないか確認してください。
Q. 「torchvision::nms does not exist」と出る
→ STEP 1に !pip install -q torchvision --force-reinstall を追加してから、再度「セッションを再起動」で解消します。
Q. サンプル数のValueErrorが出る
→ MP3ファイルの再生時間情報のずれが原因です。音声ダウンロード後にffmpegでWAV形式に変換するコードを追加してください(本記事配布のノートブックでは対応済みです)。
Q. 話者分離の結果が不正確
→ NUM_SPEAKERSに正確な話者数を指定してみてください。BGMや効果音が多い番組は分離精度が下がる傾向があります。
📝 まとめ
今回は、Google Colabの無料GPU環境を使って、Apple Podcastの音声を話者分離つきで自動文字起こしするワークフローを構築しました。
・完全無料(Google Colab + Hugging Face)
・高性能PC不要、ブラウザだけでOK
・URLを貼って▶を押すだけのシンプル操作
・「誰が話したか」まで自動で識別
・生成したテキストをAIに渡せばブログ記事も自動生成可能
50代からの学び直しでも、こうした最新のAIツールを組み合わせることで、これまで手作業で何時間もかかっていた作業がボタン一つで完了します。「プログラミングは難しそう」と感じるかもしれませんが、Google Colabなら環境構築なしにコピー&ペーストで動かせるので、ぜひ挑戦してみてください。
📂 ツールのダウンロード・ソースコード
この記事で紹介したノートブックはGitHubで公開しています。
Colabボタンからワンクリックで実行環境が開きます。
⭐ 役に立ったらGitHubでStarをいただけると励みになります
Google Colab:Googleが提供する無料のクラウドPython実行環境。GPUも無料で利用可能。
faster-whisper:OpenAI Whisperを高速化したオープンソースの音声認識エンジン。
pyannote.audio:フランスCNRS(国立科学研究センター)で開発された話者分離AI。
Hugging Face:機械学習モデルのオープンプラットフォーム。本ツールのモデルの配布元。

