Question 1

DeliverCC はどの字幕形式を書き出しますか。どれを使えばいいですか？

Accepted Answer

DeliverCC は1回の生成で4つの形式を作成します：SRT（YouTube、Vimeo、SNS 向けの汎用的な字幕形式）、VTT（HTML5 プレーヤー向けのウェブ動画標準）、SCC（米国の放送 TV 向けの Scenarist Closed Captions）、TTML（Apple Music 同期歌詞の方言で、レーベルが Apple Music に送信し、アプリで歌詞をカラオケ風にハイライトする行単位のファイル）。

Question 2

DeliverCC はセリフやアドリブも字幕にしますか、それとも歌った歌詞だけですか？

Accepted Answer

両方できます。字幕にしたいものをすべて貼り付けてください。歌詞、アドリブ、あらゆるセリフを入れれば、DeliverCC がすべてを整列します。放送用の字幕ファイルは歌でも話し言葉でもすべての単語を含む必要があるため、話している部分まで字幕にすることで、納品が完全かつ規定に準拠したものになります。

このツールはあなたが提供したテキストを整列するので、字幕にしたいものは貼り付ける内容の中に含まれている必要があります。歌詞シートにないアドリブは、自分で追加しない限り表示されません。

Question 3

動画の字幕と Apple Music の同期歌詞はどう違いますか？

Accepted Answer

この2つは別々の場所に向かいます。動画の字幕（SRT、VTT、SCC）は動画に付随します。画面の上にテキストを表示し、聞こえるすべてに同期し、動画が再生される場所ならどこでも機能します。SRT と VTT は YouTube、Vimeo、SNS 向け、SCC は米国の放送 TV 向けです。Apple Music の同期歌詞は、代わりに曲に付随します。トラックが再生される間、Apple Music アプリで1行ずつ流れてハイライトされる歌詞です。下にある同じタイミングのテキスト、2つの異なる行き先、そして両者は入れ替えできません。一方は動画の上に単語を描き、もう一方はストリーミングアプリの歌詞表示を動かします。

TTML（Timed Text Markup Language）は、タイミングの付いたテキストのための W3C 標準です。DeliverCC は TTML の Apple Music 同期歌詞の方言を生成します。再生に合わせて歌詞がハイライトされるよう Apple Music が使う、行単位の形式です。レーベルやディストリビューターが Transporter や iTunes Connect 経由で Apple に提出し、リリースの同期歌詞を有効にするファイルです。一般的な動画字幕用の TTML ではなく、動画の字幕でもありません。動画には SRT、VTT、SCC の出力を使ってください。

Question 4

Spotify の歌詞に DeliverCC を使えますか？

Accepted Answer

ファイルとしては使えません。Spotify がファイルを受け付けないからです。Spotify の同期歌詞は、すべて Musixmatch が管理しています。追加する唯一の方法は、Musixmatch でアーティストまたはレーベルのアカウントを認証し、Musixmatch のツールで歌詞を同期することで、それが Spotify に渡されます。完成した歌詞ファイルを Spotify に渡せるツールはありません。

Apple Music は異なります。権利者やディストリビューターが直接提出する、時間同期された TTML 歌詞ファイルを受け付けます。これがまさに DeliverCC が作るファイルです。そのため DeliverCC は、ファイルを受け付ける送り先に対応し、別のツールでの手作業が必要な側は扱いません。Instagram、Amazon Music、Tidal も Spotify と同じく Musixmatch を経由します。

Question 5

DeliverCC はどの言語に対応していますか？

Accepted Answer

DeliverCC は21の整列対応言語をサポートします：英語、スペイン語、ポルトガル語、韓国語、日本語、フランス語、ドイツ語、イタリア語、アラビア語、デンマーク語、オランダ語、フィンランド語、ヒンディー語、インドネシア語、ノルウェー語、ポーランド語、ロシア語、スウェーデン語、タイ語、トルコ語、中国語。各言語には最も適した整列モデルが使われます。非ラテン文字の言語（韓国語、日本語、アラビア語、ヒンディー語、タイ語、中国語）では、歌詞をローマ字表記ではなく曲本来の文字で提供する必要があります。

Question 6

音声認識ではなく強制アライメントを使う理由は？

Accepted Answer

音楽のボーカルは音声認識を破綻させます。不明瞭な発音、アドリブ、ハーモニー、オートチューン、言語以外の音、これらすべてが文字起こしの精度を下げ、出てくる結果が実際に歌われたものと一致しなくなります。

DeliverCC は別のアプローチを取ります。あなたが正しい歌詞、つまりアーティストが承認したバージョンを提供すると、システムは何が歌われたかを推測する代わりに、その歌詞をオーディオに整列します。字幕は歌詞シートに書かれたとおりを伝え、最も難しいボーカルでも維持される単語単位のタイミング精度を備えています。

Question 7

リリックビデオに DeliverCC を使えますか？

Accepted Answer

はい。字幕のタイミングを合わせるのと同じアライメントエンジンが、タイミングの付いた歌詞テキストを Premiere Pro、DaVinci Resolve、After Effects、Final Cut Pro へも書き出すので、すべての単語に手作業でキーフレームを打つ作業を省けます。見た目はあなたがデザインし、タイミングは DeliverCC が引き受けます。

Question 8

リリックビデオの書き出しはどの編集ソフトに対応していますか？

Accepted Answer

Premiere Pro（単語単位の SRT）、DaVinci Resolve と Final Cut Pro（共通の FCPXML）、After Effects（.jsx スクリプト）です。LRC と Enhanced LRC も、歌詞・カラオケプレーヤー向けに提供しています。

Question 9

リリックビデオの書き出しは別製品や別プランですか？

Accepted Answer

いいえ。すべての生成で、字幕と編集ソフト書き出しの両方を含むすべての形式を、無制限のダウンロードで受け取れます。リリックビデオ専用の別プランはありません。

Question 10

リリックビデオの書き出しは Apple Music の同期歌詞と同じものですか？

Accepted Answer

いいえ。Apple Music の同期歌詞は、Music アプリ用の行単位の TTML ファイルです。リリックビデオの書き出しは、編集ソフトに読み込んでデザインやアニメーションを行う、単語単位のタイミング付きテキストです。DeliverCC は同じアップロードから両方を作ります。

Question 11

歌詞は自分で用意しますか、それとも DeliverCC が文字起こししますか？

Accepted Answer

あなたが歌詞を用意します。DeliverCC は、文字起こしではなく歌詞シートを真実の源とする設計です。これは、ほとんどのレーベルがすでに使っているワークフローと一致します。字幕は、AI が録音から聞き取ったと思うものではなく、公式の歌詞に合わせて出ていきます。DeliverCC がタイミングを引き受け、単語が何を言うかはあなたが決めます。

Question 12

生成にはどのくらい時間がかかりますか？

Accepted Answer

一般的な生成は、生成をクリックしてから字幕が表示されるまで30〜60秒です。コールドワーカーでの最初のリクエストはインフラが起動する間に約90秒かかることがあり、ウォームワーカーでのその後のリクエストは一貫して速くなります。ほとんどのユーザーは通常の利用で60秒未満を体感します。

Question 13

生成後にアライメントを手動で編集できますか？

Accepted Answer

はい。すべての生成は、波形表示、ドラッグできるブロックの境界、ブロックごとのテキスト編集、完全な元に戻す／やり直しを備えたタイムラインエディターに届きます。ほとんどの曲は編集が一切不要です。編集が必要なとき（通常はアドリブやイントロの演奏部分）も、修正は数秒で済みます。編集内容は、選んだ形式の書き出し字幕ファイルに反映されます。

Question 14

DeliverCC はアドリブ、不明瞭なボーカル、プロデューサータグをどう処理しますか？

Accepted Answer

強制アライメントは、アドリブ、プロデューサータグ、不明瞭なボーカルを文字起こしツールより上手に処理します。DeliverCC はあなたが提供する歌詞に整列します。歌詞シートにアドリブが含まれていれば、ボーカルと一緒に自動でタイミングされます。歌詞シートで省いた場合（「yeah」や「mmm」などの合いの手では普通のことです）、周りの単語はそのまま正しく整列します。生成後にアドリブを追加または削除したい場合は、タイムラインエディターでどのブロックのテキストでも編集し、タイミングを手動で調整できます。

Question 15

何をアップロードできますか。サイズ制限はありますか？

Accepted Answer

DeliverCC は標準的なオーディオ形式（MP3, WAV, FLAC, AAC, M4A, OGG）と動画形式（MP4, MOV, M4V, WebM, AVI, MKV）を受け付けます。アップロードは 500 MB、長さ15分までに制限されています。DeliverCC が動画アップロードからオーディオを自動的に取り出します。ミュージックビデオ編集者へのヒント：元の動画書き出しファイルは数ギガバイト（500 MB 制限超）になることがあるので、編集ソフトからオーディオのみを書き出すのが最も速い方法です。5分の MP3 は通常10 MB 未満です。

Question 16

字幕を生成した後、私のオーディオはどうなりますか？

Accepted Answer

オーディオファイルは、アップロードから約14日後に DeliverCC のストレージから自動的に削除されます。これは、プロジェクトの確認と修正の段階をカバーする期間です。

生成された字幕ファイルは、自分で削除するまでアカウントに残ります。あなたのオーディオや歌詞が、いかなるモデルの学習にも使われることはありません。完全な保持ポリシーはプライバシーポリシーに記載されています。

Question 17

クレジットの仕組みはどうなっていますか？

Accepted Answer

クレジット1つは字幕の生成1回に相当し、同じアライメントデータから生成された4つの書き出し形式すべてを含みます。月額プランは毎月リセットされます：Creator は5クレジット、Studio は12、Label は30です。Pay-as-you-go クレジットは1つずつ購入でき、有効期限はありません。月の途中で足りなくなったら、Pay-as-you-go クレジットを購入するか、上位プランにアップグレードできます。超過料金や形式ごとの料金はありません。

形式	内容	使用場所
SRT	汎用的な字幕形式。プレーンテキスト、シンプルなタイムコード	YouTube、Vimeo、Facebook、Instagram、TikTok、ほとんどの動画編集ソフト
VTT	ウェブ動画の標準。WebVTT 形式	HTML5 動画プレーヤー、ウェブ埋め込み
SCC	Scenarist Closed Captions。CEA-608 放送標準	米国の放送 TV（CBS、NBC、ABC、Fox）
TTML	Timed Text Markup Language。Apple Music 同期歌詞の方言（行単位）	Apple Music の同期歌詞。レーベルがディストリビューター経由で送信し、Apple Music アプリでカラオケ風のハイライトを有効にするファイル

DeliverCC の仕組み。

技術と形式

リリックビデオの書き出し

ワークフロー

アップロードとファイル形式

信頼と実務面