オオカミおじさんの世界は広いし人間もいろいろ: FramePackでテキストからAI動画を作る方法をAIに教えてもらった

2026年1月12日月曜日

FramePackでテキストからAI動画を作る方法をAIに教えてもらった

私：

FramePackは画像からAI動画を作れますが、テキストだけではダメですよね。テキストからAI動画を作るためには、FramePackでは無理ですか？

Grok：

FramePackは基本的に「画像 + テキストプロンプト」から動画を生成するI2V（Image-to-Video）ツールとして設計・公開されています。公式のオリジナル実装（lllyasviel/FramePack）では、純粋なテキストだけ（Text-to-Video = T2V）で最初から動画を生成するのは標準ではサポートされていません。

（最初のフレームが必要で、たいていはユーザーが画像をアップロードする形です）ただし、2025年後半〜2026年現在では状況が少し変わってきていて、以下の方法でテキストだけから（ほぼT2Vのように）使うことが可能になっています。FramePackでテキストだけから動画を作る主な現実的な方法（2026年1月現在）方法

1. 真っ黒/真っ白/ノイズ画像を初期フレームとして使う

★☆☆

★★★☆☆

何でも良い（Paintで黒塗りでOK）

最も簡単。多くの人がこれで「擬似T2V」として使っている

2. FramePack-F1 + ComfyUI専用ワークフロー

★★☆

★★★★☆

ComfyUI + カスタムノード

公式より柔軟。最初のフレームがなくても動きやすい

3. FramePack Studio などのフォーク/拡張版

★★☆

★★★★☆

専用アプリ or ComfyUI

T2Vモードが明示的に入っているものが多い（黒画像自動生成など）

4. 公式のP1版（開発中/一部公開）

★★★

★★★★☆〜★★★★★

最新GitHubチェック

純粋T2Vのstress-test結果が公開されているが、まだ本格実装は限定的

おすすめの始め方（一番簡単な順）公式FramePackのWindows一括インストール版を使う（今最も手軽）黒い画像（真っ黒PNG）を「初期画像」としてアップロード

プロンプトにしっかり動きを詳細に書く（例：「A black screen slowly fades into a dancing girl in red dress, camera panning right, cinematic lighting」）

これでかなりの人が擬似テキスト→動画を実現しています

ComfyUI + FramePack-F1-T2Vカスタムノードを使うdorpxam/ComfyUI-FramePack-F1-T2V などのコミュニティノードを入れる

ここは明確にT2V設定が用意されている場合が多く、初期画像なしモードも多い

FramePack Studio（FP-Studio/framepack-studio）系「T2Vモード」対応を明記しているフォーク

黒/白/ノイズ/グリーンバック自動生成機能付きのものが多い

結論（シンプルに言うと）純粋なテキストだけ（画像ゼロ）で完璧に動く → 公式FramePack標準では無理です

でも実際には「真っ黒画像 + 詳細プロンプト」で十分実用的なT2Vとして使えます（ほとんどの人がこうしています）

本気で綺麗なT2Vがしたいなら、今はWan 2.2 T2V または HunyuanVideo 1.5 T2V をComfyUIで直接使う方が画質・動きともに上です（VRAMは12〜16GB以上推奨）

＝＝＝＝＝＝＝

頭のいい人たちはいるもので、最初の画像を真っ黒にして、あとから編集でその黒いところを削除すればいいわけです。

AIに聞けば、いろいろと教えてもらえて便利です。