600コイン/月以上支援すると見ることができます
6
600コイン/月以上支援すると見ることができます
6
全体公開
今回は、元画像からテキスト指示で画像を編集できるQwen Image Editを試してみました。 例によって、差分の画像をStart-Endにフレーム指定して動画を作るのに便利、という動機からです。 まずは元画像としていつものようにAnim4gineで画像を用意します(2枚目)。 これを3枚目の画像のようにしてQwen Image Editのワークフローにセットします。 プロンプトとしては、「背景だけをフォトリアルな森の画像に差し替えてください」みたいな自然文をgoogle翻訳で英語にしたものを使ってみました(4枚目)。 今度は4枚目の画像を元にして、「キャラクターを削除して背景だけにしてください」とすると、5枚目のような森の風景だけの画像になりました。消しゴムマジックみたいなことができますね。 さらに「キャラクターを削除するけど、線画だけは残してくれ」としてみたのが6枚目で、そこから「背景を夜にして、線画を光らせてくれ」としたのが1枚目、といった感じです。 nano bananaほど指示がきれいに反映されるというわけではなく、融通が利かないところもあるんですが、これをローカルのPCで使い放題というのは結構楽しいです。 いろいろ試してみたくなりますね。
5
600コイン/月以上支援すると見ることができます
5
600コイン/月以上支援すると見ることができます
5
600コイン/月以上支援すると見ることができます
5
600コイン/月以上支援すると見ることができます
5
600コイン/月以上支援すると見ることができます
6
600コイン/月以上支援すると見ることができます
3
全体公開
前回はWan2.2のS2Vモデルを使って、セリフ音声と画像から、読み上げ動画を作りましたが、今回はセリフ音声と動画から、読み上げ動画を作ってみます。 前回のはWan2.2 S2Vで1枚の画像から動画を生成したのですが、口元以外の箇所はあまり動かないというか、ほぼ口パク動画、みたいな感じでした。 今回は人物がなにか動いている動画をもとに、口元をセリフに合わせて口パクさせるというもので、動きのある読み上げ動画を作る場合はこちらの方が良いようです。 こういった手法はVideo to Video(V2V)と呼ばれているようですね。 読み上げのためのV2VにはInfiniteTalkを用いてみました。 InfiniteTalkはまだWan2.2には対応していないので、Wan2.1と組み合わせて使ってみています。 2枚目の画像がInfiniteTalkを使うためのComfyUIのワークフローで、画面下の方で元となる動画(1枚目)を指定しています。 セリフ音声は上の方(音声を読み込む、のところ)に指定してみています。 3枚目もワークフローの一部で、真ん中のあたりにプロンプトを指定しています。この手法の場合、キャラクターの見た目も動きも動画で指定しているので、プロンプトは簡単に「The woman turns to me, stretches her body, and speaks with a smile.」(その女性は私の方を向き、体を伸ばして、笑顔で話します)としました。 あとは実行すると、セリフ音声に合わせて口元の動きが調整されます。
7
600コイン/月以上支援すると見ることができます
6
600コイン/月以上支援すると見ることができます
5
600コイン/月以上支援すると見ることができます
6
600コイン/月以上支援すると見ることができます
6
600コイン/月以上支援すると見ることができます
3
全体公開
今回はWan2.2のS2Vモデルを使って、セリフ音声と画像から、読み上げ動画を作ってみました。 S2Vは、音声からそれに合った動画を生成するものですが、元画像を指定するとそれをもとにI2Vのように画像に沿った動画を生成してくれます。 前回使った魔法少女画像の顔アップ(2枚目)を元画像に指定し、音声として「魔法少女Muacca、いつもみんなと楽しく、ですです」という読み上げ音声を指定してできたのが1枚目の動画です。 残念ながらちちぷいには音声付の動画は投稿できないので、口パクだけになってしまいますが、元画像のキャラがなにかしゃべっている感じになっているのは分かるかと思います。 Wan2.2 S2Vですが、UIとしては公式から配布されているComfyUIワークフローを用いて実行しました(3枚目)。 基本的にはデフォルト値のままで使うのがいいようです。 ちなみに16fpsが指定されているのですが、これを30fpsとかにすると音声と口パクがズレるので、変えないほうが良いようです。fpsを変更したい場合は、生成した動画を別のツールでフレーム補間すればよいと思います。 あと、公式の情報では生成される動画は77フレーム分と書いてあって、これは変更しないほうが良いとのことでした。16fpsだと4秒くらいの動画になるはずなのですが、結果として生成されたのは14秒くらいのものだったので、それがなぜなのかはよくわかりません。投入した音声は4秒くらいだったので、ここに投稿しているものは後ろの無音声部分をカットしてあります。
5
600コイン/月以上支援すると見ることができます
7
600コイン/月以上支援すると見ることができます
5
600コイン/月以上支援すると見ることができます
2
600コイン/月以上支援すると見ることができます
4
全体公開
今回はEasyWan22でEndImageを指定して動画生成してみました。 いままでは動画の元画像をStartImage(最初の1枚)だけに指定していましたが、動画の最後の1枚(EndImage)も指定すると、どういう動画にするのかのコントロールがやりやすくなります。 2枚目の普段着のMuaccaさん画像と、3枚目の魔法少女風なMuaccaさんを使って試してみます。 4枚目の画像がEasyWan22のワークフローで、黄色い丸で囲んだノード「UseEndImage」の「Enable EndImage」を「yes」にします。デフォルトでは「no」になっているので、それをクリックして「yes」にかえてください。 そうするとその下にある「EndImage」ノードがアクティブになるので、そこに最後の1枚の画像を指定します。 上記のようにStartImageとEndImageを指定して生成したのが1枚目の動画です。普段着からだんだん魔法少女っぽい衣装に切り替わっていく感じになりましたね! ↓ちなみに以下が動画生成時のプロンプトです。ご参考まで。 ========== An elf girl spins clockwise. As she spins, her clothes change into a cute magical girl outfit, emitting magical effects. Countless pop star patterns around her continue to rotate and rise into the sky. The girl's hair and outfit flutter gently in time with her movements. The color intensity does not change.
5
600コイン/月以上支援すると見ることができます
5
600コイン/月以上支援すると見ることができます
2
600コイン/月以上支援すると見ることができます
4
600コイン/月以上支援すると見ることができます
600コイン/月以上支援すると見ることができます
600コイン/月以上支援すると見ることができます
5
全体公開
前回はお試しだけでしたが、今回はEasyWan22の基本的な使い方についてです。 まずは動かしたい元画像を用意します(2枚目)。これは普通に生成AIで出力してもいいですし、手書きでも写真でもOKです。(個人的な利用ではない場合、権利関係は気を付けましょう) EasyWan22を起動すると、ComfyUIのワークフロー画面が開きます(3枚目)。 大量に箱や線がありますが、その全部を理解しなくても動画は生成できますので、大丈夫です。 ワークフローの中から、「StartImage」と書かれた「ノード」を探します。ノードというのは緑色や茶色をした四角い箱のような表示のもので、それぞれ画像や動画を生成するための役割と設定値を持っています。 「StartImage」は茶色の箱で、そこに何らかの画像をドラッグ&ドロップすると動画の元画像として設定されます。 (左側の黄色い〇の部分が「StartImage」のノード) なお、EasyWan22では主に茶色のノードに設定をするだけで、基本的な使い方はできるように組まれています。 設定をカスタマイズする場合でも、緑色のノードを触るくらいで良いように、整理してくださってます。 次に、今度は「PositiveInput」のノードを探します(右側の黄色い〇の部分が「PositiveInput」のノード)。 ここにどういう動画にしたいかの説明を入力します。EasyWan22の場合、ここの入力は日本語の自然文でOKです。 いろいろ試したところ、SD1.5系やSDXL系の画像生成と異なり、タグの羅列を入力するよりは、自然文で単語と単語の関係性を明示する方が、意図に近い結果を得ることができるようです。 また、日本語よりは英語や中国語で入力する方が文意通りの結果になりやすいようです。ここは学習量の差だと思います(Wan2.2は中国発のAIモデルという事情から)。 もし英語や中国語でテキストを入力したい場合は、Google翻訳などを用いるといいようです。 ちなみに、EasyWan22では翻訳機能のノードも用意されているので、自動で翻訳したテキストをプロンプトとして使ってもらうこともできます。 元画像とプロンプトをセットした状態で、3枚目の右下の再生ボタンを押下すると、動画の生成が始まります。 パソコンの性能や生成する動画の縦横サイズによりますが、3秒くらいの長さの動画が1分程度で生成される感じです。 今回生成してみたものが1枚目の動画です。 また、動画を生成した際に、合わせてEndFrameも静止画webpファイルとして出力されます(4枚目)。 これを5枚目のように、今度は「StartImage」ノードにセットして動画を生成することで、続きを出力させることができます。 ただ、何度も生成させているとだんだん絵柄がある一定の方向に寄って行くのと、なぜか色合いが濃い目の高彩度にシフトしていくクセがあるようなので、何度も繰り返しEndFrame指定生成するのは微妙なのですが…。
6
全体公開
良いイラストだったけどボツになったイラストです。 基本R18な感じにしてしまうのでメンバーシップのR18のタブを見ていただけると嬉しいです。(無料ばっかり)
4
600コイン/月以上支援すると見ることができます
600コイン/月以上支援すると見ることができます
600コイン/月以上支援すると見ることができます
600コイン/月以上支援すると見ることができます
5
600コイン/月以上支援すると見ることができます
2
600コイン/月以上支援すると見ることができます
600コイン/月以上支援すると見ることができます
3
全体公開
いままで画像の動画化(i2v)にはFramePack-eichiを用いていましたが、最近Wan2.2が出てきたのでそのお試しをしてみました。 元のWan2.2をComfyUIで自力で四苦八苦して使おうとしたのですが、なかなかうまくいかず。 ZuntanさんがComfyUIのワークフローなどを取りまとめてくださっているEasyWan22を使うことにしました。 EasyWan22 - GitHub https://github.com/Zuntan03/EasyWan22 とりあえずインストールして、2枚目の画像(これはFooocus + Anim4gineで生成)をもとに動画化したのが1枚目の動画です。 EasyWan22経由でComfyUIを起動して…i2vする画面は3枚目みたいになっています。 用意されているワークフロー(ComfyUIではいろいろなノードを組み合わせて処理を実行できるようにしたものをワークフローと呼びます)はかなり複雑なもので、動画化だけでなくモザイク処理や高解像度化など、いろいろとできるようになっているみたいですが…。 ワークフローのあちこちに、Zuntanさんの解説メモが置いてあるので、それを熟読しながらぽちぽちすると、動画化できる…みたいな感じでした。
600コイン/月以上支援すると見ることができます
600コイン/月以上支援すると見ることができます
600コイン/月以上支援すると見ることができます
5
600コイン/月以上支援すると見ることができます
5
600コイン/月以上支援すると見ることができます
5
600コイン/月以上支援すると見ることができます
5
600コイン/月以上支援すると見ることができます
5
全体公開
FramePackでの動画出力、VRAMが6GBくらいしか使わないので比較的安価なGPUでも実行できるのはありがたいですよね。 ただ、GPUの性能にもよりますが長い秒数の動画を生成しようとすると時間がかかるというのは仕方がないところがあります。長い生成時間が終わった後、さあどんな動画ができたかな?と確認してみるとぜんぜんダメダメだったり…そういうことって、結構あると思います。 あと、長い尺の動画だと絵柄がだんだん変わってしまったり、プロンプトの意図とは違う動きになったりとそういうことも起きやすい気がするんですよね。感覚的には4~10秒くらいに抑えておく方が時間が無駄にならなくていい気がします。 ということで、普段は短めの動画を生成しておいて、それをいくつかAviUtil ExEdit2などで編集してつないだりしているのですが、FramePack-eichiには生成済みの動画を、次に生成する別の動画の後ろにくっつけてくれる「テンソルデータを使用する」という機能があるので、それを試してみました。 まずはテンソルデータを用意します。 テンソルデータというのは、生成AIが何かを生成する際の中間ファイルだったりAIの重みのファイルだったりするのですが、FramePack-eichiでは生成した動画の中間ファイルを保存してくれるオプションがあります。 2枚目の画像がFramePakc-eichiのUIですが、その中の「完了時にテンソルデータ(.safetensors)も保存」というオプションがあるので、そこにチェックを入れておきます。 その状態で動画を生成すると、出力先フォルダに「.safetensors」という拡張子のファイルが保存されるようになります。(3枚目) ちなみに、今回、このとき生成した動画が4枚目です。 さて、今度は保存したテンソルデータを指定して動画生成しましょう。 5枚目のっ画像がテンソルデータの指定オプションのUIですが、「テンソルデータを使用する」のチェックをオンにすると、その下にいろいろと詳細なオプションが出てきます。 「テンソルデータをアップロード(.safetensors)」の欄に、さきほど保存しておいたテンソルデータをドラッグ&ドロップすると、セット完了です。 なお、「テンソルデータと生成動画のスムーズ結合機能」というもう少し細かい設定のできる欄もありますが、ここは「補間フレーム数」に「6」を設定しておくくらいでいいみたいです。あとは好みで「テンソルデータの先頭の削除フレーム数」とかも設定するといいみたいです。(今回は0のままにしました) このテンソルデータを指定した状態で、新規に生成したのが1枚目です。後ろの部分に4枚目の動画が結合されているのがわかりますね。 今回は同じ元画像、同じプロンプトで結合してみましたが、シーンの異なるパターンだとどうなるのかなど、気になりますね。また機会があれば試してみたいと思います。
5
600コイン/月以上支援すると見ることができます
600コイン/月以上支援すると見ることができます
600コイン/月以上支援すると見ることができます
3
600コイン/月以上支援すると見ることができます
5
600コイン/月以上支援すると見ることができます
5
600コイン/月以上支援すると見ることができます
4
全体公開
以前の記事で、FramePackで生成した動画から画像を切り出してそれをポーズ違いの画像として用いる方法として、Windowsの「フォト」アプリでの切り出し方法について書いたことがあるのですが、よく見ると動画の各フレーム画像を全部保管してくれるオプションがあったので、今回はその説明をします。 以前の記事はこちらから↓ 「020:FramePackをポーズ変更ツールとして使う」 https://membership.chichi-pui.com/posts/images/d84e1e0b-b15e-4286-92f0-1fbde090ce6b/ 1枚目の動画が、今回生成したものになります。 その生成の際に、2枚目の画像の黄色い枠で囲んだところの設定、「フレーム画像保存設定」という箇所の「全フレーム画像保存」を選択すると、outputsフォルダとして指定されているフォルダに、動画の1枚1枚の画像が連番付きで保存れます。(3枚目) 1フレーム1フレームの動きの差分は小さいので、わかりやすくするために、その中から0.1秒間隔くらいの飛び飛びで9枚ピックアップして並べてみたのが4枚目です。キャラの動きが別ポーズとして出力されている感じがわかるかと思います。 動画の解像度は生成速度のこともあるので544×704と結構低めなので、これをFooocusなどの画像生成ツールで高解像度化して使うとよいと思います。便利ですね。 ↓今回の動画生成時のプロンプトです。ご参考まで。 ========== A character dancing slowly, her soft breasts bouncing wildly, arms gesture up and down, expressively pointing confidently, and sweeping dramatically through the air, sways upper body from side to side, wiggles hips. Below are the instructions for the entire video: 1. The style of painting does not change. 2. The character's facial expression does not change. 3. bouncing breasts.
6
600コイン/月以上支援すると見ることができます
2
600コイン/月以上支援すると見ることができます
600コイン/月以上支援すると見ることができます
600コイン/月以上支援すると見ることができます
5
600コイン/月以上支援すると見ることができます
5
600コイン/月以上支援すると見ることができます
5
600コイン/月以上支援すると見ることができます
6
600コイン/月以上支援すると見ることができます