複数のAIをノードとして繋ぐComfyUIを試す
※いつも通り結論も有益な情報もありません。
進化の激しいAI。画像、動画、音声、音楽、文章など、
得意分野の異なるAIが乱立している。
それらの各AIをノードとして扱い、
ノードをつなげてAI画像、動画、音声、音楽、文章などの
生成を自由に組み立てられ、しかもローカルで使える
最強ツール、それがComfyUI。
・・・という触れ込みのComfyUIを
ちょっとだけいぢってみる。
・切っ掛け。
SUNOがわたし好みの結構エモい曲を
連発してくることは先に述べた通り。
ただし、指示には従わないし何より音質がひどい。
さらに学習データがいまいち不明瞭だし
無料プランでは著作権も自分の物にはならない。
それらをほぼすべて解消するものとして
ACE STEPというAIが紹介されていた。
これを利用するプラットフォームとして
ComfyUIが紹介されていたのだった。
(後で調べたら別にローカルのComfyUI
じゃあなくてもオンラインから使えるっぽい)
しかもComfyUIを使えば音楽だけでなく
画像も動画も生成し放題というじゃないか!
万二狼さんやてらさんもこういうの使ってんのか!?
こいつはサクっと入れねば!
https://www.comfy.org/
・導入
インストール方法はいくつかあるが、
GitHub経由でPythonとその他ツールを導入。
この時点で既にOpenAIやGeminiのような
手軽さとは一線感じる人は多いだろう。
でもAIに何かやらせるにもPythonを
使えるように準備しておくと
プログラミング言語を習得したような
気になれるかもしれない。
https://gigazine.net/news/20260201-comfyui-image-video-generation-ai/
・第一印象
デフォルトのパラメータで生成したのは
たしかにSUNO級のメロディと
SUNO無償版よりだいぶいい音質だった。
しかし、パラメータは結構細かく指定する必要がある。
BPMだとか曲の長さ、言語、曲調などなど
SUNOのような雑な指示ではギャギャーみたいな
謎のノイズが生成されることもある。
これはそれなりに音楽の組み立てが
出来て無いと使えないかもも。
SUNOと違ってすぐに行き詰ってしまった。
指示には従ってくれるのだけれども。
https://ace-step.github.io/
・動かす過程で知った事。
細かい指定を毎度するのではなく、
ある程度学習させたデータをファイル化する
LoRAという仕組みがあるという。
絵柄だとか曲調だとかを読み込ませて学習させて
スタイルとして安定出力させられるそうだ。
なるほど、ジブリ風とかの違法学習させてた
ヤツはLoRAファイルにしてたんだな。
キャラクターを安定出力するのとかにも使えるらしい。
もしかして自分の絵柄を学習させたら
自分の絵柄で色々生成できるのでは?
たとえばぶろ子だとかぶる子とべあ子だとか!
・・・まぁわたしの作品少なすぎて
学習データとしては圧倒的に
量が少ないのでしょうけれども。
・思ったこと
それに…LoRAだのComfyUIだのの仕組みを覚える…
その時間と、自分で描く時間…
どっちがわたしに有益なのだろう。
技術的興味はある。創る喜びもある。
両方やれるだけの時間と技術とバイタリティは
絶望的に不足しているのだ。
ただ…
AIとの違いを頑張って言葉で説明するのに
力を使うのは何となく嫌なんだよなぁ。
受け手には関係の無いことだもの。