AI生成の将来性
生成AIの進歩は秒針分歩であり、その速度とサービスのバリエーション多さに多くのクリエーターが圧倒されている。
現在、生成AIはさまざまな方向性を志向錯誤しながら発展を続けている。
AIの使用歴
私のAI使用歴はスマホアプリに始まる。
2020年ころより、AIっぽい画像編集、ジェネレートソフトがスマホアプリに表れ始めた。
私自身もダウンロードして、“実用的ではないが、将来性はかなり感じる”と思ったことを覚えている。
その後しばらくして、2022年の夏、「Midjourney(ミッドジャーニー)」や「Stable Diffusion(ステーブルディフュージョン)」が突然のごとくサービスを開始した。
私はロ-カルのPCにAUTOMATIC1111(Stable Diffusion web UI)を構築して、画像生成の可能性を模索していた。
https://itami.info/blog/tech/nmkd-stable-diffusion-gui
2022年(2022年11月30日)にはChatGPTの登場により、世は一気にAIの渦に巻き込まれることになる。この年はAI元年といえるだろう。
私自身はといえば、ChatGPTの噂は耳にしていだか、少し軽く見ていたために実際に試すのが翌年の1月となった悔しい思い出がある。
『百年夢』天音真琴
そんなこんなで2年ほどが経過した現在、AIの進歩にはますます目を見張るものがある。現在では動画の生成も実用段階に近づき、クリエィティブな手法が根本から変化することも間近である。
今回テスト的に生成AIのみを利用して架空のMVを作成してみた。
私としては初のALL AI Madeの作品であるが、調査や覚書、ノウハウの取得、現状技術の確認など様々な目的のための作品制作となった。しかし、何よりもAIという新たなクリエイティブツールを使って、オリジナル作品を作ってみたかったというのが一番の理由である。
作成したMVの『百年夢』天音真琴は、タイトルと編集以外は全てAIによる生成だ。
もちろん百年夢の歌詞や天音真琴の名前も生成されたものである。
ChatGPT(GPT-4O mini)
ChatGPTには、“昭和に生まれた男と女の悲恋を3番まで。Aメロ、Bメロをしっかりと意識して” のようなプロンプトで歌詞を作成させた。
以下は作成された詩の全文である。
かなりベタで抽象的な詩の内容となったが、「昭和の月夜に二人影を重ね」のベタな歌詞の部分が特に気に入り、一発採用となった。
ChatGPTの作詞の良さはそのベタさかもしれない。
人間が作詞すると、どうしても気負いやてらいなど様々な思いの影響を受けてダイレクトさが低下する。
ちなみにタイトルの『百年夢』は私が考え、読みをChatGPTに提案させたが、こちらは気に入る提案が得られず、「ひゃくねんむ」とした。
歌手の名前は“男女に好まれるJpopの演歌歌手のかっこいい名前を考えて”のプロンプトで、20名ほど提案された中から、桜井 真琴(さくらい まこと)と天音 光(あまね ひかる)を合成して天音真琴とした。
昭和の月夜に
Aメロ
雨に滲んだ駅の灯り
肩を震わせ君は立つ
別れ告げた声の奥に
隠せぬ涙滲んでた
Bメロ
あの日出会った春の空
約束さえも儚く散る
君を愛した罪ならば
受け止めよう この胸で
サビ
昭和の月夜に二人影を重ね
時代が引き裂く夢の続き
戻れぬ愛なら心にしまって
この世の果てでまた会おう
Aメロ
風に消えた君の香り
声を探して彷徨った
日々を繋いだ温もりさえ
過ぎた時には戻らない
Bメロ
街の片隅ひとりきり
思い出だけが明かりになる
君を愛した痛みさえ
今も抱いて 生きている
サビ
昭和の月夜に二人影を重ね
時代が引き裂く夢の続き
戻れぬ愛なら心にしまって
この世の果てでまた会おう
Aメロ
薄い記憶滲む写真
笑う君の無邪気な目
失くしたはずのぬくもりが
胸の奥でまだ揺れる
Bメロ
どこで生きても君だけを
忘れられない命がある
もしも許される世界なら
もう一度だけ 愛したい
サビ
昭和の月夜に二人影を重ね
時代が引き裂く夢の続き
戻れぬ愛なら心にしまって
この世の果てでまた会おう
SUNO(v4)
楽曲の生成はもちろんSUNOを利用した。
プロンプトは、“演歌、Jpop”と極めてシンプルで、SUNOが提案した6曲ほどの中から選んだ。
SUNOは非常にクオリティの高い曲を生成するが、逆に言えば“良い曲ばかり生成する”が欠点ともいえかもしれない。特にv4はクオリティが高く、今後、益々人間の作曲家を脅かす存在になるだろう。
最も苦労したのは、曲が途中で切れてしまったことだ。
最初、生成された曲は、4分で途切れてしまった。“Extend”で曲の延長部分を作成することも可能だが、実際、ピタリとシームレスにつながって作成されることはなかった。
後に“Extend”で作成した後半2分を合成し、5分の曲と中々の長さである。
曲は編集ソフト上でつなげたため、多くの時間を費やした。
KlingAI
KlingAIは非常にバランスのとれた画像、動画生成AIである。
今回は、曲を聴きながら、私自身とCharGPTによってプロンプトを作成し、KlingAIに指示するといった流れとなった。
実際プロンプトの作成手順はこうだ。
ChatGPTのMyChatGPTsによってプロンプト生成用のGPT(プロンプト生成君(プロン君))を作成し、そのプロン君の助けを借りてのプロンプトの生成となった。
プロン君の基本的な作業は、簡単なブロンプトから精緻なプロンプトを作成し英語に変換するものだ。
現在のほとんどの生成AIは日本語プロンプトに対応しているが、実際には日本語プロンプトから英語に変換する。この変換作業にバラつきが発生した場合、さらに生成される画像のバラつきに繋がるのでは・・・との考えで英訳している。
実際の影響の程はわからない。
画像生成の基本的な手順は以下である。
静止画像の生成 ➡ 動画のリファレンスとして指定し、動画の生成
まず、必要なシーンの静止画像を生成する。
次にその静止画像をリファレンスとして動画を生成する。KlingAIは最大10秒の動画生成が可能でKling1.0で生成すれば“Extend”機能を使用して延長することも可能である。
動画は最高のクオリティであるKling1.6(20250202現在)で作成した。
生成の基本手順はシンプルではあるが、ここでさまざまなバラつきが発生し、俗に言われている“生成ガチャ”状態となる。
生成した動画もかなりの数に上る。
長い動画になると後半で破綻したシーンが生成されやすい。
また、いくらネガティブプロンプトを加えてもコントロールできないものもあった。
別れのシーン生成を目指した以下の動画では、月美と雄二からスマホを外すことができなかった。
KlingAI以外にもSoraやRunwayも同様の手順で動画生成を試みた。
SoraはSora感の強い動画でリファレンス画像に人物が指定できないという欠点がある。
Runwayは美しい動画を生成するが、生成される動画が欧米よりでトリッキーなところが多いように感じた。
夜の街角で寂し気な雄二を作成しようとしても、どうしても顔から雪を除くことができなかった。
何しろ後ろの町は、何処か知らない欧米の街だ。まるで海外出張で道に迷って雪まみれになったサラリーマンのようだ。
今回の作品には利用していないが、LTX Studio(https://ltx.studio/)やHailuo AI(https://hailuoai.video/)は、中々よくできた動画生成AIだ。
LTX StudioはAI機能のサイトサービスそのものがキャラクター設定からシノプシス、シーン設定、動画生成と非常に映像制作(映画)を意識した作りとなっている。
LTX StudioのUIや制作フローは、今後の生成動画AIを利用した映像制作(映画)の基本モデルとなる可能性が高い。
Hailuo AIのT2V-01やS2V-01はより映像作品の制作に向いた機能といえるだろう。
特にS2V-01はキャラクターを固定して、動画を生成する機能で、変化するシーン(動画)に同一のキャラクターを登場させることができる。
これは、どの生成AIも目指している機能だが、Hailuo AIは半歩先を歩いているかもしれない。
Hailuo AIは生成する動画のクオリティも高いが、静止画の作成ができず、細かい指示ができないといった欠点がある。(私の調査不足かもしれない)
今回は試行錯誤の中で不完全な出来のMVとなったが、動画完成度とは裏腹に非常に満足のいく経験と将来性を感じる制作だった。
この世に全く存在しないキャラクター(天音真琴、雄二、月美)が「百年夢」という曲の中で、活き活きと動き演技をする。
個人的にはAIの先に出現する汎用人工知能(AGI)、そとて人工超知能(ASI)の出現は人類の緩やかな終焉につながると思っている。
しかし、無から有が生まれることを感じさせる現在の生成AIは、間違いなく真のクリエィティブツールである。