SeeDance 2.0(Seedance 2.0)とは?
ByteDance(バイトダンス、中国語:字节跳动)は、2012年に北京で創業された中国を代表するインターネットテクノロジー企業で、TikTok(国際版)およびDouyin(中国版)の親会社として世界的に知られています。2026年現在、従業員数は約15万人規模に達し、売上高は過去数年で急成長を続け、AI分野への投資も積極的です。特に2026年にはAIインフラに約1600億元(約3.5兆円相当)を投じる計画が報じられており、先端半導体調達や自社AIチップ開発にも着手しています。
そんなByteDanceのSeedチームが2026年2月12日に公式リリースした「SeeDance 2.0」(Seedance 2.0)は、テキスト・画像・動画・音声を統合的に扱うマルチモーダルAI動画生成モデルです。従来の動画生成AIとは一線を画す「統一型マルチモーダル音声動画共同生成アーキテクチャ」を採用し、クリエイターが持つ素材を最大限に活かした高品質な動画制作を実現します。
リリース背景と開発元:ByteDance Seedチーム
ByteDanceのSeedチームは、同社の最先端AI研究を担う部署で、Seedanceシリーズをはじめとする動画生成モデルを開発しています。TikTok/Douyinで蓄積された膨大な動画データを基盤に訓練されたモデル群は、ByteDanceのAI戦略の柱の一つです。SeeDance 2.0は2026年2月上旬にベータ版が公開され、同月12日に正式発表。前バージョンSeedance 1.5からの大幅進化により、複雑なシーンでの実用性が飛躍的に向上しました。
最大の特徴:高度なマルチモーダル参照機能
SeeDance 2.0の核心は、複数の入力形式を同時に処理できる点です。
- テキスト(自然言語による指示)
- 画像(最大9枚)
- 動画クリップ(最大3本)
- 音声クリップ(最大3本)
これらを組み合わせることで、キャラクターの外見、動きのニュアンス、カメラワーク、照明、音響までを精密に参照・再現できます。単なる「テキストから動画」ではなく、既存の素材を基にした「監督レベルの制御」が可能になりました。
生成動画のクオリティと技術的強み
生成される動画は最大15秒のマルチショット(複数カット)対応で、以下の点で業界トップクラスの性能を発揮します。
- 優れた動きの安定性と物理法則の再現(複雑なアクションや複数人物の相互作用でも崩れにくい)
- キャラクター・衣装・表情の一貫性(複数シーンにわたる連続性)
- シネマティックなカメラワーク、照明、影の自然な表現
- ネイティブ音声生成(BGM、環境音、キャラクターの声・リップシンクを映像と同期)
解像度は高品質で、映画や広告レベルのビジュアルを実現。音声はステレオ対応で没入感の高い仕上がりとなります。
クリエイターが得られる実用的なメリット
「参照+編集」の柔軟性が最大の魅力です。生成後の一部分修正、動画の延長、特定キャラクターの変更なども可能。複雑なインタラクションシーンやスポーツ、ダンス、VFXを要する映像でも高い成功率を誇ります。
主な活用例として、商業広告、映画・テレビのVFX、ゲームアニメーション、解説動画、クリエイティブなショートコンテンツなどが挙げられます。
現在の利用状況
リリース直後は中国国内の動画編集アプリ「剪映(Jianying)」などで利用可能。グローバル向けCapCutへの統合も予定されており、ByteDanceのエコシステム内で順次展開されています。一部サードパーティツールでも早期対応が進められています。
SeeDance 2.0は、ByteDanceのAI投資の結晶として、動画生成を「実験段階」から「本格的な制作ツール」へと押し上げる存在です。素材を活かした精密制御と高品質出力により、クリエイターの生産性を大幅に向上させるでしょう。
