Xの「おすすめ」アルゴリズム解説:オープンソース化とSimClustersの仕組み

Xの「おすすめ」投稿アルゴリズムのオープンソース化概要

X(旧Twitter)は、ユーザーの「おすすめ」(For You)タイムラインに表示される投稿を決定する推薦アルゴリズムをオープンソース化しています。この取り組みは、プラットフォームの透明性を高めることを目的としており、Elon Musk氏の主導のもとで進められています。初回の公開は2023年に行われ、2026年には新たなバージョンの公開と定期的な更新が実施されました。

背景と目的

Xの推薦アルゴリズムは、ユーザーに表示される投稿や広告を決定する重要なシステムです。このアルゴリズムのオープンソース化は、ユーザーがプラットフォームの動作を理解しやすくし、外部の検証を可能にするためのものです。Elon Musk氏は、2023年にこの取り組みを約束し、独立した第三者がアルゴリズムの動作を合理的に予測できるようにすることを目標と述べています。また、アルゴリズムの欠点が発見された場合に迅速に修正することを強調しています。

2023年の初回公開

2023年3月31日、Xは推薦アルゴリズムの大部分をオープンソースとしてGitHub上で公開しました。この公開には、For Youタイムライン、検索、Explore、通知などのプロダクト表面で投稿やコンテンツを配信するサービスとジョブが含まれています。公開されたコードはAGPL-3.0ライセンスの下で利用可能です。アルゴリズムの概要は、候補投稿の収集(candidate sourcing)、機械学習モデルによるランキング、ヒューリスティックとフィルターの適用、Home Mixerによるタイムライン構築の4段階から成ります。例えば、SimClustersというコミュニティベースの埋め込み空間を使用して、ユーザーと投稿の類似性を計算します。

2026年の更新と定期公開

2026年1月10日、Elon Musk氏は新たなアルゴリズムを7日以内にオープンソース化し、4週間ごとに更新することを発表しました。これには、投稿と広告の推薦を決定するすべてのコードが含まれ、変更点を理解するための詳細な開発者ノートが付属します。1月20日、X Engineeringチームはこの新しい推薦アルゴリズムのオープンソース化を正式に発表し、2023年の約束を履行しました。この定期更新は、アルゴリズムの継続的な改善と透明性を確保するためのものです。Musk氏は、アルゴリズムが未熟であることを認めつつ、他のソーシャルメディアとは異なりリアルタイムでの透明性を提供することを強調しています。

アルゴリズムの主な仕組み

公開されたアルゴリズムは、複雑な推薦システムを構成しており、機械学習を活用しています。以下にその主要なステップを紹介します。

候補投稿の収集(Candidate Sourcing)

さまざまな推薦ソースから最適な投稿を収集します。これには、フォローしているアカウント以外の投稿も含まれており、多様なコンテンツをユーザーに届けることを目指します。

ランキング

機械学習モデルを使用して各投稿をランク付けします。SimClustersのような埋め込み空間を活用し、ユーザーと投稿の関連性を評価します。これにより、ニュースやポップカルチャーなどの大規模コミュニティから小さな友人グループまで対応します。

SimClustersの詳細

SimClustersは、Xの推薦アルゴリズムにおいて特に重要な埋め込み(embedding)空間で、ユーザーと投稿(Tweet)を共通のコミュニティ空間にマッピングする汎用的な表現層です。フォロー関係を基にしたユーザー間のグラフを入力とし、カスタムの行列因子分解アルゴリズム(Sparse Binary Factorization: SBF)を使用して、約145,000の重複可能なコミュニティ(クラスタ)を発見します。これらのコミュニティは3週間ごとに更新され、サイズは数千人の友人グループから数億人のニュース・ポップカルチャー関連まで多岐にわたります。

ユーザーと投稿は、これらのコミュニティに対する所属強度(sparse vector)として表現され、コサイン類似度などで関連性を計算します。投稿のコミュニティ所属は、その投稿にエンゲージメント(いいねなど)したユーザーのコミュニティ表現を時間減衰平均などで集約して決定されます。これにより、ネットワーク外(out-of-network)の投稿を効果的に推薦可能になり、興味の類似性に基づく発見を支えています。SimClustersは推薦システム全体で広く活用され、GitHubリポジトリ(twitter/the-algorithm)内のsimclusters_v2ディレクトリで詳細な実装とREADMEが公開されています。論文(KDD 2020)でも「Community-based Representations for Heterogeneous Recommendations at Twitter」として紹介されています。

ヒューリスティックとフィルターの適用

ランク付けされた投稿に対して、追加のルールやフィルターを適用します。これにより、不適切なコンテンツの排除や多様性の確保が行われます。

タイムラインの構築

Home Mixerサービスが最終的なFor Youタイムラインを構築し、ユーザーに配信します。このプロセスは、プラットフォームのすべての推薦機能に適用されます。

今後の展望

Xは、アルゴリズムのオープンソース化を通じて、コンテンツモデレーションやアルゴリズムバイアスに関する規制当局からの圧力に対応しています。定期的な更新により、アルゴリズムの進化を公開し続ける予定です。これにより、開発者や研究者がコードを分析し、改善提案を行うことが可能になります。