MoE(Mixture of Experts)とは?
読み方: エムオーイー
30秒まとめ
複数の専門家ネットワークを切り替えて効率的に処理するAIアーキテクチャ。
MoE(Mixture of Experts)の意味・定義
MoE(Mixture of Experts、混合エキスパート)は、複数の専門的なサブネットワーク(エキスパート)と、入力に応じて適切なエキスパートを選択するゲーティング機構から構成されるAIアーキテクチャです。すべてのパラメータを毎回使うのではなく、入力に応じて一部のエキスパートだけを活性化させるため、総パラメータ数が大きくても計算コストを抑えられます。例えば、Mixtral 8x7Bは合計47Bパラメータを持ちますが、推論時には約13Bパラメータのみが活性化されます。GPT-4もMoEアーキテクチャを採用しているとされています。GoogleのSwitch Transformerで大規模なMoEの有効性が実証されて以降、GrokやDeepSeek-V2などでも採用されています。モデルの総知識量を維持しながら推論コストを大幅に削減できるため、大規模モデルのスケーリングにおける重要な技術とされています。今後のLLM開発においてMoEの採用はさらに広がると予想されています。