楽天が「日本最大の高性能AIモデル」を発表、その構成ファイルはDeepSeek V3アーキテクチャに基づいていることを示しています

robot
概要作成中

オダイリー星球日報によると、楽天グループはオープンソースモデルのRakuten AI 3.0を発表し、「日本最大の高性能AIモデル」と称している。このモデルはMoE(Mixture of Experts)アーキテクチャを採用し、総パラメータは6710億、推論時に活性化されるパラメータは370億、コンテキストウィンドウは128Kで、日本語シナリオ向けに最適化されており、複数の日本語ベンチマークテストでGPT-4oを上回る性能を示している。

このモデルは、日本の経済産業省と新エネルギー産業技術総合開発機構(NEDO)が推進するGENIACプロジェクトの成果の一つであり、一部の計算資源支援を受けている。楽天は基盤モデルの出所を明らかにしておらず、オープンソースコミュニティの成果を基に構築したと述べている。

コミュニティはHuggingFaceのモデルファイル内で、config.jsonに「deepseek_v3」や関連アーキテクチャの記述を発見しており、パラメータ規模やコンテキスト設定がDeepSeek V3と一致していることから、このモデルはDeepSeek V3を基に日本語向けに微調整された可能性が示唆されている。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン