オープンソースの市販マルチモーダル理論的根拠モデル:ERNIE-4.5-VL-28B-A3B-思考分析
1. 要約 ERNIE-4.5-VL-28B-A3B-Thinking は、Baidu の新しいオープンソースの軽量マルチモーダル推論モデルで、総パラメータ 28B とアクティベーション約 3B を備え、視覚と言語の意味的調整と「画像で考える」能力に焦点を当て、細部へのズーム/絞り込みをサポートしま...
1. 要約 ERNIE-4.5-VL-28B-A3B-Thinking は、Baidu の新しいオープンソースの軽量マルチモーダル推論モデルで、総パラメータ 28B とアクティベーション約 3B を備え、視覚と言語の意味的調整と「画像で考える」能力に焦点を当て、細部へのズーム/絞り込みをサポートしま...
I. 要約 Kimi K2 Thinkingは、Moonshotがリリースしたオープンソースの「思考型」インテリジェントエージェントモデルであり、推論プロセスにおける動的なツール呼び出しと多段階計画を重視しています。公式発表では、HLE44.9%、BrowseComp60.2%を達成し、200~30...
I. 要約 UNO-Benchは、「単一モデル/完全モデル」の質問の統合評価のためのオープンソースベンチマークであり、知覚と推論の両方の側面をカバーしています。中国語の実世界シナリオ問題と、多段階の自由回答形式の質問応答(MO)問題を提供します。データとツールは、高品質と人間主導の構築を重視しており...
I. 要約 LongCat-Flash-Omniは、MeituanのLongCatチームによるオープンソースのマルチモーダル(オムニモーダル)モデルです。テキスト、画像、音声、動画の統合モデリングを提供することで、LongCat-FlashのScMoEアーキテクチャを拡張しています。約560バイトの...
I. 要約 MiniMax M2は、MiniMaxのオープンソース推論・プログラミング指向モデルであり、「エージェント&コードネイティブ」と位置付けられています。公式紹介では、「Mixture-of-Experts(MoE)アーキテクチャに基づくこのモデルは、総パラメータサイズが約230Bですが、一...
I. 要約 DeepSeek-OCRは、DeepSeekのオープンソース「コンテキスト光学圧縮」モデルです。文書テキストを 視覚トークン にエンコードし、それをテキストにデコードします。認識精度を維持しながら、LLMのコンテキストトークンコストを大幅に削減することを目指しています。コミュニティやメデ...