LongCat-Next オープンソースリリース:テキスト、画像、音声を統合するネイティブのマルチモーダルモデル

LongCat-Next オープンソースリリース:テキスト、画像、音声を統合するネイティブのマルチモーダルモデル

- 要旨 LongCat-Nextは、MeituanのLongCatチームによるオープンソースの離散ネイティブ自己回帰マルチモーダルモデルで、テキスト、ビジュアル、音声を同じフレームワークで統合することを目指しています。 本プロジェクトはMoEアーキテクチャを採用しており、総パラメータは約68.5B...

Admin
69
HY3D-Benchオープンソース解釈:252Kの高品質3Dアセットデータセットと統一評価システム

HY3D-Benchオープンソース解釈:252Kの高品質3Dアセットデータセットと統一評価システム

1. 要旨 HY3D-Benchは、騰訊のHunyuanチームによるオープンソースの統一3D資産データエコシステムであり、3D生成分野における「データ希少性、高いノイズ、評価の一貫性の欠如」という共通の課題を緩和することを目的としています。 プロジェクトは、フルレベル(252K+完全オブジェクト)、...

Admin
120
Qwen3-coder-Next 包括的解釈:80B/3B 超スパースオープンソース重みモデルによるコーディングエージェント

Qwen3-coder-Next 包括的解釈:80B/3B 超スパースオープンソース重みモデルによるコーディングエージェント

1. 要旨 Qwen3-Coder-Nextは、Qwen Teamがリリースしたオープンソースの重み付きコードモデルで、コーディングエージェントやローカル開発シナリオに適しています。 その核心的な考え方は「超スパースMoE + エージェントトレーニング」であり、パラメータ数は約80Bですが、トークン...

Admin
193
PaddleOCR-VL-1.5 オープンソース解釈:0.9Bマルチモーダルモデルが文書の曲げや歪みを克服する方法

PaddleOCR-VL-1.5 オープンソース解釈:0.9Bマルチモーダルモデルが文書の曲げや歪みを克服する方法

1. 要旨 PaddleOCR-VL-1.5は、PaddlePaddleのオープンソース0.9Bパラメトリックドキュメントマルチモーダルモデルであり、レイアウトの位置付け、読み取り順からテキスト・表・数式などの構造化解析まで、実際の取得シナリオ(「曲げ、歪み、傾斜、スクリーン撮影、複雑な照明」など)...

Admin
140

おすすめツール

もっと見る