HPC-Opsのオープンソース解釈:騰訊のHunyuan本番用LLM推論オペレーターライブラリがH20のような推論カードの性能をいかに絞り出すか
1. 要旨 HPC-Opsは、騰訊のHunyuan AI Infraチームによるオープンソースの実用グレードLLM推論オペレーターライブラリであり、主流の推論カード(特にNVIDIA Hopper/SM90、例えばH20)をハードウェアの利用率に近づけることを目的としています。 このプロジェクトは、...
1. 要旨 HPC-Opsは、騰訊のHunyuan AI Infraチームによるオープンソースの実用グレードLLM推論オペレーターライブラリであり、主流の推論カード(特にNVIDIA Hopper/SM90、例えばH20)をハードウェアの利用率に近づけることを目的としています。 このプロジェクトは、...
1. 要旨 DeepSeek-OCR 2は、DeepSeekのオープンソースOCR/ドキュメント理解モデルのアップグレード版であり、「DeepSeek-OCR 2: Visual Causal Flow」をテーマに、より人間に優しい視覚コーディング手法を強調し、複雑なレイアウト(ドキュメント、チャー...
1. 要旨 Kimi K2.5はMoonshot AIがリリースしたオープンソースの「ビジョン+エージェント」マルチモーダルモデルで、統一された画像/映像およびテキスト入力をサポートし、ダイアログモードとエージェントモードを提供します。 ビジョン駆動型コーディングと視覚的デバッグ、ロングリンクツール...
1. 要旨 Qwen3-TTSは、Qwenチームによるオープンソースのテキスト読み上げ(TTS)モデル群で、VoiceDesign(テキスト説明から新しい音声を生成する)、CustomVoice(あらかじめ決められた高品質音声のコマンド制御)、Base(高速音声クローン作成および基礎の微調整)などが...
- 要旨 Chroma 1.0は、FlashLabsによって訓練され、完全にオープンソース化されたエンドツーエンドのリアルタイム音声間モデルで、パーソナライズされた音声クローン作成を可能にします。 このモデルは従来のASR→LLM→TTSパイプラインを不要にし、エンドツーエンドの応答を約150msで...
1. 要旨 GLM-Imageは Z.ai 年のオープンソース画像生成モデルで、「離散的自己回帰生成+拡散復号」というハイブリッドパラダイムを採用しています。自己回帰モジュールはグローバルセマンティクスとレイアウト計画を担当し、拡散デコーダは高精度な詳細で補完されます。 公式情報によると、全体的な画...