戻るAIはオープンソースです
Keye-VL-1.5-8B オープンソース: 低速および 128k コンテキスト、ビデオ マルチモーダル AI ツールチェーンの再構築

Keye-VL-1.5-8B オープンソース: 低速および 128k コンテキスト、ビデオ マルチモーダル AI ツールチェーンの再構築

AIはオープンソースです Admin 103 回閲覧

Keye-VL-1.5-8B オープン ソース: 低速ビデオ エンコーディングと 128k コンテキストにより、マルチモーダル AI ツールを長いビデオ

の時代にもたらしますこれは、ビデオ理解のための大規模な人工知能モデルです。 Keye-VL-1.5-8B は、低速ビデオ エンコーディング、LongCoT コールド スタート データ パイプライン、強化学習アライメントを通じて 128k のコンテキスト、思考、非思考推論モードをサポートし、複数の画像およびビデオ シナリオで高品質の理解を実現し、コンテンツの制作、検索、およびインタラクティブ アプリケーションのインテリジェンスと自動化に適しています。


1. ポジショニングとハイライト

1. モデルのポジショニング: ビデオファーストのマルチモーダル大規模モデル

AI ツール Keye-VL-1.5-8B は、長いビデオとクロスフレーム推論に焦点を当てており、人工知能推論チェーンは画像、ビデオ、テキスト間の統一モデリングにすることができ、大規模なコンテキストとマルチ画像入力をサポートします。 コンテンツステーションと検索ステーションの大規模なアプリケーションに対応します。

2. 主なテクノロジー: 低速 + ロング コンテキスト + アライメント強化

低速 - 高速ビデオ エンコーディングは、劇的に変化するフレームで高解像度チャネルを取得し、静的クリップの高速チャネルで時間領域のカバレッジを追求します。 段階的な事前トレーニングでコンテキストを 128k に拡張します。 そして、強化学習と人間の好みの調整により、説明可能性と安定性が向上します。

(1) 思考モードとマルチモーダル入力

思考と非思考の 2 つのモードを提供し、連鎖推論を深めるだけでなく、リアルタイム アプリケーションの低遅延を追求することもできます。 ビジュアルトークンは、複数の画像およびビデオ入力をカバーするように柔軟に構成できます。

(2) エンジニアリングに優しく、環境に配慮した

互換性

vLLM や swift などの推論エコシステムにネイティブに適応しており、迅速な起動と弾力的なスケーリングに便利です。 オフラインとオンラインの両方の展開モードをサポートし、エンタープライズ A/B 評価やグレースケール パブリッシングに適しています。


2. 着陸ルート

1. コンテンツと検索: 再利用可能な組立ラインを形成するための 3 つのステップ

AI ツールは、データのクリーニング、字幕抽出、レンズのセグメンテーションを接続します。 メインモデルは、ビデオQ&A、事実抽出、マルチ画像検索を完了します。 最後に、品質評価と人間によるレビューを終了し、安定した出力を形成します。

2. エージェントのコラボレーション: ChatGPT+Claude+Keye

は ChatGPT を使用してタスク プランとプロンプトを生成し、Claude はセキュリティとスタイルのレビューを行い、Keye の幹部は長いビデオ理解とマルチモーダル回答を行い、計画から実行まで人工知能を自動化します。

(1) 導入チェックリスト

a. vLLM 推論と KV キャッシュの選択

b. Slow-Fast パラメータとマルチグラフ上限の有効化

c. 用語ベースの確立と検索の強化

d. 思考と非思考のデュアルトラック戦略の構成

e. アクセスログの


監視と品質回帰3. パフォーマンス、互換性、ライセンス

1

. 長いビデオと複数のベンチマークの安定したパフォーマンス

大規模モデルは、一般的なマルチモーダル機能を考慮して、長いコンテキストとビデオ理解タスクで優れたパフォーマンスを発揮し、短いビデオの Q&A から長いプログラム分析までのマルチレベル シナリオに適しています。

2. 推論およびエコロジー

AI ツールは、

バッチ並列処理とプレフィックス キャッシュをネイティブにサポートしており、自動オーケストレーションと組み合わせるとスループットを大幅に向上させることができます。 既存のデータアノテーションと評価フレームワークとスムーズに接続します。

(1) オープンソースライセンス

このモデルはオープンソースライセンスに基づいてリリースされており、科学研究や企業のカスタマイズに便利です。 企業のコンプライアンスとプライバシーポリシーを組み合わせて、二次調整と蒸留圧縮を完了することをお勧めします。


4. リスクと境界1

. 超長いコンテンツのコストと安定性

超長いコンテキストはメモリと遅延の変動をもたらし、非思考モードとセグメント化された要約を通じてコストを削減できます。

2. データとコンプライアンス

ユーザービデオに関しては、鈍感化して最小限に抑える必要があります。 監査ログとユースケースブラックリストを作成して、誤判のリスクを減らします。


5. Address

アイテム アドレス:https://github.com/Kwai-Keye/Keye

ここで試してください:https://huggingface.co/spaces/Kwai-Keye/Keye-VL-1_5-8B

論文:https://

Keye-VL-1.5-8Bはオープンソースです Keye-VL-1.5-8Bビデオ内包表 Keye-VL-1.5-8B(長いビデオ) Keye-VL-1.5-8B 128k コンテキスト Keye-VL-1.5-8B 低速/高速エンコーディング Keye-VL-1.5-8B LongCoTデータパイプライン Keye-VL-1.5-8B 強化学習アライメント Keye-VL-1.5-8B 思考パターン Keye-VL-1.5-8Bノンシンキングモード Keye-VL-1.5-8B マルチモーダル AI Keye-VL-1.5-8Bマルチ画像入力 Keye-VL-1.5-8BビデオQ&A(英語) Keye-VL-1.5-8B クロスフレーム推論 Keye-VL-1.5-8Bの高品質な理解 Keye-VL-1.5-8B コンテンツ制作 Keye-VL-1.5-8Bビデオ検索 Keye-VL-1.5-8Bインタラクティブアプリケーション Keye-VL-1.5-8B vLLM推論 Keye-VL-1.5-8Bスウィフト互換 Keye-VL-1.5-8B KV キャッシュ Keye-VL-1.5-8Bバッチパラレル Keye-VL-1.5-8Bはエンジニアリングに優しい Keye-VL-1.5-8Bはオフラインでオンラインで展開されます Keye-VL-1.5-8B A/B レビュー Keye-VL-1.5-8Bグレースケールリリース Keye-VL-1.5-8Bデータクリーニング Keye-VL-1.5-8B 字幕抽出 Keye-VL-1.5-8Bレンズセグメンテーション Keye-VL-1.5-8B 事実抽出 Keye-VL-1.5-8B 検索の機能強化 Keye-VL-1.5-8B エージェントのコラボレーション Keye-VL-1.5-8B ChatGPT連携 Keye-VL-1.5-8B Claudeによるレビュー Keye-VL-1.5-8B自動組立ライン Keye-VL-1.5-8B ロング コンテキストの利点 Keye-VL-1.5-8Bビジュアルトークン構成 Keye-VL-1.5-8B 解釈可能性の向上 Keye-VL-1.5-8B安定性の最適化 Keye-VL-1.5-8B のスループットと遅延 Keye-VL-1.5-8B 用語ベース アクセス Keye-VL-1.5-8B質量推定 Keye-VL-1.5-8B 人間レビュー用のクローズドループ Keye-VL-1.5-8Bプライバシーとコンプライアンス Keye-VL-1.5-8B ログ監視 Keye-VL-1.5-8B質量回帰 Keye-VL-1.5-8B 蒸留と圧縮 Keye-VL-1.5-8Bエンタープライズ上陸 Keye-VL-1.5-8B コンテンツステーション検索ステーション Keye-VL-1.5-8Bロングプログラム分解能 Keye-VL-1.5-8B マルチモーダル検索

関連記事

24時間AIニュース:OpenAIの自社開発チップはスピードアップ、Anthropicはコンプライアンスを強化し、Zhipu GLMはClaude移行ソリューションを開始

24時間AIニュース:OpenAIの自社開発チップはスピードアップ、Anthropicはコンプライアンスを強化し、Zhipu GLMはClaude移行ソリューションを開始

24時間AIニュース一目:国内のコンピューティング能力と産業活動が「開花」しており、外国の巨人はチップ、自己規律、教育の面で集中的に行動を起こしています 過去 24 時間: 問題の問題は過去 72 時...

AnthropicがClaudeの販売制限を拡大:コンプライアンスレビューに含まれる支配関係

AnthropicがClaudeの販売制限を拡大:コンプライアンスレビューに含まれる支配関係

AnthropicがClaudeの販売制限を更新:「実際にサポートされていない地域によって管理されている企業」に拡大 Anthropicは、Claudeおよび関連するAIツールの販売とAPIアクセスに...

Mem0はエージェントと統合する価値がありますか? 長期記憶は役立ちますが、境界線を管理する必要があります

Mem0はエージェントと統合する価値がありますか? 長期記憶は役立ちますが、境界線を管理する必要があります

Mem0は、AIアプリケーションやエージェント向けのオープンソースメモリ層プロジェクトで、アプリのユーザーの好み、歴史的事実、長期的な文脈を記憶するのを支援することを目的としています。 パーソナライズ...

ヘイスタックはどのようなチームに適しているのでしょうか? むしろコンポジタブルなRAGエンジニアリングフレームワークのようなものです

ヘイスタックはどのようなチームに適しているのでしょうか? むしろコンポジタブルなRAGエンジニアリングフレームワークのようなものです

HaystackはDeepSetが保守するオープンソースのAIアプリケーションフレームワークで、RAG構築、ドキュメントQ&A、検索パイプライン、LLMワークフローの構築に一般的に使用されています。 ...

おすすめツール

もっと見る