Keye-VL-1.5-8B 오픈 소스: 느리고 빠른 비디오 인코딩 및 128k 컨텍스트로 멀티모달 AI 도구를 긴 비디오
시대로 도입 영상 이해를 위한 대규모 인공지능 모델입니다. Keye-VL-1.5-8B는 Slow-Fast 비디오 인코딩, LongCoT 콜드 스타트 데이터 파이프라인 및 강화 학습 정렬을 통해 128k 상황, 사고 및 비사고 추론 모드를 지원하고 여러 이미지 및 비디오 시나리오에서 고품질 이해를 달성하여 콘텐츠 제작, 검색 및 대화형 애플리케이션의 인텔리전스 및 자동화에 적합합니다.
1. 포지셔닝 및 하이라이트
1. 모델 포지셔닝: 비디오 우선 멀티모달 대형 모델
AI 도구 Keye-VL-1.5-8B는 긴 비디오 및 크로스 프레임 추론에 중점을 두고 있으며 인공 지능 추론 체인은 이미지, 비디오 및 텍스트 간의 통합 모델링이 가능하여 대규모 컨텍스트 및 다중 이미지 입력을 지원합니다. 콘텐츠 스테이션 및 검색 스테이션의 대규모 애플리케이션을 만나보세요.
2. 핵심 기술: Slow-Fast + Long Context + Alignment Enhancement
Slow-Fast 비디오 인코딩은 급격하게 변화하는 프레임에서 고해상도 채널을 사용하고 정적 클립의 빠른 채널에서 시간 영역 범위를 추구합니다. 단계별 사전 훈련을 통해 컨텍스트를 128k로 확장합니다. 그런 다음 설명 가능성과 안정성을 개선하기 위해 강화 학습과 인간 선호도 조정을 수행합니다.
(1) 사고 모드와 다중 모드 입력
사고와 비사고의 두 가지 모드를 제공하여 연쇄 추론을 심화할 수 있을 뿐만 아니라 실시간 애플리케이션에서 낮은 대기 시간을 추구할 수 있습니다. 시각적 토큰은 여러 이미지 및 비디오 입력을 포함하도록 유연하게 구성할 수 있습니다.
(2) 엔지니어링 친화적이고 생태학적 호환성
기본적으로 vLLM 및 swift 및 기타 추론 생태계에 적응하여 빠른 출시 및 탄력적 확장에 편리합니다. 오프라인 및 온라인 배포 모드를 모두 지원하며 엔터프라이즈 A/B 평가 및 그레이스케일 게시에 적합합니다.
2. 착륙 경로
1. 콘텐츠 및 검색: 재사용 가능한 조립 라인을 형성하는 세 단계
AI 도구는 데이터 정리, 자막 추출 및 렌즈 분할을 연결합니다. 메인 모델은 비디오 Q&A, 사실 추출 및 다중 이미지 검색을 완료합니다. 마지막으로 품질 평가와 인적 검토를 종료하여 안정적인 결과물을 형성합니다.
2. 에이전트 협업: ChatGPT+Claude+Keye는 ChatGPT를
사용하여 작업 계획 및 프롬프트를 생성하고, Claude는 보안 및 스타일 검토를 수행하며, Keye 경영진은 긴 비디오 이해 및 다중 모드 답변을 제공하여 계획부터 실행까지 인공 지능을 자동화합니다.
(1) 배포 체크리스트
a. vLLM 추론 및 KV 캐시 선택
b. Slow-Fast 매개변수 및 다중 그래프 캡 활성화
c. 텀베이스 설정 및 검색 향상
d. 생각과 비생각 사이의 이중 트랙 전략 구성
e. 액세스 로그 모니터링 및 품질 회귀
3. 성능, 호환성 및 라이선스
1. 긴 비디오 및 다중 벤치마크의 안정적인 성능 대규모
모델은 일반적인 다중 모드 기능을 고려하여 긴 컨텍스트 및 비디오 이해 작업에서 잘 수행되며 짧은 비디오 Q&A에서 긴 프로그램 분석에 이르기까지 다단계 시나리오에 적합합니다.
2. 추론 및 생태학
AI도구는 기본적으로 배치 병렬 처리 및 접두사 캐싱을 지원하므로 자동화된 오케스트레이션과 결합하면 처리량을 크게 늘릴 수 있습니다. 기존 데이터 주석 및 평가 프레임워크와 원활하게 연결됩니다.
(1) 오픈 소스 라이선스
이 모델은 오픈 소스 라이선스에 따라 출시되어 과학 연구 및 기업 맞춤화에 편리합니다. 기업 규정 준수 및 개인 정보 보호 정책을 결합하여 2차 정렬 및 증류 압축을 완료하는 것이 좋습니다.
4. 위험과 경계
1. 초장기 콘텐츠의 비용 및 안정성
초장기 컨텍스트는 메모리 및 대기 시간 변동을 초래하며, 이는 비사고 모드와 분할된 요약을 통해 비용을 절감할 수 있습니다.
2. 데이터 및 규정 준수
사용자 비디오의 경우 둔감하고 최소화해야 합니다. 감사 로그와 사용 사례 블랙리스트를 생성하여 오판의 위험을 줄입니다.
5. Address
항목 주소:https://github.com/Kwai-Keye/Keye
여기에서 시도하십시오.https://huggingface.co/spaces/Kwai-Ke ye/Keye-VL-1_5-8B
논문:https://