AI는 오픈 소스입니다. - Page 11

오픈 소스 음성 솔루션 비교: Fun-CosyVoice3 대 일반 TTS, Fun-ASR-nano 대 메인스트림 ASR

1. 요약 : 알리바바 통이 음성 팀(FunAudioLLM)은 두 가지 유형의 오디오 모델을 오픈 소스로 제공했습니다: 음성 합성용 Fun-CosyVoice3-0.5B-2512 (TTS)와 음성 인식용 Fun-ASR-Nano-2512 (ASR). 전자는 다국어 제로 샷...

Admin • 2025. 12. 15.

619

GLM-TTS는 완전 오픈 소스입니다: 감정 제어 가능한 산업용 음성 합성과 함께 3초 음성 복제

1. 추상 GLM-TTS는 산업용 음성 생성을 위한 오픈소스 TTS 시스템으로, 음성 샘플의 음색 복제를 단 3초 만에 지원하고 감정 표현을 제어할 수 있습니다. 아키텍처는 2단계 생성 과정을 채택하며, 문자 오류율(CER)과 감성 측면에서 오픈 소스 중 선도적인 수준...

Admin • 2025. 12. 11.

176

Zhipu AI 오픈 소스 Open-AutoGLM 및 AutoGLM-Phone-9B: 모바일 폰 에이전트의 새로운 출발점

1. 추상 적 Open-AutoGLM은 Zhipu AI용 오픈소스 모바일 폰 에이전트 프레임워크이며, 핵심 모델은 AutoGLM-Phone-9B입니다. 휴대폰 화면의 내용을 이해하고 실제 사용자 조작을 시뮬레이션하여 "인터페이스 이해, 지시사항 이해, 휴대폰 클릭"을 ...

Admin • 2025. 12. 9.

538

롱캣-이미지 오픈 소스 분석: 6B DiT가 20B+ MoE 수준의 중국-영어 이중언어 이미지 투 이미지 모델 달성

1. Abstract LongCat-Image는 Meituan의 LongCat 팀이 개발한 중국어와 영어 오픈소스 이중언어 이미지 생성 및 편집 모델로, 약 6B 매개변수를 가진 하이브리드 DiT 아키텍처를 사용하며, 많은 공개 벤치마크에서 20B 수준의 오픈 소스 모...

Admin • 2025. 12. 6.

253

Mistral 3 오픈 소스 모델 패밀리: 다중 모달, 다국어 및 온프레미스 배포를 위한 새로운 선택

1. Abstract Mistral 3는 Mistral AI가 출시한 새로운 세대의 오픈 소스 모델 계열로, 드문 전문가 아키텍처를 가진 Mistral Large 3와 로컬 및 엣지 시나리오용 Ministral 3 시리즈(3B/8B/14B)를 포함합니다. 모든 가중치는...

Admin • 2025. 12. 3.

215

DeepSeek-V3.2 출시: 효율적인 추론과 범용 에이전트 역량, 그리고 적은 주의력으로 활용 가능

1. Abstract DeepSeek-V3.2는 V3.2-Exp를 기반으로 한 공식 출시 버전으로, 추론 효율성과 출력 길이 최적화에 중점을 두고, DSA 희소 주의 메커니즘을 활용해 장기 컨텍스트 성능을 향상시킵니다. DeepSeek-V3.2-Speciale는 극도의...

Admin • 2025. 12. 1.

237

오픈 소스 음성 솔루션 비교: Fun-CosyVoice3 대 일반 TTS, Fun-ASR-nano 대 메인스트림 ASR

GLM-TTS는 완전 오픈 소스입니다: 감정 제어 가능한 산업용 음성 합성과 함께 3초 음성 복제

Zhipu AI 오픈 소스 Open-AutoGLM 및 AutoGLM-Phone-9B: 모바일 폰 에이전트의 새로운 출발점

롱캣-이미지 오픈 소스 분석: 6B DiT가 20B+ MoE 수준의 중국-영어 이중언어 이미지 투 이미지 모델 달성

Mistral 3 오픈 소스 모델 패밀리: 다중 모달, 다국어 및 온프레미스 배포를 위한 새로운 선택

DeepSeek-V3.2 출시: 효율적인 추론과 범용 에이전트 역량, 그리고 적은 주의력으로 활용 가능

추천 도구

AI 도구 제출

제출 정보를 확인해주세요