돌아가기 AI 정보
Long Cat - Audio DiT 는 웨이브폼 잠복 공간과 더 강력한 음색 클론을 특징으로합니다.

Long Cat - Audio DiT 는 웨이브폼 잠복 공간과 더 강력한 음색 클론을 특징으로합니다.

AI 정보 Admin 100 회 조회

Long Cat 팀은 코드 , 기술 보고서 및 Hug ging Face 가 중 치 를 동시에 릴 리스 하는 Long Cat - Audio Di T 를 출시 했습니다 .그것은 주로 파 형 잠 복 공간 에서 직접 확 산 T TS 를 수행 하고 더 이상 멜 과 같은 중간 표현 을 돌아 오지 않습니다 .음성 계의 관심을 가장 끌 었던 것은 음 색 클 론 점 수 , 모델 가 중 치 및 추 론 코드를 테이블 에 올려 놓 는 것입니다 .

공식 적인 핵심 진 술 은 간단 합니다 : 이것은 캐 스 케 이드 오류 를 줄 이고 음성 생성 링크 를 단 축 하며 확 산 T TS 의 일반적인 왜 곡 을 앞으로 처리 하는 것입니다 .

이것은 일반적인 T TS 와 프 롬 프트 오 디오 가 있는 음성 복 제 모두 직접 검 증 할 수 있기 때문에 개발 자에게 는 하나의 보고 서를 제공하는 것보다 훨씬 더 실용 적입니다 .

이 점 수는 눈 길을 끄 지만 더 건 전 한 이해 는 여전히 " 공 식 발표 기준 에 따라 성 과를 선 도 하는 것 " 이며 후 속 에는 더 많은 커뮤니티 오 디 션 과 재 현 결과를 볼 필요가 있습니다 .

보고서 의 또 다른 기억 하기 쉬운 결론 은 또한 반 직 관 적입니다 : 더 나은 VA E 재 구 축 은 반드시 더 강력한 전반 적인 T TS 성 능을 직접 적으로 교환 하지는 않습니다 .

이제 둘 다 갖추 어져 있으므로 개념 시 연 에 멈추 기 보다는 실행 가능한 연구 기반 오픈 소 스 제품 군 과 같습니다 .

@

추천 도구

더보기