Step-Audio-R1.1은 심층 추론과 실시간 모두를 고려하여 음성 추론 순위에서 우승했습니다
Step-Audio-R1.1이 발표되어 Artificial Analysis의 음성 추론 목록에서 1위를 차지했습니다. BigBench Audio 테스트에서 약 96.4%의 정확도를 달성했으며, 실시간 대화 장면에서 첫 프레임 오디오 출력은 약 1.51초였습니다. 프로젝...
Step-Audio-R1.1이 발표되어 Artificial Analysis의 음성 추론 목록에서 1위를 차지했습니다. BigBench Audio 테스트에서 약 96.4%의 정확도를 달성했으며, 실시간 대화 장면에서 첫 프레임 오디오 출력은 약 1.51초였습니다. 프로젝...
구글 딥마인드는 55개 언어를 지원하고 4B, 12B, 27B의 세 가지 매개변수 척도를 제공하는 오픈소스 기계 번역 모델 세트인 TranslateGemma의 출시를 발표했습니다. 공식 소개에 따르면, 이 모델들은 Gemma 3 아키텍처를 기반으로 하며, 모바일 폰, ...
OpenAI 개발자 커뮤니티 게시물은 Open Responses를 소개합니다: OpenAI Responses API에서 영감을 받은 오픈 소스 명세와 생태계 집합으로, 여러 제공자의 상호운용 가능한 대형 언어 모델을 위한 통합 인터페이스를 제공하고, 서로 다른 모델 플...
2026년 1월 15일, 애플은 중국 본토 사용자들을 위한 애플 페이 국경 간 결제 지원을 확대한다고 발표했습니다: 자격을 갖춘 현지 은행에서 발급한 비자 신용/직불카드를 "지갑"에 추가한 후 오프라인 상점과 해외 비접촉 결제를 지원하는 온라인 시나리오에서 애플 페이로...
메이투안의 롱캣 팀은 "LongCat-Flash-Thinking-2601"을 출시 및 출시했으며, 이는 "깊고 일반적인 에이전트 사고"를 위한 버전으로, 에이전트 검색, 에이전트 도구 사용, 도구 통합 추론 등 높은 점수에 중점을 두고 무작위 및 복잡한 과제에서 더 강...
PixVerse Research는 PixVerse-R1에 관한 기술 기사를 게재하고 "실시간 생성"과 관련된 페이지를 개설했으며, R1을 "실시간 세계 모델"이라고 불렀습니다. 이 모델은 고정 길이의 클립에서 지속 가능한 상호작용 가능한 시각 스트림으로 비디오 생성을 ...