C ur s or 官方称,这项底层优化带来 1.84 倍推理吞吐提升,同时让输出结果更接近 FP32 参考值;相关改进也已用于 Composer 的训练流程,以加快模型迭代和版本发布。
C urs or 는 Mo E 의 디 코 딩 을 다시 작성 했습니다
이 업데이트 의 핵심 은 단순히 모델을 더 빠른 GPU 로 교체 하는 것이 아니라 Black well 에서 Mo E 의 디 코 딩 방식을 다시 작성 하는 것입니다 .전통적인 시 나 리 오는 전문가 로 구성 되어 있지만 커 서는 병 렬 축 을 출 력 으로 뒤 집 어 전문가 라 우 팅 을 주 위 하는 대신 각 와 프 가 출 력 값을 담당 하도록 합니다 .
이 조 정은 소 량 디 코 딩 시 나 리오 를 대상으로 합니다 . Mo E 모델 은 단일 토 큰 을 생성 할 때 원래 데이터 정리 , 취급 및 중간 버 퍼 링 에 소비 되는 많은 단계 가 있으며 실제로 계산 에 사용되는 비율 이 높 지 않습니다 .워 프 디 코 딩 의 의미는 이러한 추가 링크 를 최대한 압 축 하는 것입니다 .
더 이상 다 중 스테 이지 링 , 크 로 스 워 프 동기 화 및 추가 버 퍼 에 의존 하지 않으며 , 추 론 경 로는 전통적인 전문가 중심 솔루 션 보다 짧 습니다 . 더 중요한 것은 이 최적 화는 " 더 빠른 " 에서 멈추 지 않습니다 .공식 은 또한 출 력 결과가 F P 32 참조 값 에 상대 적으로 더 가깝 다는 것을 강조 하여 워 프 디 코 드가 처리 량 최적 화 뿐만 아니라 수치 성 능을 고려 하는 기본 재 구 성 과 더 비슷 하게 만듭니다 .코드 생성 모델 의 경우 안정 성은 속도 만큼 이나 중요합니다 .Com pos er 는 시스템 계 층 최적 화 배 당 금을 먹 기 시작합니다 . C urs or 는 원래 표현 에서 이 업데이트 를 Compos er 에 직접 연결 했습니다 .공식 적인 논 리는 명확 합니다 : 사전 훈련 데이터 와 R L 은 모델 의 상 한 을 결정 하지만 추 론 링크 의 효율 성은 연구 , 훈련 및 검 증 피 드 백 이 얼마나 빨리 실행 되는 지에 영향을 미 치 며 Compos er 릴 리스 업데이트 의 속도 와 관련이 있습니다 .
이것은 커 서가 이 엔지니어 링 작업을 별 도로 강조 하는 이유 도 설명 합니다 .
AI 회사 에서 기본 커 널 최적 화는 인 프 라 개선 이상 이며 모델 개발 속도 , 릴 리스 빈 도 및 궁극적으로 개발 자에게 제공 되는 경험 에 영향을 미 칩니다 .
커 서는 이번에는 더 큰 매 개 변 수 크 기에 대해 이야기 하지 않고 처리 량 , 정 밀 도 및 반복 속 도에 중 점을 둡 니다 . Compos er 의 경우 이러한 시스템 계 층 최적 화가 지속적으로 더 빠른 업데이트 로 전환 되는 지 여 부는 단일 버전 이름 변경 보다 더 주목 할 가치가 있습니다 .