DeepSeek 엔그램 해석: O(1)를 사용하여 조건부 기억을 검색하여 대형 모델에 "새로운 희소 축"을 추가하세요

AI는 오픈 소스입니다. • Admin • 2026. 1. 13. • 133 회 조회

1. 초록

Engram은 DeepSeek의 오픈소스 "조건부 메모리" 모듈로, 핵심 아이디어는 Transformer에 확장 가능한 형태 조회 메모리 원시 기능을 추가하는 것입니다: 더 정적인 패턴/지식의 일부는 N그램 메모리 테이블 형태로 저장되며, 추론 중 대략 O(1) 방식으로 검색되어 현재 숨겨진 상태와 융합됩니다. 공식 저장소의 결론에 따르면, 동일한 매개변수와 동일한 컴퓨팅 파워의 제약 하에서 Engram-27B는 지식, 추론, 코드, 수학 등 작업에서 MoE 기준선에 비해 안정적인 수익을 보인다. 그리고 메커니즘 분석은 초기 층에서 정적 모델의 "재구성" 부담을 줄여 더 복잡한 추론 계산에 효과적인 깊이를 남길 수 있음을 보여줍니다.

2. 핵심 특징

1. O(1) 형태 조건 메모리

정적인 N그램 메모리의 결정론적 주소 지정 및 검색을 통해 '지식 탐색'이 밀집된 신경 컴퓨팅과 부분적으로 분리되어 계산 경로의 점유율을 줄입니다.

2. MoE를 보완하는 "희소한 새로운 축"

MoE는 조건부 계산을 통해 용량을 확장하고, Engram은 조건부 메모리를 통해 용량을 확장합니다: 하나는 "계산"되고 다른 하나는 "검사"되며, 결합 후 동일한 FLOP 내에서 모델 역량을 더 효과적으로 할당할 수 있습니다.

3. 용량 배분에 U자형 축척법칙이 사용됩니다

"계산 용량(MoE)"과 정적 메모리 용량(Engram) 간의 공식적인 상충 관계가 제시되며, 공학 상충을 안내할 수 있는 U자형 스케일링 법칙이 존재함을 지적합니다.

4. 메커니즘 설명은 공학적 직관에 더 가깝다

저장소는 Engram이 초기 계층에서 정적 패턴을 반복적으로 재구성할 필요를 없애고, 계층 수와 표현 기능은 이후의 더 중요한 추론 과정에 맡길 수 있다고 명시적으로 언급합니다. 이는 "추론을 위한 더 효과적인 심화 작업"으로 이해할 수 있습니다.

5. 시스템 효율성 및 착륙 가능성

결정론적 주소 지정은 하이퍼스케일 내장 테이블을 호스트 메모리로 오프로드하는 데 사용되며, 추론 오버헤드의 증가량은 가능한 한 제어하기 쉽도록 유지됩니다.

3. 설치

1. 환경 준비

Python 3.8+, 격리 환경(venv/conda)을 추천합니다.

2. 설치 의존성

저장소별 퀵 스타트: torch, numpy, transformer, sympy 등과 같은 의존성을 설치하세요.

3. 시연 진행

저장소는 Engram의 핵심 데이터 흐름을 시연할 engram_demo_v1.py을 제공합니다; 이 버전은 일부 표준 구성 요소(예: Attention/MoE 등)를 모킹하고 Engram 모듈이 어떻게 작동하는지 강조할 것입니다.

4. 일반적인 사용 사례

1. 지식 집약적 질의응답 및 사실 기억

작업이 "안정적인 지식/고정 표현 모드"에 더 의존할 때, 조회 메모리는 초기 몇 계층에서 반복적인 패턴 재구성을 줄일 수 있습니다.

2. 장기 맥락에서의 안정 조각 재사용

반복되는 짧은 조각들(고정된 구문, 코드 템플릿, 일반적인 형식)에 대한 정적 메모리 히트는 긴 문맥에서 무효 계산을 줄이기 위해 사용됩니다.

3. 코드 및 수학적 시나리오의 템플릿 구조

더 일반적인 파생 루틴/코드 골격이 있는 작업에서는 메모리 채널이 더 정적인 구조를 처리하는 데 사용되고, 계산 채널은 조합과 추론에 중점을 둡니다.

4. MoE와 결합된 비용 효율적인 확장

총 매개변수와 총 FLOP이 제한된다는 전제 하에, "용량의 일부가 더 높은 유효 용량 밀도를 대가로 정적 메모리 테이블에 넣어진다"고 합니다.

5. 생태와 경쟁 제품

1. 생태학적 상태

현재 공식 저장소는 주로 논문 + 구조 다이어그램 + 실험 다이어그램 + 데모 구성으로 구성되어 있어, "조건부 메모리"라는 새로운 구성 요소를 빠르게 이해하고 기존 MoE 스택과의 결합 공간을 평가하는 데 적합합니다.

2. 경쟁 제품 및 인접 방향

이웃 아이디어로는 일반적으로 RAG(외부 검색 향상), kNN-LM/최근접 이웃 검색, 전통적인 N-그램/캐싱, 그리고 다양한 희소 주의/희소 라우팅 아키텍처가 포함됩니다. Engram의 차이점은 모델의 내부 프리미티브로 "학습 가능한 정적 메모리 테이블"을 사용하며, MoE에 따른 분업과 스케일링을 강조한다는 점입니다. 실제 효과는 구체적인 데이터 분포, 학습 레시피, 배포 제약 조건과 함께 검증되어야 합니다.

6. 제한 및 주의사항

1. 종이의 세부 및 복제 구경

저장소는 주요 결론과 시연을 제공하지만, 대규모 교육, 해결 실행, 완전한 소작 세부 사항은 여전히 논문을 기반으로 해야 합니다.

2. 메모리 및 배포 트레이드오프

거대한 메모리 테이블을 호스트 메모리로 넘기면 메모리 압력이 줄어들지만, 대역폭, 지연 시간, 그리고 공학적 복잡성에 대한 새로운 제약이 생깁니다.

3. 적용 가능성은 과제의 형태에 따라 달라집니다

만약 작업의 주요 병목 현상이 '정적 모드/지식 재사용'이 아니라 '동적 추론/조합적 일반화'라면, 지식 집약적 작업만큼 이점이 명확하지 않을 수 있습니다.

4. 기존 교육 시스템과의 통합 비용

새로운 모듈을 기존 MoE/주의 구현 및 병렬 전략에 연결하려면 훈련 안정성, 처리량, 그리고 히트율, 테이블 용량 활용률 등 모니터링 지표를 평가해야 합니다.

7. 프로젝트 주소

https://github.com/deepseek-ai/Engram

8. 자주 묻는 질문

Q: Engram의 핵심 키워드는 무엇이며, 어떤 문제를 해결하나요?

A: 키워드는 조건부 메모리, 확장 가능한 조회, O(1) 조회 메모리, 그리고 N-그램 메모리입니다. 이 기술은 트랜스포머가 '네이티브 지식 조회' 기능을 제공하여 정적인 패턴이나 지식을 집중적인 계산과 분리하려고 합니다.

Q: Engram과 MoE의 관계는 무엇인가요?

A: MoE는 조건부 계산을 통해 용량을 확장하고, Engram은 조건부 메모리를 통해 용량을 확장합니다. 이 둘은 서로 보완하여 "계산(계산) + 체크(기억)"라는 분업을 형성할 수 있습니다.

Q: 공식적인 기계론적 분석에서 '더 효과적이고 깊다'는 것은 무슨 뜻인가요?

A: 저장소 관점에서는 Engram이 초기 계층에서 정적 패턴을 재구성하는 부담을 줄여, 네트워크 깊이가 이후 복잡한 추론에 더 집중되도록 만듭니다. 이는 마치 '핵심 부분에 깊이를 남겨두는' 것과 같습니다.

Q: Engram이 어떻게 작동하는지 빠르게 확인할 수 있나요?

A: 웨어하우스에서 제공하는 engram_demo_v1.py를 직접 실행하려면 먼저 데이터 흐름과 융합 위치를 이해해야 합니다. 데모에서는 Engram을 강조하기 위해 일반적인 부품을 모조할 것입니다.

Q: Engram이 RAG의 대안으로 적합한가요?

A: 보조적인 방향으로 더 적합합니다: RAG는 외부 문서 검색 및 업데이트이고, Engram은 내부 정적 메모리 원시 언어이자 컴퓨팅/메모리 분업입니다. 대체 방식은 작업이 외부 업데이트 가능한 지식과 제어 가능한 검색 링크가 필요한지에 따라 달라집니다.

DeepSeek 오픈소스 Engram 조건부 메모리 모듈 공개 O(1) 왜 표를 확인하는 것이 중요한가? Engram-27B와 연산 능력이 MoE 기준선을 초과한 이유 Engram은 논란을 일으키기 위해 N그램 정적 메모리 테이블 확장 트랜스포머를 사용합니다 Engram-27B는 지식 추론 코드의 수학적 안정 획득 코드에 구현되어 있습니다 DeepSeek Engram은 FLOP의 집중적인 계산 제거에서 지식 조회를 제거합니다 Engram과 MoE는 서로의 새로운 노출 축을 보완합니다: 하나는 세고, 하나는 노동 분담 방식을 확인합니다 엔그램은 U자형 축척 법칙을 제안했다 MoE 컴퓨팅 용량과 정적 메모리 중에서 선택하는 방법 엔그램 메커니즘 설명: 초기 계층은 더 이상 정적 패턴 추론을 더 깊고 효과적으로 재구성하지 않습니다 딥시크 Engram은 매우 큰 테이블에 대해 호스트 메모리를 오프로드하는 것을 지원하지만, 지연 시간은 기하수형적입니다 Engram_demo_v1 온라인 조건부 메모리 데이터 흐름과 퓨전 위치를 가능한 한 빨리 이해하는 방법 Engram은 지식 집약적인 Q&A에 적합합니다 왜 정적 모드 다중화가 순수 계산보다 더 나은 이유 Engram은 긴 맥락에서 고정 조각을 재사용합니다 무효 계산 경로를 줄일 수 있나요? Engram은 코드와 수학 템플릿 구조를 향상시킵니다 채널 포커스를 계산하고 콤비 추론이 더 강해집니다 Engram+MoE 비용 효율적인 확장 왜 FLOP 하에서 밀도가 더 높을까요? 엔그램 vs RAG 누가 더 강한가 모델 내 정적 메모리가 외부 검색을 대체할 수 있는지 Engram과 kNN-LM의 차이점: 정적 메모리 프리미티브는 주의를 끌도록 훈련시킬 수 있습니다 DeepSeek Engram 생태학적 상태: 실험 도표 데모가 무엇을 보여줄 수 있을까요? Engram의 핵심 키워드 조건부 기억 해석: 어떤 문제점을 해결하나요? Engram은 결정적 주소 지정 방식으로 O(1) 검색을 구현합니다 프로젝트 착륙의 장점은 어디에 있나요? 엔그램은 전면 바닥의 재건 부담을 덜어줍니다 왜 깊이는 복잡한 추론에만 머물 수 있을까요? Engram의 정적 메모리 용량이 클수록 더 좋습니다 U자형 법칙이 답을 제공합니다 Engram은 비디오 메모리를 저장하기 위해 호스트 메모리를 오프로드합니다 대역폭과 처리량이 새로운 병목 현상이 될까요? Engram 통합 MoE와 주의 능력은 비용이 많이 듭니다 훈련 안정성이 평가되는 방식 Engram은 어떤 지표를 모니터링해야 하나요? 명중률과 테이블 용량 활용도가 핵심입니다 엔그램 재생산 구경 알림: 창고 결론과 논문의 세부 사항 사이의 차이점은 무엇인가요? 엔그램의 경계는 어디에 있나요? 동적 추론 과제의 이점은 명확하지 않을 수 있습니다 Engram은 모델에 "lookup"을 내장했습니다 왜 캐싱 N-그램보다는 새로운 원시 함수에 더 가까운 것 같은가 Engram은 고정식보다 안정적인 지식에 더 우호적입니다 왜 중복 계산을 줄여야 하죠 DeepSeek Engram-27B 대비 MoE 기준선 왜 컴퓨팅 파워가 여전히 수익성이 있을까요? 엔그램의 드문드문 새로운 축은 드문 주의력과는 다르다 테이블을 확인하고 용량을 확장하는 것이 더 직접적인가요? Engram 엔지니어링 직관: 표현 기능을 뒤로 미뤄둔 것이 무엇을 의미하는지에 대해 Engram 설치 빠른 시작 지점: 토치 트랜스포머 Sympy 의존성 설정 방법 왜 Engram 데모가 모크인가요? 주의/MoE 강조된 핵심 경로 Engram은 장기 컨텍스트 안정화 프래그먼트 다중화에 사용됩니다 코드 템플릿에서 얼마나 많은 컴퓨팅 파워를 절약할 수 있을까요 Engram은 수학적 도출 루틴에서 정적 구조를 다룹 왜 개선이 더 쉬운가 Engram과 MoE의 조합이 확장 경로를 바꿀까요? 계산 + 조사 시너지가 하나의 트렌드가 되었습니다 엔그램의 확장 가능성 조회 의미 확장 가능한 조회는 추론을 늦추지 않습니다 Engram의 결정론적 주소 지정은 배포에 유리합니다 하지만 유연성이 희생될까요? Engram의 대규모 훈련 세부 사항은 완전히 공개되지 않았습니다 착륙 위험과 함정은 무엇인가요? Engram의 메모리와 배포 상충: 비디오 메모리를 절약하고 지연 시간을 늘리는 것은 그만한 가치가 없습니다 Engram 이웃 경쟁사 비교: RAG kNN-LM 캐시 N-그램 더 적합한 것 DeepSeek Engram의 프로젝트 주소는 공개되어 있습니다 조건부 기억이 트랜스포머의 표준이 될까요? 엔그램 주요 논란: 장기적으로 메모리를 컴퓨팅 파워로 전환하는 것이 비용 효율적인지 Engram이 지식 검색을 "네이티브화"합니다 왜 모델 능력 할당 논리가 변경될 수 있을까요? 엔그램의 "더 효과적이고 깊은" 발언 메커니즘 증거가 공학적 설명과 일치하는지 같은 플로퍼에서 엔그램이 더 강하다는 점 정적 메모리와 계산 경로의 분리가 핵심입니다 Engram을 기존 병렬 전략과 통합하는 데 어려움을 겪고 있습니다 분산 훈련과 라우팅이 어떻게 함께 작동하는지에 대해 Engram은 사실 기억과 잡학을 위해 사용됩니다 왜 순수 MoE보다 더 안정적인가요? 엔그램이 MoE의 단점을 보완할 수 있을까요? 조건부 메모리는 모델이 덜 계산하고 더 많이 검사할 수 있게 해줍니다

DeepSeek 엔그램 해석: O(1)를 사용하여 조건부 기억을 검색하여 대형 모델에 "새로운 희소 축"을 추가하세요

관련 기사

킬라인이란 무엇인가: 게임 메커니즘에서 현실 은유까지.

Anthropic 릴리스: Cowork: Claude Desktop이 비기술적 작업을 위한 폴더 프록시 추가.

Mem0가 에이전트와 통합할 가치가 있을까요? 장기 기억력은 유용하지만, 경계를 관리해야 합니다

헤이스택은 어떤 팀에 적합한가요? 이것은 오히려 컴포스터블한 RAG 엔지니어링 프레임워크에 가깝습니다

추천 도구

DeepSeek 엔그램 해석: O(1)를 사용하여 조건부 기억을 검색하여 대형 모델에 "새로운 희소 축"을 추가하세요

관련 기사

킬라인이란 무엇인가: 게임 메커니즘에서 현실 은유까지.

Anthropic 릴리스: Cowork: Claude Desktop이 비기술적 작업을 위한 폴더 프록시 추가.

Mem0가 에이전트와 통합할 가치가 있을까요? 장기 기억력은 유용하지만, 경계를 관리해야 합니다

헤이스택은 어떤 팀에 적합한가요? 이것은 오히려 컴포스터블한 RAG 엔지니어링 프레임워크에 가깝습니다

추천 도구

AI 도구 제출

제출 정보를 확인해주세요