돌아가기 AI 백과사전
트랜스포머란 무엇인가요? 왜 거의 모든 대형 모델이 그 위에 만들어지는 걸까요?

트랜스포머란 무엇인가요? 왜 거의 모든 대형 모델이 그 위에 만들어지는 걸까요?

AI 백과사전 Admin 75 회 조회

트랜스포머는 신경망 아키텍처입니다. 이름이 중요해서가 아니라, '병렬 처리'와 '맥락 모델링'을 잘 수행하기 때문입니다. 오늘날 볼 수 있는 대부분의 대형 언어 모델은 이 모델이나 그 변형들과 떼려야 뗄 수 없습니다.

트랜스포머 이전에는 많은 모델들이 루프 구조에 더 의존했으며, 텍스트를 단계별로 읽고 느리며 장거리에서 쉽게 떨어뜨릴 수 있는 구조를 사용했습니다. 트랜스포머는 자기 주의를 사용해 문장 내 모든 위치 간의 관계를 동시에 계산하여 먼 연관성을 더 빠르고 쉽게 파악할 수 있습니다.

왜 인기가 많은가요?

대비점레거시 시퀀스 모델트랜스포머
치료천천히 순서대로 읽으세요큰 그림을 병행해서 볼 수 있습니다
장거리 연애이전 기사는 쉽게 잊어버립니다원격 연결을 더 쉽게 할 수 있습니다
훈련 효율성보통은 더 느리게대규모 훈련에 더 적합합니다
확장성더 제한적이었다대형 모델을 만드는 것이 더 쉽습니다

이 때문에 많은 사람들이 트랜스포머를 대형 모델 시대의 기반으로 봅니다. 대형 언어 모델과 동등하지는 않지만, 그렇지 않으면 오늘날의 대형 모델 생태계가 지금과 같은 수준으로 성장하기는 어려웠을 것입니다. 오늘날 사용하는 많은 채팅 어시스턴트, 코드 모델, 그래픽 모델들은 Transformer의 다양한 작업을 위한 확장판일 뿐입니다. 모델이 시퀀스 정보를 처리해야 하는 한, 트랜스포머라는 개념은 계속 존재할 것입니다.

"보편적 지능"이라고 생각하지 마세요

트랜스포머는 강력하지만, 지식 자체가 아니라 건축일 뿐입니다. 모델이 좋은지 아닌지는 훈련 데이터, 정렬, 매개변수 양, 맥락 설계, 추론 전략에 따라 달라집니다. 즉, 트랜스포머는 '무엇을 배울지'가 아니라 '어떻게 배우고, 어떻게 계산하는가'를 제공합니다.

한 문장만 기억한다면 기억할 수 있습니다: 트랜스포머는 모델들이 맥락을 더 효율적이고 병렬로 이해할 수 있게 해주며, 이는 현대 대형 모델의 폭발적인 성장을 직접적으로 촉진합니다.

추천 도구

더보기