SLM과 LLM 비교 소규모 언어 모델이란?

URL 복사

소규모 언어 모델(Small Language Model, SLM)은 대규모 언어 모델(Large Language Model, LLM)의 소규모 버전으로, 지식의 전문성이 더 높고 커스터마이징이 더 빠르며 실행 효율성이 더 뛰어납니다.

SLM은 광범위한 일반 지식을 갖춘 LLM과 달리 도메인별 지식을 갖추도록 학습합니다. SLM은 크기가 더 작기 때문에 학습 및 배포에 필요한 컴퓨팅 리소스가 적어 인프라 비용을 줄이고 미세 조정(fine-tuning) 속도를 단축할 수 있습니다. 이러한 경량화 특성으로 인해 엣지 기기와 모바일 애플리케이션에 적합한 언어 모델입니다.

SLM과 LLM 비교

SLM과 LLM은 모두 프로그래밍 언어를 비롯해 인간 언어를 해석하도록 학습한 인공지능(AI) 시스템의 유형입니다. 일반적으로 이 둘의 주요 차이점은 학습 토대가 되는 데이터 세트의 크기, 데이터 세트에서 학습하는 데 사용되는 프로세스, 다양한 활용 사례의 시작에 따른 비용/이점 등입니다.

이름에서 알 수 있듯이 LLM과 SLM은 모두 언어로 구성된 데이터 세트에서 학습합니다. 따라서 이미지를 토대로 학습한 모델(예: DALL·E) 또는 동영상을 토대로 학습한 모델(예: Sora)과 다릅니다. 언어 기반 데이터 세트의 일부 예시로는 웹페이지 텍스트, 개발자 코드, 이메일, 사용 설명서 등이 있습니다.

SLM과 LLM을 응용한 기술 중 가장 잘 알려진 것 중 하나가 생성형 AI(생성 AI)로, 예측할 수 없는 여러 다양한 질의에 대해 스크립트 없이도 콘텐츠 응답을 그 이름에서 알 수 있듯 생성할 수 있습니다. 특히 LLM은 GPT-4 파운데이션 모델과 ChatGPT(수조 개의 매개변수를 사용하여 방대한 양의 데이터 세트를 토대로 학습하여 광범위한 인간 질의에 응답하는 대화형 챗봇) 덕분에 일반인들 사이에서도 인지도가 높아졌습니다. 생성 AI의 인기가 높기는 하지만 예측 AI처럼 LLM과 SLM을 비생성형으로 응용하는 기술도 있습니다.

프로덕션 레디 AI/ML 환경을 구축하기 위해 고려해야 할 중요 사항

GPT-4/ChatGPT의 범위는 LLM과 SLM의 일반적인 차이점인 학습 기반이 되는 데이터 세트를 확실히 보여주는 좋은 예시입니다.

LLM은 주로 인간 지능을 매우 광범위한 수준에서 모방하도록 설계되었으므로 광범위한 대규모 데이터 세트를 기반으로 학습합니다. GPT-4/ChatGPT의 경우에는 특정 날짜까지의 공용 인터넷도 전부 범위에 포함됩니다. 이것이 바로 ChatGPT가 광범위한 일반 사용자의 질의를 해석하고 응답하는 기능으로 유명세를 떨칠 수 있었던 이유입니다. 그러나 ChatGPT는 같은 이유로 부정확한 응답을 제공해 이목을 끌기도 합니다. 이를 '할루시네이션(hallucination)'이라고 합니다. 모든 산업 분야나 특정 분야에 관한 질의에 정확하게 응답할 수 있도록 미세 조정(fine-tuning) 및 도메인별 학습이 이뤄져야 하지만 그러지 못하기 때문에 발생합니다.

반면 SLM은 주로 특정 산업 분야(즉, 전문 분야)에 맞춘 소규모 데이터 세트를 기반으로 학습합니다. 예를 들어 의료 기관은 의료 데이터 세트를 기반으로 학습한 SLM 지원 챗봇을 사용하여 건강에 관한 사용자의 비전문적 질의에 도메인별 지식을 삽입함으로써 질문과 답변의 품질을 높일 수 있습니다. 이 경우 SLM 지원 챗봇은 의료 활용 사례와 무관한 인터넷상의 블로그 포스트나 소설, 시 등을 학습할 필요가 없습니다.

다시 말해 SLM은 일반적으로 특정 도메인에서는 탁월하지만 일반 지식과 전체적인 상황별 이해 측면에서는 LLM에 뒤처집니다.

LoRA와 QLoRA 비교 설명 

Red Hat 리소스

모델이 LLM이든 SLM이든 비즈니스 활용 사례에 맞게 학습시키려면 리소스 집약도는 높을 수밖에 없습니다. 그러나 LLM 학습이 특히 더 그러합니다. GPT-4의 경우 총 2만 5천 개의 NVIDIA A100 GPU가 90~100일 연속으로 동시에 실행되었습니다. 다시 말씀드리지만 GPT-4는 그 규모가 LLM 스펙트럼의 최상단에 위치합니다. Granite와 같은 다른 LLM에는 많은 리소스가 필요 없습니다. SLM 학습에도 상당한 컴퓨팅 리소스가 필요하지만 LLM보다는 적습니다.

 

학습과 추론의 리소스 요구 사항 비교

모델 학습과 모델 추론 사이의 차이점을 알아야 합니다. 위에서 이야기했듯이 학습은 AI 모델 개발의 첫 단계입니다. 추론은 학습한 AI 모델이 새로운 데이터를 기반으로 예측할 때 따르는 프로세스입니다. 예를 들어 사용자가 ChatGPT에게 질문을 하면 그에 따라 ChatGPT가 사용자에게 예측을 답변으로 내놓습니다. 이렇게 예측을 생성하는 프로세스가 추론입니다.

대부분의 LLM은 데이터를 생성하려면 여러 병렬 처리 장치가 필요하지만 Granite 모델 제품군과 같은 일부 사전 학습된 LLM은 단일 고출력 워크스테이션의 리소스를 사용하여 추론할 수 있습니다(예: Granite 모델은 하나의 V100-32GB GPU2에 할당 가능). 또한 LLM에 액세스하는 동시 사용자 수가 많을수록 모델이 추론을 실행하는 속도가 느려집니다. 반면 SLM은 주로 스마트폰 또는 기타 모바일 기기의 리소스를 이용하여 추론하도록 설계됩니다.

규모에 맞는 추론의 성공을 결정하는 요인은 다양합니다. 주로 관련 요소들이 얼마나 효율적이고 효과적으로 협업하는지가 관건입니다. 

특히 대규모 AI 모델(예: LLM)을 지원할 수 있는 추론 서버와 더 복잡한 추론 기능은 기업의 AI 워크로드를 확장하는 데 필수적입니다.

추론에 주목해야 하는 이유 

이러한 AI 툴은 규모에 따라 더 빠르게 추론할 수 있도록 리소스를 더 효율적으로 사용합니다. 

  • llm-d: LLM 프롬프트는 복잡하고 비균일합니다. 일반적으로 대량의 데이터를 처리하려면 방대한 컴퓨팅 리소스와 스토리지가 필요합니다. 오픈소스 AI 프레임워크인 llm-d는 명확한 경로를 통해 개발자가 분산 추론과 같은 기술을 사용하여 LLM과 같이 정교하고 규모가 큰 추론 모델에 대해 증가하는 수요를 충족할 수 있도록 돕습니다.
  • 분산 추론: 분산 추론은 추론 작업을 상호 연결된 일련의 기기에 분배하여 AI 모델이 더 효율적으로 워크로드를 처리할 수 있도록 하는 것을 말합니다. “백지장도 맞들면 낫다”라는 속담을 소프트웨어 분야에 적용한 것과 같습니다.
  • vLLM: 가상 대규모 언어 모델(Virtual Large Language Model)을 의미하며, vLLM 커뮤니티에 의해 유지 관리되는 오픈소스 코드 라이브러리입니다. vLLM은 대규모 언어 모델(Large Language Model, LLM)이 계산을 더욱 효율적이고 대규모로 수행할 수 있도록 돕습니다. 이는 LinkedIn, Roblox, Amazon과 같은 조직이 추론 기능을 가속화하는 데 도움이 됩니다.  

'어느 모델이 더 나은가?'라는 질문에 대해 정해진 답은 없습니다. 조직의 계획, 리소스, 전문 지식, 일정, 기타 요인에 따라 답은 달라집니다. 모델을 처음부터 학습시켜야 하는 활용 사례인지, 사전 학습된 모델을 미세 조정하는 활용 사례인지 결정하는 것도 중요합니다. LLM과 SLM을 비교할 때 일반적으로 고려해야 할 사항은 다음과 같습니다.

비용

일반적으로 LLM에는 학습, 미세 조정, 추론 실행에 훨씬 더 많은 리소스가 필요합니다. 학습의 경우 자주 투자할 필요가 없습니다. 모델의 학습은 간헐적이며, 지속적이지 않은 태스크입니다. 학습이 진행되는 동안에는 컴퓨팅 리소스만 필요합니다. 그러나 추론을 실행하려면 비용이 지속적으로 발생하고, 모델 사용자 수가 확장함에 따라 추론 실행의 필요성은 커집니다. 이럴 경우 대부분 대규모 클라우드 컴퓨팅 리소스나 상당한 온프레미스 리소스 투자 또는 두 가지 모두가 필요합니다.

SLM은 엣지 컴퓨팅과 같이 대기 시간이 짧은 활용 사례에서 자주 평가되고 있습니다. 중요 리소스에 지속적으로 연결할 필요 없이 단일 모바일 기기에서 사용할 수 있는 리소스만으로도 실행 가능하기 때문입니다.

Red Hat 블로그: LLM 비용을 낮추기 위한 팁 

전문성

인기 있는 사전 학습된 LLM(예: Granite, Llama, GPT-4)들은 AI 시작을 위한 '플러그 앤 플레이' 옵션을 더 많이 제공합니다. 따라서 AI 실험을 시작하고자 하는 조직에서는 데이터 사이언티스트가 처음부터 설계하고 학습시킬 필요가 없는 LLM을 선호합니다. 반면 SLM은 일반적으로 특정 영역의 데이터 세트를 기반으로 정확하게 미세 조정할 수 있도록 데이터 사이언스와 산업 지식 도메인의 전문 지식이 모두 필요합니다.

보안

LLM의 한 가지 잠재적 위험은 애플리케이션 프로그래밍 인터페이스(API)를 통해 중요한 데이터가 노출될 수 있다는 것입니다. 특히 조직의 데이터를 기반으로 LLM을 미세 조정할 때는 컴플라이언스와 회사 정책을 잘 지켜야 합니다. SLM은 더 높은 수준의 제어력을 제공하므로 데이터 유출의 위험이 적습니다.

기업이 SLM을 워크플로우에 통합할 때는 SLM의 제한 사항에 대해 알아야 합니다.

편향

SLM은 소규모 데이터 세트를 기반으로 학습하므로 불가피하게 발생하는 편향을 LLM에 비해 더 쉽게 완화할 수 있습니다. 그러나 다른 모든 크기의 언어 모델들과 마찬가지로 특정 집단과 아이디어에 대한 과소 대표 또는 와전과 같은 편향이나 부정확한 서술이 도입될 수 있습니다. 언어 모델은 방언, 지리적 위치, 문법 등과 관련된 편향까지 상속받을 수 있습니다.

따라서 팀은 편향된 출력을 제한하기 위해 학습 데이터의 품질에 각별한 주의를 기울여야 합니다. 

협소한 지식 범위

SLM은 응답을 생성할 때 정보를 가져오는 풀의 크기가 작습니다. 따라서 특정 태스크에는 탁월한 성능을 보일 수 있지만 광범위한 일반 지식이 필요한 태스크에는 부적합할 수 있습니다. 

팀은 특수 목적의 SLM 컬렉션을 만들어 LLM 하나 또는 여러 개와 함께 사용하는 것을 고려해볼 수 있습니다. 이러한 솔루션은 팀이 모델을 기존 애플리케이션과 연결하여 여러 언어 모델이 함께 작동하는 상호 연결된 워크플로우를 생성할 수 있는 경우에 특히 유용할 수 있습니다.

SLM은 적응성이 뛰어나 다양한 활용 사례에 유용하게 사용할 수 있습니다. 

챗봇 

SLM을 사용하여 챗봇에게 전문 자료를 학습시키세요. 예를 들어 고객 서비스 챗봇이 질문에 답하고 사용자에게 정보를 안내할 수 있도록 회사와 관련된 지식을 학습시킬 수 있습니다. 

에이전틱 AI 

SLM을 에이전틱 AI 워크플로우에 통합하여 사용자 대신 태스크를 완수할 수 있도록 합니다. 

생성형 AI 

SLM은 새 텍스트 생성, 기존 텍스트 번역, 카피 요약과 같은 태스크를 수행할 수 있습니다. 

생성 AI 활용 사례 살펴보기

Red Hat AI는 AI 여정의 초기 단계에 있는 기업이든, 확장할 준비까지 마친 기업이든 상관없이 AI 여정에 오른 기업이라면 모두 도울 수 있는 제품 및 서비스 플랫폼입니다. 고유한 엔터프라이즈 활용 사례에 대한 생성형 AI와 예측 AI를 둘 다 지원할 수 있습니다.

Red Hat AI를 통해 Red Hat® AI Inference Server를 사용하여 하이브리드 클라우드 전반에서 모델 추론을 최적화함으로써 더 신속하고 비용 효율적으로 배포할 수 있습니다. vLLM 기반의 추론 서버는 GPU 활용도를 극대화하고 응답 시간을 향상합니다.

Red Hat AI Inference Server에 대해 자세히 알아보기

Red Hat AI Inference Server에는 모델 유연성을 허용하고 팀 간 일관성을 촉진하는, 제3자를 통해 검증되고 최적화된 모델 컬렉션인 Red Hat AI 리포지토리가 포함되어 있습니다. 기업은 제3자 모델 리포지토리에 액세스하여 시장 출시 시간을 단축하고 AI를 성공적으로 활용하는 데 드는 경제적 부담을 줄일 수 있습니다. 

Red Hat AI의 검증된 모델에 대해 자세히 알아보기

레드햇 공식 블로그

레드햇 공식 블로그에서 고객, 파트너, 커뮤니티 에코시스템 등 현재 화제가 되는 최신 정보를 살펴 보세요.

모든 Red Hat 제품 체험판

무료 제품 체험판을 통해 핸즈온 경험을 얻고, 자격증 시험에 대비하거나 해당 제품이 조직에 적합한지 평가할 수 있습니다.

추가 자료

딥러닝이란?

딥러닝은 컴퓨터가 인간의 뇌에서 따온 알고리즘을 사용하여 데이터를 처리하도록 가르치는 인공지능(AI) 기술입니다.

AI 인프라 톺아보기

AI 인프라는 안정적이고 확장 가능한 데이터 솔루션을 개발하고 배포하기 위해 인공지능과 머신 러닝(AI/ML) 기술을 결합합니다.

검색 증강 생성(RAG)이란?

검색 증강 생성(RAG)은 외부 리소스를 LLM에 연결하여 생성형 AI 모델의 출력 정확성을 향상합니다.

AI/ML 리소스

관련 기사