LLMOps란?

URL 복사

LLM(대규모 언어 모델)은 인간 언어를 이해하고 생성하는 머신 러닝 모델입니다. GPT-3, LLaMA, Falcon과 같은 LLM은 데이터에서 학습하여 단어와 문장을 생성하는 툴입니다. 이러한 툴이 발전을 거듭하면서 조직은 해당 모델의 운영에 관한 모범 사례가 필요하게 되었습니다. 이것이 바로 LLMOps가 도입된 이유입니다.

LLMOps(대규모 언어 모델 운영)는 대규모 언어 모델을 관리하는 데 사용되는 운영 방법입니다. LLM의 라이프사이클은 미세 조정부터 유지 관리에 이르기까지 LLMOps를 통해 관리되고 자동화되므로 개발자와 팀이 LLM을 배포, 모니터링, 유지 관리하는 데 도움이 됩니다.

LLM이 ML 모델의 하위 집합이라면, LLMOps는 머신 러닝 운영(MLOps)에 해당하는 대규모 언어 모델입니다. MLOps는 ML 모델의 배포 및 유지 관리 프로세스 간소화를 목표로 하는 일련의 워크플로우 사례입니다. MLOps는 지속적인 발전을 통해 ML 모델을 소프트웨어 개발 프로세스에 통합하고자 합니다. 마찬가지로 LLMOps는 LLM 개발 및 배포 라이프사이클을 지속적으로 실험, 반복, 배포, 개선하고자 합니다.

LLMOps와 MLOps는 유사한 점도 있지만, 다음과 같은 차이점도 있습니다.

학습: 기존 ML 모델은 일반적으로 처음부터 생성되거나 훈련되는 반면, LLM은 파운데이션 모델에서 시작하며 태스크 성능을 개선하기 위해 데이터를 사용하여 미세 조정됩니다.

조정: LLM의 경우 미세 조정(fine-tuning)으로 성능을 개선하고 정확성을 높여 특정 주제에 관한 모델의 지식을 늘립니다. 즉각적인 조정을 통해 특정 태스크에 대한 LLM의 성능을 개선할 수 있습니다. 하이퍼파라미터 조정도 다릅니다. 기존 ML에서는 조정이 주로 정확성 개선을 위해 이루어진 반면 LLM에서는 조정이 정확성은 물론 비용과 훈련에 필요한 전력량을 줄이는 데에도 중요합니다. 두 모델 유형 모두 조정 프로세스를 활용하지만, 중점을 두는 부분은 다릅니다. 마지막으로, 더 나은 응답을 생성하기 위해 LLM에서 정확하고 구체적인 팩트를 수집하도록 외부 지식을 사용하는 프로세스인 RAG(검색 증강 생성, Retrieval-Augmented Generation)를 빼놓을 수 없습니다.

피드백: 인간 피드백 기반 강화 학습(Reinforcement Learning from Human Feedback, RLHF)은 개선된 LLM 훈련 방식입니다. 사용자의 피드백은 LLM의 성능에 매우 중요합니다. LLM은 피드백을 통해 정확성을 평가하는 반면, 기존의 ML 모델은 특정 메트릭을 사용하여 정확성을 높입니다.

성능 메트릭: ML 모델에는 정확한 성능 메트릭이 있지만 LLM에는 더 복잡한 평가가 요구되는 BLEU(Bilingual Evaluation Understudy) 및 ROUGE(Recall-Oriented Understudy for Gisting Evaluation)와 같은 다양한 메트릭 세트가 있습니다.

성능을 모니터링하고 향상하는 최적의 방법으로 부상하고 있는 LLMOps의 3가지 주요 장점은 다음과 같습니다.

효율성: LLMOps를 통해 팀은 모델의 개발 속도를 높이고, 모델의 품질을 개선하고, 더 빠르게 배포할 수 있습니다. 팀은 더욱 간소화된 관리 접근 방식을 통해 커뮤니케이션, 개발, 배포를 촉진하는 플랫폼에서 개선된 방식으로 협업할 수 있습니다.

확장성: LLMOps는 CI/CD(지속적 통합 및 지속적 제공/배포)를 위해 여러 모델을 관리 및 모니터링할 수 있어 확장성과 관리에 도움이 됩니다. 또한 LLMOps는 향상된 데이터 통신 및 응답을 통해 응답성이 더 뛰어난 사용자 경험을 제공합니다. 

리스크 감소: LLMOps는 투명성을 높이고 조직 및 산업 정책에 대한 컴플라이언스 수준을 개선합니다. LLMOps는 민감한 정보를 보호하고 리스크에 대한 노출을 방지하여 보안 및 개인 정보 보호 수준을 높일 수 있습니다.

다음과 같은 몇 가지 LLMOps 활용 사례가 있습니다.

지속적 통합 및 제공(CI/CD): CI/CD는 모델 개발 라이프사이클을 간소화, 단축, 자동화하는 것을 목표로 합니다.  새로운 코드를 얻는 데 인간의 개입이 필요하지 않아 다운타임 시간이 단축되고 코드 릴리스가 가속화됩니다. Red Hat OpenShift Pipelines의 기반이 되는 Tekton과 같은 툴은 여러 플랫폼에 걸쳐 배포를 자동화함으로써 개발자의 워크플로우를 지원합니다.

데이터 수집, 레이블 지정, 스토리지: 데이터 수집에서는 정확한 정보를 수집하기 위해 다양한 소스를 사용합니다. 데이터 라벨링은 데이터를 분류하고, 데이터 스토리지는 네트워크에 연결된 디지털 정보를 수집 및 보관합니다.

모델 미세 조정(fine-tuning), 추론, 모니터링: 모델 미세 조정은 도메인별 태스크를 수행하도록 모델을 최적화합니다. 모델 추론은 기존 지식을 바탕으로 프로덕션을 관리하고 추론된 정보에 따라 작업을 수행할 수 있습니다. 인간 피드백을 포함한 모델 모니터링은 모델 동작에 대한 데이터를 수집하고 저장하여 실제 프로덕션 데이터에 따라 모델이 어떻게 동작하는지 학습합니다.

LLMOps에는 몇 가지 단계 또는 구성 요소가 있으며 각각의 모범 사례가 있습니다.

EDA(탐색적 데이터 분석): 데이터 세트를 생성하여 머신 러닝 라이프사이클을 준비할 수 있도록 데이터를 평가하는 프로세스입니다.

  • 데이터 수집: 코드 아카이브 및 소셜 미디어 네트워크와 같은 다양한 소스에서 수집된 LLM을 훈련하는 데 사용되는 첫 번째 단계입니다.
  • 데이터 정리: 수집된 데이터를 검사하여 훈련할 수 있도록 준비해야 합니다. 여기에는 오류 제거, 불일치 수정, 중복 데이터 제거가 포함됩니다.
  • 데이터 탐색: 다음 단계는 데이터의 특성을 제대로 파악하기 위해 이상치를 식별하고 패턴을 찾는 등 데이터를 탐색하는 것입니다.

데이터 준비 및 프롬프트 엔지니어링: 액세스 가능한 데이터를 여러 팀에 공유하고 LLM을 위한 프롬프트를 개발하는 프로세스입니다.

  • 데이터 준비: 수집된 데이터를 종합하고 결론을 내리는 방법을 포함하여 LLM 훈련에 사용되는 데이터를 다양한 방법으로 준비합니다.
  • 프롬프트 엔지니어링: LLM이 원하는 출력을 생성할 수 있는 텍스트에 사용되는 프롬프트를 생성합니다.

모델 미세 조정(fine-tuning): 널리 사용되는 Hugging Face Transformers 미세 조정과 같이 오픈소스 라이브러리를 사용하여 모델 성능을 미세 조정하고 개선합니다.

  • 모델 훈련: 데이터를 준비한 후 데이터의 패턴을 학습하기 위해 머신 러닝 알고리즘을 사용하여 LLM을 훈련하거나 미세 조정합니다.
  • 모델 평가: LLM 훈련에 사용하지 않은 데이터 세트를 사용하여 훈련된 LLM의 성능을 평가해야 합니다.
  • 모델 미세 조정: LLM의 성능이 좋지 않은 경우 성능 개선을 위해 LLM의 매개 변수를 수정하는 등 미세 조정이 가능합니다.

모델 검토 및 거버넌스: Kubeflow와 같은 오픈소스 MLOps 플랫폼을 활용해 ML 모델 전반에서 발견, 공유, 협업하는 프로세스입니다.

  • 모델 검토: 미세 조정을 완료하면 LLM이 안전하고 신뢰할 수 있는지 확인하기 위해 검토해야 합니다. 여기에는 편향 및 보안 리스크 확인 작업이 포함됩니다.
  • 모델 거버넌스: 모델 거버넌스는 LLM을 라이프사이클 전반에 걸쳐 관리하는 프로세스로, 성능 추적, 필요에 따른 변경, 불필요한 경우 종료하는 작업이 포함됩니다.

모델 추론 및 서빙: 모델 갱신 빈도 또는 요청 횟수와 같은 프로덕션 세부 사항을 관리하는 프로세스입니다. 

  • 모델 서빙: LLM에 대한 검토와 승인이 완료되면 LLM을 프로덕션으로 배포할 수 있어, 애플리케이션 프로그래밍 인터페이스(API)를 통해 사용할 수 있게 됩니다.
  • 모델 추론: 텍스트를 생성하거나 질문에 답하기 위해 애플리케이션에서 API에 쿼리할 수 있습니다. 이는 REST API나 웹 애플리케이션과 같은 다양한 방법으로 수행할 수 있습니다.

인간 피드백을 통한 모델 모니터링: 외부 또는 부정적인 사용자 행동을 모니터링하는 모델 및 데이터를 생성합니다.

  • 모델 모니터링: 배포된 LLM의 성능이 예상대로인지 확인하기 위해 모니터링해야 합니다. 여기에는 성능 추적, 문제 식별, 필요한 경우 변경 등이 포함됩니다.
  • 인간 피드백: LLM의 성능 개선에 사용되며, LLM에서 생성하는 텍스트에 대한 피드백을 제공하거나 LLM의 성능과 관련된 문제를 식별하는 방식으로 수행할 수 있습니다.

LLMOps 플랫폼은 개발자와 팀에게 데이터 분석, 실험 추적, 프롬프트 엔지니어링, LLM 관리를 통해 협업을 촉진하는 환경을 제공합니다. 또한 LLM을 위한 매니지드 모델 전환, 배포, 모니터링 기능을 제공합니다. 이 플랫폼은 향상된 라이브러리 관리를 통해 운영 비용을 절감하고, 데이터 전처리, 모델 모니터링, 배포와 같은 태스크를 완료하기 위해 고도로 숙련된 기술팀 팀원을 요청해야 할 필요성을 줄이는 데 도움이 됩니다.

업계를 선도하는 쿠버네티스 기반의 하이브리드 클라우드 애플리케이션 플랫폼인 Red Hat® OpenShift®는 데이터센터에서 네트워크 엣지, 여러 클라우드에 이르기까지 하이브리드 클라우드 환경 전반에서 AI 지원 애플리케이션의 롤아웃을 가속화합니다.

Red Hat OpenShift를 통해 조직은 소프트웨어 개발 프로세스, 프로덕션 롤아웃, 모니터링, 재훈련, 재배포에 모델을 통합하는 반복적인 프로세스를 자동화하고 간소화하여 예측 정확도를 유지할 수 있습니다.

Red Hat OpenShift AI는 유연하고 확장 가능한 MLOps 플랫폼으로, AI 지원 애플리케이션을 빌드, 배포, 관리할 수 있는 툴을 제공합니다. 데이터 사이언티스트와 애플리케이션 개발자는 이 플랫폼을 사용하여 인공지능(AI)을 애플리케이션에 안전하고 일관되며 규모에 맞게 통합하는 작업을 간소화할 수 있습니다. OpenShift AI는 온프레미스 및 퍼블릭 클라우드에서 AI/ML 실험 및 모델의 전체 라이프사이클을 지원하는 툴링을 제공합니다.

Red Hat OpenShift AI와 Red Hat OpenShift의 기능을 단일 엔터프라이즈 레디 AI 애플리케이션 플랫폼에 통합함으로써 팀은 일관성, 보안, 확장성을 강화하는 단일 협업 환경에서 함께 작업할 수 있습니다.

새 릴리스

InstructLab

InstructLab은 대규모 언어 모델(LLM)을 개선하기 위한 오픈소스 프로젝트입니다.

AI/ML에 대해 자세히 알아보기

제품

새 제품

기업 애플리케이션을 위한 Granite 대규모 언어 모델(Large Language Model, LLM) 제품군을 원활하게 개발, 테스트, 실행에 사용되는 기반 모델 플랫폼입니다.

Red Hat OpenShift에서 AI/ML 실험 및 모델을 학습시키고, 튜닝, 서비스, 모니터링 및 관리할 수 있는 툴을 제공하는 AI 중심 포트폴리오입니다.

선택한 인프라에서 애플리케이션 출시 테스트를 마친 통합 서비스 세트가 포함된 엔터프라이즈 애플리케이션 플랫폼입니다. 

Red Hat Ansible Lightspeed with IBM watsonx Code Assistant는 Ansible 오토메이터, 오퍼레이터 및 개발자가 자신의 작업을 위해 설계한 생성형 AI 서비스입니다. 

리소스

e-book

프로덕션 레디 AI/ML 환경을 구축하기 위해 고려해야 할 중요 사항

애널리스트 문서

MLOps용 Red Hat 하이브리드 클라우드 플랫폼의 Total Economic Impact™

웨비나

오픈소스 및 쿠버네티스로 AI 최대한 활용하기