Ttoro_Tech

[이미지 학습 LLM]_AITIMES_뉴스기사('23.10.12) 본문

Tech News/국외 기업

[이미지 학습 LLM]_AITIMES_뉴스기사('23.10.12)

Lee_Ttoro 2023. 10. 13. 09:48

https://www.aitimes.com/news/articleView.html?idxno=154291 

 

LLM은 옛말...이미지까지 학습한 'LMM' 뜬다 - AI타임스

\'대형언어모델(LLM)\'에 이어 앞으로는 \'대형멀티모달모델(LMM)\'이라는 용어가 보편화될 것으로 보인다. 기존에는 \'멀티모달 LLM\'으로 불렀으나, 최근 미국의 일부 기업과 매체가 기존 모델과의

www.aitimes.com

대형멀티모달모델(LMM)

  • 기존에는 '멀티모달 LLM'으로 불렀으나, 최근 미국의 일부 기업과 매체가 기존 모델과의 차별화를 위해 LMM이라는 새 용어를 밀고 있음

빅테크 기업

  • OpenAI의 "GPT-4V(비전)"에 이어
  • 올말 출시 예정인 구글의 차세대 모델 '제미니' 역시 LMM이며,
  • 최근에는 오픈 소스 LMM '라바(LLaVA) 1.5'까지 개발자 사이에서 인기를 누리고 있음

기존 '언어' 학습을 뛰어넘어 '이미지'까지 학습

  • LMM은 기존 언어 학습을 뛰어넘어 이미지까지 학습이 가능
  • 벤처비트 - 오픈 소스 커뮤니티에서 라바 1.5가 GPT-4V의 대안으로 떠오르며 인기

LMM

  • 이미지를 학습했기 때문에 사용자가 텍스트 대신 이미지를 입력해도 이를 이해하고 답을 낼 수 있음
  • 이미지 입력 기능은 기존 언어모델의 활용폭을 크게 넓혀줄 수 있음
  • 이 기능은 지난 3월 오픈AI가 출시한 GPT-4부터 사용화됨
  • 오픈AI는 이미 지난해 GPT-4의 이미지 학습을 마친 것으로 알려짐

이미지 입력 - AI 모델 개발의 표준

  • 빅테크는 물론 오픈 소스 커뮤니티까지 LMM 개발에 매달림
  • 최근 메타가 발표한 '메타 AI'도 멀티모달 기능을 갖춤
  • LLaVA 1.5 버전이 나올 정도로 업데이트를 거듭함

제미니

  • LMM이라는 용어가 부각되게 된 계기
  • 구글은 다른 모델과의 차별점으로 방대한 이미지와 동영상을 학습한 점을 강조

OpenAI

  • 지난달 25일 공식 블로그를 통해 'GPT-4V(ision)' 시스템 카드' 라는 논문을 소개
  • LLM에 이미지 입력을 통합한 기술적인 문제와 이를 통해 확보한 안정성 등에 초점을 맞춘 내용
  • 즉 LMM를 주도하는 게 OpenAI라는 것을 강조하는 내용 (Visual Instruction Tuning[paper])

라바 1.5

여러 생성 AI 구성 요소를 결합하고 높은 정확도로 다양한 작업을 수행하는 모델을 생성하도록 미세 조정됨

LMM 구조

  • 이미지를 텍스트로 변환하는 비전 인코더
  • 비전 인코더와 LLM을 연결하는 '비전 언어 교차 모달 커넥터(vision-language cross-modal connector)'

등 아키텍처를 활용

이를 통해 2단계 프로세스를 거쳐 LMM을 훈련

  1. 비전-언어 정렬 사전 훈련
    • 이미지-텍스트 쌍을 사용해 시각적 특징을 언어 모델의 단어 임베딩 공간에 정렬
  2. 시각적 지침 조정
    • 시각적 지침 조정을 통해 모델이 시각적 프롬프트에 따라 응답
    • 이 단계는 컴퓨팅 집약적인 특성과 선별한 대규모 데이터셋이 필요, 어려운 작업

 

라바 1.5 (Improved Baselines with Visual Instruction Tuning[paper])

위의 과정을 통해 생성된 LMM

  • 비전 인코더로는 OpenAI가 2021년 개발해 '달리 2'에도 활용한 '클립(CLIP)' 모델을 사용
  • 기본 언어모델로는 Meta의 'LLaMA'를 기반으로 하는 오픈 소스 sLLM '비쿠나(Vicuna)'를 활용

이를 통해 LLM이 이미지를 기반으로 대화 및 추론 문제를 생성하도록 유도,
ChatGPT를 통해 라바를 학습하기 위한 15만 8000개의 훈련 예제를 효과적으로 생성

  • 이후 언어 모델과 비전 인코더를 연결, 데이터셋을 추가
  • 60만개에 다라하는 데이터셋으로 라바 1.5의 학습을 진행
  • 특히 학습 과정은 8개의 A100 GPU를 활용, 비용이 하루 만에 몇 백달러 수준에 그침

라바 1.5 벤치마크

출저 : Improved Baselines with Visual Instruction Tuning

  • 벤치마크 테스트 결과 다른 오픈 소스 LMM 11개의 성능을 뛰어 넘음
  • GPT-4V의 오픈 소스 대항마로 꼽히는 것도 이 때문

라바 1.5의 단점

  • ChatGPT 생성 데이터를 학습했기 때문에, ChatGPT의 사용 약관으로 인해 상업적 목적으로 사용할 수 없음
  • 또 개발 과정과 사용 편리성을 감안하면 GPT-4V와 비교하는 것 자체가 무리
  • 그러나 뛰어난 가성비와 오픈 소스 특성상 많은 개발자들의 손을 거치며 업그레이드할 수 있다는 점 감안
  • 충분히 잠재력 있음

 

LLaVA 1. 5

 

GitHub - haotian-liu/LLaVA: [NeurIPS 2023 Oral] Visual Instruction Tuning: LLaVA (Large Language-and-Vision Assistant) built tow

[NeurIPS 2023 Oral] Visual Instruction Tuning: LLaVA (Large Language-and-Vision Assistant) built towards multimodal GPT-4 level capabilities. - GitHub - haotian-liu/LLaVA: [NeurIPS 2023 Oral] Visua...

github.com