Ttoro_Tech

[Context Window]_AITIMES_뉴스기사('23.07.24) 본문

Tech News/국외 기업

[Context Window]_AITIMES_뉴스기사('23.07.24)

Lee_Ttoro 2023. 7. 28. 09:58

https://www.aitimes.com/news/articleView.html?idxno=152588 

 

LLM 성능 좌우하는 '컨텍스트' 창, 과연 클수록 좋을까? - AI타임스

대형언어모델(LLM)의 성능을 높여주는 것으로 알려진 \'컨텍스트(context)\' 경쟁이 펼쳐지고 있다. 또 이에 대한 상세한 분석이 필요하다는 지적까지 나오는 등 관심이 뜨거워지고 있다. 구글 출신

www.aitimes.com

Context(컨텍스트)

  • 대형언어모델(LLM)의 성능을 높여주는 것으로 알려진 Context
  • 이에 상세한 분석이 필요하다는 지적이 나오면서 관심이 뜨거워지고 있음

구글 출신 개발자가 설립한 앤트로픽의 챗봇

클로드

  • 뛰어난 정확도로 주목 받음
  • ChatGPT의 라이벌로 손꼽힘
  • 다양한 이유가 있겠지만 GPT-4보다 많은 컨텍스트 창을 사용한다는 것

엔트로픽

  • 지난 5월 컨텍스트 창을 최대 10만개 토큰까지 확장
  • GPT-4의 3배에 달하는 양으로 늘림

이러한 분위기를 타고

최근에는 떠오르는 스타트업 모자이크ML

  • 새로운 LLM 'MPT-7B' 발표
  • 컨텍스트 창을 6만 5000개 토큰까지 늘림

OpenAI의 GPT-4 모델

  • 3만 2000개 입력 토큰의 컨텍스트 길이로 작동
  • 대부분의 오픈소스 LLM은 2000개 토큰의 컨텍스트 창을 사용
  엔트로픽 모자이크ML OpenAI
Model 클로드 MPT-7B GPT-4
Context Token 100,000 65,000 32,000

 

LLM의 컨텍스트 창

  • 프롬프트에 대한 응답을 생성할 때 입력으로 사용할 수 있는 토큰 수
  • 더 큰 크기의 컨텍스트 창은 다양한 애플리케이션에서 LLM의 성능과 유용성을 향상시킴
  • 컨텍스트 창이 클수록 프롬프트에서 컨텍스트 내 학습(in-context learning)을 수행하는 기능이 향상
  • 즉 프롬프트 입력으로 더 많은 예제 또는 더 큰 예제를 제공, LLM이 더 나은 답변을 제공 가능

LLM

  • 전체 문서를 입력으로 받아 전체 범위를 이해하는 데 도움을 줄 수 있음
  • 이 기능을 통해 LLM은 입력에 대한 포괄적인 이해를 활용
  • 상황에 더 적절한 응답을 생성할 수 있음
  • 또 context 창을 이용해 LLM이 훈련할 때 사용할 수 없었던 새로운 컨텍스트 정보를 LLM에 제공할 수 있음

예시 GPT-4

사용자 : 누가 2022년 월드컵에서 우승했습니까?
GPT-4 : ???
  • GPT-4의 경우 2021년까지의 데이터로 훈련했기 때문에 이 질문에 정확하게 답변할 수 없음
  • 대신 파인콘과 같은 벡터 데이터베이스 쿼리 사용
  • 2022년 월드컵에 대하 관련 문서를 찾고 해당 문서를 프롬프트에 추가할 수 있음
  • 답변이 Prompt 속 문서에 있다면 LLM은 쿼리에 '아르헨티나' 답변 가능

반면 큰 컨텍스트 창의 문제점(비용)

  • 토큰 수가 증가함에 따라 비용이 기하급수적으로 증가
  • 토큰 길이를 4000개 -> 8000개로 두 배로 늘리는 것
  • 2배가 아닌 4배가 비싸짐
  • 즉 매우 긴 입력을 처리하면 모델의 계산 속도가 크게 느려지고 비용이 눈덩이처럼 불어날 수 있음

마이크로소프트(MS)

  • 최근 LLM의 기초가 되는 Transformer 모델의 새로운 변형
  • LongNet(롱넷)을 도입
  • 10억개 토큰의 컨텍스트 창을 0.5초에 처리, 기하급수적인 비용 증가를 일차적인 선형 증가로 개선
  • ex) 롱넷을 통하면 적은 비용으로 해리포터 1000권을 0.5초에 읽을 수 있음

표준 Transformer Model

  • 각 토큰은 컨텍스트 창의 다른 모든 토큰과 상호 작용
  • 시퀀스 길이가 증가함에 따라 많은 상호 작용이 발생

롱넷(LongNet)

 

[Paper Review]_LongNet

https://arxiv.org/abs/2307.02486 LongNet: Scaling Transformers to 1,000,000,000 Tokens Scaling sequence length has become a critical demand in the era of large language models. However, existing methods struggle with either computational complexity or mode

ttoro.tistory.com

확장 어텐션

  • 각 토큰이 다른 모든 토큰과 상호 작용할 필요 없이 컨텍스트 창을 다양한 길이의 세그먼트로 분할
  • 선택된 세그먼트의 토큰과만 상호작용
  • 마치 많은 군중 속에 있으면서 가까이 있는 사람과 멀리 있는 사람 모두에게 집중할 수 있지만, 각 사람과 별도의 대화를 나눌 필요가 없는 것과 같음
  • 컨텍스트 창의 모든 세그먼트를 특정 GPU로 수집할 수 있기 때문에 훨씬 더 효율적으로 병렬화가 가능
  • GPU 사용을 최적화해 훈련 비용을 더욱 절감할 수 있음

롱넷의 확장 어텐션

  • 이미지 모델에 적용
  • 이미지의 모든 단일 픽셀에 주의를 기울이지 않고 보이는 것을 대략적으로 분석, 이미지를 처리할 수 있음
  • ex) 뉴욕 사진을 보고 그것이 뉴욕인 것을 확인하기 위해 모든 픽셀을 분석할 필요는 없는 식

컨텍스트에 대한 기술 개발 증가

하지만 정작 언어 모델이 더 긴 컨텍스트를 얼마나 잘 사용하는지에 대해서는 상대적으로 거의 알려져지지 않았음

벤처비트(연구진)

  • LLM이 더 긴 컨텍스트 창에서 제공한 정보에 액세스하지 못하거나
  • 사용하지 못하는 경우가 많다는 스탠포드와 UC버클리 대학의 연구 결과가 소개
  • 연구진 : LLM이 관련 정보가 입력 컨텍스트의 시작 또는 끝에서 발생할 때 관련 정보를 잘 식별하고 응답하지만, 긴 컨텍스트 중간에서 관련 정보에 액세스해야 할 때는 성능이 크게 저하
  • 특히 LLM이 긴 컨텍스트 창을 허용하는 경우에도 입력 컨텍스트가 길어지면 성능이 크게 떨어진다고 지적
  • 그러나 전체 문서를 컨텍스트 창에 붙여넣는 것이 효과가 없을 것이라고 주장하는 것은 아님
  • 더불어 전체 PDF문서를 LLM 컨텍스트 창에 삽입한 다음 문서에 대해 질문하는 경우 일반적으로 벡터 데이터베이스 검색을 사용
  • 더 효율적이라는데 동의

다만 컨텍스트가 LLM 성능의 모든 것을 말하는 것은 아닌 것을 강조

  • 컨텍스 창 크기를 확장하기 위해 LLM에만 의존하는 대신 모델 기술과 모델 사용 간의 균형을 유지하는 것이 중요