Ttoro_Tech

[HyperClovaX]_서울경제_뉴스기사('23.08.18) 본문

Tech News/국내 기업

[HyperClovaX]_서울경제_뉴스기사('23.08.18)

Lee_Ttoro 2023. 8. 18. 10:47

https://n.news.naver.com/mnews/article/011/0004227670?sid=105 

 

“챗GPT와 붙어도 승산있다”…이해진의 자신감[양철민의 아알못]

네이버가 24일 생성형 AI 서비스 ‘하이퍼클로바X’를 내놓는다. 2021년 5월 공개한 ‘하이퍼클로바’의 업그레이드 버전이다. 네이버는 국내 AI 시장 수성은 물론, 관계사 라인과 야후재팬의 통합

n.news.naver.com

네이버

  • 24일 생성형 AI 서비스 HyperClovaX 출시 예정
  • 2021년 5월 공개한 HyperClova의 업그레이드 버전
  • 국내 AI 시장 수성은 물론, 관계사 라인과 야후재팬의 통합법인 'LY코퍼레이션'이 활약하고 있는 일본 AI 시장에서도 성과를 낼 것이라 보고 있음
  • 비영어권 국가이자 자국 데이터 주권에 관심이 많은 스페인, 멕시코는 물론 아랍어를 쓰는 중동 국가들도 네이버 AI의 공략 대상

한국어 AI

네이버 AI 서비스의 강점

  • 한국어에 최적화된 서비스
  • 한국어 중심의 초거대 AI는 한국어에 최적화된 토큰(token)을 배정하게 돼 있음
    • Token은 인공지능 학습용으로 모아둔 '말뭉치'
  • 문장을 만들어내는데 사용되는 토큰이 많아질수록 생성형AI 연산 과정 및 연산 시간도 길어질 수 밖에 없는 구조
    • 그만큼 짧은 연산과정을 거쳐 답변을 내놓음 → 서비스 비용이 영어기반의 거대언어모델(LLM) 대비 낮음
    • 영어 중심의 구글 Bard와 OpenAI의 ChatGPT와 달리 HyerClovaX는 보다 적은 토큰을 사용

ex) ChatGPT 한국어와 영어 차이

  • 놀이터에 놀러가고 싶어.
    • ChatGPT - 자음 및 모음 각각을 토큰('ㄴ', 'ㅗ', 'ㄹ')으로 분류하기 때문에 30개의 토큰으로 분류
  • I want to go to the playground.
    • ChatGPT - 8개라는 훨씬 적은 수의 토큰만을 반영
  • 즉 ChatGPT가 같은 뜻의 문장을 작성하더라도 한국어에 영어 대비 4배 가량 많은 힘을 쏟아야 함

HyperClovaX

  • 네이버는 한국어 문장을 띄어쓰기, 음절, 형태소 등을 기준으로 토큰화할 예정
  • 위의 예시인 "놀이터에 놀러가고 싶어" 라는 문장 생성을 위해 사용하는 토큰 개수도 ChatGPT의 3분의 1에 못 미칠 예정
  • 거대언어모델(LLM)에 자사 서비스 '플러그인' 형태로 연결시켜 신규 수익모델을 창출하려는 기업들 입장에서, 한국어에 최적화된 네이버의 LLM을 사용할 경우 상당한 비용절감 효과를 거둘 수 있을 전망
  • 향후 자사 LLM에 스페인어, 아랍어, 일본어를 대규모로 학습해 토큰을 최적화 할 경우 이들 국가의 AI 시장 장악까지 가능할 것으로 보임

자금력 및 인프라 차이

성낙호 네이버클라우드 하이퍼스케일 AI 기술 총괄

 

기술적 관점에서 네이버의 기술은 OpenAI의 ChatGPT 대비 8개월 가량 뒤쳐져 있다.
(3개월 전 외신 인터뷰)

네이버가 OpenAI와의 기술격차를 얼마나 좁혔는지에 대해 궁금증이 증가

자금력과 규모의 경제 측면

  • 네이버의 올 상반기 별도 기준 현금 및 현금성 자산 5848억원, 2021년 말 9644억원 대비 크게 감소함
  • 포쉬마크를 필두로 중고거래 및 웹툰 기업 인수, 합병에 힘을 쏟으며 자금 동원력이 크게 줄어듦
  • 최근 판교테크원타워 보유 지분 45.08%를 싱가포르 투자청(GIC)에 3500억원에 매각하는 등 자금 확보에 주력
  • 특히 별도기준 네이버의 현금 및 현금성 자산 보유액은 OpenAP가 지난해 기록한 손실규모(5억 4000만달러)에도 미치지 못함
  • HyperClovaX 공개 후 적절한 수익모델을 찾지 못한 채 이용자 수만 빠르게 늘어날 경우, 네이버의 보유 현금이 바닥날 수 있는 구조

하드웨어 인프라 구축

  • LLM 인프라 구축에는 빅데이터 학습에 최적화 된 엔비디아의 그래픽처리장치(GPU)가 반드시 탑재
  • LLM 기반의 답변을 내놓은 추론형 칩에는 엔비디아 제품 외 리벨리온, 사피온, 퓨리오사AI 등 한국 기업의 AI 전용 칩을 사용해도 되지만 학습용 칩은 엔비디아 GPU외에는 대안이 없음
  • H100(NVIDIA GPU)가격은 지난해 3만 6000달러에서 올 상반기 4만 6000달러까지 치솟음
  • 또한 현재 NVIDIA GPU를 발주하더라도 3달 뒤에 받을 수 있을 정도로 돈이 있어도 구할 수 없는 상황
  • MS(마이크로소프트), META, Google 등이 엔비디아 GPU 확보에 팔을 걷어 붙이고 있는 만큼 상대적으로 적은 물량을 발주하는 네이버 입장에서는 가격협상력 및 구매계약 등에서 빅테크 대비 불리
  • 향후 LLM 관련 빅데이터 확보 및 소프트웨어 경쟁력이 평준화 되고 GPU와 같은 HW 성능이 중요 차별화 포인트로 부각될 경우, 네이버의 LLM 경쟁력에 물음표가 붙을 수 있음
  • 네이버와 삼성전자가 손잡고 이 같은 약점을 극복한다는 방침이지만, 이 역시 추론형 AI칩에 국한
  • 학습용 AI칩 수급 불안은 근심거리가 될 전망