Ttoro_Tech

[앨런AI연구소]_AITIMES_뉴스기사('23.08.21) 본문

Tech News/국외 기업

[앨런AI연구소]_AITIMES_뉴스기사('23.08.21)

Lee_Ttoro 2023. 8. 22. 09:43

https://www.aitimes.com/news/articleView.html?idxno=152986 

 

앨런AI연구소, 역대 최대 3조 토큰 데이터셋 오픈소스로 공개 - AI타임스

앨런AI연구소(AI2)가 무료로 사용하고 검사할 수 있는 새롭고 방대한 텍스트 데이터셋을 공개했다. 출처와 진위가 불투명한 폐쇄형 데이터셋 대신 오픈소스 데이터셋을 사용해 대형언어모델(LLM)

www.aitimes.com

앨런AI연구소

  • 무료로 사용하고 검사할 수 있는 새롭고 방대한 텍스트 데이터셋을 공개
  • 출처와 진위가 불투명한 폐쇄형 데이터셋 대신 오픈소스 데이터셋을 사용해 대형언어모델(LLM)을 훈련
    투명성을 높이는 계기가 될 것으로 전망

테크크런치

  • 19일 앨런AI연구소 - 돌마(Dolma)라는 텍스트 데이터셋을 오픈소스로 공개
  • 돌마는 앨런AI연구소의 오픈소스 LLM '올모(OLMo)'의 학습 데이터셋
  • 3800만개의 허가된 과학 원고 집합'peS2o'논문을 포함해 위키피디아웹 콘텐츠, 학습 출판물, 서적 및 백과사전 등 다양한 영문 자료 조합으로 3조개의 토큰을 포함함
  • 이는 지금까지 등장한 데이터셋 중 가장 큰 규모
    (기존 메타가 지난 6월에 발표한 '라마2'의 2억 토큰이 가장 큰 데이터셋)

앨런AI연구소

  • 돌마가 다른 데이터셋보다 훨씬 크지만, 사용 및 권한 측면에서 가장 간단하다고 주장
  • 책임 있는 사용을 보장하기 위해 사용자는 연락처 정보를 제공, 의도한 사용 사례를 공개하도록 요구하는 라이센스를 휙득해야 함
  • 또한 돌마를 기반으로 하는 모든 파생물은 동일한 라이센스에 따라 배포돼야 함
  • 라이센스는 또 감시 또는 허위 정보와 같은 영역에서 돌마의 적용을 금지
  • 개인 데이터가 AI 학습 데이터셋에 포함되는 것에 대해 우려하는 개인을 위해 앨런AI연구소는 제거 요청 양식도 제공
  • 이를 통해 사용자는 돌마에서 개인 정보 제거 요청 가능

OpenAI 및 구글 등 데이터셋에 대한 제한된 정보를 게시하는 다른 회사와 달리 강조한 점

정보를 공개적으로 공유하는 것이 중요하다.
앨런AI연구소

앨런AI연구소가 공개한 주요 LLM의 데이터셋 비교(사진=앨런AI연구소)

테크크런치

일부 회사에서 폐쇄적 접근 방식을 취하는 이유 중 하나는 사용된 데이터가
윤리적으로 또는 합법적으로 수집되지 않았을 수 있다는 추측이 있다.

라며 일부 책의 불법 복제본이 데이터셋에 포함돼 있다고 지적.

 

반면 앨런AI연구소

이런 문제를 해결하고 윤리적이고 합법적인 데이터 사용에 대한
새로운 표준을 설정하는 것을 목표로 한다.

돌마는 허깅페이스 플랫폼을 통해 제공