OpenAI와 구글 연구진의 싸움은 과거로 거슬러 올라갑니다. OpenAPI에서는 GPT를 제안했고 얼마 지나지 않아 구글에서는 BERT라는 언어모델을 들고 나왔죠. 두 모델 모두 Transformer를 기반으로 하고 있습니다. GPT는 decoder 블록을 사용한다면 BERT는 encoder 블록을 사용한다는 점이 다르죠. 구글에서 BERT를 내놓을 때 단어의 양쪽 방향으로부터 Context를 활용하기 때문에 더 좋은 결과를 낸다고 주장했습니다. 처음에 BERT가 더 진보된 모델로 다들 생각했습니다. 적어도 GPT-2가 나오기 전까지는 말입니다.
GPT-2의 반격
GPT-2는 그 당시 거의 모든 웹페이지를 학습 데이터로 사용하며 반격을 시작합니다. ”우리 GPT모델에 데이터만 많이 넣었더니 BERT보다 성능이 더 좋네?“라고 보란듯이 발표했죠. 물론 기존 GTP에서 몇 가지 획기적은 개념들(Zero/One-shot Learning 등)이 적용되긴 했습니다. 그 당시 GTP-2는 Small, Medium, Large, Extra Large 형태로 학습 데이터를 적용해 4개의 모델을 만들었는데요. 데이터를 많이 학습할수록 정확도가 올라간다는 것을 명확히 보여줬습니다.
그렇다면 ’데이터만 많이 넣으면 더 좋은 모델을 만들 수 있겠네? ‘라는 생각을 할 수 있습니다. 반은 맞고 반은 틀립니다. 왜 그런지 따져 보겠습니다. 실제로 밴더들은 어머어마한 컴퓨팅 파워를 바탕으로 많은 데이터를 넣었습니다. OpenAI는 한번 training 시키는데 수십억 원이 들어간다고 발표했죠. 그리고 그 돈은 마이크로소프트가 대고 있는 거였습이다. 그렇게 거대 언어모델은 GPT-4까지 엄청난 데이터 사이즈를 넣은 방식으로 발전하게 됐습니다.
Google의 반격
구글도 마찬가지로 대규모 데이터를 학습시키면서 발전을 거듭해 왔습니다. 구글은 이달초 제미나이 울트라를 공개하면서 GPT-4 뿐만 아니라 인간 전문가의 점수도 뛰어넘었다고 발표했죠. (제미나이 기사 보러가기) 그 결과는 거대언어모델의 일반지식과 추론능력을 테스트할 목적으로 만들어진 벤치마크인 MMLU 테스트를 통해 이루어졌습니다. 기초 수학부터 미국 역사, 법률, 컴퓨터 과학 공학, 의학 등 57개 영역에서 수만 가지 문제를 풀게 했다고 합니다. 그렇다면 무조건 많은 데이터를 넣는 것만이 답이 아니라고 이야기 한 이유는 뭘까요? AI 연구진들은 또 다른 노력을 하고 있었습니다.
추마와 아주르 이야기
파라오는 조카 추마와 아주르를 불러 피라미드를 지으라는 임무를 줍니다. 피라미드가 완성되면 그 즉시 왕좌의 지위와 평생 쓰고도 남을 부를 주기로 했죠. 대신 혼자 모든 것을 해야 한다는 조건이었습니다. 아주르는 자신의 힘을 기르는 방식으로 피라미드를 쌓아 올렸습니다. 반대로 추마는 자기집에서 3년 동안 기중기와 같은 거대한 기계를 만드는데 시간을 사용합니다. 그리고 단숨에 아주르를 따라잡죠. 아주르는 피라미드의 층이 올라갈 수록 인간의 힘으로 피라미드를 완성할 수 없다는 것을 알게됐죠. 추마는 결국 전략을 잘 세웠기 때문에 피라미드를 완성할 수 있게 됐습니다.
결론
이 우화를 이야기 하는 이유는 대규모 데이터를 누가 많이 넣냐는 방식으로는 결국 한계에 도달한다는 말을 하고 싶어서였습니다. 아주르가 본인의 힘만으로 피라미드를 쌓을 수 없다는 한계를 느낀것처럼 말이죠. 아무리 하드웨어가 발전한다고 해도 비효율적인 방식은 앞서 나갈 수는 없습니다. 그렇기 때문에 마이크로소프트와 구글 양쪽 진영에서는 파인튜닝이라는 방식으로 어떻게 하면 효율적으로 학습시킬까를 연구하고 있습니다.
당분간 거대 언어 모델의 경쟁은 계속될 거라고 생각합니다. 어느 한쪽으로 실력이 기울어진 상태는 아니니까요. 하지만 마이크로소프트, 구글, 아마존 등 몇 개 글로벌 기업이 시장을 선점한 사실은 부정하기는 어렵다고 예측해 봅니다.
'IT 탐구생활' 카테고리의 다른 글
데이터 분석가 vs 데이터 엔지니어 하는 일과 현실 (0) | 2024.05.15 |
---|---|
갤럭시 S24에 적용한 온디바이스 AI 미래와 한계 (0) | 2024.02.07 |
머신러닝 공부 - 경험 및 노하우 (1) | 2023.12.28 |
ChatGPT의 허점들을 이용한 차별화된 글쓰기 법칙 (1) | 2023.12.24 |
네이버 Que(Cue, 큐) 때문에 블로거들 사라진다 (feat ChatGPT) (3) | 2023.12.05 |