데이널 『데이터 ∙ 분석 ∙ 지식소통』::Rule-base 와 머신 러닝은 어떻게 다를까?

『 '데이널'의 컨텐츠에 포함된 정보는? 』

여러분은 Rule-based Learning과 Machine Learning(머신 러닝) 어떻게 다르다고 생각하시나요? 이 두 기법 간에는 몇 가지 중요한 차이점이 존재합니다.

이번 포스팅에서는 내가 왜 두 분석 기법의 차이점을 이야기하고 싶었는지에 대한 배경과 각각의 특성과 장단점을 살펴보겠습니다.

배경

사실 이 글을 쓰게 된 계기는 얼마 전 연구사업 프로젝트 평가에서 있었던 일 때문입니다. 평가위원이 프로젝트 결과물을 보고 "Rule-base로 하든 머신러닝으로 하든 같은 것 아니냐?"는 질문이 발단이 되었습니다. 어디서부터 설명해야 할지 무척 고민스럽더라고요. 하지만 평가위원이 왜 그런 말을 했는지 약간 짐작은 갔습니다.

Big data 초창기에는 데이터 사이언티스트가 귀했습니다. 지금도 실력있는 분석가는 부족하긴 하지만 그때는 많은 사람들이 빅데이터를 어떻게 분석하고 알고리즘으로 만드는 지도 몰랐으니까요. 데이터 컨설팅을 했던 내가 초창기 데이터분석가로 일할 때에 사용했던 방법이 Rule-base Learning 이었습니다. 파이선과 R, 엑셀 등을 이용하여 탐색적 분석(EDA)을 한 후 Rule을 만드는 작업을 했었죠.

주로 통계적으로 분석한 결과를 규칙(rule)으로 만들어 애플리케이션에 적용하 방식이었죠. 그때 많은 업체들이 AI 또는 머신러닝을 적용한 솔루션을 표방했지만 뜯어보면 Rule-base Learning으로 만든 경우가 허다했습니다. 벌써 10년도 넘은 이야기니 지금은 웬만하면 머신러닝, 딥러닝이 보편화되었다고 할 수 있습니다. 그러면 Rule-base와 머신러닝 어떤 차이점이 있는지 살펴보겠습니다.

Rule-based Learning

Rule-base 기법은 통계적인 분석을 통해 미리 정의된 규칙 또는 규칙 세트를 적용하는 알고리즘 기법을 말합니다. 이 방법은 "만약 어떤 조건에 어떻게 해라“ 식의 규칙(rule)을 만듭니다. 이런 방식은 업무 및 데이터 도메인 지식이 중요한 역할을 합니다. Rule-based 기법의 장단점은 다음과 같습니다.

장점

해석 가능성: 규칙은 명확하게 정의되어 있으므로 결과를 해석하고 설명하기가 쉽습니다. 이는 특히 의사결정 과정을 이해해야 하는 상황에서 유용합니다.
도메인 지식 활용: 도메인 전문가의 지식을 활용하여 규칙을 개발할 수 있으므로, 도메인 특정한 문제에 잘 맞을 수 있습니다.
데이터 부족 시 활용 가능: 대량의 데이터가 없는 상황에서도 규칙 기반 분석은 유용할 수 있습니다.

단점

규모 확장 어려움 : 대규모 데이터나 복잡한 문제에는 적합하지 않을 수 있으며, 규칙의 수가 지나치게 늘어날 수 있습니다.
업데이트 어려움 : 규칙을 유지하고 업데이트하기 어려울 수 있으며, 환경이 변할 때 맞추기 어려울 수 있습니다.
규칙(rule) 충돌 : 다양한 규칙이 충돌할 수 있으며, 이를 관리하기 어려울 수 있습니다.

Machine Learning(머신 러닝)

Rule-base는 사람이 통계적인 분석을 통해 규칙을 만드는 반면, 머신 러닝은 데이터로부터 기계가 규칙을 학습하는 방법을 사용합니다. 모델을 훈련시켜 데이터 간의 패턴을 찾아내는 기술입니다. 아래 그림처럼 데이터를 넣으면 기계가 계산하여 수식을 만들어 줍니다.

라벨링된 데이터라고 표현했지만 라벨링 되지 않는 데이터를 머신러닝하는 방법들이 있습니다. 이 때문에 지도학습과 비지도학습으로 나뉩니다. 두 분류에 정확한 기준을 알고싶다면 링크를 참고하시기 바랍니다. 머신 러닝의 장단점은 다음과 같습니다.

장점

대규모 데이터 처리 : 머신 러닝은 대량의 데이터를 처리하고 복잡한 패턴을 탐지할 수 있습니다.
자동 업데이트 : 새로운 데이터를 통해 모델을 지속적으로 업데이트할 수 있으며, 환경 변화에 대응할 수 있습니다.
다양한 기술 활용 : 다양한 머신 러닝 기법을 활용하여 다양한 문제에 적용할 수 있습니다.

단점

해석 어려움 : 머신 러닝 모델은 종종 블랙 박스처럼 보이며, 결과의 원인을 설명하기 어려울 수 있습니다. 단, 알고리즘에 따라 해석과 시각화가 가능하기도 합니다.
데이터 필요 : 머신 러닝은 대량의 데이터가 필요하며, 데이터의 품질과 양이 모델의 성능에 영향을 미칩니다.
과적합 가능성 : 모델은 학습 데이터에 과적합될 수 있으며, 일반화 문제를 유발할 수 있습니다. 학습에 대한 하이퍼 파라미터 튜닝이 필요합니다.

마무리

Rule-based 기법은 데이터 분석 초창기에 많이 활용했습니다. 그리고 추천 시스템 등 일부 도메인에서는 여전히 유용한 기술입니다. 우리는 머신러닝과 Rule-base를 적절히 섞어서 사용하는 업무도 많이 하고 있습니다. 비즈니스적으로 규칙을 만들어 적용해야 할 때 유용합니다.

대규모 데이터를 다루고 복잡한 패턴을 찾아야 할 때는 단순한 Rule로 정의될 수 없습니다. 또 자동 업데이트를 통해 시간의 변화에 따른 다양한 문제에 대응해야 하는 경우에 머신러닝이 적합합니다. 때로는 두 가지 방법을 혼합하여 사용하기도 합니다. 중요한 것은 문제의 본질과 요구 사항을 고려하여 가장 적합한 방법을 선택하는 것입니다.

저작자표시

'데이터 분석' 카테고리의 다른 글

지도학습 비지도학습 쉬운 설명 (0)	2023.12.18
머신러닝과 딥러닝의 차이는 무엇일까요? (0)	2023.11.11
서포트 벡터 머신(SVM) 특징 및 장단점, 활용 분야 (0)	2023.10.27
서포트 벡터 머신(SVM) - 주요 파리마터, 비선형 SVM, 커널 트릭(Kernal Trick) (0)	2023.10.26
서포트 벡터 머신(SVM) - 결정 경계, soft margin vs hard margin (0)	2023.10.26