본문 바로가기

IT 탐구생활7

데이터 분석가 vs 데이터 엔지니어, 당신의 선택은? 데이터 분석가와 데이터 엔지니어 중 어떤 직무를 선택할까 고민하고 계신가요? 많은 취업 준비생들이 이와 같은 고민을 하더군요. 이 글에서 데이터 분석가와 데이터 엔지니어의 역할과 현재 시장 상황에 대해 이야기해 보려고 합니다. 어떤 게 더 자신에게 유리한지를 한번 따져보시는 게 좋을 것 같아요. 데이터 사이언티스트는 슈퍼맨? 처음 빅데이터가 나왔을 때 ‘데이터 사이언티스트‘라는 직업이 화두가 되었죠. 고액 연봉인데 시장에서 수요가 부족하다고 말이 많았습니다. 그도 그럴 듯이 데이터사이언티스트의 역량은 너무 광범위 했죠. 도메인 지식, 수학과 통계, 컴퓨터 사이언스 및 빅데이터 지식까지 보유한 사람이었습니다. 혹자는 “데이터 사이언티스트가 아니라 슈퍼맨“이 되라는 거냐고 말 할 정도였죠. 과거의 우려와는 .. 2024. 5. 15.
머신러닝 공부 로드맵, 무엇부터 시작할까? 머신러닝 스터디를 위해서 해당 블로그를 이용하기 위한 로드맵입니다. 각각의 영역별로 정리해 보았습니다.  머신러닝 공부하다 부족한 부분을 영역별로 check하셔서 따라가는 것을 추천합니다.   피처 엔지니어링  데이터 전처리차원 축소 Data Imputation언더 샘플링(Under Sampling)오버 샘플링(Over Sampling)모델 조정 방법(Novelty Detection) 통계 분석지도 학습비지도 학습상관관계(Correlation Analysis)가설검정(T-test, ANOVA)정규분포 사용 이유P-value의 의미왜도와 첨도커널함수카이제곱분포박스플롯(Boxplox)박스콕스 vs 여존슨 변환최대평균 불일치모수 vs 비모수 모델선형 회귀(Linear Regression)로지스틱 회귀(Logi.. 2024. 5. 7.
갤럭시 S24에 적용한 온디바이스 AI 미래와 한계 갤럭시 S24가 출시되면서 가장 주목받고 있는 영역이 AI 기능이었는데요. 정확히 말하면 온디바이스 AI에 대한 구현 기능에 관심이 쏠리고 있습니다. 만약 갤럭시 S24의 기능들이 궁금하시면 Samsung Newsroom의 AI 기능 동영상을 확인해 보셔도 좋습니다. 어떻게 보면 그동안 기술이 없었던 것은 아닙니다. 단지 삼성이 가장 먼저 스마트폰이라는 기계 안으로 AI를 가져왔다고 이야기할 수 있겠습니다. 그러면 이전 클라우드를 통해 AI를 이용하던 것과 뭐가 다르길게 유난일까요? 온디바이스 AI는 인공 지능(AI) 알고리즘과 기능을 하드웨어나 소프트웨어 시스템에 직접 통합하여 장치가 외부 처리나 클라우드 연결에 의존하지 않는 것입니다. 단지 로컬에서 지능형 작업을 수행할 수 있도록 하는 것을 의미합니.. 2024. 2. 7.
머신러닝 공부 - 경험 및 노하우 처음에 머신러닝을 어떻게 공부해야 할지 막막하지요. 특히나 비정공자라면 무엇부터 봐야 할지도 알기가 힘들죠.  그럴때 이것부터 봐라고 알려주는 멘토가 있다면 시간을 훨씬 단축해 줍니다. 이번 포스팅에서는 내 경험을 기반으로 처음 머신러닝을 공부했던 방법과 노하우를 이야기해볼까 합니다. 많이 하는 질문이 머신러닝 할려면 수학 잘해야 하나요? 대학에서 통계 전공해야 하나요? 뭐 이런 것들입니다. 내 답변은 “아니요”입니다. 물론 잘하면 좋겠지만 지금 모르더라도 앞으로 공부해 가면 됩니다. 나또한 통계학 전공이 아니고 많은 업계 전문가들도 마친가지에요. 얼마나 하고 싶은 공부인지가 더 중요합니다. 그럼 바로 단계별로 공부 방법을 정리해 보겠습니다.    처음 공부하는 단계이 때는 데이터 분석에 대한 전체적인 .. 2023. 12. 28.
ChatGPT의 허점들을 이용한 차별화된 글쓰기 법칙 인공지능은 앞으로 인간을 대체할 것이라고 합니다. 마치 인간과 똑같아질 거로 이해하는 사람들이 많죠. 그렇다면 정말 재앙일 것이데 말이죠. 이 게시물은 지금의 ChatGPT의 허점들에 대한 이야기입니다. 내가 말하는 허점들을 보고 그런 것도 미래에는 다 보완될 건데? 인간을 뛰어넘을 텐데? 이렇게 말할 수도 있습니다. 만약 그런 사람은 그냥 '뒤로가기'를 하셔도 좋습니다. 하지만 현재 ChatGPT의 약점을 알면 우리는 현시점에서 차별화된 작업을 할 수 있습니다. 나는 과거도 미래도 아닌 현재가 중요하다고 생각하는 사람입니다. 미래에 보완될거라고 지금의 기회를 놓칠 수는 없으니까요. 그러면 어떤 허점들이 있는지 살펴보도록 하겠습니다. 첫째, 공감능력의 한계 ChatGPT는 입력된 문장에서 감정을 이해하는.. 2023. 12. 24.
ChatGPT(GPT-4)를 이긴 또 다른 거대모델(제미나이) OpenAI와 구글 연구진의 싸움은 과거로 거슬러 올라갑니다. OpenAPI에서는 GPT를 제안했고 얼마 지나지 않아 구글에서는 BERT라는 언어모델을 들고 나왔죠. 두 모델 모두 Transformer를 기반으로 하고 있습니다. GPT는 decoder 블록을 사용한다면 BERT는 encoder 블록을 사용한다는 점이 다르죠. 구글에서 BERT를 내놓을 때 단어의 양쪽 방향으로부터 Context를 활용하기 때문에 더 좋은 결과를 낸다고 주장했습니다. 처음에 BERT가 더 진보된 모델로 다들 생각했습니다. 적어도 GPT-2가 나오기 전까지는 말입니다. GPT-2의 반격 GPT-2는 그 당시 거의 모든 웹페이지를 학습 데이터로 사용하며 반격을 시작합니다. ”우리 GPT모델에 데이터만 많이 넣었더니 BERT보다.. 2023. 12. 17.
네이버 Que(Cue, 큐) 때문에 블로거들 사라진다 (feat ChatGPT) 23년 9월 네이버는 인공지능 검색 서비스 큐:(Cue) 베타 서비스를 출시했습니다. 이 서비스를 신청해서 써본 이들의 반응은 재각각이었죠. 가장 큰 이슈는 더 이상 블로그 검색을 할 필요가 없다는 점이었는데요. 그렇게 단정 지었던 이유가 있었습니다. 단순히 대화를 통해 맛집, 쇼핑 정보를 물어보면, Cue가 알아서 추천해 주는 방식이기 때문이죠. 여러번에 검색으로 블로그에서 정보를 찾을 필요가 없다는 이야기였습니다. 생성형 AI 모델 Que 이런 대화형 방식은 이 블로그를 방문한 사람이라면 아마도 알고있는 개념이라 생각해요. 바로 자연어 처리를 이용한 생성 모델입니다. 실제로 Cue는 네이버의 “생성형 AI 하이퍼클로바X”를 이용한다고 합니다. 그런데 클로바X보다 더 익숙하고 진보된 기술이 있습니다. .. 2023. 12. 5.