분류 전체보기270 ChatGPT vs Perplexity vs Claude, 누가 진짜 똑똑할까? 『 '데이널'의 컨텐츠에 포함된 정보는? 』여러분은 대화형 AI의 빅 3을 아시나요? ChatGPT가 모두 평정했는지 알았는데, Perplexity, Claude가 요즘 인기를 끌고 있는데요. 이 3개 언어 모델은 각자의 특별한 차별점을 가지고 있습니다. 그럼 바로 알아볼까요. ChatGPT가 가장 유명하기 때문에 증가세가 가파릅니다. 하지만 성능상으로 다른 대화형 AI도 먼저 사용해본 사람들에게 좋은 평가를 받고 있습니다. 역전될지 여부는 아무도 모릅니다. Perplexity의 특징Perplexity는 인터넷을 자유자재로 검색하는 측면에 특화되어 있습니다. 실시간으로 인터넷을 검색하고 최신 정보를 제공하는 능력이 있죠. 아마도 네이버가 만들고 있었던 Cue가 이런 모습이 아니었을까 생각될 정도더군.. 2024. 10. 8. 데이터 전처리 첫걸음, 변수 속성 불일치 해결법 『 '데이널'의 컨텐츠에 포함된 정보는? 』 변수 속성을 통일해야 하는 이유를 아시나요? 데이터 전처리에서 변수 명명규칙과 정제를 끝냈다면 다음은 변수 속성을 통일해야 합니다. 이유는 사람이 아니라 머신(기계)이 계산을 해야 하기 때문이죠. 그래서 '머신 러닝'이라 합니다. 머신 러닝은 입력값 x가 주어졌을 때, 출력값 y를 내보냅니다. 즉, Input이 들어가 알고리즘에 의해 output이 출력되는 형태입니다. 여기서 중요한 점은 머신 러닝 알고리즘은 숫자만 인지하기 때문에 변수 속성을 기계가 인지할 수 있는 형태로 통일해 주어야 합니다.(아래 그림 참조) 이 개념은 머신 러닝을 프로그램을 만들어 본 사람은 당연하다고 말할 수도 있는데요. 교육을 하다 보면 처음 데이터 분석을 배우는 교육생 중 가장.. 2024. 10. 7. 데이터 분석 실패 원인 1위? 바로 변수 명명과 정제 실수! 『 '데이널'의 컨텐츠에 포함된 정보는? 』데이터가 수집만큼 변수 명명과 정제도 중요하다. 데이터 전처리에서 변수 확인이 끝나면 다음은 변수 명명과 정제가 필요합니다. 이 과정을 통해 컬럼명을 이쁘게 정리하고 그 안에 데이터도 클린징하는 작업을 수행하죠. 변수 명명과 정제의 필요성데이터셋을 우리는 Python이나 R에서 작업 해야 합니다. 데이터를 올리기 위해 가장 먼저 변수명을 정의해야 하죠. 컬럼명을 어떻게 사용할지 목적에 따라 명명하는 것이 좋습니다. 이 작업은 개발의 일관성을 위해 꼭 필요한 단계입니다. 또 변수를 제대로 활용하기 위해서는 컬럼명을 한글로 명명하기보다는 영문으로 해야 관리하기 더 좋습니다. 그 다음은 데이터 안에 특수문자와 같은 잘못된 데이터를 제거하는 일을 합니다. 이 두 .. 2024. 10. 4. 데이터 이행 시간 단축, 단 6%가 시스템 전체를 좌우한다? 『 '데이널'의 컨텐츠에 포함된 정보는? 』 이행 테스트를 마치고 결과를 분석하면서 한 가지 놀라웠던 점이 있습니다. 몇 개의 테이블이 모든 시간을 잡아먹고 있었다는 사실이었죠. 이 글에서는 이행 시간 단축을 위한 확실히 써 먹을 수 있는 방법에 대해 이야기 해 보겠습니다. 파레토 법칙결론부터 말하면 이행 시간을 단축을 위해서는 주요 테이블의 공략해야 합니다. “소수의 원인이 대부분의 결과를 만든다"는 말, 한 번쯤 들어보셨죠? 바로 파레토 법칙, 혹은 80:20 법칙인데요. 이 법칙은 실생활에서도 자주 목격이 되는데요. 예를 들어, 부자 20%가 80%의 부를 소유하고 있는 현상 같은 것들이죠. 사실 그 현상에 의미가 있다기보다는 개선 방법이 더 중요합니다. 20%를 개선하면 80%의 효과를 낼 수 있.. 2024. 9. 30. 데이터베이스와 스키마, 똑같은 말이라고요? NO! 『 '데이널'의 컨텐츠에 포함된 정보는? 』 데이터베이스와 스키마는 다른건가요? 최근에 팀원에게 받은 질문입니다. "어 다르지~"라고 말해주니, 기다렸다는 듯이 반문 하더군요. 제가 MySQL에서 SHOW DATABASES;와 SHOW SCHEMAS;를 실행했는데요. 동일한 결과가 나오는데요. '어, 이걸 어디서부터 설명하지...' 속으로 생각했죠. 우선 용어 정리와 관계부터 차근차근 설명하기로 했습니다. 인스턴스 vs 데이터베이스 vs 스키마의 관계우선 인스턴스부터 알아야 합니다. database를 메모리에 로딩하여 실제로 동작하게 하는 프로세스를 인스턴스라고 하죠. 데이터베이스 파일을 읽고 쓰며, SQL 쿼리를 실행하고 결과를 반환하는 등의 작업을 수행합니다. 데이터베이스는 그 인스턴스 위에서 구동됩.. 2024. 9. 25. AWS 개발자라면 꼭 알아야 할 S3 특징과 활용법 『 '데이널'의 컨텐츠에 포함된 정보는? 』 S3는 데이터 형식에 관계없이 무제한으로 저장이 가능하며 요금이 저렴한 스토리지 서비스입니다. 이는 AWS S3와 오브젝트 스토리지 이해 라는 글에서 설명했었죠. 이글에서는 개발자라면 꼭 알아야 할 S3의 특징과 활용법에 대해 이야기해 보겠습니다. S3 데이터 저장 및 요금 정책우선 S3에 데이터를 저장하는 방법부터 알아야 하는데요. AWS S3에 데이터를 저장하는 방법은 일반적으로 AWS 관리 콘솔, AWS CLI 그리고 AWS SDK를 이용한 방법이 있습니다. 다음과 같은 절차로 진행합니다. 1. 버킷 생성: S3에서 데이터를 저장하는 공간인 버킷을 생성합니다.2. 파일 업로드: 생성된 버킷에 파일을 업로드합니다.3. 객체 관리: 업로드된 파일(객체).. 2024. 9. 24. ChatGPT를 기업 업무에 활용할 수밖에 없는 이유 『 '데이널'의 컨텐츠에 포함된 정보는? 』 최근 많은 사람들이 인공지능(AI) 기술을 활용하기 시작했죠. 하지만 아직까지는 검색의 2~3% 정도만 활용하고 있다는 최근 통계를 보고 의아했습니다. ‘아직은 ChatGPT를 활용하는 사람만 하고 있구나’ 생각했죠. 특히 프로젝트를 위해 기업들에 방문해 보면 보안 이슈로 ChatGPT 접속을 아에 막아놓았더군요.과연 이 기술을 기업들이 업무에 사용하지 않을 수 있을까요? 1. 클라우드도 ChatGPT처럼 보안 문제로 사용을 꺼렸다처음 '클라우드'가 등장했을 때 많은 기업들은 사용을 망설였습니다. 이유는 간단했습니다. 대기업들이 자신들의 귀한 데이터를 공용(Public) 공간에 올려놓겠냐는 의구심이었죠. 클라우드 서비스는 데이터를 외부 서버에 저장하니, 만약 .. 2024. 9. 23. vi 에디터 사용법, 딱 30분만 투자하면 달라지는 나의 리눅스 실력 『 '데이널'의 컨텐츠에 포함된 정보는? 』 리눅스 환경에서 작업을 하다 보면 텍스트 편집기를 사용하게 됩니다. 그중 가장 많이 사용되는 편집기 중 하나가 vi 에디터인데요. 윈도우 환경에 익숙한 사람들이 처음 접할 때는 익숙하지 않을 수 있습니다. 하지만 vi 에디터를 조금만 알면 리눅스 환경에서는 최고라는 사실을 알게되죠. 그리고 한번 익숙해지면 빠르게 작업을 할 수 있습니다. 이번 글에서는 vi 에디터의 기본 사용법을 설명해 보겠습니다. 1. vi 에디터 시작하기먼저, vi 에디터를 실행하려면 터미널에서 'vi 파일명'을 입력하면 됩니다. 명령어를 입력하면 파일명에 해당하는 파일을 vi 에디터로 열게 되는데요. 만약 해당 파일이 없다면 새로운 파일이 생성됩니다. 파일명을 입력하지 않고 그냥 vi만.. 2024. 9. 20. AWS S3 버킷과 오브젝트 스토리지 이해하기 『 '데이널' 컨텐츠에 포함된 정보는? 』 S3 스토리지는 Simple Storage Service로 S가 3개라서 S3입니다. AWS 스토리지 중 가장 많이 활용하고 있는데요. 이 글에서 AWS S3 스토리지를 어떤 구조를 가지고 있고, 그리고 오브젝트 스토리지가 무엇인지 살펴보도록 하겠습니다. 오브젝트 스토리지란?우선, 오브젝트 스토리지 개념부터 알아야 하는데요. 컴퓨터나 스마트폰에서 사진이나 파일을 저장하는 곳을 ‘스토리지’라고 부르잖아요? 그런데 클라우드에서는 조금 다르게 데이터를 저장합니다. 여기서 중요한 개념이 바로 오브젝트 스토리지입니다. 오브젝트 스토리지는 파일을 ‘오브젝트’라는 단위로 저장하는 방식이에요. 보통 파일 이름, 파일의 내용, 그리고 그 파일에 대한 정보(메타 데이터)까지.. 2024. 9. 19. 이전 1 2 3 4 5 6 ··· 30 다음