분류 전체보기277 데이터 분석 실패 원인 1위? 바로 변수 명명과 정제 실수! 『 '데이널'의 컨텐츠에 포함된 정보는? 』데이터가 수집만큼 변수 명명과 정제도 중요하다. 데이터 전처리에서 변수 확인이 끝나면 다음은 변수 명명과 정제가 필요합니다. 이 과정을 통해 컬럼명을 이쁘게 정리하고 그 안에 데이터도 클린징하는 작업을 수행하죠. 변수 명명과 정제의 필요성데이터셋을 우리는 Python이나 R에서 작업 해야 합니다. 데이터를 올리기 위해 가장 먼저 변수명을 정의해야 하죠. 컬럼명을 어떻게 사용할지 목적에 따라 명명하는 것이 좋습니다. 이 작업은 개발의 일관성을 위해 꼭 필요한 단계입니다. 또 변수를 제대로 활용하기 위해서는 컬럼명을 한글로 명명하기보다는 영문으로 해야 관리하기 더 좋습니다. 그 다음은 데이터 안에 특수문자와 같은 잘못된 데이터를 제거하는 일을 합니다. 이 두 .. 2024. 10. 4. 데이터 이행 시간 단축, 단 6%가 시스템 전체를 좌우한다? 『 '데이널'의 컨텐츠에 포함된 정보는? 』 이행 테스트를 마치고 결과를 분석하면서 한 가지 놀라웠던 점이 있습니다. 몇 개의 테이블이 모든 시간을 잡아먹고 있었다는 사실이었죠. 이 글에서는 이행 시간 단축을 위한 확실히 써 먹을 수 있는 방법에 대해 이야기 해 보겠습니다. 파레토 법칙결론부터 말하면 이행 시간을 단축을 위해서는 주요 테이블의 공략해야 합니다. “소수의 원인이 대부분의 결과를 만든다"는 말, 한 번쯤 들어보셨죠? 바로 파레토 법칙, 혹은 80:20 법칙인데요. 이 법칙은 실생활에서도 자주 목격이 되는데요. 예를 들어, 부자 20%가 80%의 부를 소유하고 있는 현상 같은 것들이죠. 사실 그 현상에 의미가 있다기보다는 개선 방법이 더 중요합니다. 20%를 개선하면 80%의 효과를 낼 수 있.. 2024. 9. 30. 데이터베이스와 스키마, 똑같은 말이라고요? NO! 『 '데이널'의 컨텐츠에 포함된 정보는? 』 데이터베이스와 스키마는 다른건가요? 최근에 팀원에게 받은 질문입니다. "어 다르지~"라고 말해주니, 기다렸다는 듯이 반문 하더군요. 제가 MySQL에서 SHOW DATABASES;와 SHOW SCHEMAS;를 실행했는데요. 동일한 결과가 나오는데요. '어, 이걸 어디서부터 설명하지...' 속으로 생각했죠. 우선 용어 정리와 관계부터 차근차근 설명하기로 했습니다. 인스턴스 vs 데이터베이스 vs 스키마의 관계우선 인스턴스부터 알아야 합니다. database를 메모리에 로딩하여 실제로 동작하게 하는 프로세스를 인스턴스라고 하죠. 데이터베이스 파일을 읽고 쓰며, SQL 쿼리를 실행하고 결과를 반환하는 등의 작업을 수행합니다. 데이터베이스는 그 인스턴스 위에서 구동됩.. 2024. 9. 25. AWS 개발자라면 꼭 알아야 할 S3 특징과 활용법 『 '데이널'의 컨텐츠에 포함된 정보는? 』 S3는 데이터 형식에 관계없이 무제한으로 저장이 가능하며 요금이 저렴한 스토리지 서비스입니다. 이는 AWS S3와 오브젝트 스토리지 이해 라는 글에서 설명했었죠. 이글에서는 개발자라면 꼭 알아야 할 S3의 특징과 활용법에 대해 이야기해 보겠습니다. S3 데이터 저장 및 요금 정책우선 S3에 데이터를 저장하는 방법부터 알아야 하는데요. AWS S3에 데이터를 저장하는 방법은 일반적으로 AWS 관리 콘솔, AWS CLI 그리고 AWS SDK를 이용한 방법이 있습니다. 다음과 같은 절차로 진행합니다. 1. 버킷 생성: S3에서 데이터를 저장하는 공간인 버킷을 생성합니다.2. 파일 업로드: 생성된 버킷에 파일을 업로드합니다.3. 객체 관리: 업로드된 파일(객체).. 2024. 9. 24. ChatGPT를 기업 업무에 활용할 수밖에 없는 이유 『 '데이널'의 컨텐츠에 포함된 정보는? 』 최근 많은 사람들이 인공지능(AI) 기술을 활용하기 시작했죠. 하지만 아직까지는 검색의 2~3% 정도만 활용하고 있다는 최근 통계를 보고 의아했습니다. ‘아직은 ChatGPT를 활용하는 사람만 하고 있구나’ 생각했죠. 특히 프로젝트를 위해 기업들에 방문해 보면 보안 이슈로 ChatGPT 접속을 아에 막아놓았더군요.과연 이 기술을 기업들이 업무에 사용하지 않을 수 있을까요? 1. 클라우드도 ChatGPT처럼 보안 문제로 사용을 꺼렸다처음 '클라우드'가 등장했을 때 많은 기업들은 사용을 망설였습니다. 이유는 간단했습니다. 대기업들이 자신들의 귀한 데이터를 공용(Public) 공간에 올려놓겠냐는 의구심이었죠. 클라우드 서비스는 데이터를 외부 서버에 저장하니, 만약 .. 2024. 9. 23. vi 에디터 사용법, 딱 30분만 투자하면 달라지는 나의 리눅스 실력 『 '데이널'의 컨텐츠에 포함된 정보는? 』 리눅스 환경에서 작업을 하다 보면 텍스트 편집기를 사용하게 됩니다. 그중 가장 많이 사용되는 편집기 중 하나가 vi 에디터인데요. 윈도우 환경에 익숙한 사람들이 처음 접할 때는 익숙하지 않을 수 있습니다. 하지만 vi 에디터를 조금만 알면 리눅스 환경에서는 최고라는 사실을 알게되죠. 그리고 한번 익숙해지면 빠르게 작업을 할 수 있습니다. 이번 글에서는 vi 에디터의 기본 사용법을 설명해 보겠습니다. 1. vi 에디터 시작하기먼저, vi 에디터를 실행하려면 터미널에서 'vi 파일명'을 입력하면 됩니다. 명령어를 입력하면 파일명에 해당하는 파일을 vi 에디터로 열게 되는데요. 만약 해당 파일이 없다면 새로운 파일이 생성됩니다. 파일명을 입력하지 않고 그냥 vi만.. 2024. 9. 20. AWS S3 버킷과 오브젝트 스토리지 이해하기 『 '데이널' 컨텐츠에 포함된 정보는? 』 S3 스토리지는 Simple Storage Service로 S가 3개라서 S3입니다. AWS 스토리지 중 가장 많이 활용하고 있는데요. 이 글에서 AWS S3 스토리지를 어떤 구조를 가지고 있고, 그리고 오브젝트 스토리지가 무엇인지 살펴보도록 하겠습니다. 오브젝트 스토리지란?우선, 오브젝트 스토리지 개념부터 알아야 하는데요. 컴퓨터나 스마트폰에서 사진이나 파일을 저장하는 곳을 ‘스토리지’라고 부르잖아요? 그런데 클라우드에서는 조금 다르게 데이터를 저장합니다. 여기서 중요한 개념이 바로 오브젝트 스토리지입니다. 오브젝트 스토리지는 파일을 ‘오브젝트’라는 단위로 저장하는 방식이에요. 보통 파일 이름, 파일의 내용, 그리고 그 파일에 대한 정보(메타 데이터)까지.. 2024. 9. 19. 왜 기업들이 오라클 클라우드를 선택할까? AI와 클라우드의 힘 『 '데이널'의 컨텐츠에 포함된 정보는? 』 최근 오라클의 창업자 래리 앨리슨이 빌게이츠를 제치고 세계 5위 부자가 됐다는 뉴스를 접했는데요. Oracle의 주가가 크게 상승하면서 많은 이들의 관심이 쏠리고 있습니다. 바로 이사람이죠. 오라클은 전통 Database 벤더라고 모두 알고있을 거예요. 그런데 말이죠. 오라클이 클라우드 산업에서 두각을 나타내고 있다는 사실은 몰랐을 겁니다. 이번 글에서 오라클의 클라우드 서비스가 왜 인기 있는지 이야기해 보시죠. 아래는 고공행진 중인 오라클 주가입니다. 오라클의 놀라운 실적! 2023년 2분기 실적입니다. 매출에서 전년 대비 18.5% 증가라는 놀라운 성과가 나와버렸죠. 예상치를 크게 뛰어넘어 올해도 높은 성장을 이어지고 있습니다. 이유는 클라우드 매출이 늘.. 2024. 9. 13. 리눅스 명령어 모음: 꼭 알아야 할 기초 명령어들 『 '데이널'의 컨텐츠에 포함된 정보는? 』 리눅스를 사용하다 보면 기본적인 명령어를 익히는 것이 좋습니다. 명령어를 알면 시스템을 훨씬 더 효율적으로 사용할 수 있고, 터미널을 통해 빠르게 작업을 처리할 수 있죠. 이 글에서는 리눅스에서 꼭 알아야 할 필수 명령어들을 소개하려고 합니다. 이 명령어들을 잘 익혀두면 리눅스에서 작업하는 데 도움이 될 거예요. 1. 파일 및 디렉터리 명령어리눅스에서는 파일과 디렉토리(폴더)를 관리하는 것이 아주 기본적인 작업인데요. 파일을 탐색하고 관리하는 데 필수적인 명령어들입니다.명령어설명예시ls현재 디렉토리(폴더)에 있는 파일과 폴더 목록을 보여줌ls .cd디렉토리(폴더)를 이동할 때 사용합니다. 예를 들어, cd Documents는 Documents 폴더로 이동하는.. 2024. 9. 12. 이전 1 2 3 4 5 6 7 ··· 31 다음