본문 바로가기
데이터베이스

데이터 표준화 - 표준단어, 도메인, 표준용어

by 데이널 2023. 10. 30.

이번 포스팅에서는 데이터 표준화의 구성요소인 표준단어, 도메인, 표준용어의 관계에 대해 알아보도록 하겠습니다. 각각의 의미를 이해하고 실제 시스템에 표준화 적용시 어떻게 진행해야 하는지를 개념 파악이 필요합니다. 
 

 

데이터 표준화 관계도

1. 표준단어

  • 표준단어는 용어를 구성하는 최소 단위입니다. 의미적으로 더 이상 쪼개지지 않는 가장 작은 단위의 형태소(단어)를 말합니다.

2. 표준도메인

  • 도메인은 데이터의 형식 및 길이를 데이터의 특성에 따라 정형화한 명칭입니다. 각각의 용어는 하나의 표준 도메인을 가집니다. 

3. 표준용어

  • 표준단어의 조합으로 구성된 용어가 표준용어입니다. 정형화된 데이터의 타입과 길이를 갖는 통일된 하나의 속성(컬럼) 명칭을 의미합니다. 

 

데이터 표준화 관계도
데이터 표준화 관계도

 

그림에서 주제어로 표현한 것은 업무명이나, 용어의 성격 또는 의미적 주체/객체가 되는 단어를 말합니다. 또 분류어는 데이터의 특성을 한정하는 단어입니다. 예를 들어 금액이라고 하면 돈에 관련된 용어라른 것을 알 수 있습니다. 
 

표준단어 명명 규칙

 

  • 명사형 단어만 사용  →  동사/부사/접속사/복수형/소유격 사용 불가
  • 축약단어 사용 불가  →  주민번호(Χ), 주민등록번호(O)
  • 특수문자, 띄어쓰기 사용 불가
  • 숫자만 사용 불가  →  1(Χ), 200(Χ), 12월(O)
  • 접두사/접미사 단독 사용 불가  →  기^납부(Χ), 기납부(O)
  • 고유명사는 단일어 사용  →  금융^결재원(Χ), 금융결제원(O)
  • 영문단어 사용 원칙
  • 한글화 적용  →  FUND(Χ), 펀드 (O)
  • 범용적인 경우 예외 (약어, 경제/금융용어 등)  →  IP(O) , IMF(O) 

 

도메인 사용 규칙

도메인그룹  →  표준용어의 “분류어”로 사용 (특별한 경우가 아니면, ‘일련번호’ → ‘순번’ 사용)
표준도메인  →  전사 표준도메인 우선 적용 (데이터 타입/길이)

  • 사례 : 금액 Number[15], 일자 Varchar[8], 사원번호 Varchar[10] 등
  • 적용할 데이터 타입/길이가 없는 경우, 수용 가능한 값(Value)의 타입을 정하고 최대 길이 사용
상위 도메인그룹 도메인그룹 명
금액 그룹
가격, 가액, 금액, 급여금, 보상금, 보험금, 보험료, 수수료, 연액, 원금, 전액, 적립금, 준비금, 지가, 차액, 환급금
날짜 그룹
년도, 년월, 생년월일, 시각, 시분, , , 일시, 일자
내용 그룹
, 내용, 비고, 설명
명칭 그룹
, ID
번호 그룹
번호, 비밀번호, 순번
비율 그룹
금리, , 비율, 세율, , 이율, 환율
수량 그룹
개월수, 건수, 기간, 길이, 년수, , 매수, 면적, 성적, , 수량, 순서, 순위, 시간수, 연령, 월초성적, 일수, 점수, 주수, 지수, 차수, 평점, 학년, 회차, 횟수
연락처 그룹
우편번호, 전화번호, 주소
코드 그룹
코드, 여부, 유무

 

표준용어 명명 규칙

 

1. 표준용어 구성

단어 + 단어 + ... + 분류어 = 표준도메인

표준용어는 반드시 1개의 표준도메인과 Mapping (같은 타입/길이 표현)
 

2. 금액, 수 관련 용어 어순

  • 기간수식어 + 기간(시간) + 대상 + 장소 + 전(후) + 총 + 누적 + 도메인수식어 + 원화(외화) + 도메인
    • 기간수식어 : 최근, 과거, 이전, 최초, 최종 등
    • 기간(시간) : 당월, 3개월, 1일, 전년말 등
    • 대상 : 은행집계, 20세미만 등
    • 장소 : 해외, 국내
  • 예) 당월^20세미만^총^가입자^수

3. 그 외 명명 규칙

  1. 전사 표준용어 우선 적용
  2. 표준용어는 반드시 분류어(도메인그룹)로 종료
  3. 의미를 훼손하지 않는 범위 내에서 최대한 간결하고 명확한 표현 지향  →  5개 이내의 단어 조합 권장
  4. 표준용어 영문명은 표준단어의 영문약어에 언더바(‘_’)를 붙여서 정의
  5. 표준용어 영문명 길이는 ‘_’ 포함 전체 30자 이내로 구성 (시스템 제약)
    • 예) 고객^마감^관리^코드  →  CUST_CLS_MGNT_CD (16자)

 

데이터 표준화 - 표준 코드, 코드 유형, 코드 에러 사례

 

데이터 표준화 - 표준 코드, 코드 유형, 코드 에러 사례

이번 포스팅에서는 데이터 표준화 중에 표준 코드에 대해서 알아보도록 하겠습니다. 코드는 시스템을 개발하는데 있어서 중요한 역할을 합니다. 예를 들어, 코드를 데이터화하지 않고 하드코딩

bommbom.tistory.com