여정의 기록
[데이터과학개론] 데이터의 관리 본문
외부 데이터와 내부 데이터
외부 데이터
일반인에게 공개돼있는 데이터
- 통계 데이터베이스 형태로 제공
- 공개 API(이용자가 직접 응용 프로그램과 서비스를 개발할 수 있도록 공개된 API)로 제공
예 ) 통계청의 KOSIS, 한국은행의 ECOS 등
내부 데이터
데이터를 수집하는 기업 등의 목적에 따라 데이터베이스에 축적
- 외부에 공개안함
- 분석업무 및 의사결정 등에 사용
데이터의 수집
목적
랜덤으로 데이터를 수집하면 안된다.
분석을 담당하는 데이터 과학자의 의중에 따라 특별한 목적을 가지고 데이터를 수집
- Especially 기업경영, 비즈니스 문제의 경우 의사결정에 이르는데 도움이 될 만한 데이터 분석과정 필수
분석의 궁극적인 목적이 무엇인지 명확히 정의한 후 데이터 수집
방법
빅데이터 환경에서의 데이터 수집하는 방법
1. 검색 데이터
개인이 검색을 위해 입력한 자료를 축적한 데이터에서 다음과 같은 가치를 얻을 수 있다
- 수많은 소비자 또는 고객들의 관심과 성향
- 시간의 흐름에 따른 검색어 조회 수의 추이
- 구글의 트렌드 검색 사이트에서는 검색 추이를 다양한 형태로 시각화할 수 있도록 메뉴 구성
2. 소셜네트워크서비스 데이터
트위터, 페이스북, 인스타그램 등 (메시지, 사진, 동영상 등 자료의 집합)
- 트위터 : 짧은 단문, 자신의 생각을 다른 사람과 공유
- 페이스북 : 트위터에 비해 폐쇄적, 자신의 글, 사진, 동영상 등 각종 자료를 자신의 지정한 그룹에 한정하여 공개
뉴스나 공지사항, 재난 사항 전파 등
공공성을 지닌 메시지 전파용으로 사용
기업의 광고 매개체로 사용
3. API 이용
응용프로그램에서 사용 가능하도록 운영체제나 프로그래밍 언어가 제공하는 기능을 제어할 수 있도록 만들어 놓은 인터페이스 = API
4. 웹문서
개인의 블로그, 뉴스, 웹상에서 사용되는 문서, 통합검색의 결과 노출되는 문서
- 최대한 웹문서의 구조를 잘 지키기 + 최적화 -> 검색이 잘 이루어지도록 하는게 좋다 (크롤링과 인덱싱 측면에서)
web scraping (웹문서에서 데이터를 추출하는 것) , 웹크롤링(URL seed로 내용 업데이트 가능)으로 수집
(단, 웹문서 데이터 수집하려면 웹사이트 구조 파악이 필요함)
5. 공공 데이터
대부분 외부 데이터
데이터베이스
데이터는 계속해서 실시간으로 업데이트, 가공을 거치는데 다수가 사용함에 있어 관리하기가 어려웠다.
그래서 이를 통합한 형태로 만들어 사용하는데 어려움이 없도록 만든 것이다.
연관성이 높은 데이터의 집합이라고 하며 접근 및 공유가 쉽고 업무운영을 위해 사용하는, 중복을 배제한 통합된 데이터로 관리할 수 있게 해준다.
- 통합된 데이터
- 데이터의 연관성
- 데이터 중복의 최소화
- 보조기억장치 활용
- 동시공유
- 최신 데이터 유지
- 일관성, 무결성
- 보안성
단점
- 전문가가 필요함
- 전산화, 관리 비용이 많이듬
- 대용량 디스크로 접근이 집중되면 과부하 발생 우려
- 데이터 백업, 복구가 어려움
- 시스템이 복잡함
데이터베이스 모델
구성요소 : 데이터 구조 Structure, 연산 Operations, 제약조건 Constraints 등
1. 계층형 모델 Hierarchical model
컴퓨터 - 메인보드 및 메모리, 하드디스크, 케이스 - 파워 ,....
2. 네트워크형 모델
학과목 - 교수 - 학생
| / / \ |
강의실 - 수강- 학과
3. 관계형 모델
행과 열이 존재하고
행 = 튜플 tuple 이라고 하고
열 = 속성 attribute 이라고 한다
행(튜플)과 열(속성)로 이루어진 형태를 릴레이션 relation 이라고 한다.
데이터베이스 관리 시스템 DBMS의 의미
: 다수의 사용자들이 데이터베이스 내 데이터 접근하는걸 도와주는 시스템
DBMS 기능
1. 정의 Definition
데이터의 특징을 명확하게 명시하는 것 (형식, 구조, 제약조건 ... )
2. 조작 Manipulation
실제로 특정 데이터 검색, 갱신, 삽입, 삭제 등 체계적 관리를 위한 인터페이스 제공
3. 제어 Control
무결성 Integrity 을 유지하도록 (최신의 데이터를 가지도록) 하드웨어, 소프트웨어 오동작으로부터 보호
DBMS의 장점
- 자료와의 관계성 정의 -> 자료 통합이 증진됨
- 데이터 접근이 매우 용이
- 데이터 통제를 강화하여 오작동 방지, 보안 잘 관리할 수 있음
- 애플리케이션 프로그램들을 쉽게 개발, 관리 가능
- 데이터의 논리적, 물리적 독립성이 보장됨
'공부중 ... > 데이터과학개론' 카테고리의 다른 글
데이터 분석 도구 (0) | 2022.10.25 |
---|---|
데이터의 품질과 표현 (0) | 2022.10.25 |
데이터 분석을 왜, 어떻게 해야할까? (0) | 2022.10.25 |
[데이터과학개론] 데이터 과학이란 (0) | 2022.08.19 |
[데이터과학개론] 데이터란? (0) | 2022.08.17 |