여정의 기록
[비정형데이터분석] 비정형 데이터의 분석 및 도구 본문
비정형 데이터 분석 도구 : 데이터의 원형을 계량화, 복잡한 구조를 효과적으로 분석한다. 분석결과를 적절하게 요약하여 나타낼 수 있다.
이는 광의의 분석도구(프로세스 전반을 아우르는 를 의미한다
협의의 분석 도구 : 데이터를 분석하는 표준화된 도구. 기존의 도구를 어떻게 비정형 데이터에 적용할 것인가?
비정형 데이터 분석은 데이터 전처리 단계에서 자원 투입이 상대적으로 많음
내부 비정형 데이터(외부에 공개되지 않는) , 외부 비정형 데이터(외부에 공개된)
내부, 외부 비정형 데이터 -> 데이터 수집 -> 데이터 전처리 -> 구조화된 데이터 -> 데이터 시각화, 데이터마이닝 - 분석 결과 제시
분석도구의 구현
프로그래밍이란? 언어와 작성 방법의 선택. 코딩(알고리즘-생각의 구현), 에러 수정 등 전반적인 절차.
인터프리터 방식의 언어 (파이썬) :
명령어 -> 번역 -> 기계어
컴파일러 방식의 언어 :
명령문1, 2, 3. .. -> 컴파일러 -> (컴파일러로 실행되는) 목적 프로그램 (기계어)
모아서 처리
파이썬 :
오픈소스, 무료 사용, 객체 지향성
동적타이핑 (자료의 형태를 미리 명시적으로 지정해주지 않고 인터프리터에 그 처리를 담당하게 하는 방식)
객체지향 프로그래밍 언어 :
클래스Class (설계도)+ 객체 Object(물건 ...) + 기능(method) + ...
SQL
관계형 데이터베이스 관리시스템 Relational Database Management System
- 대화형 : 각 행 별로 명령어가 입력되는 방식. SQL 명령어를 직접 입력하는 경우.
- 내장형 : 타 프로그래밍 언어내에서 SQL 명령어가 사용되는 방식
- SQL 데이터 정의어 DDL
CREATE , DROP , ALTER
데이터베이스에 저장될 데이터에 대한 형식, 구조, 제약조건들을 명시한다. - SQL 데이터 조작어 DML
SELECT , INSET , DELETE , UPDATE
특정 데이터 검색 질의, 데이터 베이스의 갱신, 삽입, 삭제 등을 관리 - SQL 데이터 제어어 DCL
GRANT , REVOKE , COMMIT , ROLLBACK
접근, 갱신, 삽입, 삭제 등 작업이 정확하게 수행되어 무결성 유지
모든 종류의 DB 연산 가능, 정수 실수 문자 등 여러 타입 지원함
Haddop
원래는 프로젝트 이름
대규모 데이터를 처리 분석할 수 있는 Java 기반 오픈소스 프레임 워크
분산 파일 시스템 HDFS(데이터를 쪼개서 작업), MapReduce
분산 파일 시스템 Haddop Distributed File System, HDFS
- 대용량의 파일을 분산된 서버에 저장 -> 데이터를 빠르게 처리
- 데이터의 안정성과 무결성(입력, 변경을 막고 읽기만 허용 - 일관성 유지)
- 데이터 저장 시 복제 데이터 저장 -> 데이터 유실 방지
- 클라이언트가 끊임없이 데이터에 접근하는 스트리밍 방식, 많은 양의 데이터 처리
맵리듀스 MapReduce
대량의 텍스트 데이터 -> 문자열 데이터 분리, 정리 -> 정보 추출
예시 ) Input(data) -> Splitting(data를 나누어줌) -> Mapping -> Shffling(and Sorting) -> Reducing -> Output
Java
운영체제, 하드웨어에 의존하지 않는다.
SAS
1966년 미국 노스캐롤라이나 주립대학교에서 통계분석에 특화된 통계패키지의 형태로 개발
보고서 작성, 툴 박스 추가 등, 종합정보처리 시스템의 성격
큰대용량 데이터 읽기 쉬움
Data setp(외부에서 데이터 불러오거나, 내부에 직접 입력)과 Proc step으로 구성
'공부중 ... > 비정형데이터분석' 카테고리의 다른 글
토큰화란? (0) | 2022.12.11 |
---|---|
텍스트 데이터 통계 분석을 위한 가설 (0) | 2022.12.11 |
텍스트 데이터 수집에 대해서 (0) | 2022.12.11 |
[비정형데이터분석] 데이터 활용의 제도적 장치 및 유의점 (0) | 2022.09.12 |
[비정형데이터분석] 데이터 개념 및 환경변화 (0) | 2022.08.25 |