여정의 기록

[비정형데이터분석] 비정형 데이터의 분석 및 도구 본문

공부중 .../비정형데이터분석

[비정형데이터분석] 비정형 데이터의 분석 및 도구

Chelsey 2022. 9. 29. 02:39
728x90

비정형 데이터 분석 도구 : 데이터의 원형을 계량화, 복잡한 구조를 효과적으로 분석한다. 분석결과를 적절하게 요약하여 나타낼 수 있다.
이는 광의의 분석도구(프로세스 전반을 아우르는 를 의미한다

협의의 분석 도구 : 데이터를 분석하는 표준화된 도구. 기존의 도구를 어떻게 비정형 데이터에 적용할 것인가?

비정형 데이터 분석은 데이터 전처리 단계에서 자원 투입이 상대적으로 많음

내부 비정형 데이터(외부에 공개되지 않는) , 외부 비정형 데이터(외부에 공개된)

내부, 외부 비정형 데이터 -> 데이터 수집 -> 데이터 전처리 -> 구조화된 데이터 -> 데이터 시각화, 데이터마이닝 - 분석 결과 제시

분석도구의 구현

프로그래밍이란? 언어와 작성 방법의 선택. 코딩(알고리즘-생각의 구현), 에러 수정 등 전반적인 절차.

인터프리터 방식의 언어 (파이썬) :
명령어 -> 번역 -> 기계어 

컴파일러 방식의 언어 :
명령문1, 2, 3. .. -> 컴파일러 -> (컴파일러로 실행되는) 목적 프로그램 (기계어) 
모아서 처리

파이썬 : 
오픈소스, 무료 사용, 객체 지향성
동적타이핑 (자료의 형태를 미리 명시적으로 지정해주지 않고 인터프리터에 그 처리를 담당하게 하는 방식)

객체지향 프로그래밍 언어 :
클래스Class (설계도)+ 객체 Object(물건 ...) + 기능(method) + ...


SQL

관계형 데이터베이스 관리시스템 Relational Database Management System

  • 대화형 : 각 행 별로 명령어가 입력되는 방식. SQL 명령어를 직접 입력하는 경우. 
  • 내장형 : 타 프로그래밍 언어내에서 SQL 명령어가 사용되는 방식
  • SQL 데이터 정의어 DDL
    CREATE , DROP , ALTER
    데이터베이스에 저장될 데이터에 대한 형식, 구조, 제약조건들을 명시한다.
  • SQL 데이터 조작어 DML
    SELECT , INSET , DELETE , UPDATE
    특정 데이터 검색 질의, 데이터 베이스의 갱신, 삽입, 삭제 등을 관리
  • SQL 데이터 제어어 DCL
    GRANT , REVOKE , COMMIT , ROLLBACK
    접근, 갱신, 삽입, 삭제 등 작업이 정확하게 수행되어 무결성 유지

모든 종류의 DB 연산 가능, 정수 실수 문자 등 여러 타입 지원함

 

Haddop

원래는 프로젝트 이름
대규모 데이터를 처리 분석할 수 있는 Java 기반 오픈소스 프레임 워크
분산 파일 시스템 HDFS(데이터를 쪼개서 작업), MapReduce

분산 파일 시스템 Haddop Distributed File System, HDFS
- 대용량의 파일을 분산된 서버에 저장 -> 데이터를 빠르게 처리
- 데이터의 안정성과 무결성(입력, 변경을 막고 읽기만 허용 - 일관성 유지)
- 데이터 저장 시 복제 데이터 저장 -> 데이터 유실 방지
- 클라이언트가 끊임없이 데이터에 접근하는 스트리밍 방식, 많은 양의 데이터 처리

맵리듀스 MapReduce
대량의 텍스트 데이터 -> 문자열 데이터 분리, 정리 -> 정보 추출
예시 ) Input(data) -> Splitting(data를 나누어줌) -> Mapping -> Shffling(and Sorting) -> Reducing -> Output

Java

운영체제, 하드웨어에 의존하지 않는다.

SAS

1966년 미국 노스캐롤라이나 주립대학교에서 통계분석에 특화된 통계패키지의 형태로 개발
보고서 작성, 툴 박스 추가 등, 종합정보처리 시스템의 성격
큰대용량 데이터 읽기 쉬움
Data setp(외부에서 데이터 불러오거나, 내부에 직접 입력)과 Proc step으로 구성

728x90