목록공부중 .../비정형데이터분석 (6)
여정의 기록
토큰화 토큰 token 이란 고유한 의미를 말한다. 더 이상 나눌수 없는 하나의 단위를 의미한다. 축약 contraction 된 표현 : 여러 단어가 공백없이 하나의 묶음으로 묶여있는 경우 n-gram : 여러 단어 사이에 공백이 있지만 의미상 하나의 묶음으로 보는 것이 타당한 경우. 숙어, 관용어구 토큰화 : 각 특징에 따라 의미 단위로 - 토큰 단위로 나누는 것. 축약된 것은 두 개의 토큰으로 나누고 n-gram 같은 것은 하나의 토큰으로 인식하는 과정 # 첫 번째인 - 하나만 변환 sub(pattern='변환할 원래 문자열', replacement='변환 후 입력될 문자열', x='데이터값인 벡터', ignore.case=FALSE) # ignore.case : 대소문자를 별개의 문자로 구분할 것인..
텍스트 데이터는 수치형 데이터처럼 정형화하기 쉽지가 않다. 텍스트 데이터는 길이에 명시적인 제약이 없는 경우가 대다수이며, 같은 의미라도 다른 단어, 문장구조 다른 방식으로 표현할 수 있다는 특징이 있다. 그래서 비정형적 unstructured 라는 말은 데이터가 구조를 가지지 않는다라는 말이 아닌, 수치형 데이터와는 달리 복잡하고 미묘한 문법적인 구조로 표현한다는 것이다. "The world's most valuable resource is no longer oil, but data."에서 "no longer ... but" 이라는 구문의 의미를 정확히 반영못하면 엉뚱한 의미로 해석될 수 있다. 그래서 텍스트 데이터를 통계 분석하기 위해서는 어떠한 가설을 가지고 진행하게 되는데... 통계적 의미론 가설..
디지털 데이터 전자적 방법으로 저장 네트워크 및 유선, 무선 통신 등을 통해 전송 IT 기술의 지속적인 발전 디지털 데이터 - 비정형 데이터(소셜데이터)의 증가세 가속화 아래의 사이트에서 데이터를 사용할 수 있다고 한다. 딥러닝 교육을 받을때 사용했던 기억이 있다. https://archive.ics.uci.edu/ml/index.php UCI Machine Learning Repository Welcome to the UC Irvine Machine Learning Repository! We currently maintain 622 data sets as a service to the machine learning community. You may view all data sets through our..
비정형 데이터 분석 도구 : 데이터의 원형을 계량화, 복잡한 구조를 효과적으로 분석한다. 분석결과를 적절하게 요약하여 나타낼 수 있다. 이는 광의의 분석도구(프로세스 전반을 아우르는 를 의미한다 협의의 분석 도구 : 데이터를 분석하는 표준화된 도구. 기존의 도구를 어떻게 비정형 데이터에 적용할 것인가? 비정형 데이터 분석은 데이터 전처리 단계에서 자원 투입이 상대적으로 많음 내부 비정형 데이터(외부에 공개되지 않는) , 외부 비정형 데이터(외부에 공개된) 내부, 외부 비정형 데이터 -> 데이터 수집 -> 데이터 전처리 -> 구조화된 데이터 -> 데이터 시각화, 데이터마이닝 - 분석 결과 제시 분석도구의 구현 프로그래밍이란? 언어와 작성 방법의 선택. 코딩(알고리즘-생각의 구현), 에러 수정 등 전반적인 ..
데이터 활용을 위한 제도적 장치 4차 산업혁명 시대에 접어들면서 데이터 이용 활성화의 필요성이 증대 신산업 = 데이터 산업 신산업 육성을 위해 데이터 이용이 필수적 국가적으로도 데이터 이용을 위한 제도적 장치 마련을 위한 논의의 장이 마련 데이터 3법의 개정안이 국회를 통과 개인정보 보호법 법률 정보통신망 이용촉진 및 정보보호 법률 (정보통신망법) 신용정보의 이용 및 보호에 관한 법률 (신용정보법) 1. 개인정보 보호법 목적 : 데이터 기반의 신 산업 육성 데이터 이용을 확대하되 철저한 개인정보 보호체계 마련 감독기구의 독립성을 확보 -> 개인정보보호위원회로 권한 이관 EU에서 시행중인 GDPR(General Data Protection Regulation) 일반개인정보보호법의 적정성 평가의 필수 조건을..
데이터의 개념 데이터의 사전적 정의 : 이론을 세우는 데 기초가 되는 사실 또는 바탕이 되는 자료, 관찰이나 실험, 조사로 얻은 사실이나 정보. '자료'의 순화 데이터의 컴퓨터 사전적 정의 : 컴퓨터가 처리할 수 있는 문자, 숫자, 소리, 그림 따위의 형태로 된 정보 데이터의 정의= 역사적 배경과 밀접한 관계있음 과학적 방법의 주요 특징가 중요시 되면서 구체화 감각기관을 통해 얻은 직접적, 간접적 경험을 바탕으로 지식을 창출하는 방식 과학적 방법은 지식 창출의 기초 자료로서의 데이터의 개념을 강조 컴퓨터가 처리할 수 있는 정보 데이터의 어원 데이터의 역사 always with 인간의 역사 'dare' 주다 - 영어동사 = 'give', 'dare' 동사 변형 = 'datum' = 'thing given'..