공부중 .../비정형데이터분석
텍스트 데이터 통계 분석을 위한 가설
Chelsey
2022. 12. 11. 15:32
728x90
텍스트 데이터는 수치형 데이터처럼 정형화하기 쉽지가 않다. 텍스트 데이터는 길이에 명시적인 제약이 없는 경우가 대다수이며, 같은 의미라도 다른 단어, 문장구조 다른 방식으로 표현할 수 있다는 특징이 있다.
그래서 비정형적 unstructured 라는 말은 데이터가 구조를 가지지 않는다라는 말이 아닌, 수치형 데이터와는 달리 복잡하고 미묘한 문법적인 구조로 표현한다는 것이다.
"The world's most valuable resource is no longer oil, but data."에서 "no longer ... but" 이라는 구문의 의미를 정확히 반영못하면 엉뚱한 의미로 해석될 수 있다.
그래서 텍스트 데이터를 통계 분석하기 위해서는 어떠한 가설을 가지고 진행하게 되는데...
통계적 의미론 가설 Statistical Semantic Hypothesis
- 사람들이 단어를 사용하는 통계적 규칙성으로부터 말하는 사람 또는 글을 쓴 사람이 뜻하는 바를 알 수 있다는 주장
- 사람들은 자신의 뜻을 표현하기 위해 필요한 단어들을 선택
- 표현하고자 하는 바가 같은 경우 선택된 단어들에 공통적인 특성이 나타남
- 어떤 단어가 많이 나타났는가에 따라서 이것이 어떤 의미인가를 알 수 있다
단어주머니 가설 Bag-of-Words Hypothesis
- 통계적 의미론 가설을 좀 더 구체화한 것
- 주머니 bag란 원소들의 중복을 허용하는 집합 - 중복집합 multiset or 다중집합이라고 함
- 텍스트 데이터에 사용된 단어들의 빈도 frequency 가 텍스트 데이터의 의미로 보는 중요한 단서가 된다는 가설
- 서로 다른 두 문서에 포함된 단어들, 그 단어들의 출현 빈도가 비슷하면 -> 두 문서가 비슷할 가능성이 높다는 것
- 단어들의 순서, 구조는 알기 힘듦 - 텍스트 데이터가 갖고있는 문장 구조와 단어 배열순서 무시 (정보 손실 우려)
- 그럼에도 불구하고 수치화 기법으로 많이 사용한다
728x90