목록공부중 .../데이터과학개론 (12)
여정의 기록
아래는 주식 데이터를 분석하는데 고려해야할 리스트들이다. 주당순이익(EPS, earning per share)과 주가는 선형적인 관계를 가지는가? 주당순이익이 발표된 달의 다음 한 달 동안의 종가 평균을 구해서 비교해 보자 데이터를 월별로 묶어서 평균을 구할 필요가 있음 groupby와 agg함수(aggregate:집계)를 사용 이러한 고려사항들을 python을 이용해 그룹화해서 값을 구할 수 있다. # 월별로 그룹화 price.groupby(by="month")[["open","close"]].agg(open_mean=("open","mean"), close_mean=("close","mean")).reset_index() # agg에 딕셔너리를 넘기는 경우 price.groupby(by="month"..
Series 1차원 배열의 데이터 타입 data.loc[1:3] 의 경우 인덱스값 3도 포함한다. (위치 인덱스 숫자가 아닌 테이블의 인덱스값을 이용한다) + data.loc[1:3, ['col1','col3']] 이렇게해서 열도 선택할 수 있다. np.where 조건에 맞는 인덱스 추출 sample 데이터 프레임 행 중 랜덤으로 추출 data.sample(n=5) n개의 행 추출 data.sample(frac=0.5) 데이터 전체 중 frac 비율만 추출 누락 데이터 missing data - 관측값이 존재를 안함 NaN 으로 표시 누락된 데이터 채우기 - imputation fillna dropna - NaN 존재하는 행 모두 삭제 data.fillna( {'col1': 10} ) data = dat..
ggplot2의 구조는 다음과 같다. tidyverse의 생태계에 존재하는 ggplot2 ... 그래픽 문법을 바탕으로 둔다. ggplotDATA|geom 계열의 몸체 + coord 계열이 좌표축 = plot # 필수인 부분 ggplot(data) + geom_FUNCTION(aes)) # 옵션인 부분 + coord_FUNCTION + sacle_FUNCTION + theme_FUNCTION + ... # 그리고 최종 결과 저장하기 ggsave('finalplot.pdf') 여러 개의 함수를 추가할 수 있다. geom 계열 함수 여러 개를 병렬적으로 추가 가능 세부적 옵션은 coord 계열 함수, facet , scale , theme 계열 함수로 추가 가능 ggplot() , geom 계열 함수는 반드..
데이터 시각화란 데이터의 특징을 한정된 지면, 공간내에 효과적으로 요약하여 표현하는 도구입니다. 단순히 데이터를 표현하는 것에 나아가 데이터에 내재된 경향이나 분석 결과를 한 눈에 알아보도록 시각적으로 표현합니다. 데이터 분석 방법론과 비교적 데이터를 빨리 정보화하여 빠르고 효과적으로 전달할 수 있습니다. 받는 이가 사전 지식이 충분치 않아도 쉽게 이해할 수 있습니다. 데이터를 데이터 시각화, 인포그래픽로 데이터를 표현하고 데이터 마이닝을 통해 데이터를 정보화할 수 있습니다. 만약 심미적 기능(아름답게)에 집중한다면 본래의 데이터 시각화 목적 달성에 어려울 수 있다 인포그래픽이란 무엇인가? 시각화 도구인데 원데이터의 노출이 상대적으로 덜하며 단순히 원하는 것을 표현할 수 있다 예시로 표시판이나 신문 기사..
Tidyverse 데이터 과학을 위한 패키지들의 조합 install.packages("tidyverse") 주요 패키지 - tibble : 새로운 데이터 프레임 개념. 직관적 이, 편리한 데이터 편집, 빠른연산 - ggplot2 : 시각화, 그래프 편집, 그래프 의미부여, 부가적인 편집 - tidyr : 데이터를 편리하고 깔끔하게 이용 - readr : csv 같은 빠르게 읽고 처리 - purrr : 함수와 벡터를 다루는 유용한 도구. 기존 반복문 등의 구분을 보다 쉽고 명확하게 작성하도록 돕는 패키지 - stringr / forcats : 문자열 편집, R의 인자factor 다루는데 특화됨 tibble() 데이터 프레임을 생성하는 함수 데이터 편집, 표현 과정이 간단 큰 용량의데이터 처리에 용이 변수 ..
Git 체계적으로 소스코드를 관리하기 위한 분산 버전 관리 시스템 윈도우 운영체제의 명령 프롬프트, Git Bash, SourceTree 등 GUI를 이용하여 명령 수행 가능 GitHub 깃에서 다룬 소스코드들을 공유할 수 있는 웹 공간을 제공해 줌으로써 프로그래밍이나 소프트웨어 개발 및 협업이 용이하도록 돕는 서비스 - 코드를 업로드하고 조회하거나 버그 관리를 하는 한편, 개인이 올린 정보 공유 커밋 commit : 파일을 새롭게 추가하거나 변경하여 저장하는 작업 - 커밋시 새로운 버전의 파일이 저장(단, 적당한 규모의 커밋 필요) 푸쉬 push : 파일을 추가하거나 변경하여 원격 저장소에 업로드하는 작업 작업영역 -add-> Staging 영역(파일을 인덱스에 추가한다) -commit-> Local ..
3V Volume, Velocity, Variety 4V + Value 5V + Veracity 빅데이터 분석의 특징 모집단으로부터 추출된 표본을 근거해서 추론을 실시하는 : 모수적 모형 접근법 : 만으로는 한계가 있음 - 보다 유연한게 필요 - 알고리즘 접근법 : 모수적 모형의 단점 보완, 유연하고 성능이 좋은 모형 적합 등이 포함되 - 빅데이터 분석에 좋다. 핵심사항을 전달, 통찰력을 이끌어내는 중요한 도구로 활용됨 프로그래밍 컴퓨터에 명령 - 과업 수행시키는 절차 - 넓은 의미 : 분석 대상 문제 정의 - 입력과 출력 설계 - 순서도 작성 - 코딩 - 에러수정 파이썬 : Guido van Rossum이 발표한 고급 프로그래밍 언어 , 인터프리터 언어(컴파일 단계 없이 실행), 오픈소스, 객체지향성,..
데이터 품질은 고객중심 경영환경 구축 - 고객관계관리CRM이 제대로 성과를 거두지 못하고 실패 - 고객정보데이터의 낮은 품질 데이터를 사용하기에 적절한 환경 (적합성, 적시성, 정확성, 완전성, 적절성, 접근 가능성 등) 좋은 품질의 데이터 업계 표준을 준수하는 완전하고 일관성 있는 정확한 데이터를 의미 데이터 품질관리 미흡의 영향 소매판매 분야 - 제품 설명 오류, 가격 책정 오류 - 판매기회 손실, 고객의 불만 유통 분야 - 취급주의 정보 및 규격정보 누락 - 물품파손, 진열/적재 문제 법/규제관련 분야 - 함유요소 누락 및 부정확한 측정 - 벌금, 제재 데이터 품질관리 시스템이 필요하다 데이터 품질관리 시스템 Data Quality Management System - 신뢰성있는 좋은 데이터 공급하도..