목록데이터 과학/기초통계 (3)
나무가 되자♣

상관관계분석(Correlation Analysis) : 두 변수간의 선형관계를 조사하는 것 단순회귀분석(Simple Regression Analysis) : 두 변수간의 인과관계를 조사하는 방법 다중회귀분석(Multiple Regression Analysis) : 두 개 이상의 독립변수들과 하나의 종속변수의 관계를 분석하는 기법 상관관계분석 상관관계분석은 변수 사이의 원인과 결과가 아닌, 서로 상관적 영향이 있는지를 분석하는 것이다. ex) 상관관계가 0인 경우 하지만 x와 y는 정말로 상관관계 즉, 연관성이 없을까? x는 y의 절대값이라는 관계를 가지고 있다. 그러니 상관관계분석만으로 두 변수의 연관성에 대해 확정짓기는 힘들다. 회귀분석 회귀분석은 독립변수가 하나면 단순회귀분석, 두개 이상이면 다중회귀..
밑바닥부터 시작하는 데이터 과학 - 데이터 분석을 위한 파이썬 프로그래밍과 수학, 통계 기초 요즈음 위 책을 읽고 정리하고 있다. 나만 알아볼 수 있게 정리한 것 같아서 티스토리에 올리긴 좀 그렇고... 몇 가지 내용만 다뤄보려고 한다. 이 책은 1. 파이썬 속성 강좌 2. 데이터 시각화 3. 선형대수 4. 통계 5. 확률 6. 가설과 추론 7. 경사 하강법 8. 파이썬으로 데이터 수집하기 9. 데이터 다루기 10. 기계학습 11. k-NN 12. 나이브 베이즈 13. 단순 회귀 분석 14. 다중 회귀 분석 15. 로지스틱 회귀 분석 16. 의사결정나무 17. 신경망 18. 군집화 19. 자연어 처리 20. 네트워크 분석 21. 추천 시스템 22. 데이터베이스와 SQL 23. 맵리듀스 24. 본격적으로 ..

데이터 분석을 하다 보면 다양한 시각화 방법 중 어떤 방법을 선택해야 하는지 고민하게 된다. 데이터를 구성하는 변수의 개수에 따라 선택할 수 있고, 시각화 목적에 따라 선택할 수 도 있다. 하지만 변수의 개수에 따른 선택보단 시각화 목적에 따라 선택하는 것이 좋다. 시각화가 데이터의 특성에 부합하고, 전달하려는 메세지와 시각적 표현이 일치할 때, 비로소 좋은 시각화를 만들 수 있기 때문이다. 시각화 목적에 따른 선택에 대한 예시들을 알아보자. 1. 추세(Trend) 시각화 : line, area, stream graph 등 - Line : 시간축(x축)에 따른 선의 기울기 변화를 나타낸다. - Area : 복수의 카테고리가 차지하는 비율의 변화를 나타낸다. - Stream graph : Area차트를 차..