목록데이터 과학 (5)
나무가 되자♣

요즘 한 프로젝트에 참여하게 되면서 신경망을 구축하고 있다.(처음이라 굉장히 삽질을 많이 하고 있음) 현재 Resnet모델을 참고하여 하이퍼파라미터값을 바꿔가면서 다양한 실험을 하고 있다. 어느 지점부터 train데이터에 대한 loss와 validation 데이터에 대한 loss 모두 떨어지지 않고 있어서 모델을 바꿔야 하나 고민하던 중, Inception 모델을 발견했다. 우선 딥러닝은 일반적으로 망이 깊고, 레이어가 넓을 수록 성능이 좋다고 한다. 하지만 네트워크를 크게 만들수록 파라미터가 많이 늘어나고, 망이 늘어 날 때마다 연산량이 많아지므로 여러가지 문제가 발생한다.(Gradient vanishing, overfitting 등) 이를 해결하기 위한 방안 중 하나가 'Sparse Connectiv..

상관관계분석(Correlation Analysis) : 두 변수간의 선형관계를 조사하는 것 단순회귀분석(Simple Regression Analysis) : 두 변수간의 인과관계를 조사하는 방법 다중회귀분석(Multiple Regression Analysis) : 두 개 이상의 독립변수들과 하나의 종속변수의 관계를 분석하는 기법 상관관계분석 상관관계분석은 변수 사이의 원인과 결과가 아닌, 서로 상관적 영향이 있는지를 분석하는 것이다. ex) 상관관계가 0인 경우 하지만 x와 y는 정말로 상관관계 즉, 연관성이 없을까? x는 y의 절대값이라는 관계를 가지고 있다. 그러니 상관관계분석만으로 두 변수의 연관성에 대해 확정짓기는 힘들다. 회귀분석 회귀분석은 독립변수가 하나면 단순회귀분석, 두개 이상이면 다중회귀..

예측 모델 중 하나인 의사결정나무(decision tree)에 대해 알아볼 것이다. 의사결정나무는 다양한 의사결정 경로(decision path)와 결과(outcome)를 나타내는 데 나무 구조를 사용한다. 장점) - 이해하고 해석하기 쉽다. - 예측할 때 사용하는 프로세스가 꽤 명백하다. - 숫자형과 범주형 데이터를 모두 동시에 다룰 수 있다. (숫자 – 회귀나무, 범주 – 분류나무) - 특정 변수의 값이 누락되어도 사용할 수 있다. 단점) - 최적의 의사결정나무를 찾는 것은 계산적으로 무척 어려운 문제다. - 오버 피팅되기 쉽다. -> 해결 방법 : 앙상블 학습 관련 용어) - 엔트로피(entropy) : 정보를 담고 있는 정도 -> 너무 높으면 집단의 특징을 잡기 힘듦 - 결정 노드(decision..
밑바닥부터 시작하는 데이터 과학 - 데이터 분석을 위한 파이썬 프로그래밍과 수학, 통계 기초 요즈음 위 책을 읽고 정리하고 있다. 나만 알아볼 수 있게 정리한 것 같아서 티스토리에 올리긴 좀 그렇고... 몇 가지 내용만 다뤄보려고 한다. 이 책은 1. 파이썬 속성 강좌 2. 데이터 시각화 3. 선형대수 4. 통계 5. 확률 6. 가설과 추론 7. 경사 하강법 8. 파이썬으로 데이터 수집하기 9. 데이터 다루기 10. 기계학습 11. k-NN 12. 나이브 베이즈 13. 단순 회귀 분석 14. 다중 회귀 분석 15. 로지스틱 회귀 분석 16. 의사결정나무 17. 신경망 18. 군집화 19. 자연어 처리 20. 네트워크 분석 21. 추천 시스템 22. 데이터베이스와 SQL 23. 맵리듀스 24. 본격적으로 ..

데이터 분석을 하다 보면 다양한 시각화 방법 중 어떤 방법을 선택해야 하는지 고민하게 된다. 데이터를 구성하는 변수의 개수에 따라 선택할 수 있고, 시각화 목적에 따라 선택할 수 도 있다. 하지만 변수의 개수에 따른 선택보단 시각화 목적에 따라 선택하는 것이 좋다. 시각화가 데이터의 특성에 부합하고, 전달하려는 메세지와 시각적 표현이 일치할 때, 비로소 좋은 시각화를 만들 수 있기 때문이다. 시각화 목적에 따른 선택에 대한 예시들을 알아보자. 1. 추세(Trend) 시각화 : line, area, stream graph 등 - Line : 시간축(x축)에 따른 선의 기울기 변화를 나타낸다. - Area : 복수의 카테고리가 차지하는 비율의 변화를 나타낸다. - Stream graph : Area차트를 차..