0916 수업 중 - 머신러닝에 대한 이야기

파이썬 머신러닝 완벽 가이드

이론 위주의 머신러닝 책에서 탈피해, 다양한 실전 예제를 직접 구현해 보면서 머신러닝을 체득할 수 있도록 만들었다. 캐글과 UCI 머신러닝 리포지토리에서 난이도가 있는 실습 데이터를 기반

www.aladin.co.kr

수업에서 이 책을 참고한다고 한다.

파일럿 프로젝트의 마지막 단계인 [7.데이터분석] 중 오늘은 머하웃을 이용한 머신러닝에 대한 진도를 나간다.

선생님께서 이 부분에 대한 내용을 설명해주시다가, 추천시스템에 대한 얘기가 나오고.

이에 대해 관련한 글들을 소개시켜주시고.

머신러닝에 대한 주제로 잠시 넘어왔다.

이 추천만 공부해도 양이 엄청나다.

어떠한 개념을 이해할 때, 텍스트로만 이해하고 넘어갈 것인지 수식으로 보고 이해하고 넘어갈 것인지가 중요하다.

수학에 대한 이해가 있어야 한다.

하지만 너무 떨지는 말아라.

유사도 함수가 뭘 의미하는지.

단어를 벡터로 만드는 게 뭔지.

벡터, 행렬, 연립방적식.

나중에는 데이터의 피쳐를 어떻게 구성할 것인지.

데이터를 수집했는데.

1, 2, 3, 4, 5 가 나왔다.

수학에서는 5로 갈수록 큰 수.

어떤 알고리즘을 사용하는가.

수의 크기에 영향을 받는 알고리즘을 사용할 것인지.

트리 알고리즘의 경우는 분류의 개념이다 보니, 수의 크기에 영향을 받지 않음.

회귀 알고리즘에 넣을 때는 1,2,3,4,5로 넣는 것이 아니다.

어떤 형태의 어떤 특징을 갖는 알고리즘을 넣을 것인지.

알고리즘은 우리가 만드는 게 아니라

누가 만들어놓은 걸 쓰는 거다.

데이터를 머신러닝에 넣고, 값이 나오는 건 너무 간단하다.

그래서 하다보면 갈망이 생긴다.

그러다보면 수학에 대해 자꾸 손이 간다.

결국 중요한 건 데이터의 종류를 알고, 데이터를 어떻게 처리하는가.

거리가 필요하구나. 방향이 중요하다-> 벡터

연산해야 하니까 행렬의 도움을 받는다.

티나의 자유로운 개발이야기