Major/Machine Learning
-
[기계학습] 베이즈 룰 Bayes RuleMajor/Machine Learning 2023. 10. 12. 12:30
베이즈 룰 Bayes Rule은 Bayesian Deep Learning에서 가장 기본이 되는 개념이다. 어떤 값을 예측하기 위한 수단으로서 딥러닝 이전부터 굉장히 많이 쓰여 왔던 방식이기 때문에 Bayesian Deep Learning이 아니더라도 알아두면 굉장히 유명한 정리이다. 이번 포스트에서는 이 베이즈 룰 Bayes Rule에 대해 간단히 살펴보고, 수식의 Notation들이 각각 무엇을 의미하는지 알아보자. Bayes Rule 이란? 그렇다면 먼저, 베이즈 룰은 무엇일까? 베이즈 정리는 과거 경험과 현재 증거를 결합하여 어떤 사건의 확률을 업데이트하는 과정이다. 다시 말해, 현재 주어진 데이터를 기존의 지식과 결합하여 미래 사건의 확률을 조사하는 방법으로, 현재 주어진 데이터를 과거의 경험에 ..
-
[기계학습] 뉴턴-랩슨법 Newton's MethodMajor/Machine Learning 2023. 10. 12. 01:51
뉴턴랩슨법 Newton's Method 이란? 뉴턴랩슨법 Newton's Method 은 해를 구하는 방법 중 하나로, 불필요한 경우를 제외한 숫자를 대입해서 효율적으로 해를 찾아주는 방법이다 위 그래프에서 함수값이 0되는 지점 a를 찾거나, 혹은 a 와 가깝게라도 함숫값이 0에 가까워지는 지점을 찾아야하는데, 뉴턴 랩슨법을 통해 빠르게 찾을 수 있다 그럼 뉴턴랩슨법으로 어떻게 찾을 수 있을까 !!!! 바로 접선을 이용하면 된다 위 그래프처럼 β=b 지점에서 시작한다고 해보자. b 지점에서 접선을 구하면 β축과 만나는 점 c를 구할 수 있다 그래프에서 볼 수 있듯이 점 c 가 b 보다 우리가 구해야하는 a 에 더 가까운 것을 알 수 있다 그럼 이제 c 가 다음의 β값이 되는 것이다. 그리고 점 c 에서 ..
-
[기계학습] 가능도 Likelihood / 가능도 함수 Likelihood functionMajor/Machine Learning 2023. 10. 11. 18:27
기계학습 공부를 하다보니 Likelihood 와 Likelihood function 이라는 것을 접했다. 하지만 이 두개가 각각 어떤 것을 의미하는지, 차이점은 무엇인지 감이 잡히지않아 한번 정리해보려고 한다. Likelihood Likelihood는 가능도라고도 하고, 주어진 모델 또는 확률 분포 아래에서 특정 사건이 발생할 확률을 나타낸다. 이렇게 말하면 이해가 잘 안될수도 있는데, 어떤 모델이 데이터를 가장 잘 설명하는지 나타내는 척도라고 이해하면 된다. Likelihood는 주로 P(데이터 ∣ 모델)와 같은 형태로 나타낸다. 가능도(Likelihood)의 개념을 이해하기 위해 간단한 예제를 살펴보자. 가장 기본적인 예제 중 하나는 동전 던지기이다. 가정: 우리는 공정한 동전을 가지고 있으며, 이 ..
-
[기계학습] 로지스틱 회귀 Logistic regressionMajor/Machine Learning 2023. 10. 11. 14:41
로지스틱 회귀 (Logistic regression) 란? 쉽게 회귀가 아닌 분류 알고리즘이라고 생각하면 된다. 예를 들어 스팸메일인지/아닌지 병에 걸렸는지/아닌지 분류하는 것이다. sigmoid function을 사용하여 어떠한 사건이 발생할 가능성을 예측하고, 그 값은 항상 0에서 1사이 이다. 일반 회귀 분석은 종속변수로 올 수 있는 값이 제한적이지 않지만, 로지스틱 회귀분석은 종속변수로 올 수 있는 값이 제한적이다. sigmoid function sigmoid function은 어떤 x 가 입력값(독립변수)로 들어왔을 때 사건 발생 가능성으로, 이 함수의 값이 항상 0에서 1사이이다. 로지스틱회귀는 sigmoid function을 사용하기 때문에 값이 0에서 1로 제한되어 있는 것이다. sigmo..
-
[기계학습] 정규화 : Ridge regression / Lasso regressionMajor/Machine Learning 2023. 10. 8. 22:17
우리가 데이터 분석을 할 때, underfitting 과 overfitting 의 경우가 있다. underfitting 의 경우 함수는 단순하지만 몇몇 데이터가 커버되지 않는다는 단점이 있고, overfitting 의 경우 데이터는 잘 커버되지만 함수가 너무 복잡해진다는 단점이 있다. 또한 이미 현재의 데이터에 최적화되어있기 때문에 새로운 데이터가 들어왔을 때 잘 동작하지 않을 것이라는 단점이 있다. 따라서 underfitting과 overfitting의 중간지점을 찾아야하는데, 어떻게 해야할까? 과적합 문제를 해결하기 위해 우리는 정규화 방법을 사용한다 정규화를 하기 전에 bias 와 variance를 먼저 이해할 필요가 없다 Bias 란, 평균 예측값과 실제 값 사이 차이를 뜻하고 Variance 란..
-
[기계학습] 국소회귀 Locally weighted linear regressionMajor/Machine Learning 2023. 10. 8. 16:35
선형회귀를 사용해서 과연 데이터들을 언제나 올바르게 나타낼 수 있을까? 를 생각해보면 그렇지않다. 아래와 같은 경우를 보자 왼쪽 그래프는 선형 회귀를 사용한 것이지만 함수가 커버하지 못하는 데이터들이 많다. 오히려 왼쪽 그래프보다 오른쪽 그래프가 현재 가지고있는 데이터를 더 잘 나타낸다고 할 수 있다 오른쪽 그래프처럼 변수를 추가함으로써 데이터를 더 잘 커버할 수 있다. 하지만, 데이터가 더 많아지면 어떤 경우가 생길까? 왼쪽 그래프는 복잡하지 않지만 함수가 커버하지 못하는 데이터들이 많다. 우리는 이것을 underfitting 이라고 한다. 오른쪽 그래프는 모든 데이터를 잘 커버하고 있지만 함수가 너무나도 복잡하다. 우리는 이것을 overfitting 이라고 한다. 그럼 그렇게 복잡하지 않으면서 데이터..
-
[기계학습] 경사하강법 Gradient descent algorithmMajor/Machine Learning 2023. 10. 8. 13:39
앞에서 linear regression model 과 cost function 에 대해 알아보았다. 오차값의 총합인 cost function이 작을 수록 좋은 linear regression model인데, 그럼 이 cost function을 어떻게 줄일 수 있을까? 가장 기본적인 방법은 경사하강법(Gradient descent algorithm)이다 경사하강법 Gradient descent algorithm 이란? 말 그대로 기울기(Gradient) 하강(descent) 이라는 뜻이다. 즉, 어떤 함수가 주어졌을때 그 함수의 극소값을 찾기 위해 기울기가 최소가 되는 지점을 찾는 알고리즘이다. 사용 이유 우리는 cost function 의 최소지점을 찾아야하므로, cost function 에서 기울기가 ..
-
[기계학습] 선형회귀분석 Linear Regression ModelMajor/Machine Learning 2023. 9. 29. 19:51
선형회귀란 ? 알려진 다른 관련 데이터 값을 사용하여 알 수 없는 데이터의 값을 예측하는 데이터 분석 기법 알 수 없는 변수 또는 종속 변수와 알려진 변수 또는 독립 변수를 선형 방정식으로 수학적으로 모델링한다. 기계 학습에서 선형 회귀란? 기계 학습에서 알고리즘이라는 컴퓨터 프로그램은 대규모 데이터 세트를 분석하고 해당 데이터에서 역방향으로 작업하여 선형 회귀 방정식을 계산한다. 데이터 사이언티스트는 먼저 알려진 데이터 세트나 레이블이 지정된 데이터 세트에 대해 알고리즘을 훈련시킨 다음 해당 알고리즘을 사용하여 알 수 없는 값을 예측한다. 용어 독립변수(independent variables) 어떤 추정을 하기 위해 조사하거나 만들어 놓은 데이터들을 대입하는데 쓰이는 변수. 추정을 위해 사용되는 변수라..