暇人日記

アラフォーおっさんのコーセラの機械学習の課題を解こうと頑張っています!

Coursera Machine Learning Week9 Video

自分なりのまとめです。

課題をこなすのに必要な考えや式を抽出したつもりですが、

よくわからないところが多かったので、

課題をこなしながら苦闘することになりそうですorz

 

この方のまとめのブログがすっきりしてると思います。

Coursera MachineLearning 9週目 まとめ | まくらのあと

この難しい内容が理解できる人が羨ましいです笑

 

 

大きくVideo①-⑧がAnomaly Detection関連で、

Video⑨-⑭がRecommender System関連でした。

 

 

Density Estimation

Video①Problem Motivation

 

レアケースとは何か?分布的に中心から外れているということの説明でした。

 

Video②Gaussian Distribution

 

正常に分布しているとはどういうことか?

ということでGaussian Distributionの分布図の説明でした。

 

Video③Algorithm

Anomaly detectionを計算するに重要な式だと思います↓

 

f:id:omoshiroamericanews:20191129225659p:plain

 ここまで式を書いてくれると課題もできそうな気がします!

とにもかくにもp(x)を計算してεより大きいか小さいかを判断して

小さい場合は異常と判断するということですね。

(出典;『Coursera Machine Learning』 By Mr. Andrew Ng)

 

 

Building an Anomaly Detection System

Video④Developing and Evaluating an Anomaly Detection System

ここでは持っているSampleがNormalと異常値に分類されていました。

その意味では教師あり機械学習の話で、

Week6で行ったTraining set/Cross Validation set/Test Setに分割する方法の話でした。

ポイントは異常値をTraining Setには入れないことだと思います。 

 

Video⑤Anomaly Detection vs. Supervised Learning

 

異常値検知と教師あり機械学習の対比でした。

重要なポイントは異常値検知はNegative数が少なすぎるため、

通常の機械学習では見極めがつかない。

また従前の異常とは異なる新しい異常値が発生する可能性あり、

ということです。

ここが使い分けるポイントとなるようです。

 

Video⑥Choosing What Features to Use

 

 ①基データをGaussian Distribution(=正規分布)になるようにグラフを変形してから

 アルゴリズムをあてはめてみる。

②ひっかけられなかった異常値を見てアルゴリズムにあてはめるFeatureを考えて

 加えたりして精度をあげていく。

 

Multivariate Gaussian Distribution(Optional)

Video⑦ Multivariate Gaussian Distribution

2変数の分布↓について具体例の説明でした。

f:id:omoshiroamericanews:20191129232442p:plain

(出典;『Coursera Machine Learning』 By Mr. Andrew Ng)

 

Video⑧Anomaly Detection using the Mulivariate Gaussian Distribution

 

 Video⑦でやった2変数の分布の計算式の説明でした↓

f:id:omoshiroamericanews:20191129232839p:plain

(出典;『Coursera Machine Learning』 By Mr. Andrew Ng)

1変数の式がこちらでした↓のでかなり変わりました。

f:id:omoshiroamericanews:20191129233109p:plain

(出典;『Coursera Machine Learning』 By Mr. Andrew Ng)

 

1変数の式はかけそうな気がしますが、2変数の式は書ける気がしないです。。。

Σ(-1)ってなんだろう?どう書くんだろう?という感じです。

 

 

Predicting  Movie Rateings

Video⑨Problem Formulation

 NetflixとかAmazon Primeでとうやってユーザーに応じた

推薦映画を提示するかという課題を設定することを説明されました。

 

Video⑩Content Based Recommendations

 

ユーザーの過去の映画の評価から好みをθとしてパラメーター化して

映画が属性されていれば行列計算で推薦できると説明しています。

逆にユーザーの好みが確立されていれば、レビューから

映画の属性を判断することができると説明しています。

 

計算式は↓こうなるという説明でした。

f:id:omoshiroamericanews:20191129233839p:plain

(出典;『Coursera Machine Learning』 By Mr. Andrew Ng)

 

Collaborative Filtering

Video⑪Collaborative Filtering

Video⑩のように機械学習をユーザーに対して行いパラメーターを獲得する、

そしてそのパラメーターを使って映画の属性に対して機械学習を行う。

これを繰り返していけばどんどん精度は高くなると説明されている。

しかしこのように機械学習を繰り返すよりもっといい方法がある、

それをVideo⑫で説明するというIntrodutionで終わる。

 

 

Video⑫Collaborative Filtering Algorithm

これがその式なんですが、iとjのループで組むんですかね。

どうやって組むのか考えると気が重いです。。。

f:id:omoshiroamericanews:20191129234439p:plain

 

 (出典;『Coursera Machine Learning』 By Mr. Andrew Ng)

 

Low Rank Matrix Factorizaion

Video⑬Vectorizaion;Low Rank Matrix Factorization

ベクトルでの計算方法が説明されていました。

Low Rank Matrix Factorizationってなんだったんだろう?

私には普通のベクトル計算にしか見えませんでした。。。

 

 

Video⑭Implementational Detail;Mean Normalization

Sampleがないときにどうするか?という話でした。

答えはほかのデータの平均値をあてがおうということだと思います。

 

次回から課題に取り組みます!