demo-ml

このリポジトリは機械学習や統計分析のデモです。機械学習や統計学の手法を用いて、データの予測や分類を行います。また、kaggleコンテスト入賞時のデータ分析も掲載しています。実装とともに、手法の妥当性などについて考察も書いています。

使用している手法リスト：

線形回帰
一般化線形回帰
SVM、Randomforest
Prophet
Autoencoder
fastFM
Chi-square Test
sequential ab test (from Netflix)

以下、各ディレクトリに格納されているプロジェクトの説明です。

Kaggle Competition

WiDS2021_Kaggle_result_TNN

Prophetを使用して、休日や季節変動のある和菓子の売り上げについて、売り上げ予測をしています。

線形回帰 (LM)

sample-linear-regression

カリフォルニアデータセットをもとに線形回帰から、重回帰分析までを行います。

一般化線形回帰(GLM)からランダムフォレスト、SVMまで

sample-improve-clicknum

一般化線形回帰から、ランダムフォレストやSVMまでを使用して、クリック数とデザイン要素の関係を調べます。

Autoencoderによる手書き文字分類

sample-autoencoder

keras、pytorchを使用しています。

Recommend with fastFM

SVMは非線形なデータを線形分離できる手法ですが、スパースなデータセットに対して不得意です。SVMの利点と因数分解モデルを組み合わせて、スパースなデータセットにも性能を発揮するのがFastFMです。このプロジェクトはFastFMを使用して、アニメのレコメンドを行う実装です。

sample-recommend-with-fastFM

fastFMを使用してアニメのレコメンドを実装します。DatasetはKaggleよりダウンロードします。

参考文献とライブラリソースコード

A/B test: chi square

sample-chi-square-test

カイ二乗検定を使用したA/Bテストの簡単な例です。

A/B test: Sequantial A/B testing

sequential-ab-testing-Netflix

頻繁にデプロイされるソフトウェアをテストするためには、固定された時点での比較ではなく、継続的に、任意の時点での比較ができる必要があります。これを行うための手法が"Sequantial A/B testing"と呼ばれる手法。この手法をカイ二乗検定との比較しながらその性能を見ていくプロジェクトです。

参考

[WIP] 食べログから抽出したテキストデータを形態素解析して類似度判定（Neologd使用）

[WIP] Alibabaが採用するオンラインディスプレイ広告のCTR予測手法DINの実装

CTRを改善するためにアリババ社で使用されているDIN Deep Interest Network for Click-Through Rate Prediction

ユーザの特定の広告の履歴行動から、ユーザの関心を適応的に学習してベクトル表現を与えるローカルアクティベーションユニットを構築
上記のベクトル表現を広告ごとに異なるものにすることで、ユーザの興味関心を幅広く捉えて、モデルの表現能力を豊かにしている
さらにこのDINにおいて使用される数百まんの学習パラメータを学習するための工夫も行っている

参考文献:

https://arxiv.org/abs/1706.06978

[WIP] Apacheでアクセスログの解析

sample-apache-log

作成中です。botと人間のアクセスログの比較を行い、自動分類するモデルを作成する予定です。

参考文献:

Analysis of Aggregated Bot and Human Traffic on E-Commerce Site

[WIP] 周期的な変動あるデータの時系列分析

sample-time-series-analysis

Prediction using wiki views

Kaggleコンペでは、Prophetを使用して、季節やイベントの影響を受けるデータの時系列分析を行ったので、その続編。項目数が多く、項目間に強い相関がある性質のデータセットに対する時系列分析も行う予定です。手法の候補としてはiTransformerなどを想定しています。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

demo-ml

Kaggle Competition

線形回帰 (LM)

一般化線形回帰(GLM)からランダムフォレスト、SVMまで

Autoencoderによる手書き文字分類

Recommend with fastFM

A/B test: chi square

A/B test: Sequantial A/B testing

[WIP] 食べログから抽出したテキストデータを形態素解析して類似度判定（Neologd使用）

[WIP] Alibabaが採用するオンラインディスプレイ広告のCTR予測手法DINの実装

[WIP] Apacheでアクセスログの解析

[WIP] 周期的な変動あるデータの時系列分析

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 111 Commits
WiDS2021_Kaggle_result_TNN		WiDS2021_Kaggle_result_TNN
data		data
sample-apache-log		sample-apache-log
sample-autoencoder		sample-autoencoder
sample-chi-square-test		sample-chi-square-test
sample-improve-clicknum		sample-improve-clicknum
sample-linear-regression		sample-linear-regression
sample-recommend-with-fastFM		sample-recommend-with-fastFM
sample-survey-count		sample-survey-count
sample-time-series-analysis		sample-time-series-analysis
sequential-ab-testing-Netflix		sequential-ab-testing-Netflix
.gitignore		.gitignore
README.md		README.md

Folders and files

Latest commit

History

Repository files navigation

demo-ml

Kaggle Competition

線形回帰 (LM)

一般化線形回帰(GLM)からランダムフォレスト、SVMまで

Autoencoderによる手書き文字分類

Recommend with fastFM

A/B test: chi square

A/B test: Sequantial A/B testing

[WIP] 食べログから抽出したテキストデータを形態素解析して類似度判定（Neologd使用）

[WIP] Alibabaが採用するオンラインディスプレイ広告のCTR予測手法DINの実装

[WIP] Apacheでアクセスログの解析

[WIP] 周期的な変動あるデータの時系列分析

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages