kaggle

Kaggle/Competition/Santa 2021 - The Merry Movie Montage

#kaggle #competition 概要7種類の番組を組み合わせて放送スケジュールを作る、という課題。機械学習ではなく最適化問題。 データの7種類の並び順を調整する。条件は以下 3つの文字列を作成する 3つの文字列のいずれかに7種類の並びの組全てが含まれている必要がある 🎅🤶🦌🧝🎄🎁🎀だっり🤶🦌🧝🎄🎁🎀🎅だったり 🎅🤶🦌🧝🎄🎁🎀🎅には🎅🤶🦌🧝🎄🎁🎀と🤶🦌🧝🎄🎁🎀🎅が含まれている こういう感じで短くしていく 7*6*5*4*3*2*1 で全部で5040パタ

スキ
2

Pythonで機械学習『Iowa 家の販売価格予測 その3』002/100

先週前半、「Iowaの家価格販売予測チャレンジ」を始めてみたものの、わからないことだらけだった。それで、LightGBMやKFoldなどについて勉強してきたわけですが、少し理解がすすみましたので、再挑戦します。 まず初手として、特徴量をいじらずLightGBMに入れて、出力された値をベンチマークとし、そこから改善して行けたらと思います。Kaggleにも提出するぞ。 ①初手LightGBMまずは予測目的 与えられたデータから予測したいのはSalePrice。つまりobje

【Kaggle】House Prices -初心者でもできる! AIで住宅価格を予測する

ESTYLEのデータサイエンス事業部の京黒です。 入社時の研修のひとつとしてKaggleの「House Prices」のコンペに挑戦に挑戦しました! ここでは、その内容について紹介します。 機械学習に挑戦してみたいと思っている方の参考になれば幸いです。 Kaggleとは 一言で表すと、「データ分析・機械学習のコンペティションのプラットフォーム」です。 企業や研究者が課題とデータを投稿し、世界中のデータサイエンティストが課題解決のためのAIモデルを作ります。そして、作成し

スキ
3

Pythonで機械学習『Validation(検証)」

機械学習モデルをチューニングする上でも必要なバリデーションについて、勉強していきます。 目的モデルの予測精度を評価し改善していくこと。 また、実際にテストデータから予測する際の精度を見積もること。 手法1、ホールドアウト法 学習データを、学習データと検証データに切り分けること。単純でわかりやすい。 注意点としては、データ数が100みたいに少ない場合、使いづらい。(推定値のばらつきがおおきくなってしまうかららしい。詳しくはこちら。) ※データ数が少ないときは、後述するク

スキ
3

Pythonで機械学習『レストランのチップ額の予測』003/100

LightGBMに慣れたいので、3記事分くらい、とにかく作業してみる。 1回目の今回は、seabornのデータセットからTIPS。 アメリカのあるレストランでとられたデータから、チップを予測する。 使用するライブラリをインポートして、 df = sns.load_dataset('tips')でデータセットをロード。 df.info()で見てみると、カテゴリ変数が4つ。欠損値はなさそう。 --- ------ -------------- ----- 0

スキ
10

Pythonで機械学習『LightGBM  実装 』

LightGBMのパラメータを勉強したのでいよいよ実装をする。lightGBMインポートとバリデーションデータ作成については割愛。(別記事に書くつもり) (バリデーションについて。ここでは、train_test_splitを使い、データ名はtrain_x,train_y,valid_x,valid_yにしたとする。) LightGBM基本手順1、LightGBMに、カテゴリー変数を教えてあげる。 (そのためにobject型の変数を、LabelEncoderで変換する)

スキ
8

Pythonで機械学習『LightGBM ハイパーパラメータ まとめ 』

LightGBMを、チュートリアル見ながら使うことはできたけど、パラメータチューニングって一体なにをチューニングしているのだろう、調べてみたけど、いっぱいあって全部は無理! と思ったので、重要なパラメータを調べ、意味をまとめた。自分のリファレンス用として、また、同じような思いの初心者の方にも参考になれば幸いです。 全部で20個。 公式ドキュメント順に行きます。 Core Parameters "objective"予測の目的。 回帰ならregression。デフォルト

スキ
6

機械学習に関する記事まとめ #7

ヤングKagglerは、いかにしてグランドマスターになったのか。2人の青年がどのようにしてグランドマスターを獲得したのか書かれています。 電気通信大学が「つるつる」「さらさら」などオノマトペ・擬態語で画像内のモノの質感を表現するAIを開発しました。 AI関連の検定おすすめ5選|取得するメリット・勉強方法まで解説しています!

スキ
2

Pythonで機械学習『LightGBM ハイパーパラメータ編 その1CoreParameters』

LightGBMを使いこなすために、 ①ハイパーパラメーターのチューニング方法 ②データの前処理・特徴選択の方法 を調べる。今回は①。 公式ドキュメントはこちら。随時参照したい。 機械学習は、目的関数(目的変数と予測値から計算される)を改善するように何回も学習を進める。ハイパーパラメーターは、その学習の進め方(学習回数や深さなど)を決めるもの。ハイパーパラメーターチューニングの最終ゴールは、未知データからの推定精度が最も良いモデルをつくること。 ちなみに、ハイパーパラメ

Pythonで機械学習『家の販売価格予測』002/100

Iowa家価格予測 その2。 column03 LotFrontage:物件の、道路に面した「辺」の長さ(単位feet (1feetは大体0.3m)) 欠損値が登場、259行のデータで欠損。 ヒストグラムは、 一部の外れ値を除けば、正規分布っぽい。 一般的に、道路に面した辺の長さが長ければ長いほど敷地は広くなりがちであろう、つまり価格もあがるであろう、ということで、相関みてみる。 0.35か。ゾーニングをRL(混み合っていないゾーン)にかぎってみるとどうか。 あれ

スキ
2