今回の記事では、kaggle初心者が実際に順に流れを追いながら挑戦、解説していきたいと思います。
この記事を読むべき人
これからkaggleに取り組んでみたい人、kaggle初心者の方です。
この記事を読むことで、
- kaggleとは何なのかわかる
- kaggleのチュートリアルに参加できる
私も初心者です。一緒に頑張っていきましょう。
それでは本編いきましょう。
kaggleとは
データ分析のコンペが行われているサイトのことです。
世界中のデータサイエンティストがデータ分析の手腕を競っています。
仕組みとしては以下の通りです。
①企業等はデータや費用をkaggle社に提供し、コンペの開催を依頼します。
②コンペの参加者がデータの分析をし、その結果に応じてメダルや賞金などが得られる
企業側は良い分析手法を得ることができ、参加者はメダルや賞金などの報酬を得ることができるのでウィンウィンの関係であることがわかります。
kaggleへのモチベーション
さて、そんなkaggleに今回参加を決意しました。
参加する理由としては、
- データ分析の仕事をこれからやっていきたい。
- データ分析において実務に近いものを経験したい。
です。
初学者が最初からハードルを上げすぎると挫折すると思っているので、ここは勉強のためまずは継続することを目標にやっていきたいと思います。
もちろん、やっていく上でメダルや賞金は非常に魅力的ですし、狙っていきたいです。
ただ、歴戦の猛者がうようよしているkaggleにおいて、直近では現実的ではないので、まずは継続にトライです。
タイタニックコンペへの参加
まずはkaggle初心者がおそらく一番最初に通るであろうタイタニックコンペというものに参加することにします。ポケモンでいうマサラタウンのようなものでしょうか。
kaggleにおけるチュートリアル的立ち位置にあるようです。
kaggleへの登録を済ませ、早速Titanic -Machine Learning from Disasterのページに移動し、Join Competitionをクリックし参加します。
これで参加は完了なのですが、ここから何をしていいかわかりません。
調べながらやっていくこととします。
コンペのページ説明(タイタニックを例に)
一番左Overviewから始まる項目があるので、それぞれ何を示すのか確認です。
- Overview : コンペの概要
- Data:提供されるデータについての説明
- Code:他の人が公開しているコード(前はKernelと表記されていた?)
- Discussion:掲示板のようなもの。Discussionができます。
- Leaderboard:順位表
- Rules:コンペのルールが載っている。
- Team:チームを作る
- My submissions:自分が提出したデータの一覧
- Submit Predictions:予測をサブミットするページ
Overviewを開くと、下記の3つのメニューがでてきます。
- Description:コンペ概要の説明
- Evaluation:どのようなデータを提出する必要があるか、どのようにスコアがつけられるか
- Frequently Asked Questions:よくある質問と回答
タイタニックのコンペの目的は以下の通りです。
- 乗客が生存したか死亡したかを予測する。
- テストデータのそれぞれの乗客に対し、「Survived」変数を0または1の値で予測する。
そして、正しく生存を予測した乗客の割合が「accuracy(精度)」となり、評価指標となります。
今回はkaggleのNotebookでデータの提出、サブミットをしていきたいと思います。
こちらを手順追いながら記事にしていきたいと思います。
次の記事