2016-11-09

PythonでTripletな組み合わせを作る

Python Numpy

ラベルに基づいて，ある基準となるデータと，そのデータと同じクラスのデータ，異なるクラスのデータの３つのデータの組み合わせを作るPythonプログラムについて書きます．

何かしらのデータdataとdataのクラスに基づいたラベルtargetが付与されたデータセットdatasetが手元にあったとき，ラベル情報に基づいてdataの組み合わせを作りたいと思いました．

その組み合わせは，ある１つのx_anchorに対して，そのx_anchorと同じクラスのデータx_positive，x_anchorと異なるクラスのデータx_negativeで構成される３つのデータの(tripletな)組み合わせです．そしてその組み合わせをbatch_size個だけ用意するプログラムを書くときに少し苦しんだので以下で説明していきます．

この組み合わせの問題ですが，例えば箱の中にリンゴとナシが４個ずつ入っていて，リンゴとナシにはそれぞれマジックで番号が書いてあります．箱の中を見て１つ取り出してメモって，戻して...の動作を３回繰り返します．そのうち２回は同じ果物でもう１つは異なる果物じゃなきゃダメ．そしてこの動作をてきとーに１０回繰り返してください．という問題．さぁ，どうしましょう？

こんな問題をプログラムで記述したいと思いました．

まず思いついたのは，条件を満たす組み合わせを書き出して，その中から１０回分だったらその数だけてきとーに選ぶという手法．For文で組み合わせをかたっぱしから総当たりしてリストを作って，リストから任意の数だけ取るだけ．とても簡単．

リンゴとナシが4個ずつ存在する問題なら問題ないですが，杏子，ライチ，スイカ，メロン，イチゴ，モモ，ミカン，ブドウ，イチジク，ザクロの10種類の果物がそれぞれ1000個ずつ箱に入っている問題だと9000万通りも作れてしまい普通のパソコンではメモリに載らない．

問題によって計算時間が異なったり，プログラムを実行する環境を選ぶコードを作るのはマズいということになりました．

次に考えたのは，10回分の組み合わせがほしい場合は，10回てきとーに果物を取り出して種類と番号をメモっておく．次にすべての種類の果物を10個ずつてきとーに小箱に移しておいて，小箱から同じ種類と異なる種類のものを1つずつてきとーに取り出す作業を10回行うという作戦．これだと１つの果物が何個ずつ用意されていても小箱の中しか見ないためてきとーに選ぶ労力が減る(メモリの使用量は１つのクラスごとのデータ数に依存しない)と考えたので実装しました．

小箱に移す作業はnumpy.where()で，小箱から取り出すのはpythonの組み込みのリストのメソッドpop()を使います．同じクラスじゃない果物をランダムに１つ取り出すという作業の「じゃないものをランダムに」というコードを書くのが難しくて，二度と読みたくないようなコードを書いてしまいました．

numpy.random.choice(果物の種類, 取り出す数, それぞれの種類からどれくらいの確率で取り出すか決める確率のリスト)で3つ目の引数の確率のリストのうち，取り出したくないものだけ確率を０にしてあげると，「じゃないものを(等しい確率で)ランダムに取り出す」ことができます．

もっとスマートなtripletな組み合わせを作る方法がありそうですが，これが限界でした．

今回の実験に使ったコードと解説は一番下に載せてあります．

今回の実装でよく使ったコードを最後にまとめておきます．

import numpy

matsuge = [1, 2, 3, 4, 5]

# 使える

hoge = numpy.random.permutation(matsuge)

# 使えない

hoge = numpy.random.shuffle(matsuge)

# 使える．matsugeのリストそのものがシャッフルされる

numpy.random.shuffle(matsuge)

# matsugeの要素の値がnのインデックス群が返ってくる．タプルで返ってくる．

n=1

matsuge = [i for i in range(10) for j in range(10)]

indexes = numpy.where(matsuge == n)[0]

# リストの最後の要素をリストから削除して返す

matsuge = [1, 2, 3, 4, 5].pop()

# pのリストの確率で0~2までの値のうち１つを返す(pは省略可)．今回だと0が返ってくる確率が80%，2は0%．タプルで返ってくる．

matsuge = numpy.random.choice(3, 1, p=[0.8, 0.2, 0.])[0]

最後に今回のソースコード

Make a batch size of shuffle and combination array ...

2016-08-16

Numpyで作るXOR, Irisデータセットを分類するニューラルネットワーク

Jupyter Numpy pandas Python 機械学習

前回作成したニューラルネットワーク(Neural Network)はNumpyを使わず、行列積のような数学的演算はすべて深くネストされたfor文で処理していましたが、今回はその部分をNumpyで書き換えたコードを載せます。

今回よく使ったメソッドを以下にまとめておきます。

numpy.zeros(): ゼロで満たしたベクトルの作成タプルを引数に渡せば行列を作成
numpy.ones(): zeros()と似てて1で満たされた行列を作成。任意の値で満たした行列を作りたい場合は、np.ones() * hoge(なんかの値)でいける
numpy.dot(): 行列積を計算。np.dot(a, b)やa.dot(b)として使える
numpy.random.permutation():引数をN(int)とすると0からN-1までのランダムな順列を作成して返す。
ndarray[index1, index2, index3]: 取ってきたいインデックスを入れるとndarrayの要素を返す。

以下が今回書いたPython スクリプトになります。

python script version former numpy neural network

せっかく、Numpyを使ってコードを書いたので、

前回のfor文をぐるぐる回したコードと今回載せたNumpyを使ったコードの処理時間を比較してみました。(10回試行した平均値を算出)

for文を深くネストさせたコードの処理時間は8.51秒
Numpyを使ったコードは4.38秒

という感じでNumpyを使って書き換えたほうが約2倍の速度で処理を行うことができることがわかりました。

f:id:yumatsuge:20160816133751p:plain

さすがNumpy！はやいっすね！

必ずしもNumpyが速いわけではなく、append()など既存のリストを作り直す処理は遅い傾向があります。append()をfor文で回すくらいなら、

まずはfor文を使わなくて済むNumpyのメソッドを使うべきで、それが無理なら、最初にリストを作っておいて、値を代入していくだけの処理や、リスト内包表記を使ったほうが確実に処理速度が上がります。

今回は以上になります。

次回は今回のコードを変更して、Auto Encoderを作りたいと思います。

最後にJupyterで書いたときのコードを載せておきます。

reconstruct former 3 layer neural net applied to X ...

2016-08-15

PythonでXORとUCI_Iris_datasetを解くニューラルネットワーク

Python 機械学習 pandas

前回は線形の問題を解くニューラルネットワーク(Neural Net)のコードを書きましたが、今回は、非線形のXOR、巷で有名?なIrisデータセットを識別するNeural Netのコードを書きました。

前回のコードは2入力3出力の2層のニューラルネットワークをコーディングしましたが、平たく書いてしまったために層を増やすことも層の次元数(ユニット数)も変更することが簡単ではないものとなっていました。

今回は、できるだけ汎化的に使える構造でニューラルネットワークを書いてみました。もともと、1年以上前にPythonを初めて使った時にPythonの練習として

Hello worldの出力
Fizz Buzz問題
とりあえず学習するNeural Network
クラスや継承を使った3.よりスマートなNeural Network

を順にやっていました。

今回書いたプログラムは4.をちょこちょこ修正して(過去のコードのヒドさ、読みにくさは凄まじいもの...)バッチ学習などに対応したものにしました。

次回は、今回のコードをNumpyで書き換えて、より簡素に、より処理速度が速いPythonコードを書いて紹介したいと思います。

今回のコードは以下のものになります。

ちなみに記事の最後に最後にJupyter(最近ハマってる笑)をつかったコードも載せておきます。

Python script version. It's same content as the fo ...

今回のコードで使用したデータセットは、XOR(排他的論理和)とIris datasetです。XOR問題は、論理演算の１つのアレです。

詳しくは以下のWebページを参照してください。

排他的論理和 - Wikipedia

XORとは｜排他的論理和｜EOR｜EX-OR｜eXclusive OR - 意味/定義： IT用語辞典

XORを識別する関数を学習することは、2入力1出力の2クラス分類問題ですが、それぞれのクラスを1本の直線でわけることができない非線形の問題となっています。

http://www.gifu-nct.ac.jp/elec/deguchi/sotsuron/niwa/node11.html

もう１つのIris(アヤメ)データセットはカリフォルニア大学アーバイン校が提供するデータセットです。

アイドルユニットの画像が詰まったデータセットではありません。

f:id:yumatsuge:20160815042102j:plain

http://manasite.net/animemanga/1661/

１５０個のデータが入っており、４入力の3クラス分類問題となっています。配布時には教師ラベルがIrisの花の種類の名前？となっているため、機械学習の手法をこのデータセットに適用する場合は教師ラベルを設計することも最初の問題となってきます。

UCI Machine Learning Repository: Iris Data Set

(以前、Python＆機械学習デビューした時にはこの教師ラベル設計で苦しめられました...)

今回は、One-hot vectorで教師ラベルを振りました。

3クラスなら[[1, 0, 0], [0, 1, 0], [0, 0, 1]]などでしょうか。

最近は、自然言語処理の方で、1つの言語で使われる記号-character(アルファベット、数字など)をone-hot vectorで表して、文章をとてもスパースな行列にembeddingして入力データを表現してCNNに突っ込んで、文章分類を行うことがホットになってますね。

今回のコードでつまったのが、CSVの読み込みに以前はPythonの組み込みのCSVをimportして使っていたのが、Pandasを使ってみたところ、Data frame型で読み込まれて、組み込みのリスト型に直して整形する部分です。

pandasのdataframe型をnumpyのarray型に変換する - 新kensuke-miの日記

標準python、numpy、pandasを行ったり来たりするために① - Qiita

今回はNumpyを使わない縛りをしていたので、「Numpyないとこれできないんだー、不便すぎる(T_T)」みたいな気持ちに何度かなっていました。

結果的に、それぞれのデータセットで学習誤差(loss)の値は下がっていき、ほぼ100%の正解率を出すことができたので、こちらのコードで正しくNeural Netを学習して、非線形問題を解くことができる識別関数を獲得できたと思います。

排他的論理和の問題の学習時の誤差の推移は以下になりました。

縦軸が誤差の値(１epoch中のそれぞれのデータのlossの合計値を出して、1つのデータの平均のlossを出していなかったことがここで発覚、ミスってすんません)。横軸が学習epochになります。

f:id:yumatsuge:20160815044111p:plain

Iris data settにおける学習時の誤差の推移は以下のようになりました。

データセットは、hold outで150個中、30個のデータ(全体の20%)をランダムにテストデータとして作成して、正解率(accuracy)を出しました。コードのハイパーパラメータではこの精度が最大っぽかったです。

f:id:yumatsuge:20160815044112p:plain

以上になります。

次回はこのコードをNumpyを使ってよりスマートなコードに直したものを載せたいと思います。

apply 3 layer neural network to 'XOR problem' and ...

2016-08-13

Pythonでニューラルネットワークを実装してみた。

Jupyter Numpy Python 機械学習

Python(一部Numpy)を使って2層ニューラルネットのスクリプトを作成しました。

ディープラーニング(Deep Learning)は魅力的ですが、ディープラーニングの基礎となる
ニューラルネット(CNNだとfull connected layerと呼ばれますね)の実装および、
誤差逆伝播法(Back propagation)に使う微分の更新式をチェインルールを使って手で求めて、
ゴリゴリと実装していくのも良い練習となるので、Netflixで'24'を24時間で見ながら
だらだらコーディングしていました。

ニューラルネットは、回帰または分類を行うことができる機械学習手法の１つ、
Back propagationは、ニューラルネットのパラメータを学習させるために使う最適化手法
簡単に言うと、こんな感じだと思います。

ニューラルネットといっても、脳のニューロンをモデルに提案された機械学習手法の1つであって、"脳を模倣しているから、ニューラルネットが人工知能hogehoge..."とは考えるべきではないです。

「人工知能」「ディープラーニング」という言葉がポピュラーになってきていますが、ニューラルネット自体ははるか昔に提案されているものという認識は持っておくべきであると思います。

「ニューラルネットが脳のニューロンを模している」のは面白いことで、複数の入力の線形和が閾値を超えたときにのみスパイクとなって次のニューロンに入力が伝播していく点は再現できており、閾値をシグモイド関数のような活性関数を定義して表現しているのは面白いです。
一方で、脳のニューロンは、神経細胞によってそれぞれ閾値が異なっている点、誤差逆伝播法のような学習を行わない点が機械学習におけるニューラルネットと異なる点だと思います。