読者です 読者をやめる 読者になる 読者になる

動画紹介: 確率的ニューラルネットワークについて

昨年末VAEの勉強をしているときに、以下のようなことがわからなくて時間を喰っていた。

  • なんで確率的に毎回出力の異なるモデルが必要になるのか
  • reparameterization trickがなぜ必要になるのか

いろんな人に質問したり、関連サイトを読み漁ってなんとかなったのだが、 PFN得居さんのPyCON2016の講演動画ががとてもわかりやすいので、VAEみたいな確率的NNを 触る前に見ることをお勧め。


5_05 [招待講演 / Invited Talk] 確率的ニューラルネットの学習と Chainer による実装

以下、講演内容前半のメモ。

確率的NNとは何か

出力までの過程に確率分布からのサンプリングが含まれており、そのサンプリングの結果によって出力が変動するような ニューラルネットワークのこと

確率的NNをなぜ使うのか

分類問題などでは、出力として決定的な結果がほしいが、問題によっては出力として非決定的な結果がほしいことがある

例: * 実際に確率分布そのものがほしい場合 * 生成モデル(変分AEなど)

確率的NNを使う上で難しい点

途中に確率的なunitが入っている場合、何を最適化するのか? 確率的なunitが入っている場合、同じ入力でもNNを通すたびに出力が変わる。 出力をたくさん得ると、「出力の分布」が得られる。その「出力の分布の良さ」=確率分布の良さを測りたい

このようなことをする場合、各試行に対してloss値が定まるように設計することが多い。 そして出力をたくさん取って、各試行に対してlossを計算

=>その平均を取ることで「lossの期待値」が取れるため、これの最小化を最適化の目標とすることが多い。

確率分布自体は連続なものだが、 試行にかけられる時間が有限であるため、サンプル値は離散的にしか取ることができない。したがって近似が必要。

これに対処するための代表的な手法が下記2つ。

1. likelihood-ratio method (LR)

よく使われる手法。強化学習分野で「reinforce」と呼ばれていたものとほぼ一緒。 まず普通にforwardする(この過程でサンプリングが入る) => lossが高かったら今の選択が行われにくいように下げる / lossが低かったらあまり下げない。

出てきたlossが大きいか小さいか自体の判断が本来は難しいが、systematicにやるために、出てきたlossに比例する割合でその確率を下げる。

 
\Delta \mu := f(z) \nabla_\mu \log p(z|\mu)  \qquad (z \sim p(z|\mu))

式の意味

z : NNの出力。zは確率分布p(z|μ)に従う

f(z) :サンプルされたlossの値(fがloss関数)

\nabla_\mu \log p(z|\mu) : 平均値μの条件下でzを取る確率の勾配。この方向に進めば、zを取る確率が下がる。

これは1回だけだとzを取る確率が下がるだけだが、 f(z)が小さい方向には小さく f(z)が大きい方向には大きく 確率が下がるため、これを繰り返すことで相対的にf(z)が小さい確率が生き残って、高いままになる。

この式は真の期待値の勾配の不偏推定になっており、無限回サンプルすることで本物のgradientに一致する。

(ただし、これ自体は最小化したかったもの自体の勾配ではないのでもうひと工夫必要)

LRの問題点

勾配の大きさのブレが大きい。(サンプリングによりlossが何千倍、というオーダーでブレることもある) このため、varianceを下げるためのテクニックが必要になる。 よく使われるのが"baseline"という手法。 相対的にlossが小さい方に向けて移動させていくという動きは、定数を引いても挙動は変わらない(不偏推定性が保たれる)

うまい定数を引くことでvarianceが小さくなることが知られており、何らかの形で定数を決定し、 f(z)の代わりにf(z) - bを目標にする (bにはf(z)の平均などを用いる)

勾配の方向を一次元的に調節するだけなので、varianceの減らし方としては弱いが、手軽。

2. reparameterization trick

最近、もっと良いvarianceの少ない手法が開発された。それがreparameterization trick (ただし、正規分布のような連続な分布にしか使えない手法)

f:id:mizti:20170130230237p:plain

サンプリングを含むユニットを書き換えて、サンプリングを入力μとσ2と「平均0、分散1の、パラメータとは全く関係のないノイズ」の入力を掛け合わせるユニットとみなす。

このようにみなすことで偶然性(stochasticity)のない決定的なNNであるとみなせる。 => 普通にbackpropすれば良くなる。 しかも実装がかんたん。 ただし、ガウシアンでしか使えない。

離散のユニットについてはやっぱりLRを使わなければならない。

そうは言っても、予測したい問題が離散的な場合、離散的なモデルを使ったほうが良いことはあり、 学習しやすい方法を見つけ出すのは重要な問題として残っている。

(また、得居さんが離散的な値の場合について分散が大きくならない手法を研究しており、そのうち発表するとのこと。 (スライド上ではReLEGという名前がついていてた))

Chainer でのcoding方法

以下、Chainerでどうやって書くの?という話。 要点のみ。

  • VAEの場合の例 => ガウシアンは連続値なのでreparameterization trick

  • sigmoid belief network(SBN)の例 => 離散値なのでLRを使う (そのうちSBNの勉強をする機会があったら見返してみよう)

注意点: backpropのルートから外したい部分は

  • chainerのChain宣言 __init__内のsuper.__init__(..){ ... }から外すこと
  • ChainerのVarianceではなく、Variance内のnumpy / cupyの値を直接操作すること

着彩済イラストから綺麗に線画を抽出する方法

機械学習のテーマの一つとして自動着彩があります。この中で、特にイラストの自動着彩を考えると 未着彩と着彩済みのペアが学習用サンプルとして大量に必要となりますが、まとまった量を入手するのはなかなか難しいという問題があります。

すると、カラーイラストから線画を抽出することを考えたくなるのですが、 一般的な輪郭検出を用いると「輪郭線自体の輪郭」が抽出されてしまい、線がぼやけてしまうという問題があります。

例えば f:id:mizti:20170121224135j:plain に対して輪郭検出を実施すると、 f:id:mizti:20170121224155j:plain となります。 (拡大) f:id:mizti:20170121224451j:plain

右頬の輪郭線に対して、肌側、背景側それぞれの境界が検出されてしまい、線が2本引かれてしまっていることがわかります。

で、綺麗な輪郭抽出ができず困っていたのですが、ピーFN(一体何FNなんだ...)のtaizanさんが投稿されたこちらのエントリ

qiita.com

では非常に綺麗に線画抽出ができており、どのようにやっているか気になっていたところ

f:id:mizti:20170121224813p:plain

との情報が。ということでやってみました。

f:id:mizti:20170121230350j:plain 拡大 f:id:mizti:20170121230510j:plain

線がだぶることなく、綺麗に抽出できているようです。すごい!

(ここまでの絵は村田蓮爾氏のものを引用させていただいています)

手順詳細

以下、手法の詳細についてです。

以降の絵はpixivで見つけたLpipさんイラスト を例にさせていただいてます。

今回使ったのはcv2のpythonライブラリです。

画像を開く

I = cv2.imread('data/before.png')

dilationする

kernel = np.ones((5,5), np.uint8)
dilation = cv2.dilate(I, kernel, iterations = 1)

f:id:mizti:20170121232739p:plain

元画像とのdiffを取る

diff = cv2.subtract(I, dilation)

f:id:mizti:20170121233257p:plain

白黒反転する

diff_inv = 255 - diff

f:id:mizti:20170121232842p:plain

グレースケール化して書き出し

diff_inv_binarized = cv2.threshold(diff_inv, 100, 255, cv2.THRESH_BINARY)
cv2.imwrite('after.png', diff_inv)

f:id:mizti:20170122103923p:plain

まとめると

I = cv2.imread('data/before.png')
kernel = np.ones((5,5), np.uint8)
dilation = cv2.dilate(I, kernel, iterations = 1)

diff = cv2.subtract(I, dilation)
diff_inv = 255 - diff
diff_inv_binarized = cv2.threshold(diff_inv, 100, 255, cv2.THRESH_BINARY)
cv2.imwrite('after.png', diff_inv)

です

chainerの独自datasetの作り方

f:id:mizti:20170113130134p:plain

chainerで独自データセットクラスを作るための方法を明示的に示したドキュメントが 見当たらなかったので、備忘録をかねて書く。実はとっても簡単。

  1. データセットにするクラスは chainer.dataset.DatasetMixinを継承する
  2. 内部に持っているデータの数を返却する __len__(self) メソッドを実装する。このメソッドは整数でデータ数を返却する
  3. i番目のデータを取得する get_example(self, i) メソッドを実装する。このメソッドは、
    • 画像配列
    • ラベル

の2つを返却する(return image_array, label みたいな感じで)

本当に必要なことはこのたった3つです。 Datasetのクラスを定義するタイミングで画像を全部読み込んでもよいですが、 get_exampleを呼び出すタイミングで実際の読み込みを 行うのでも構いません。

実例:

import sys
import random
import numpy as np
from PIL import Image
import csv
import chainer
from chainer import datasets

class ImageDataset(chainer.dataset.DatasetMixin):
    def __init__(self, normalize=True, flatten=True, train=True, max_size=200):
        self._normalize = normalize
        self._flatten = flatten
        self._train = train
        self._max_size = max_size
        pairs = []
        with open('data/filename_label_list.tsv', newline='') as f:
            tsv = csv.reader(f, delimiter='\t')
            for row in tsv:
                if 'jpg' in row[0]:
                    pairs.append(row)

        self._pairs = pairs

    def __len__(self):
        return len(self._pairs)

    def get_image(self, filename):
        image = Image.open('data/' + filename)
        new_w = self._max_size + 1
        new_h = self._max_size
        image = image.resize((new_w, new_h), Image.BICUBIC)
        image_array = np.asarray(image)
        return image_array

        # type cast
        image_array = image_array.astype('float32')
        label = np.int32(label)
        return image_array, label

    def get_example(self, i):
        filename = self._pairs[i][0]
        image_array = self.get_image(filename)
        if self._normalize:
            image_array = image_array / 255
        if self._flatten:
            image_array = image_array.flatten()
        else:
            if image_array.ndim == 2:
                mage_array = image_array[np.newaxis,:]
        image_array = image_array.astype('float32')
        image_array = image_array.transpose(2, 0, 1) # order of rgb / h / w
        label = np.int32(self._pairs[i][1])
        return image_array, label
  • __init__で、ファイル名とラベルのリストを読み込んでいます。ここで self._pairsにリストの各行を入れていますが、画像データはまだ読み込んでいません
  • __len__self._pairsの項目数を返却するだけ
  • get_exampleで実際の画像読み込み=> 配列化とlabelの返却を行っています(画像読み込みは、エポック数が多い場合は __init__内で先に全部読み込んでおいたほうが早い場合もあるかもしれません)
  • __len__が返却する値がdatasetのサイズとみなされます。その結果、
    • len / minibatch_sizeがepoch内で学習されるminibatchの個数となる
    • Iteratorは0番目からlen番目までの要素をget_example(i)で取得するようになる

また、注意しておいたほうが良いことが数点だけあります。

  • ラベルを整数で返却する場合、 np.int32( label ) という感じで np.int32にキャストして返却すること. 普通のintでも回せますが、GPUを使わず、CPUのみで実行しようとするとき、labelがint型だとCUDA environment is not correctly set upと怒られてしまいます
  • 画像を普通に読み込むと、0 ~ 255 の整数データになるため、0.0 ~ 1.0に正規化すること(私は'float32'型を指定しています)
  • 画像を返却する際は(色次元数, h, w) という順番に軸変換を行っておくこと。普通にPIL等でイメージを読み込むと、( h, w, 色次元数 ) という順になるため、 image_array = image_array.transpose(2, 0, 1)などで変換が必要です

いろんなデータセットで楽しむきっかけになれば幸いです。

AWS Step FunctionsとLambdaでディープラーニングの訓練を全自動化する

動機とやったことの概要

詳細

Lambdaに付与する権限

たぶん以下くらいの権限がLambda実行時に必要。

AWSLambdaAMIExecutionRole
AmazonS3FullAccess
AmazonEC2SpotFleetRole
AWSLambdaBasicExecutionRole
AmazonSNSFullAccess
EC2ReadOnly ("ec2:DescribeSpotInstanceRequests"リソースへのアクセスを追加)

Step Functionsの入力

{
    "exec_name": "pix2pix-20161231",
    "repository_url": "https://github.com/mattya/chainer-pix2pix.git",
    "repository_name": "chainer-pix2pix",
    "data_dir": "/home/ubuntu/data",
    "output_dir": "/home/ubuntu/result",
    "data_get_command": "/home/ubuntu/.pyenv/shims/aws s3 cp s3://pix2pixfacade/ /home/ubuntu/data --recursive",
    "exec_command": "/home/ubuntu/.pyenv/shims/python /home/ubuntu/chainer-pix2pix/train_facade.py -g 0 -e 100 -i /home/ubuntu/data --out /home/ubuntu/result --snapshot_interval 10000"
}
変数名 説明
exec_name この実行の名前。バケット名にもなるため、アンダースコアを使わずkebab-case推奨
repository_url git cloneする対象のリポジトリURL
repository_name git cloneしたあと取得できるリポジトリ
data_dir データを格納するディレクト
output_dir 訓練結果等を格納するディレクト
data_get_command データを取得するなど、訓練開始前に実施する
exec_command 訓練実施コマンド

やってることの中身

Step Functionの定義

{
  "Comment" : "Machine learning execution with spot instance",
  "StartAt" : "CreateS3Bucket",
  "States"  : {
    "CreateS3Bucket": {
      "Type"      : "Task",
      "Resource"  : "arn:aws:lambda:ap-northeast-1:999999999999:function:create_s3_bucket",
      "Next"      : "RequestSpotInstance"
    },
    "RequestSpotInstance": {
      "Type"      : "Task",
      "Resource"  : "arn:aws:lambda:ap-northeast-1:999999999999:function:request_spot_instance",
      "Next"      : "WaitBidding"
    },
    "WaitBidding": {
      "Type"      : "Wait",
      "Seconds"   : 30,
      "Next"      : "CheckBiddingResult"
    },
    "CheckBiddingResult": {
      "Type"      : "Task",
      "Resource"  : "arn:aws:lambda:ap-northeast-1:999999999999:function:check_bidding_result",
      "Next": "ChoiceBiddingResult"
    },
    "ChoiceBiddingResult": {
      "Type" : "Choice",
      "Choices": [
        {
          "Variable": "$.request_result",
          "BooleanEquals": true,
          "Next": "NotifyRequestSuccess"
        },
        {
          "Variable": "$.request_result",
          "BooleanEquals": false,
          "Next": "NotifyRequestFailed"
        }
      ],
      "Default": "NotifyRequestFailed"
    },
    "NotifyRequestFailed": {
      "Type" : "Task",
      "Resource": "arn:aws:lambda:ap-northeast-1:999999999999:function:send_sms_message",
      "Next": "SpotRequestFailed"
    },
    "SpotRequestFailed": {
          "Type": "Fail",
          "Error": "SpotRequestError",
          "Cause": "Spot price bidding too low"
    },
    "NotifyRequestSuccess": {
      "Type" : "Task",
      "Resource": "arn:aws:lambda:ap-northeast-1:999999999999:function:send_sms_message",
      "Next": "WaitTaskComplete"
    },
    "WaitTaskComplete": {
      "Type"      : "Wait",
      "Seconds"   : 10,
      "Next"      : "CheckTaskCompleted"
    },
    "CheckTaskCompleted": {
      "Type" : "Task",
      "Resource": "arn:aws:lambda:ap-northeast-1:999999999999:function:check_task_completed",
      "Next": "ChoiceTaskCompleted"
    },
    "ChoiceTaskCompleted": {
      "Type" : "Choice",
      "Choices": [
        {
          "Variable": "$.task_completed",
          "BooleanEquals": true,
          "Next": "NotifyTaskCompleted"
        },
        {
          "Variable": "$.task_completed",
          "BooleanEquals": false,
          "Next": "WaitTaskComplete"
        }
      ],
      "Default": "WaitTaskComplete"
    },
    "NotifyTaskCompleted":{
      "Type": "Task",
      "Resource": "arn:aws:lambda:ap-northeast-1:999999999999:function:send_sms_message",
      "Next": "WaitInstanceDelete"
    },
    "WaitInstanceDelete": {
      "Type"      : "Wait",
      "Seconds"   : 1800,
      "Next"      : "DeleteSpotInstance"
    },
    "DeleteSpotInstance": {
      "Type": "Task",
      "Resource": "arn:aws:lambda:ap-northeast-1:999999999999:function:delete_ec2_instance",
      "End": true
    }
  }
}
  • 判断分岐以外は直列に流してるだけ。
  • 処理途中に生成されるID類はeventに追加しながら下流に流す
  • S3作成とスポットインスタンスリクエストはParallelにしても良いかも(面倒くさいのでやってない..)
  • 訓練完了から30分は削除せずに待つ。サーバに未練があればこの間に実行を停止する。

S3バケット作成

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import boto3
import json
import os

def lookup(s3, bucket_name):
  try:
    s3.meta.client.head_bucket(Bucket=bucket_name)
  except botocore.exceptions.ClientError as e:
    error_code = int(e.response['Error']['Code'])

    if error_code == 404:
      return False

    return True

def create_bucket(bucket_name):
    s3 = boto3.resource('s3')
    response = ''
    if not lookup(s3, bucket_name):
       response = s3.create_bucket(Bucket=bucket_name)

    return response

def lambda_handler(event, context):
    response = create_bucket(event['exec_name'])
    return event
  • eventからexec_nameを取り出してバケット名に
  • その名前のバケットがなければ作る

スポットインスタンスのリクエスト

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import boto3
import json
import logging
import base64
import os

SPOT_PRICE = '0.8'
REGION = 'ap-northeast-1'
AMI_ID = 'ami-9999999f'
KEY_NAME = 'your_keyname'
INSTANCE_TYPE = 'g2.2xlarge'
SECURITY_GRUOP_ID = ['sg-9999999']

def request_spot_instance(user_data):
    ec2_client = boto3.client('ec2',
        region_name = REGION
    )
    response = ec2_client.request_spot_instances(
        SpotPrice = SPOT_PRICE,
        Type = 'one-time',
        LaunchSpecification = {
            'ImageId': AMI_ID,
            'KeyName': KEY_NAME,
            'InstanceType': INSTANCE_TYPE,
            'UserData': user_data,
            'Placement':{},
            'SecurityGroupIds': SECURITY_GRUOP_ID
        }
    )
    return response

def lambda_handler(event, context):
    REPOSITORY_URL  = event["repository_url"]
    REPOSITORY_NAME = event["repository_name"]
    BUCKET_NAME = event["exec_name"]

    shell='''#!/bin/sh
    sudo -s ubuntu
    cd /home/ubuntu
    sudo -u ubuntu mkdir /home/ubuntu/.aws
    sudo -u ubuntu mkdir /home/ubuntu/completed
    sudo -u ubuntu git clone {5}
    sudo -u ubuntu mkdir {0}
    sudo -u ubuntu mkdir {1}

    sudo -u ubuntu echo "[default]" >> /home/ubuntu/.aws/credentials
    sudo -u ubuntu echo "aws_access_key_id={2}" >> /home/ubuntu/.aws/credentials
    sudo -u ubuntu echo "aws_secret_access_key={3}" >> /home/ubuntu/.aws/credentials

    sudo -u ubuntu echo "*/5 * * * * /home/ubuntu/.pyenv/shims/aws s3 sync {1} s3://{4} > /dev/null 2>&1" >> mycron
    sudo -u ubuntu echo "*/1 * * * * /home/ubuntu/.pyenv/shims/aws s3 cp {1}/log s3://{4} > /dev/null 2>&1" >> mycron
    sudo -u ubuntu echo "*/1 * * * * /home/ubuntu/.pyenv/shims/aws s3 cp /home/ubuntu/trace.log s3://{4} > /dev/null 2>&1" >> mycron
    sudo -u ubuntu echo "*/1 * * * * /home/ubuntu/.pyenv/shims/aws s3 sync /home/ubuntu/completed s3://{4} > /dev/null 2>&1" >> mycron

    sudo -u ubuntu /usr/bin/crontab mycron
    sudo -u ubuntu /bin/rm /home/ubuntu/mycron

    PATH="/usr/local/cuda/bin:$PATH"
    LD_LIBRARY_PATH="/usr/local/cuda/lib64:$LD_LIBRARY_PATH"

    sudo -u ubuntu cd /home/ubuntu/{6}

    sudo -u ubuntu touch trace.log
    sudo -u ubuntu echo `pwd` >> trace.log  2>&1
    sudo -u ubuntu echo `which python` >> trace.log  2>&1
    sudo -u ubuntu echo 'repository_name: {6}' >> trace.log 2>&1
    sudo -u ubuntu echo 'dataget_command: {7}' >> trace.log 2>&1
    sudo -u ubuntu echo 'exec_command: {8}' >> trace.log 2>&1
    sudo -u ubuntu {7}  > /dev/null 2>> trace.log
    sudo -u ubuntu echo `ls /home/ubuntu/data | wc` >> trace.log

    PATH="/usr/local/cuda/bin:$PATH"
    LD_LIBRARY_PATH="/usr/local/cuda/lib64:$LD_LIBRARY_PATH"
    sudo -u ubuntu -i {8}  >> trace.log 2>&1
    sudo -u ubuntu touch /home/ubuntu/completed/completed.log
    '''

    shell_code = shell.format(
        event["data_dir"],
        event["output_dir"],
        os.environ.get('S3_ACCESS_KEY_ID'),
        os.environ.get('S3_SECRET_ACCESS_KEY'),
        event["exec_name"],
        event["repository_url"],
        event["repository_name"],
        event["data_get_command"],
        event["exec_command"]
        )
    user_data = base64.encodestring(shell_code.encode('utf-8')).decode('ascii')
    response = request_spot_instance(user_data)
    event["spot_instance_request_id"] = response["SpotInstanceRequests"][0]["SpotInstanceRequestId"]
    return event
  • インスタンスタイプや入札価格は定数にして、StepFunction実行時の入力(event)からは引かないようにしている(eventはコードの実行条件のみにし、環境調達条件はLambda側に持たせるポリシーのつもり)
  • AMIは、chainer、CUDA等はインストール完了いているものがある前提
  • インスタンスをリクエストしたあとuser_dataをシェルスクリプトにして流し込んでる
  • 大体の汚い処理はここのシェルスクリプトに凝縮されている
    • S3へのupload系タスクはcronに登録
    • その後、パスを通して訓練の開始
  • S3_ACCESS_KEY_ID / S3_SECRET_ACCESS_KEYはIAMのwrite権限のある鍵をLambda Functionの環境変数に登録しておく。
  • 実行時のログはtrace.logに出力 > これもS3に随時Up
  • 実行完了後に、completed.logを出力。これがS3のバケットに入ると、StepFunctions側でタスク完了とみなされる

入札結果確認

def check_bidding_result(spot_instance_request_id):
    ec2_client = boto3.client('ec2',
        region_name = REGION
    )
    response = ec2_client.describe_spot_instance_requests(
      SpotInstanceRequestIds = [spot_instance_request_id]
    )
    return response

def lambda_handler(event, context):
    response = check_bidding_result(event["spot_instance_request_id"])
    event["request_result"] = (response['SpotInstanceRequests'][0]['Status']['Code']==u'fulfilled')

    if event["request_result"]:
        event["instance_id"] = response['SpotInstanceRequests'][0]['InstanceId']

    return event
  • スポットインスタンスリクエスト時に取得した'SpotInstanceRequests'から、入札の結果を確認する

通知

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import boto3
import json
import os

TOPIC_ARN = 'arn:aws:sns:ap-northeast-1:9999999999:training_end_notification_mail' # Mail
REGION = 'ap-northeast-1'


def send_sms_message(event, context):
    sns = boto3.client('sns',
        region_name = REGION
    )

    message = ''
    subject = ''
    if "completed" in event:
        subject = 'Training ended'
        message = '''task completed!
        result: https://console.aws.amazon.com/s3/home?bucket={0}

        -----
        {1}
        '''.format(event["exec_name"], event)
    else:
        if event["request_result"]:
            subject = 'request fulfilled'
            message = '''
            Spot Request Fulfilled! {0}
            '''.format(event["exec_name"])
        else:
            subject = 'request failed'
            message = '''
            Spot Request Fails! {0}
            '''.format(event["exec_name"])

        response = sns.publish(
            TopicArn = TOPIC_ARN,
            Subject = subject,
            Message = message
        )

    return response

def lambda_handler(event, context):
    response = send_sms_message(event, context)
    return event
  • 通知の宛先、通知手段は、事前にSNS側に登録し、Topic ARNを発行しておく
  • 作成されたインスタンスのIDはeventに追加して下流に流す

その他のLambda

  • あとは特別なことはしていないリポジトリをご参照ください

リポジトリ

github.com

改良案とか、◯◯をXXでやらないなんて有りえない!とかあればお気軽に @mizti までコメントください (AWS今までちゃんと触ってこなかった勢なので話せれば嬉しいです)

f:id:mizti:20170101205025p:plain

生成モデルpix2pixを動かしてみる

pix2pix is 何

  • 2016年11月に発表された、任意の画像を入力にして、それを何らかの形で加工して出力する、というある種の条件付きGAN。
  • GANって何: 画像等のデータ入力を真似て偽造する生成器と、そのデータが生成されたものか本物かを識別する鑑別器を互いに競わせるように訓練することで、本物によく似たなデータを作り出せるようにする「生成モデルおよびその訓練手法」

    • 2014年に公表された当初は訓練の不安定性の問題が大きかったが、Batch Normalizationの導入や条件付けなど安定を増すノウハウが蓄積され、ここ2年注目を浴びている。
    • 先週GAN / DCGANについてまとめてみたエントリを書いたので参考になるかも
  • 「画像を入力にして画像を出力にする」ようなタスクは世の中に無数に存在していて、その潜在的な適用範囲の広さが特徴。(着彩、塗り分け、単純化etc..)

  • 下記はpix2pixサイトのサンプル。 f:id:mizti:20161217233325p:plain

  • より詳細なサンプル例は下記で見られる

pix2pixの構成

  • 大きく3つのネットワークから構成される:

    • Encoder: 画像の畳み込みにより、入力画像の特徴量を圧縮する。
    • Decoder: Encoderで圧縮された特徴量を逆畳み込み(転置畳み込み)x6層したあと畳み込みx1層により画像に変換する
    • Discriminator: 「入力画像」と「真の出力サンプルまたはDecoderの出力」2つの画像入力を行う、「本物らしさ」を出力する

    • (追記) Decoder  n - i 層は、直前の層の他に  i 層のEncoderの出力も同時に受け取る(U-Netというらしい)

    • (追記) Discriminatorは、"Patch GAN"と名付けられているようだけどちゃんと読み解けてないです...
  • 3つのネットワークの損失関数:

    • Encoder: 「生成された偽画像と真の画像の差異」と「Enc->Decが出力した画像がDiscriminatorに偽物と思われた度合いのsoftplus->バッチ・画素数平均」の重み付き和
    • Decoder: Encoderの損失関数と同じ
    • Discriminator: 本物の画像(t_out)を偽物と判定した度合い(softplus->バッチ画素平均)と偽物の画像(x_out)を本物と判定した度合いの和

動かしてみる

例によってMattyaさんが例によって神速でChainer実装しているので、今日はそのまま動かしてみる。

github.com

  1. git cloneする
  2. 訓練用データとなるFacadeという様々な建物の前面部分写真/構成情報のデータを落としておく。 CMP Facade Database
  3. データの場所、出力の場所、処理するGPU番号等をオプションで指定し起動する

と、たったこれだけ。 (前提環境を整えるのは先回のエントリの記載内容。ただし、chainerは1.19以上が必要)

  • 訓練条件は、デフォルトのまま
    • ミニバッチサイズ1
    • 300枚の画像セットについてランダムな順番で300イテレーションで1エポック
    • エポック数200で全訓練完了

結果

入力画像 / 生成画像 / 正解画像

f:id:mizti:20161218015605p:plain:w180 f:id:mizti:20161218015414p:plain:w180 f:id:mizti:20161218015423p:plain:w180

入力画像 / 生成画像 / 正解画像

f:id:mizti:20161218015658p:plain:w180 f:id:mizti:20161218015712p:plain:w180 f:id:mizti:20161218015706p:plain:w180

入力画像 / 生成画像 / 正解画像

f:id:mizti:20161218015817p:plain:w180 f:id:mizti:20161218015825p:plain:w180 f:id:mizti:20161218015838p:plain:w180

入力画像 / 生成画像 / 正解画像

f:id:mizti:20161218015923p:plain:w180 f:id:mizti:20161218015933p:plain:w180 f:id:mizti:20161218015936p:plain:w180

入力画像 / 生成画像 / 正解画像

f:id:mizti:20161218020413p:plain:w180 f:id:mizti:20161218020017p:plain:w180 f:id:mizti:20161218020019p:plain:w180

(生成し損ねた..)

  • 損失関数の推移

f:id:mizti:20161218113548p:plain

思ったこととか

  • 1万回目くらいで既に建物にしか見えない画像を生成できるようになってる。まずこれがすごい

  • Enc / Decの損失関数って、「正解画像との一致度」「Discriminator騙せた度合い」両方損失として使えそうだけど どうやるんだろう... > からの「重みづけして足すだけ」という分かりやすさ。この重み変えると学習結果にどう影響するのか興味ある。 きっと重要なハイパーパラメータ。

  • 回が進むにつれて、画像による明度差が生まれやすくなっている。

    • 色相の差が生まれづらいのは、入力画像と建物色の間にはっきりした相関関係が無いから?
      • じゃ何で明度差を生み出せたんだろう(?)
  • まっすぐあるべき線がまっすぐにならないのは他の生成手法でもよくある。(ニューラルネットワークって「まっすぐな線」引くの苦手ですよね...)生成画像の黒ずみと相俟ってスラムみたいな印象に...

  • 損失関数の推移だけみると、まだ学習が収束してないのでepoch数を増やしても良さそう

  • Mattyaさんの実装で使われていた「CBR層」(畳み込み/BN/ReLU/Dropoutをセットにした層)が便利。

    • up / down指定するだけで畳み込み / 逆畳み込み両方に使える(!)

新しいタスクへの適用

  • 新しいデータセットにしたいと思って、pixivからイラスト拾い集めてみている(やっと500枚集まった)。うまくいけば着彩タスクを作れるかもしれない
    • 未着彩の線画提供 / 着彩させてblogに載せさせてやってもいいぜっていう絵師さんいませんか

Numpy逆引きメモ

  • Numpyでよく使う操作のメモ。自分用、随時追記

生成

指定した内容の行列を生成

>>> x = np.array([[0,1],[3,4]])
>>> x
array([[0, 1],
       [3, 4]])

1で埋めた行列を生成

>>> np.ones([2,3])
array([[ 1.,  1.,  1.],
       [ 1.,  1.,  1.]])

0で埋めた行列を生成

>>> np.zeros([2,3])
array([[ 0.,  0.,  0.],
       [ 0.,  0.,  0.]])

対角行列の生成

>>> np.eye(4)
array([[ 1.,  0.,  0.,  0.],
       [ 0.,  1.,  0.,  0.],
       [ 0.,  0.,  1.,  0.],
       [ 0.,  0.,  0.,  1.]])

必ず正方行列になる。

ランダム要素で埋めた行列を生成

一様分布

np.random.uniform(2, -3, (5, 4))

上記の意味: 2から-3の間の値で埋めた5, 4の行列を生成する (4つの値が入ったリストが5つ入っているリスト)

指定区間の数列を生成する

>>> X = np.arange(10)
>>> X
array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

Stepや始点・終点も指定可

>>> X = np.arange(8,20,2)
>>> X
array([ 8, 10, 12, 14, 16, 18])

指定数がStepの倍数でない場合

>>> X = np.arange(70,40,-11)
>>> X
array([70, 59, 48])

型指定も可

>>> X = np.arange(10.,dtype=np.float32)
>>> X
array([ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9.], dtype=float32)

情報取得

行列の要素数を取得する

>>> h = np.array([2,3,4])
>>> h.size
3
>>> h = np.array([[1,2,3],[4,5,6]])
>>> h.size
6

行列の形状を取得する

>>> h = np.array([[1,2,3],[4,5,6]])
>>> h.shape
(2, 3)

行列の次元数を取得する

>>> h = np.array([[1,2,3],[4,5,6]])
>>> h.ndim
2

行列のrankを取得する

>>> A
array([[1, 2],
       [3, 4]])
>>> np.linalg.matrix_rank(A)
2

形の一致する二つの行列で値が一致する数をカウントする

>>> y=np.array([1,1,2,3,7])
>>> t=np.array([1,2,3,4,7])
>>>
>>> np.sum(y==t)
2

行列から最大値を抽出する

>>> hoge = np.array([[3,4,5],[2,3,4]])
>>> hoge.__class__
<class 'numpy.ndarray'>
>>> np.max(hoge)
5

行列から最大値のindexを取り出す

>>> hoge = np.ndarray([[3,4,5],[2,3,4]])
>>> np.argmax(hoge)
2

軸を指定してsumの最大値を取り出す

>>> A = np.array([[3,4,5],[2,3,4]])
>>> np.max(A, axis=0)
array([3, 4, 5])
>>> np.max(A, axis=1)
array([5, 4])

特定の条件を満たす要素のindexを取得する

>>> a
array([ 1,  3,  4,  2,  5,  8, 10])
>>> np.where(a>3)
(array([2, 4, 5, 6]),)
>>>
>>> np.where(a==3)
(array([1]),)

形状操作

行列の次元数を追加する

>>> h = np.array([1,2,3])
>>> h
array([1, 2, 3])
>>>
>>> h = h[np.newaxis,:]
>>> h
array([[1, 2, 3]])

>>> h = h[:, np.newaxis]
>>> h
array([[1],
       [2],
       [3]])

行列を結合する(連結する)

>>> A
array([[1, 2],
       [3, 4]])
>>> B
array([5, 6])

のとき、

縦に連結

>>> np.r_[A,B]
array([[1, 2],
       [3, 4],
       [5, 6],
       [7, 8]])

横に連結

>>> np.c_[A,B]
array([[1, 2, 5, 6],
       [3, 4, 7, 8]])

Flattenする

>>> a = np.array([[1,2], [3,4]])
>>> a.flatten()
array([1, 2, 3, 4])

軸操作

多重リスト要素の最大値のインデックスをリストで返す

>>> y = [[1,2,3],[5,6,7]]
>>> t = [[0,0,1],[0,1,0]]
>>> np.argmax(y, axis=1)
>>> y = np.argmax(y, axis=1)
>>>y
array([2, 2])
>>> t = np.argmax(t, axis=1)
>>> t
array([2, 1])

多次元行列から特定次元だけ抜き出す

data = [
[1           ,0.4834],
[2           ,0.5526],
[3           ,0.6076],
[4           ,0.5436],
...
[299         ,0.9718],
[300         ,0.97]
]

という2次元行列があるときに、

[1, 2, 3, ... 299, 300]

を抜き出すには

data[: , 0]
[0.4834, 0.5526, 0.6076, ... 0.97]

を抜き出すには

data[:, 1]

とすればよい

他の例:

>>> y
array([[0, 1],
       [2, 3],
       [4, 5]])

に対して、

>>> y[:,0]
array([0, 2, 4])
>>> y[:,1]
array([1, 3, 5])
>>> y[:,-1]
array([1, 3, 5])

(要素数2なので、前から数えて1番目と後ろから数えて-1番目は同じ)

要素の順番を入れ替える

>>> y
array([[0, 1],
       [2, 3],
       [4, 5]])
>>> y[:,::-1]
array([[1, 0],
       [3, 2],
       [5, 4]])

演算

行列の積を求める

>>> X = np.array([[2,3],[3,4]])
>>> Y = np.array([2,2])
>>> X.dot(Y)
array([10, 14])

"*"による演算は、要素同士の掛け算になるため注意。

>>> X = np.array([[2,3],[3,4]])
>>> Y = np.array([2,2])
>>> X*Y
array([[4, 6],
       [6, 8]])

行列要素の和を取る

>>> A
array([[1, 2],
       [3, 4]])
>>> np.sum(A)
10

線形代数的操作

行列を転置する

>>> h
array([[1, 2, 3],
       [3, 4, 5],
       [6, 7, 8]])
>>> np.transpose(h)
array([[1, 3, 6],
       [2, 4, 7],
       [3, 5, 8]])

もしくは

>>> h
array([[1, 2, 3],
       [3, 4, 5],
       [6, 7, 8]])
>>> h.transpose()
array([[1, 3, 6],
       [2, 4, 7],
       [3, 5, 8]])

transposeは、数式に似せて

>>> h.T
array([[1, 3, 6],
       [2, 4, 7],
       [3, 5, 8]])

と書くこともできる

多次元行列については、引数を与えなければx,y,z => z,y,xのように逆順になるが、 順番を与えることもできる

>>> x.transpose(0,1,2)
array([[[ 0,  1,  2],
        [ 3,  4,  5]],

       [[ 6,  7,  8],
        [ 9, 10, 11]]])
>>> x.transpose(0,2,1)
array([[[ 0,  3],
        [ 1,  4],
        [ 2,  5]],

       [[ 6,  9],
        [ 7, 10],
        [ 8, 11]]])
>>> x.transpose(2,0,1)
array([[[ 0,  3],
        [ 6,  9]],

       [[ 1,  4],
        [ 7, 10]],

       [[ 2,  5],
        [ 8, 11]]])

行列式を出力する

>>> A
array([[1, 2],
       [3, 4]])
>>> np.linalg.det(A)
-2.0000000000000004
>>> P
array([[2, 3],
       [4, 5]])
>>> np.linalg.det(P)
-2.0

行列のtraceを出力する

>>> A
array([[1, 2],
       [3, 4]])
>>> np.trace(A)
5 

行列の対角要素を抜き出す

>>> A
array([[1, 2],
       [3, 4]])

>>> np.diag(A)
array([1, 4])

np.diag(A)は、Aの対角要素を返す。

対角要素から対角行列を生成する

>>> a
array([ 1.,  2.,  3.])

>>> np.diag(a)
array([[ 1.,  0.,  0.],
       [ 0.,  2.,  0.],
       [ 0.,  0.,  3.]])

ある行列の固有値の対角行列を得る

>>> np.diag(np.linalg.eigvals(A))
array([[-0.37228132,  0.        ],
       [ 0.        ,  5.37228132]])

行列の固有値を求める

>>> A
array([[1, 2],
       [3, 4]])

>>> np.linalg.eigvals(A)
array([-0.37228132,  5.37228132])

行列の固有値固有ベクトルを求める

>>> A
array([[1, 2],
       [3, 4]])

>>> la, P = np.linalg.eig(A)
>>> la
array([-0.37228132,  5.37228132])
>>> P
array([[-0.82456484, -0.41597356],
       [ 0.56576746, -0.90937671]])

laが固有値、Pが固有ベクトル。 la[n]がP[n,:]に対応する。

行列の逆行列を作る

>>> np.linalg.inv(A)
array([[-2. ,  1. ],
       [ 1.5, -0.5]])

行列の対角化を行う

>>> A
array([[ 0, 14,  2],
       [-1,  9, -1],
       [-2,  4,  8]])

のとき、

>>> l, P = np.linalg.eig(A)
>>> l
array([ 4.,  6.,  7.])
>>> P
array([[  9.42809042e-01,  -9.12870929e-01,  -8.94427191e-01],
       [  2.35702260e-01,  -3.65148372e-01,  -4.47213595e-01],
       [  2.35702260e-01,  -1.82574186e-01,   2.25257672e-15]])

lが固有値、Pが固有ベクトルを組み合わせて作った行列。 l[n]がP[n,:]に対応する(nは0,1,2)

固有値を対角行列化する

>>> D = np.diag(l)
>>> D
array([[ 4.,  0.,  0.],
       [ 0.,  6.,  0.],
       [ 0.,  0.,  7.]])

PDP-1がAと一致することを確認

>>> P.dot(np.diag(l)).dot(np.linalg.inv(P))
array([[  9.79179023e-16,   1.40000000e+01,   2.00000000e+00],
       [ -1.00000000e+00,   9.00000000e+00,  -1.00000000e+00],
       [ -2.00000000e+00,   4.00000000e+00,   8.00000000e+00]])

その他よく使うイディオム

多次元配列の要素をイテレーションする

配列の要素のインデックスを順番に取得できる

>>> x
array([[0, 1],
       [3, 4]])
>>> it = np.nditer(x, flags=['multi_index'], op_flags=['readwrite'])
>>> it
<numpy.nditer object at 0x10a444c10>
>>>
>>> it.multi_index
(0, 0)
>>> it.iternext()
True
>>> it.multi_index
(0, 1)
>>> it.iternext()
True
>>> it.multi_index
(1, 0)
>>> it.iternext()
True
>>> it.multi_index
(1, 1)
>>> it.iternext()
False

行列要素の型を変換する

>>> A
array([[1, 2],
       [3, 4]])

>>> A.astype("float32")
array([[ 1.,  2.],
       [ 3.,  4.]], dtype=float32)

(わかりづらいが、小数点が付いてfloat型になっている)

printしたときに省略せずに表示する

np.set_printoptions(threshold=np.inf)

をコードのどこかで宣言したあとでprint

Chainer環境をAWSのUbuntu16.04+CUDA8.0上に構築する

目的

AWSUbuntu 16.04上にChainer環境を構築する

構成

  • OS: Ubuntu 16.04 (AMI ID: ami-0567c164)
  • CUDA 8.0
  • Cudnn8.0
  • Chainer 1.18

手順

cudaのインストール

$ wget https://developer.nvidia.com/compute/machine-learning/cudnn/secure/v5.1/prod/8.0/cudnn-8.0-linux-x64-v5.1-tgz
$ sudo dpkg -i cuda-repo-ubuntu1604_8.0.44-1_amd64.deb
$ sudo apt-get update
$ sudo apt-get install cuda

cudnnのインストール

agreementのせいでwgetで落とせないので、 https://developer.nvidia.com/rdp/cudnn-download から一旦PCに落としてscpでupした。

$ tar zxvf cudnn-8.0-linux-x64-v5.1.tgz

cudaディレクトリが解凍されるので、

$ sudo cp -r cuda/include/* /usr/local/cuda/include
$ sudo cp -r cuda/lib64/* /usr/local/cuda/lib64

として、既存の/usr/local/cuda配下に配置する

cudaへのパスを通す

/usr/local/cuda/bin と /usr/local/cuda/lib64 にパスを通すために、

export PATH="/usr/local/cuda/bin:$PATH"
export LD_LIBRARY_PATH="/usr/local/cuda/lib64:$LD_LIBRARY_PATH"

を.bashrc (ログインシェル環境なら.bash_profileに)追記する

linux-genericのインストール

AWSのイメージには、GPUを動かすのに必要なlinux-genericがインストールされていない という情報があったため、実施。(やらなくても動くかも?未検証)

$ sudo apt install linux-generic
$ sudo reboot 
(再起動後)
$ sudo apt remove linux-virtual
$ sudo apt remove linux-virtual
$ sudo apt autoremove

pipのインストール / アップグレード

$ sudo apt install python-pip
$ pip install --upgrade pip

pyenvで必要になるので、opensslをインストール

$ sudo apt-get install libssl-dev

pyenv環境の構築

  • Chainer等のバージョンアップが今後多くなることを想定し、pyenv環境を作っておく。
$ cd ~
$ git clone git://github.com/yyuu/pyenv.git ~/.pyenv
  • 以下コマンドによって.bash_rc(もしくは.bash_profile)に追記し、読み込まれるようにしておく
echo 'export PYENV_ROOT="${HOME}/.pyenv"' >> ~/.bashrc
echo 'if [ -d "${PYENV_ROOT}" ]; then' >> ~/.bashrc
echo '    export PATH=${PYENV_ROOT}/bin:$PATH' >> ~/.bashrc
echo '    export PATH=${PYENV_ROOT}/shims:$PATH' >> ~/.bashrc
echo '    eval "$(pyenv init -)"' >> ~/.bashrc
echo 'fi' >> ~/.bashrc
  • その場でも読み込んでおく(再ログインでも可)
$ source ~/.bashrc

上記は、インタラクティブシェルの場合。ログインシェル環境なら.bash_profileに追記し、source ~/.bash_profileする

  • pyenv-virtualenvもインストールする
$ cd ~/.pyenv/plugins
$ git clone git://github.com/yyuu/pyenv-virtualenv.git
  • pyenvで利用するpythonをインストール(インストールできるものはpyenv install -l で確認)
$ pyenv install 3.5.2
  • インストール完了の確認
$ pyenv versions
* system (set by /home/ubuntu/.pyenv/version)
  3.5.2
  • pipもpyenv化されていることを確認する
$ which pip
/home/ubuntu/.pyenv/shims/pip

/home/ubuntu/.local/bin/pip となっていたらおそらくパス設定をミスしている。

  • 利用するpyenvを設定する
$ pyenv global 3.5.2
  • 念のためログインし直しても同じ状態をキープしているか確認しておく
$ pyenv versions
  system
* 3.5.2 (set by /home/ubuntu/.pyenv/version)

pip パッケージのインストール

下記の内容をrequirements.txtとして保存して、依存パッケージのインストール

appdirs==1.4.0
chainer==1.18.0
cupy==1.0.0
cycler==0.10.0
decorator==4.0.10
filelock==2.0.7
matplotlib==1.5.3
nose==1.3.7
numpy==1.11.2
Pillow==3.4.2
protobuf==3.1.0.post1
py==1.4.31
pyparsing==2.1.10
pytest==3.0.4
python-dateutil==2.6.0
pytools==2016.2.4
pytz==2016.7
six==1.10.0

Pillowとかは最初なくてもよいかも。

$ pip install -r requirements.txt

これで、3.5.2 env配下にpipがインストールされた。chainerのバージョンをあげたりした場合は、 envを消して別のenvを定義して再インストールすればよい。

動作確認

  • CUDAの動作確認を行う。
$ python
>>> import chainer
>>> chainer.cuda.available
True
>>> chainer.cuda.cudnn_enabled
True
  • 公式サンプルを落として、実際に動かしてみる。
$ git clone https://github.com/pfnet/chainer.git
$ cd chainer/examples/mnist/
$ python train_mnist.py -g=0
  • 実行できることを確認
  • 標準出力冒頭で表示されたGPUGPU: 0であることを確認

  • -g=0オプションありと無しで実行時間を比較してみた。

GPUなし:
real     12m44.315s
user     30m1.920s
sys     60m23.720s
GPUあり:
real     1m20.846s
user     1m22.468s
sys     0m1.708s

10倍速になっており、確かにCUDAによる高速化が実現できている。

お掃除

不要なディレクトリやファイルを削除する

$ cd ~
$ rm cuda-repo-ubuntu1604_8.0.44-1_amd64.deb
$ rm cudnn-8.0-linux-x64-v5.1.tgz
$ rm -r cuda
$ rm requirements.txt

経緯:

AWSGPU演算環境を確保しようと思い、適切なAMIを探していた。CUDAが最初からインストールされたAMIを使おうとしたらスポットリクエストには対応していなかったため、デフォルトのUbuntuでAMIを作成するのが結局割安に付きそうだったためクリーンインストールしてマイAMIを作成した