Kevin's Data Analytics Blog

データサイエンティスト、AIエンジニアを目指す方に向けて情報発信していきます。

二項分布が正規分布に近似する様子をアニメーションにしてみた|Processing

今回も前回に続き、Processingを使ってアニメーションを作成しました。今回は、Processingについて更に理解を深めるために、クラスを使ってみました。

アニメーションイメージ

ボールが50%の確率で左か右に振れながら落ちていく時、最終的な落下位置は二項分布に従うとみなせます。

また、試行回数が大きいとき、二項分布は、正規分布に近似できることが知られています。
今回、500個のボールを落とした時の様子をProcessingで実装し、その散らばりが正規分布の形になることを確認してみました。

youtube.com

アニメーションのコード

以下の点を意識して実装しました。

  • ボール用のクラスを作成して、位置・移動の方向・色などボールごとに異なる情報は、クラスのフィールドに持たせる
  • ボールに関する処理(移動、描画)をクラスのメソッドとして定義する
  • それ以外の要素は、グローバル変数として管理する

以下がコードになります。

// 二項分布が正規分布に近似する様子

// 変数宣言
int t = 0;  // 時間管理用変数
int ballnum = 500;  // 玉の数(初期値)
int ballsize = 11;  // 玉のサイズ(初期値)
float surface_rate = 0.65;  // 水面の位置
boolean reset_flag = false;  // リセットフラグ
int reset_count = 0;  // リセットタイミング調整用のカウンタ
Ball[] balls = new Ball[ballnum];  // 玉の配列

// 初期化 最初に1回だけ実行される
void setup() {
  // フレームレート(1秒ごとに表示されるフレーム数)を指定
  frameRate(10);
  
  // 画面サイズを指定
  //fullScreen(); // フルスクリーン用
  size(540, 980); // 縦長表示用
  
  // カラーモード指定
  colorMode( HSB, 360, 100, 100, 100 );
  
  // 初期化
  for (int i=0; i<balls.length; i++) {
    balls[i] = new Ball(width/2  // x座標
                          ,ballsize*3  // y座標
                          ,ballsize  // x軸方向への移動幅
                          ,ballsize+2  // y軸方向への移動幅
                          ,random(0, 360)  // 色相
                          ,random(50, 60)  // 彩度
                          ,random(90, 100));  // 明度
  }
}

// 図形を描画 ループして実行されるためアニメーションになる
void draw() {
  // 背景色
  background(0,0,100);
  
  // 水色の四角を描画
  noStroke();
  fill(180,100,100,10);
  rect(0, height*surface_rate, width, height);

  // 玉の描画と移動
  for (int i=0; i<balls.length; i++) {
    // 時間tの値に応じて、配列内の玉を1つずつ動かし始める
    if (t > i){
      balls[i].drawEllipse();
      balls[i].move();
    }
  }

  // 玉同士の接触判定
  for (int i=0; i<balls.length; i++) {
    for (int j=i+1; j<balls.length; j++) {
      
      // 落下の開始地点付近では判定はしない
      if ((balls[i].y <= ballsize*4) || (balls[j].y <= ballsize*4)) {continue;}
      
      // 玉の中心同士の距離 = √((x1-x2)^2+(y1-y2)^2)
      float dist = sqrt(sq(balls[i].x - balls[j].x) + sq(balls[i].y - balls[j].y));
      
      // 玉のサイズより近づいたら接触とみなして動きを止める
      if (dist < ballsize) {
        balls[j].speedX = 0;
        balls[j].speedY = 0;
        // 0.4個分ずらして積み上げる
        balls[j].y=balls[i].y - ballsize*0.4;
        continue;
      }
    }
  }

  // リセット判定
  int sum_speedY = 0;
  // 全ての玉の落下速度(sppedY)の和を計算
  for (int i=0; i<balls.length; i++) {
    sum_speedY += balls[i].speedY;
  }
  // 0になっていたらreset_flagをtrueにする
  if (sum_speedY == 0){
    reset_flag = true;
    reset_count++;
  }  
  
  // リセット処理  ※30フレーム分制止する
  if (reset_flag && reset_count > 30){
    
    // ボールの位置などを全て初期化
    for (int i=0; i<ballnum; i++) {
      balls[i].x = width/2;  // x座標
      balls[i].y = ballsize*3;  // y座標
      balls[i].speedX = ballsize;  // x軸方向への移動幅
      balls[i].speedY = ballsize+2;  // y軸方向への移動幅
      balls[i].col1 = random(0, 360);  // 色相
      balls[i].col2 = random(50, 60);  // 彩度
      balls[i].col3 = random(90, 100);  // 明度
    }
    reset_flag = false;
    reset_count = 0;
    t = 0;
  }
  
  // 動画作成用にpngファイルを保存 ※保存時にコメントインする
  //saveFrame("frames/######.png");
  
  // 時間を進める
  t+=1;
}

// クラスを定義
class Ball {
  // フィールド変数を宣言
  float x;  // x座標
  float y;  // y座標
  float speedX;  // x軸方向への移動幅
  float speedY;  // y軸方向への移動幅
  float col1;  // 色相
  float col2;  // 彩度
  float col3;  // 明度

  // constractorを初期化
  Ball(float _x, float _y, float _speedX, float _speedY,
        float _col1, float _col2, float _col3) {
    x = _x;
    y = _y;
    speedX = _speedX;
    speedY = _speedY;
    col1 = _col1;
    col2 = _col2;
    col3 = _col3;
  }

  // メソッド関数
  // 玉を移動
  void move() {
    // y軸方向に移動
    y += speedY;
    
    // x軸方向への移動は、水面より上では、ランダムで左右に動く
    if (y < height*surface_rate){
      if ((int)random(2)%2 == 0){
        x += speedX;
      }else{
        x -= speedX;      
      }
    }
    
    // 下端に到達したらy方向への移動を止める
    if (y > height-ballsize){
      speedY = 0;
      y = height-ballsize/2;
    }
  }
  
  // 玉を描画 
  void drawEllipse() {
    // 縁なし
    noStroke();
    
    // 玉の色を指定
    fill(col1, col2, col3, 100);
    
    // 位置とサイズを指定して、玉を表示
    ellipse(x, y, ballsize, ballsize);
  }
}

まとめ

クラスを使うことで、コードが構造化できた気がします。
今回は、200行弱のコードとなりましたが、コードの読みやすさと備忘のために改行やコメントを多めに入れている分を踏まえると、実際は100行程度で書けると思います。また私自身がProcessing初心者のため、冗長な部分もあると思います。もし、バグなどにお気づきの方は、ご指摘いただけると嬉しいです。
もう少しProcessingを使って色々描いてみて、スキルアップしたいと思います。

最後まで読んでいただきありがとうございました!

Processingで元気玉風のデジタル動画を作成

今回は、Processingというプログラミング言語を初めて使用してみました。Processingは、Javaを単純化してグラフィック機能に特化した言語と言われています。複雑なセットアップ作業も不要であるため、プログラミング初心者でも比較的に簡単に始められます。

作成した動画

元気玉風の球体が徐々に大きくなっていくイメージの動画を作成しました。
youtu.be

Processingの準備

実行ファイルのダウンロード

「processing programming」と検索し、公式サイトへアクセスします。

ダウンロードページから、自身の環境に合った実行ファイルをダウンロードします。※2022.07時点でversion 4.0はまだベータ版(試用版)なので、私は正式版の3.54を取得しました。

Processingの起動

Windows版の実行ファイルはzipファイルになっていますので、適当なフォルダーに展開します。※例:「C:\Program Files\processing-3.5.4-windows64\processing-3.5.4」

processing.exeが実行ファイルなので、これをクリックして起動します。processing.exeのショートカットをデスクトップ等に作成すると便利です。

エディタが表示されます。Processingの起動が出来ました。

エディタのフォント設定

「ファイル」→「設定」をクリックします。

日本語対応フォントへの変更

「エディタとコンソールのフォント」から、「MSゴシック」など日本語入力が可能なフォントに変更します。

フォントサイズ

エディタのフォントサイズはデフォルトだと「12」で小さいため、「18」くらいに変更することをお勧めします。

これで、Processingを使う準備が出来ました。他のプログラミング言語と比べて、とても簡単です。

サンプルコードの実行

エディタ部分にコードを書いて、実行ボタンを押します。

別ウィンドウが起動され、プログラムの実行結果が表示されます。

元気玉風アニメーションのコード

では、元気玉風のアニメーションを作成してみましょう。以下のコードをコピー&ペーストして実行すれば、冒頭で紹介したアニメーションが起動されると思います。

// 元気が溜まる動画

// 変数宣言
int t = 1;  // 時間管理
int cnt = 0;  //ループカウンタ
int org_ball_num = 60;  // 小エネルギー玉の個数(初期値)
int cur_ball_num = org_ball_num;  // 小エネルギー玉の個数(最新値)
int param1 = 50;  // 大エネルギー玉の外側オーラの幅
int param2 = 700;  // 小エネルギー玉の生成が止まるタイミング
int param3 = 750;  // 各パラーメータのリセットタイミング
float power_size = 5;  // 小エネルギー玉のサイズ
float range = 10;  // 小エネルギー玉が消える範囲
float[] x = new float[cur_ball_num];  // 小エネルギー玉のx座標のリスト
float[] y = new float[cur_ball_num];  // 小エネルギー玉のy座標のリスト
float[] dist_x = new float[cur_ball_num];  // 画面中心からのx方向の距離
float[] dist_y = new float[cur_ball_num];  // 画面中心からのy方向の距離
// 画面タイプを指定 Default:正方形、SP:縦長、PC:横長
String mode = "PC"; // "Default" or "SP" or "PC"

// 初期化 最初に1回だけ実行される
void setup(){
  // フレームレート(1秒ごとに表示されるフレーム数)を指定
  frameRate(30);
  
  // 画面サイズを指定
  // ※size関数には変数は使えないため、画面タイプに合わせて手動修正
  //size(1000, 1000, P3D); // Default
  //size(540, 980, P3D); // SP
  size(1920, 1080, P3D); // PC

  // 小エネルギー玉の位置を初期化
  for(int i = 0; i < cur_ball_num; i++){
    x[i] = random(width);
    y[i] = random(height);
  }

  // 画像タイプごとにパラメータを調整
  if (mode == "SP"){
    param1 = 40;
    param2 = 680;
    param3 = 740;
  }
  else if (mode == "PC"){
    param1 = 50;
    param2 = 750;
    param3 = 800;
  }
  
  // tを各パラーメータのリセットタイミングの直前に設定
  t = param3 - 1;
}

// 図形を描画 ループして実行されるためアニメーションになる
void draw(){
  
  // 小エネルギー玉を描画
  for(int i = 0; i < cur_ball_num; i++){
    if (cnt == 0) {break;}
    // 枠線なし
    noStroke();
    
    // 色を指定
    fill(190, 248, 253, 255);
    
    // 位置とサイズを指定
    ellipse(x[i], y[i], power_size, power_size);
    
    // 画面の中心からの距離を取得(x軸、y軸)
    dist_x[i] = max(x[i] - width/2, width/2 - x[i]);
    dist_y[i] = max(y[i] - height/2, height/2 - y[i]);

    // 中央付近に入ったら、位置を初期化する
    if (dist_x[i] + dist_y[i] <= range*5){
      x[i] = random(width);
      y[i] = random(height);
    }

    // x軸方向の移動
    if (x[i] > width/2 + range){
      // 真ん中+rangeよりも右側にいる場合は、x座標の値を減らす(左に移動)
      x[i] -= (x[i] - width/2 + range)/50;
    }
    else if (x[i] < width/2 - range){
      // 真ん中-rangeよりも左側にいる場合は、x座標の値を増やす(右に移動)
      x[i] += (width/2 - range - x[i])/50;
    }
    else {
      // それ以外(真ん中付近)にいる場合は、真ん中に移動
      x[i] = width/2;
    }
    
    // y軸方向の移動
    if (y[i] > height/2+range){
      // 真ん中+rangeよりも下側にいる場合は、y座標の値を減らす(上に移動)
      y[i] -= (y[i]-height/2+range)/50;
    }
    else if (y[i] < height/2-range){
      // 真ん中-rangeよりも上側にいる場合は、y座標の値を増やす(下に移動)
      y[i] += (height/2-range-y[i])/50;
    }
    else {
      // それ以外(真ん中付近)にいる場合は、真ん中に移動
      y[i]=height/2;
    }
  }
  
  // 時間の経過とともに、小エネルギー玉の表示を変えていく
  power_size += 0.04;  // サイズを大きくする
  range += 0.015;  // リセットするレンジを広くする
  cur_ball_num = org_ball_num - floor(org_ball_num * t/param2);  //表示数を減らす
  
  // 以下、大エネルギー玉を描画
  
  // 原点を中心に移動
  translate(width/2, height/2, 50);
  
  // 1層目 外側のエネルギー
  // 色埋めしない
  noFill();
  // 枠を表示 色を時間経過とともに、変化させていく
  stroke((t + 600)/2 - 450,(t + 600)/2,((t + 600)/2)*9,20);
  // 半径t+param1の球体を表示
  sphere(t + param1);
  
  // 2層目 内側のエネルギー
  // エネルギーの色を指定
  fill(141,242,253,100);
  // 半径tの球体を表示
  noStroke();
  sphere(t);

  // 3層目 この動画の背景色になる
  fill(0, 0, 0);  // 黒で埋める
  // 2層目よりも一回り小さい半径(t-10)の球体を表示する
  if (t > param2){
    noStroke();
    sphere(t - 10);
  }
    
  // 一定時間を超えたら、パラメータをリセットする
  if (t > param3){
    t = 0;
    range = 10;
    power_size = 5;
    cur_ball_num = org_ball_num;
    cnt+=1;
  }
  
  // 動画作成用にpngファイルを保存 ※保存時にコメントインする
  //saveFrame("frames/######.png");

  // tをインクリメント
  t+=1;
}

動画ファイルの保存

プログラムの中でsaveFrame関数を実行すると、プログラムを停止するまでの間、コマ送りで画像ファイルが生成されていきます。

saveFrame("frames/######.png");

画像ファイルが出来たら、「ツール」→「ムービーメーカー」から、画像ファイルの格納フォルダを指定し、「動画を作成」をクリックします。

作成された動画は「.mov」という拡張子のファイルで、基本的にWindowsでは再生できない形式となります。
MOVで保存した後で、mp4などWindowsで再生可能な形式に変換します。(変換ソフトウェアはたくさん公開されており、難しくありませんのでここでは割愛します。)

これで、アニメーション動画の完成です。

まとめ

Processingを使ってアニメーション動画を作成する方法を紹介しました。
Processingは、実行ファイルを起動するだけで使用でき(インストール・セットアップ作業が不要)、また、図形を描画するための関数が用意されており、短い行数でプログラムが書けます。そのため、プログラミング初心者でも簡単に始められると感じました。
また、Processingのダウンロードからサンプルコードの実行まで、実際に操作している様子を動画にまとめました。もし記事の中で不明点があれば、こちらもご確認ください。
youtu.be


本記事が皆様のお役に立てば幸いです。
最後まで読んでいただきありがとうございました!

Googleデータポータル使い方

今回は、Googleデータポータルの使い方を紹介します。最近、私の職場で使用しているデータベースシステムが、オンプレミスからクラウドGoogle BigQueryに移行したのを受けて、BIツールについても今後、Googleデータポータルが職場におけるメインの選択肢になると思い、勉強し始めました。まずは、見よう見まねで使ってみた時のフローを、備忘を兼ねて整理しました。

データポータルの初回設定

データポータルのURLにアクセスします。
https://datastudio.google.com

左上の「作成」→「レポート」をクリックします。

国名を選択し、利用規約にチェックを入れて、「続行」をクリックします。会社名は空欄のままでも大丈夫です。

メールの設定はお好みで選択して、「続行」をクリックします。

データの追加

データポータルでは、様々なデータ形式をサポートしていますが、今回は、Googleスプレッドシートのデータを使用します。
以下のサイトで公開されているサンプルデータを使用します。
http://l.rw.rw/trydatastudio

コピーを作成します。自身のアカウントのGoogle driveに保存されます。

改めて、データポータルに戻り、再度、「作成」→「レポート」をクリックします。

Googleスプレッドシートを選択します。

先ほどアクセスしサンプルデータを選択し、「追加」をクリックします。

テーブルデータの編集

デフォルトで適当な項目が選択されている状態のテーブルデータが表示されます。

右側のディメンジョンから、表の項目を追加・変更することが出来ます。

編集後のイメージはこちらです。

その他のグラフを追加

メニューから「グラフを追加」を選択すると、様々なグラフを追加することができます。

イメージ:

まとめ

Googleデータポータルの使い方について簡単ではありますが紹介させていただきました。本記事が少しでもお役に立てば幸いです。
今回も、実際にPCで操作している様子を動画にまとめました。よければこちらもご確認ください。
youtu.be

最後まで読んでいただき、ありがとうございました。

確率分布の期待値・分散・母関数まとめ~連続分布~

以前の記事に続き、統計検定1級/準1級の対策として、各確率分布の期待値・分散・母関数について整理しました。
今回は、連続分布を扱いました。
離散分布のまとめについてはこちらを参照ください。
確率分布の期待値・分散・母関数まとめ~離散分布~ - Kevin's Data Analytics Blog

1. 連続一様分布

定義

𝑎<𝑥<𝑏の連続値をとる確率変数𝑋に対して、確率密度関数の値が常に一定であるような確率分布を連続一様分布という。

期待値

 E(X)=\dfrac{a+b}{2}

分散

 V(X)=\dfrac{(b-a)^{2}}{12}

積率母関数(モーメント母関数)

 E(t^{tX})=\dfrac{e^{tb}-e^{ta}}{t(b-a)}

2. 正規分布

定義

𝜇∈"ℝ, " σ>0とし、確率変数𝑋に対して、以下の確率密度関数をもつ分布を正規分布という。𝜇を中心する左右対称の釣鐘型の分布になっている。

期待値

 E(X)=\mu

分散

 V(X)=\sigma^ 2

積率母関数(モーメント母関数)

 E(t^{tX})=\exp(\mu t+\dfrac{\sigma^2 t^2}{2})

3. 指数分布

定義

 λ>0とし、確率変数𝑋に対して、以下の確率密度関数をもつ分布を指数分布という。単位時間あたり平均λ回起こる現象の発生間隔の確率分布を表している。

期待値

 E(X)=\dfrac{1}{\lambda}

分散

 V(X)=\dfrac{1}{\lambda ^2}

積率母関数(モーメント母関数)

 E(t^{tX})=\dfrac{\lambda}{\lambda - t}  \quad (t < \lambda)

4. ガンマ分布

定義

 α>0, 𝛽>0 とし、確率変数𝑋に対して、以下の確率密度関数をもつ分布をガンマ分布という。ガンマ分布は単位時間あたり平均𝛽回起こる現象がα回起こるまでの時間の確率分布を表している。

確率密度関数

 f(x)=\frac{\beta^{\alpha}}{\Gamma(\alpha)}x^{\alpha-1}e^{-\beta x} \quad (x>0)

※ガンマ関数の定義は以下のとおり

\Gamma(x)=\displaystyle\int_{0}^{\infty}t^{x-1}e^{-t}\,dt

期待値

 E(X)=\dfrac{\alpha}{\beta}

分散

 V(X)=\dfrac{\alpha}{\beta ^2}

積率母関数(モーメント母関数)

 E(t^{tX})=(\dfrac{\beta}{\beta - t})^{\alpha}

5. ベータ分布

定義

 α>0, 𝛽>0 とし、確率変数𝑋に対して、以下の確率密度関数をもつ分布をベータ分布という。

確率密度関数

 f(x)=\dfrac{1}{B(\alpha , \beta)}x^{\alpha -1}(1-x)^{\beta -1}

※ベータ関数の定義は以下のとおり

B(\alpha , \beta)=\displaystyle\int_{0}^{1}x^{\alpha-1}(1-x)^{\beta -1}\,dt

期待値

 E(X)=\dfrac{\alpha}{\alpha + \beta}

分散

 V(X)=\dfrac{\alpha\beta}{(\alpha + \beta)^2(\alpha + \beta +1)}

積率母関数(モーメント母関数)

 簡単な式で表せない

6. コーシー分布

定義

 確率変数𝑋に対して、以下の確率密度関数をもつ分布をコーシー分布という。

期待値

 存在しない

分散

 存在しない

積率母関数(モーメント母関数)

 存在しない

7. 対数正規分布

定義

𝑌~N(𝜇, 𝜎^2) のとき、確率変数𝑋=𝑒^𝑌が従う確率分布を対数正規分布という。確率密度関数は以下のとおり。

期待値

 E(X)=\exp(\mu +\dfrac{\sigma ^2}{2})

分散

 V(X)=\exp(2\mu +\sigma ^2)(\exp(\sigma ^2) -1)

積率母関数(モーメント母関数)

 存在しない

8. ワイブル分布

定義

 𝑎>0, 𝑏>0 とし、確率変数𝑋に対して、以下の確率密度関数をもつ分布をワイブル布という。

確率密度関数

 f(x)=\dfrac{b}{a^b}x^{b-1}\exp(-(\dfrac{x}{a})^b)

なお、ワイブル分布は、ガンマ関数における定数λを、以下の式で 𝑥の関数とした場合の分布である。

 \lambda=\gamma(x)=cx^{b-1}, \quad c=\dfrac{b}{a^b}

𝑏=1 のときのワイブル分布は、𝑟(𝑥)=𝑐で一定となり、指数分布になる。

期待値

 E(X)=\alpha\Gamma(\dfrac{b+1}{b})

分散

 V(X)=\alpha^2(\Gamma(\dfrac{b+2}{b}) - \Gamma(\dfrac{b+1}{b})^2)

積率母関数(モーメント母関数)

 簡単な式で表せない

9. ロジスティック分布

定義

 確率変数𝑋に対して、以下の確率密度関数をもつ分布をロジスティック分布という。

確率密度関数

 f(x)=\dfrac{e^{-x}}{(1+e^{-x})^2}

また、ロジスティック分布の累積分布関数は、ロジスティック関数である。

 P(X\le x)=\dfrac{1}{1+e^{-x}}

期待値

 E(X)=0

分散

 V(X)=\dfrac{\pi^2}{3}

積率母関数(モーメント母関数)

 E(t^{tX})=\Gamma(1+t)\Gamma(1-t)

導出方法

多くの参考書において、これらの導出は、数式の途中計算や公式等の前提知識の説明が省略されていることが多いため、理解に時間がかかると感じていました。
前回同様、今回も自分用に整理したものを、動画にしてみました。途中の流れを細かく説明しています。必要に応じてご確認ください。
youtu.be

対策本

統計検定1級/準1級の対策本としては、以下の書籍があります。

こちらの書籍は、検定の範囲内のトピックが幅広く網羅されていますが、数式や解説が省略されている個所が多い印象です。あくまでも、出題範囲のトピックを確認するための用途として使用し、詳細の内容はインターネット等で確認し理解を深めるのが良いと思います。

まとめ

確率分布の期待値・分散・母関数について整理しました。また、導出方法についてまとめた動画および、対策本について紹介しました。
本記事が、統計検定の対策を進める上で、お役に立てば幸いです。

PythonでSQLiteのデータを読み込む方法

今回は、PythonからSQLiteのデータベースにアクセスしてSQLの実行してデータを読み込む方法を紹介します。
Pythonでデータを読み込んで処理するメリットは次の点が挙げられます。

  • PythonのPandasライブラリでは、データを効率的に処理するための便利な機能が多く提供されている
  • Pythonには機械学習を適用するためのライブラリも用意されている
  • その他、プログラミング言語として、SQLよりもできることが多い

関連するトピックについて、過去の記事で紹介していますので、よろしければ併せてご参照ください。
データサイエンティストを目指す方向け Pythonセットアップ方法(Windows版) - Kevin's Data Analytics Blog
Jupyter Notebook:データサイエンティストを目指す方にオススメのPython実行環境 - Kevin's Data Analytics Blog
【初心者向け】Pandas入門 これだけは押さえておくべき基本操作|データ分析で必須 - Kevin's Data Analytics Blog

ライブラリのインポート

PythonSQLiteデータを読み込むため、Pandasとsqlite3を使用します。どちらのライブラリも標準ライブラリのため追加インストールは不要です。

import pandas as pd
import sqlite3

SQLiteに接続

sqlite3.connect関数を使用して、SQLiteのデータファイルに接続します。関数の引数にデータファイルのパスを指定します。

conn = sqlite3.connect('../data/zenkoku.sqlite3')

なお、zenkoku.sqlite3は、以下のサイトから取得しました。
住所データSQL【住所.jp】

Pandasでデータの読み込み

read_sql_query関数を使用して、データベースに対してSQLを実行します。第一引数にselect文を記述し、第二引数には先ほど接続時に作成した「conn」を指定します。

data1 = pd.read_sql_query('select * from ad_address', conn)

データの中身を確認します。

data1

f:id:dskevin:20220220163951p:plain
データフレームの形式で読み込むことが出来ました。

改行を含む長いSQL文を記述する場合は、変数にSQL文を格納します。シングルクォーテーション3つで囲みます。

query_text='''
select
  zip
  ,ken_name
  ,city_name
  ,town_name
  ,office_name
  ,office_address
from ad_address
where ken_name = "東京都"
  and office_flg = 1
'''

同様に、read_sql_query関数を使用して、データベースに対してSQLを実行します。第一引数には、SQL文を格納した変数(query_text)を指定します。

data2 = pd.read_sql_query(query_text, conn)

データの中身を確認します。

data2

f:id:dskevin:20220220164919p:plain
クエリが実行され、クエリのwhere句に指定した条件(東京都で、office_flg=1)の住所を抽出できました。

SQLiteにデータを保存

Pandasのデータフレームを、SQLiteデータベース上の新しいテーブルとして保存することができます。
to_sql関数を使用します。第一引数には、データベース上に作成する新しいテーブル名を指定します。

data2.to_sql('office_data', conn)

以下のように、テーブルの一覧を取得して、新しくテーブルが作成されていることを確認できます。

# テーブル一覧の取得
pd.read_sql_query('select * from sqlite_master where type="table"', conn)

まとめ

Pythonを使ってSQLiteのデータを読み込む方法について紹介しました。
PythonSQLを使ってデータを扱っている方や、現在勉強中の方にとって、本記事が少しでもお役に立てば幸いです。
今回も、実際にPCで操作している様子を動画にまとめました。よければこちらもご確認ください。
youtu.be

最後まで読んでいただき、ありがとうございました!

DB Browser for SQLiteにCSVファイルをインポート

DB Browser for SQLiteCSVファイルをインポートする方法を紹介します。
SQLの書き方を勉強・実習するにあたって、一からデータベースを構築するよりも、CSVファイルをデータベースに読み込む方が簡単なのでおススメです。
CSVファイルをインポートするにあたって、日本語のファイルを扱う場合の文字コードと、データの型に注意が必要ですので、備忘録を兼ねて手順をまとめました。

データベースの作成

「新しいデータベース」をクリックして、データベースファイルの保存先を指定します。
f:id:dskevin:20220213214029p:plain:h320

テーブルの作成は「キャンセル」をクリックします。
f:id:dskevin:20220213214201p:plain:h320

CSVファイルのインポート

「ファイル」→「インポート」→「CSVファイルからテーブルへ」をクリックします。
f:id:dskevin:20220213214332p:plain:h320

読み込み対象のCSVファイルを選択します。
f:id:dskevin:20220213214436p:plain:h320

テーブル名には、ファイル名がデフォルトで設定されます。
日本語のデータを含むファイルをインポートする場合、文字化けが発生することがあります。
f:id:dskevin:20220213214714p:plain:h320

エンコードで「Shift_JIS」を選ぶと多くの場合に直ります。
f:id:dskevin:20220213214847p:plain:h320

f:id:dskevin:20220213214926p:plain:h320

また、このとき、必要に応じて「先頭行をカラム名に」をチェックします。

データの型変更

データを読み込む時に、ツールが自動でデータの型を判定します。間違えている場合は、手動で直す必要があります。今回の例では、「年俸」のカラムが文字列型と判定されました。
f:id:dskevin:20220219114114p:plain:h320

対象のテーブル名を選択し、「テーブルを変更」をクリックします。
f:id:dskevin:20220219114237p:plain

テーブル定義の編集画面が表示されますので、データの型を修正します。整数型の「INTEGER」を指定します。
f:id:dskevin:20220219114346p:plain:h320

SQL実行

SQL実行」タブを開いて、SQL文を記述します。
年俸のデータ型が正しく指定できていることを確認するために、数値の比較を条件に入れてクエリを実行します。
なお、テーブル名には、CSVファイルのファイル名(インポート時のデフォルト値)を指定します。また、日本語のカラム名を指定する場合は、ダブルクォーテーションで囲む必要があります。

SELECT * FROM npb_players
WHERE "年俸">50000

f:id:dskevin:20220219114616p:plain:h320

正しくSQL実行できました。

まとめ

DB Browser for SQLiteCSVファイルをインポートする方法を紹介しました。
これから、SQLについての勉強・スキルアップをしたい方にとって、本記事が少しでもお役に立てば幸いです。
今回も、実際にPCで操作している様子を動画にまとめました。よければこちらもご確認ください。
youtu.be

最後まで読んでいただき、ありがとうございました!

DB Browser for SQLiteのセットアップ方法・使い方

今回は、DB Browser for SQLiteのセットアップ方法と使い方について紹介します。

SQLiteとは

SQLiteは、以下の特徴を持ったデータベースです。
・設定が簡単
・フリーで使用することができる
・PC上のアプリケーションとしても動作可能(サーバの用意が不要)
そのため、簡易的にデータベースを構築したい場合や、SQLの練習環境として、SQLiteがおすすめです。

DB Browser for SQLiteとは

DB Browser for SQLiteは、SQLiteのデータベースをGUIで操作することができるツールです。テーブルを作成したり、SQL文を実行することができます。
f:id:dskevin:20220211171128p:plain:h320

セットアップ

インストーラのダウンロード

以下のサイトから、PC環境に合わせてインストーラをダウンロードします。
https://sqlitebrowser.org/dl/

f:id:dskevin:20220211221305p:plain:h320

インストール

インストーラを起動します。「Next」をクリック。
f:id:dskevin:20220211221506p:plain:h320

「I accept ...」にチェックを入れて、「Next」をクリック。
f:id:dskevin:20220211221809p:plain:h320

必要に応じて、ショートカットの作成をチェックして、「Next」をクリック。
f:id:dskevin:20220211222112p:plain:h320

カスタム設定は特に不要ですので、「Next」をクリック
f:id:dskevin:20220211222257p:plain:h320

「Install」をクリックして、インストールします。
f:id:dskevin:20220211222743p:plain:h320

使い方

データベース・テーブルの作成

プログラムを起動して、「新しいデータベース」をクリックします。
f:id:dskevin:20220211222937p:plain:h320

データベースファイルの保存先を指定します。
f:id:dskevin:20220211223115p:plain:h320

テーブルの定義画面が表示されますので、テーブル名、フィールド名、フィールドの属性値を設定します。
f:id:dskevin:20220211223305p:plain:h320

「データ閲覧」タブから、挿入ボタンをクリックし、データを挿入します。
f:id:dskevin:20220211223507p:plain:h320

「変更を書き込み」をクリックして、データを保存します。
f:id:dskevin:20220211223726p:plain:h320

SQLの実行

SQL実行」タブから、SQLを記述して、実行ボタンをクリックします。
f:id:dskevin:20220211223919p:plain:h320

先ほど作成したテーブルからデータを取得できました。
f:id:dskevin:20220211224105p:plain:h320

まとめ

SQLiteおよび、DB Browser for SQLiteについて紹介しました。昨今のデジタル化時代においてデータを利活用することが求められる中、データベースから必要なデータを抽出するスキルは、必要不可欠なスキルになると感じています。これから、SQLについての勉強・スキルアップをしたい方にとって、本記事が少しでもお役に立てば幸いです。
今回も、実際にPCで操作している様子を動画にまとめました。よければこちらもご確認ください。
youtu.be

最後まで読んでいただき、ありがとうございました!