非エンジニアにもおススメ、BigQueryの始め方を解説

Google Cloud

非エンジニアにもおススメ、BigQueryの始め方を解説

BigQueryってなに??

みなさん、BigQueryをご存じでしょうか。BigQueryとは、Googleのクラウドサービス「Google Cloud Platform」のDWHサービスです。

昨今、AIやらDXやら何かと騒がれていますが、まずは軸になるのはデータ戦略です。組織で扱っているデータを如何に収集して蓄積し、それをどのように利用する仕組みを作るのか、これがまず初めに行うことになります。

BigQueryを始めとした、Google Cloud Platformの様々なサービスを利用することで簡単に、また非常に安価で企業内のデータ活用に関する様々な課題を解決することができます。

本ブログではまずはBigQueryの使い方について説明したいと思います!

BigQueryで何ができるか

BigQueryはいわゆるDWH(データウェアハウス)サービスです。大量のデータを格納したり、格納したデータに対して複雑な集計処理を行うために使われます。

(参考)BigQueryとは
https://cloud.google.com/bigquery/docs/introduction?hl=ja

ちなみに私は現在、事業会社のユーザー部門で仕事をしていますが、社内にITエンジニアがほとんどいない状態だったものの、BigQueryを駆使してほぼ一人でデータ分析基盤を構築しました。
※具体的なデータ基盤構築の手順については別途、整理して共有したいと思います。

BigQueryに触れてみよう

BigQueryを活用することによって実現できることは非常に多いのですが、まずはBigQueryに実際に触るところから始めてみるのが一番かと思います。

BigQueryに触るためには、Google Cloud Platform(GCP)にログインするところから始まります。
GCPにログインするにはGoogleのアカウント(GmailアカウントやGoogle Workspace(旧G Suite)のアカウント)が必要となります。組織の管理など機能によってはWorkspaceのアカウントが必要になりますが、まずはGmailアカウントがあればBigQueryを触ることができます。

今回、BigQueryにCSVファイルを読み込んで、そのデータに対してSQLを実行する手順を説明したいと思います。

1.Google Cloud Platform(GCP)にログイン

まずは以下のリンクからGCPのコンソール画面にログインします。

Google Cloud Platformへのログイン
https://cloud.google.com/

画面右上の「コンソール」をクリックすると、Google Cloud Platformのコンソールに移動できます。

初めてのログインの場合には以下の画面が表示されるので、国に”日本”を選び、利用規約を確認した上で両方にチェックを入れ、「同意して続行」をクリックします。

2.プロジェクトの作成

画面上の「プロジェクトの選択」をクリックし、「新しいプロジェクト」をクリックする。

プロジェクト名は自動で決定するため、そのままもしくは好きな名前に変更し、作成をクリックする。(ここではデフォルトで作成された”My Project 29334″を利用する)

3.BigQueryを開く

GCPのコンソール画面を開いたら、ナビゲーションメニュー(画面左上のハンバーガーメニュー)からBigQueryのサービスを開きます。

4.サンプルデータを用意する

今回、BigQueryに読み込むサンプルデータを用意します。

テキストエディタを起動して、以下の通りデータを作成し、”test_data.csv”という名前で保存します。

sales_date,item_code,item_name,sales_cnt,unit_price,sales_amount
2021-01-03,01,item_a,1,1000,1000
2021-01-05,02,item_b,1,2000,2000
2021-01-08,01,item_a,2,1000,2000
2021-01-11,03,item_c,1,800,800
2021-01-15,01,item_a,2,1000,2000
2021-01-20,02,item_b,2,2000,4000
2021-01-23,03,item_c,3,800,2400
2021-01-29,01,item_a,2,1000,2000
2021-01-30,02,item_b,2,2000,4000

5.データセットの作成

プロジェクトの下にデータセットを作成します。名前は何でもよいですが、ここでは”testdataset”という名前で進めます。

プロジェクト名の右側のメニューから「データセットを作成」をクリックします。

データセットID:testdataset
データのロケーション:東京(asia-northeast1)
暗号化:Googleが管理する暗号鍵

「データセットを作成」をクリックします。

6.テーブルの作成

先ほど作成したテスト用のデータ(test_data.csv)を読み込み、テーブルを作成します。

「テーブルを作成」をクリックします。

テーブル作成に必要な事項を入力し、「テーブルを作成」をクリックします。

画面左のエクスプローラ上でtest_tableが作成されていることを確認し、test_tableをクリックしてテーブルスキーマが表示されることを確認します。

Amazon - ビッグデータ分析・活用のためのSQLレシピ | 加嵜 長門, 田宮 直人, 丸山 弘詩 |本 | 通販
Amazonで加嵜 長門, 田宮 直人, 丸山 弘詩のビッグデータ分析・活用のためのSQLレシピ。アマゾンならポイント還元本が多数。加嵜 長門, 田宮 直人, 丸山 弘詩作品ほか、お急ぎ便対象商品は当日お届けも可能。またビッグデータ分析・活用のためのSQLレシピもアマゾン配送商品なら通常配送無料。

7.作成したテーブルにSQLを実行

上記5で作成したテーブルに対して、SQLを実行します。

「クエリ」もしくは「クエリを新規作成」をクリックして、エディタに以下のSQLを入力し、「実行」をクリックします。

SELECT
  item_code,
  item_name,
  sales_cnt,
  sales_amount
FROM
  `leafy-rope-314509.testdataset.test_table`

以下のような実行結果が出ることを確認します。

item_code item_name sales_cnt sales_amount
1
1
item_a
1
1000
2
1
item_a
2
2000
3
1
item_a
2
2000
4
1
item_a
2
2000
5
2
item_b
1
2000
6
2
item_b
2
4000
続いて、先ほどのテーブルに対して、item_codeとitem_nameでグルーピングして、sales_cntとsales_amountの合計額を出力するSQLを実行します。
SELECT
  item_code,
  item_name,
  SUM(sales_cnt) AS sum_sales_cnt,
  SUM(sales_amount) AS sum_sales_amount
FROM
  `leafy-rope-314509.testdataset.test_table`
GROUP BY
  item_code,
  item_name

実行結果は以下のようになります。

item_code item_name sum_sales_cnt sum_sales_amount
1
1
item_a
7
7000
2
2
item_b
5
10000
3
3
item_c
4
3200

8.SQLの実行結果をBigQueryのテーブルとして保存

SQL実行後、クエリ結果の右横の「結果の保存」をクリックする。

クエリ結果の保存で「BigQueryテーブル」を選択する。

クエリ結果の保存に必要な内容を入力して「保存」をクリックする。

テーブルとして保存されていることを確認する。

 

いかがでしょうか。今回の作業については、GCP上では1円も課金されませんので、気軽に試してみてください!

Amazon.co.jp: Google BigQuery: The Definitive Guide: Data Warehousing, Analytics, and Machine Learning at Scale (English Edition) 電子書籍: Lakshmanan, Valliappa, Tigani, Jordan: 洋書
Amazon.co.jp: Google BigQuery: The Definitive Guide: Data Warehousing, Analytics, and Machine Learning at Scale (English Edition) 電子書籍: Lakshmanan, Valliappa, T...

コメント

タイトルとURLをコピーしました