ポエム

「エンジニアがいない組織で1からデータ基盤を構築した話」のその後について

「エンジニアがいない組織で1からデータ基盤を構築した話」のその後について

はじめに

本記事はQiita trocco Advent Calendar2022 19日目の記事です。

https://qiita.com/advent-calendar/2022/trocco

昨年のアドベントカレンダーでこんな記事を書きました。

エンジニアがいない組織で1からデータ基盤を構築した話

詳細については上記の記事に書いているのですが、私が所属している会社は昨今Twitterなどでネタにされるいわゆる「JTC」であり、特にITの活用についてはかなり遅れている組織です。そのような組織の中でいかにデータ活用を推進するか、またそのための環境を整備するためのデータ基盤を構築して運用することが約1年前の時点での私の役割でした。

この記事については、私自身がデータ活用のための環境が何もない組織でゼロからデータマネジメント組織を立ち上げていくことについて、備忘録的な感じで書いてみたのですが、ちょうど記事を書いた数日後くらいにprime Number様からセミナー「01(zeroONE)」への登壇依頼をいただいたので、せっかくなので記事の内容を基にして、「非IT企業のエンジニア不在組織で、ゼロからデータ基盤を構築した話」というテーマで話をさせていただくことになりました。

1年前の状況は正直、「データマネジメント」や「データ基盤」などという言葉を使うのも恥ずかしいほどの状況でしたが約1年ほど時間が経ち、少しずつ社内の環境も整ってきました。そのためこのタイミングで「非IT企業のエンジニア不在組織で、ゼロからデータ基盤を構築した話」のその後として1年経過した今、どのような状況なのかを自身のための振り返りも含め、改めて整理してみました。

1年前のデータ基盤利用状況について

1年前はまだ組織としてデータ分析基盤の構築に予算がついていない・・・というよりはそもそもデータ基盤というものが認知されていない状態でした。そのためほぼお金を掛けずに最低限のデータ基盤を構築することから始めました。

具体的にはGoogle Cloudを利用して以下の構成で特定のデータソースをBigQueryのテーブルにロードし、その後にBigQueryのスケジュールクエリを利用してデータマートを作成し、そのマートにデータポータル(今はLooker Studio)を接続してダッシュボード化という使い方をしていました。

  • Cloud SDK (オンプレのサーバからgsutilでファイルアップロード)
  • Cloud Storage (データレイク)
  • Cloud Functions (Cloud StoregeからBigQueryへのデータロード)
  • Cloud Scheduler (スケジューラー)

対象となるデータソースもかなり絞っていたため、上記の構成だとGoogle Cloudの利用料金は月あたり1,000円も掛かりませんでした。

しかしこの構成だとデータソースの変更が発生するたびにFunctions側のコードの追加や変更だけでなく、Cloud SchedulerやPub/Sub側の設定も必要となり管理が煩雑になるため、構築や運用が簡単に行えるようにするためにtroccoを導入してETL処理、ELT処理とスケジューラーが全てtroccoで完結するような仕組みとなりました。

troccoの導入により、ETL処理とELT処理がtrocco上で一元管理できるようになったのと、スケジューラーについてもtroccoのワークフロージョブ単位でtrocco内のスケジューラーに統一することで、かなり運用効率がアップしました。

とは言え、まだデータ基盤自体が社内でほとんど認知されておらず、また実業務として利用できている範囲もかなり限られている状態でした。

あれから1年・・・実施した取り組みについて

先ほど触れたデータ基盤の認知については、そもそも組織内でデータをどのように活用していくのか、各部署が自身の業務について正しく理解するとともに、データを活用して何を実現したいのかということを考えていかなければなりません。しかし、その当時はまだ組織がそのようなレベルに達しておらず、ユーザー部門からデータ活用に関する要望をもらうことが困難な状態でした。

そのため、私が所属しているチーム(マーケティング業務に精通しているメンバが多い)からデータ基盤(BIツール含む)の利用が想定される部署のメンバにヒアリングなどを行いつつ、恐らく必要になると思われるダッシュボードのモックアップを作成して一旦配信を行い、そこにフィードバックをもらって改良していく、という取組みを徐々に開始していきました。

これによって組織内で少しずつデータ活用のイメージが湧くようになり、少しずつ必要となるダッシュボードの種類が増えるとともに、データ基盤上のデータソースも増え、またデータパイプライン構築のためのtroccoジョブの本数も急増していきました。

更には今まで進んでいなかった自社ECのデータ活用を進めるために、会員情報や注文履歴等のデータを活用したCRM環境の構築やマーケティングオートメーション(MA)を実装するために必要となる環境整備や、Google広告などの広告運用データを分析するためのマート構築などにも取り組み始めました。

まとめ

色々と書きましたが、ユーザー側に対してデータ活用の意識をどうやって高めていくのか、また実際に利用価値のあるデータを如何に蓄積していくのか、更には正しく利用できる状態にしていくのか、ということを行った1年でした。

1年前ではほぼ1種類のデータソースしかなかったのですが、この1年間で

  • 自社ECの会員情報、注文履歴
  • 基幹システムの売上実績
  • Webアクセスログ関連(KARTEイベントログ、サーチコンソールなど)
  • Google広告

上記のデータがデータ基盤に連携され、またデータによっては既にユーザーへのダッシュボード配信を行ったり、Web接客の施策に利用されている状態になりました。

prime Number様のセミナー登壇時のタイトルにも含まれているのですが、私が所属している組織はいわゆる「非IT企業のエンジニア不在組織」ということもあり、何を行うにも壁に当たってなかなかうまく進まない状況でしたが、ようやくデータ活用のためのデータ基盤構築の入り口くらいには立てた気がしています。

まだまだやらなければならないことが山ほどありますが、何とかもっと社内でデータ活用のための文化が進むようにがんばっていきたいと思います!

ABOUT ME
Gaku
JTCでデータエンジニアっぽいことをしています。仕事ではGoogle Cloud、GTM、Google AnalyticsやKARTE、Datahubあたりを触っています。 本ブログではGoogle Cloudやデータエンジニアリング、たまに趣味などの記事をアップします。

COMMENT

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA