技術書関連

今話題のデータエンジニア!スキルアップにおススメの書籍6選

データエンジニア・データアナリスト等のデータマネジメント系のエンジニアに必読のおススメ本を紹介!!

データエンジニアにおススメの本6選

昨今、急激に需要が高まってきたデータエンジニア・データアナリスト等のデータマネジメント系のエンジニアですが、まだ日本では一部の企業を除いてそこまで認知度が高くない印象です。そのため、具体的にどのような業務を行っているのか、理解しづらいところがあるように思えます。ちなみに、データエンジニアが実際にどのような業務をするかというと、

  • データ分析基盤の構築・運用
  • データパイプラインの構築・運用

主にはこの2点の業務を中心に行います。この2点だけだとイメージがわきづらいかと思うのでもっと具体的に触れると、

  • AWSやGCPなどのクラウドサービスでデータレイクやDWHの構築・運用
  • システム間でのデータ連携等アーキテクチャの設計
  • データ変換処理を行うためのプログラムの実装(Python・Java・SQLなど)
  • TableauやLookerを利用したダッシュボード構築に必要となるデータの要件整理、ダッシュボード作成

上記のような業務を担当することになります。

このように、業務が多岐にわたるデータエンジニアですが、業務における知識やスキルを身に着けるのに役に立つと思われる書籍を紹介したいと思います!

[増補改訂]ビッグデータを支える技術 ——ラップトップ1台で学ぶデータ基盤のしくみ

データ基盤構築時に検討するアーキテクチャとして、昨今ではGCPのBigQueryやAWSのRedshift、Snowflakeなどのクラウドサービスと、その他クラウド上のETL/ELTサービス、ワークフローサービス等を思い浮かべる方が多いかと思います。またデータエンジニアリング関連の書籍の大半はそのようなクラウド活用前提として書かれているものが多いです。

そのような中で、本書では特にオンプレミスやクラウドなど特定の環境に特化せず、データエンジニアリングを考える上での基本となるアーキテクチャやエンジニアリングについて、丁寧に解説している本です。(AWSやGCP等のクラウドサービス上でのデータエンジニアリングについてはほとんど触れていません。)

[増補改訂]ビッグデータを支える技術–ラップトップ1台で学ぶデータ基盤のしくみ(DMMブックス)
[増補改訂]ビッグデータを支える技術–ラップトップ1台で学ぶデータ基盤のしくみ(Kindle)

主にHadoopを中心とした、オンプレミスでのビッグデータ処理を行うために必要となるサービスについて詳細に解説しています。データ基盤とはそもそもどのような目的で作るのか、日々連携されるデータをどのようにETL/ELT処理を行い、レポーティングさせるのか等、かなり具体的な例を挙げて説明されています。

Google Cloudではじめる実践データエンジニアリング入門

前回書いた書籍紹介の記事にも上げさせていただいた本です。タイトル通り、Google Cloud Platformを利用したデータエンジニアリング、とりわけデータ基盤構築に関してわかりやすく解説されている本です。

Google Cloudではじめる実践データエンジニアリング入門 [業務で使えるデータ基盤構築](DMMブックス)
Google Cloudではじめる実践データエンジニアリング入門 [業務で使えるデータ基盤構築](Kindle)

本書にはBigQueryはもちろん、データ分析基盤を構築する上で関連するGCPのサービスを網羅的に扱っています。ETL処理についてはDataflow、Dataproc、Data Fusionなど、それぞれのサービスでのETL処理実施方法についてについて、簡易的なコードを例に詳しく説明しています。

また、BigQueryなどデータエンジニアリング系のサービスを運用する上で必要となるIAMまわりの設定や、データ可視化ツールのデータポータル(Data Studio)についての説明もあるのはうれしいです。

あと、Google Cloud認定試験であるProfessional Data Engineerを受験する際にも参考になるのでは、などと言われています。Professional Data Engineerについては特に対策用の書籍がほとんどないため、Google Cloudとしてのデータエンジニアリング全般を整理されている点で非常に有用な本かと思います。

集中演習 SQL入門 Google BigQueryではじめるビジネスデータ分析

タイトル通り、SQLに関する本です。といっても世の中にSQLに関する本は山ほどあるのですが、「BigQueryではじめる~」というところからもわかる通り、BigQuery内での利用を前提としたSQL入門書です。BigQueryはGoogle Cloud PlatformというGoogleのクラウドサービスで利用できるDWHサービスで、高機能かつ非常に運用コストが安いのが特徴です。個人で利用する場合には全く料金が掛かりません。そんなBigQueryの利用方法から、どのようにSQLを実行するのか、またより行動な分析をする場合にはどのようなSQLを書けばよいのか、非常に丁寧に解説されている本です。

集中演習 SQL入門 Google BigQueryではじめるビジネスデータ分析(DMMブックス)
集中演習 SQL入門 Google BigQueryではじめるビジネスデータ分析(Kindle)

昨今はマーケターやファイナンスなど、いわゆる非エンジニアでもSQLを書ける人が増えていると言われています。まだSQLは書いたことはないけど今後覚えてみたい人、もしくはSQLServerやMySQLなど他のRDBMSでSQLを使ったことはあるけどBigQueryは利用したことがない人など、ぜひこの本を読んで、BigQuery上でSQLを実行してみるといいかと思います。

実践的データ基盤への処方箋

タイトルにふさわしい、まさに「データ基盤の処方箋」とも言うべき本です。組織におけるデータ基盤について、システムとしてのアーキテクチャ設計や具体的なエンジニアリングだけでなく、実際の運用面について考慮すべきことを組織の在り方も含めて詳しく説明されています。

実践的データ基盤への処方箋(DMMブックス)
実践的データ基盤への処方箋(Kindle)

ただ、内容的にはデータ基盤の構築・運用が自社だけのリソースである程度回っている会社を前提に書かれているイメージが強く、記載されている内容も非常にレベルが高いです。この本を読んで実際に理解した内容を実際の業務で活かそうと考えると、組織によっては難しいケースがあるように思います。そのため、組織としてのリソースにあわせて本書に書いてある内容の取捨選択を行い、参考になる部分のみを取り入れるような方法が良いかなと個人的に思います。

エンタープライズのためのGoogle Cloud クラウドを活用したシステムの構築と運用

データエンジニアリングに関する本、というわけではないのですが、Google CloudでBigQueryを中心としたデータ基盤を構築・運用する際に考慮すべきポイント(セキュリティ・ネットワーク等)についてかなり詳しく書かれています。

エンタープライズのためのGoogle Cloud クラウドを活用したシステムの構築と運用(DMMブックス)
エンタープライズのためのGoogle Cloud クラウドを活用したシステムの構築と運用(Kindle)

BigQuery自体はかなり簡単に触れる仕組みではありますが、テーブルや各カラム等のアクセス権限等、組織としてセキュリティを考慮した運用を行う上ではそれなりに知識が必要となります。この書籍でBigQueryを含むGCP全体の運用についての勘所をつかむことができると思います。

ユーザー起点マーケティング実践ガイド

DMPというよりはCDPについて詳しく書かれた本です。CDPを利用して、具体的にどのようなマーケティング施策を実施し、また運用していくかについて、具体的なデータやマーケティング施策の例をあげつつ、非常に詳しく説明されている本です。

組織にもよるかと思いますが、小規模なデータマネジメント組織の場合はマーケティング業務にも関わるケースが多いため、デジマに関する知識はかなり必要になるかと思います。特に自社でECサービスや予約サービス等、何らかのお客様情報を取得しており、それをマーケティングに活用したい、と考えている会社にとってはかなり参考になる話が多いと思います。

ユーザー起点マーケティング実践ガイド(DMMブックス)
ユーザー起点マーケティング実践ガイド(Kindle)

以上、6冊について個人的な感想を述べてみました。
興味がある方はぜひ、読んでみてください!

ちなみに、SQL学習のための書籍については以下を参考にしていただけると幸いです。
基礎から応用まで使える!SQL学習におススメの技術書を紹介!!

ABOUT ME
Gaku
JTCでデータエンジニアっぽいことをしています。仕事ではGoogle Cloud、GTM、Google AnalyticsやKARTE、Datahubあたりを触っています。 本ブログではGoogle Cloudやデータエンジニアリング、たまに趣味などの記事をアップします。

COMMENT

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA