読書三昧(仮免) 禹歩の痛痒アーカイブ

乱読中年、中途と半端を生きる

渡部徹太郎『図解即戦力 ビッグデータ分析のシステムと開発がこれ1冊でしっかりわかる教科書』(2019)

http://image.gihyo.co.jp/assets/images/cover/2019/9784297108816.jpg

現時点でのビッグデータ分析の技術動向、ツールを一通り網羅していて基本的知識を入れておくのに便利。ビックデータ分析システムの上流のミーティングに呼び出される可能性があるときに、事前に読んでおけば、「困った、何言ってるかさっぱりわからん」の状態にはならないですむ。知ったかぶりして貧乏くじを引くことも少なくなるし、自分が手を出していい工程もなんとなくわかって来る。

実際の現場では、データサイエンスという華々しい仕事の裏側で、泥臭いデータの準備や本番システム運用をするエンジニアが必要とされていました。かつ、この部分を担当できる人員が極端に不足していました。データサイエンティストはその価値が認められ優秀な学生が目指す職種のひとつとなっていましたが、一方でデータエンジニアは職種そのものが認知されていませんでした。(「おわりに」p226)

 ほぼ生のデータのデータレイクから、データの一次加工を経てデータウェアハウスを通り、利用価値の高いデータマートを作成するという、データサイエンス登場以前の工程の重要性を取り上げてくれているところに好感を持った。勉強の対象としてはデータサイエンスのほうが面白いが、実務ではコツコツと成果の上がる前処理の工程のほうが個人的には好きだ。

 

gihyo.jp

 

目次:
1章 ビッグデータ分析の全体像
01 ビッグデータと分散処理
 〜インターネットの普及によるデータ量の増加〜
02 非構造化データの増加と機械学習
 〜テキスト,音声,画像データなどの分析〜
03 ビッグデータ分析システム
 〜分散処理と機械学習を駆使してデータを利益に変える〜
04 企業のビッグデータ活用段階
 〜ビッグデータ分析はスモールスタートで始める〜
05 ビッグデータ分析を活用するための三つの役割
 〜データビジネス,サイエンス,そしてエンジニアリング〜
06 エンジニアリングの希少価値
 〜実証実験はできても本番システム化できていない〜
2章 ビッグデータ分析システムのアーキテクチャ
01 アーキテクチャの全体像
 〜データの収集・蓄積・活用〜
02 データの生成・収集
 〜事業システムで生成し分析システムに収集する〜
03 データ蓄積
 〜データレイクとデータウェアハウス〜
04 データ活用
 〜データを意思決定・利益向上に利用〜
3章 分散処理の基礎
01 ボトルネック解析
 〜性能問題対応の基本〜
02 ボトルネック以外の性能問題考慮点
 〜メモリの枯渇,ボトルネックがないのに遅い〜
03 分散ストレージ
 〜ディスクのボトルネックを解消する技術〜
04 分散計算
 〜プロセッサのボトルネックを解消する技術〜
05 分散システムのネットワーク
 〜ネットワークのボトルネックにならないために〜
06 リソースマネージャ
 〜分散処理を支えるリソース管理〜
07 分散処理の作り方
 〜Hadoop,自前開発,クラウドサービス〜
4章 機械学習の基礎
01 機械学習
 〜数値ベクトルに変換されたデータを処理する関数〜
02 データの準備と前処理
 〜機械学習開発プロセス(前編)〜
03 モデル推定とシステム化
 〜機械学習開発プロセス(中編)〜
04 本番リリースとエンハンス
 〜機械学習開発プロセス(後編)〜
05 ディープラーニング
 〜機械学習ブームの火付け役〜
06 機械学習ツール
 〜エンジニアでも知っておくべき主要ツールを紹介〜
07 サイエンスとエンジニアリングの役割分担
 〜システム化やデータ準備等行うことはたくさんある〜
5章 ビッグデータの収集
01 バッチデータ収集とストリームデータ収集
 〜データ収集の種類〜
02 ファイルデータ収集とファイルフォーマット
 〜ファイル形式のデータを収集する〜
03 SQLによるデータ収集
 〜データベースからのデータ収集(前編)〜
04 データ出力や更新ログ同期によるデータ収集
 〜データベースからのデータ収集(後編)〜
05 APIデータ収集とスクレイピング
 〜その他のバッチデータ収集〜
06 バッチデータ収集の作り方
 〜ETL製品を利用するか自前で作るか〜
07 分散キューとストリーム処理
 〜ストリームデータ収集の全体像〜
08 ストリームデータ収集における分散キュー
 〜分散キューの特性を理解する〜
09 プロデューサー,分散キュー,コンシューマー
 〜ストリームデータ収集の作り方〜
10 データ構造変更対応
 〜データ構造はビジネスの成長とともに変わる〜
6章 ビッグデータの蓄積
01 データレイクとデータウェアハウス
 〜生データと分析用のデータは別に用意する〜
02 アナリティックDB
 〜オペレーショナルDBとアナリティックDBの違い〜
03 列指向フォーマット
 〜列方向にデータを圧縮して分析処理を高速化する技術〜
04 SQL on Hadoop
 〜アナリティックDBの選び方(前編)〜
05 DWH製品
 〜アナリティックDBの選び方(後編)〜
7章 ビッグデータの活用
01 データマート
 〜目的別に加工されたデータ〜
02 アドホック分析
 〜自由にデータを分析して意思決定する〜
03 アドホック分析環境の構築
 〜データ利用者サポートやリソース管理が必要〜
04 データ可視化
 〜誰でもデータをもとに意思決定できるようにする〜
05 データアプリケーション
 〜インターネット事業会社での活用事例〜
8章 メタデータ管理
01 全体像と静的メタデータ
 〜メタデータ管理の全体像(前編)〜
02 動的メタデータメタデータ管理実現方法
 〜メタデータ管理の全体像(後編)〜
03 データ構造管理
 〜どのように定義されたデータか〜
04 データリネージ管理
 〜そのデータはどこから来てどこに行くのか〜
05 データ鮮度管理
 〜そのデータはいつ時点のデータなのか〜