データ分析を始めるにあたり、ツール選定に先立つべき課題があります。「データはどこからどのような手段で誰が持ってきますか?そのデータはそのまま使えるものですか?」という問いが重要です。多くの場合、扱うデータの信頼性と新鮮さが問題になります。優秀な分析者がいても、データの品質が低いと正しい結果は得られません。
情報基盤の構築
分析開始前に必要なのは、データの信頼性を確保し新鮮なデータを提供する仕組みです。この「情報基盤」は三階層から構成されます:
- データレイク層:生データを蓄える
- DWH層:加工済みデータを蓄える
- データマート層:業務別データを蓄える
この構造により、レイアウト変更への耐性が高まり、BIツールのレスポンスがデータ量に依存しなくなります。
失敗しないデータ分析の実現方法
- 必要なデータの所在とタイミングの調査
- データ項目の洗い出し
- 業務別で必要なデータを調査
- 三階層のレイアウト設計
- データレイク層からDWH層への連携方法の決定
- DWH層からデータマート層への連携方法の決定
- ソリューションの選定
- BIソリューションの選定(Excelでのモックアップから開始推奨)