🗒️

24/08/05 ~ 24/08/11 Weekly Report

2024/08/11に公開

はじめに

この一週間に学んだ内容や私生活について、備忘録として残していこうと思います。

Input

Books

1. データエンジニアリングの基礎

7章 データ取り込み
この章では、データをソースシステムから取得し、ストレージに保存するプロセスを解説しています。バッチ処理とストリーミング処理、それぞれのデータ取り込み方法や考慮すべき点について説明していました。

  • データ取り込みとは、ある場所から別の場所にデータを移動するプロセスのことである。特にデータエンジニアリングライフサイクルにおいては、ソースシステムからストレージにデータを移動することを指す。
  • データ取り込みのプロセスを設計する際は、データ取り込みの頻度を決定する必要がある。取り込みプロセスには、バッチ、マイクロバッチ、リアルタイムがある。
  • データエンジニアは、取り込みパイプラインを開発・管理する際に、上流(データ生産者)と下流(データ消費者)の両方の人々やシステムと協力する必要がある。
  • データ取り込みは、セキュリティ、データ管理、DataOps、オーケストレーション、ソフトウェアエンジニアリングといった底流の影響を受ける。

全体として

8章 クエリ、データモデリング、変換
この章では、データを分析に利用しやすい形に変換する方法を解説しています。クエリ、データモデリング、変換といった概念、及び具体的な方法や注意点について説明していました。

  • クエリ、データモデリング、変換を理解することで、生のデータ素材を下流の利害関係者が消費できるものに変えることができる。
  • クエリはデータの分析に不可欠であり、さまざまな種類がある。OLTPクエリは高速なトランザクション処理に最適化されるが、OLAPクエリは複雑な分析に使用される。
  • データモデリングとは、データと現実世界との関係を表すもの。組織のプロセス、定義、ワークフロー、ロジックを最適に反映するように、データを構造化し、標準化する。
  • 変換とは、データモデルのロジックをクエリの結果に適用して、その結果を下流で消費しやすくすること。
  • 変換とクエリの違いとして、変換はデータに対してビジネスロジックを適用して、下流の工程で利用しやすい形に変換するプロセスである一方、クエリはデータに対して問いかけを行い、必要な情報を抽出するプロセスを指す。
  • 変換ステージは、データが変異し、ビジネスにとって有用なものに姿を変える場所であるため、セキュリティ、データ管理、オーケストレーション、ソフトウェアエンジニアリングといった底流の影響を大きく受ける。

Blogs

kaggle

Media

Insight

  • データサイエンティストに求められるスキルとして、Linuxを使いこなせると幅が広がりそうだと感じた。クラウド環境で作業することが多いから、リモートコンピューティングなどスムーズに作業できることは強力な武器になると思うので、学ぶ必要があるなと感じた。学ぶことは尽きないな。
  • 全体として、コンピュータサイエンスにおける包括的な知識を習得する必要があるのではないかと感じることが多い。データ分析手法を学ぶ場は多々あれど、システム操作、環境構築について深く学べる場はなかなかない印象だ。何かいい教材があればいいのだが。
    • バックエンドの副業などできるのであれば、キャリア的には理想だと思う。関連するAWS系の資格を習得したら参画できたりしないかな。
  • 最近、学ばないといけないと思い込んでることが多い。自分の中では未来に向けてざっくりとロードマップを引いているが、本当に目標を達成する上で必要なのか、優先度として高いのか吟味した上で学んでいく必要があると思った。できる限り学びのためにリソースは割いていくが限界はあるので、しっかりとキャリアを形成するために何をすべきか解像度高く進めていこう。
    • 現職としても、明確な役割付けもなく、なんとなく「データサイエンティスト」として働いていることも課題だ。実際はアナリストやデータエンジニアに分けられるところも対応する形になっており、学習目標を定めることが難しい。事業会社や役割が絞られたポジションとしてキャリアを積んでいき強みとなる専門性を高めることが重要なのかもしれない。
  • これからの仕事やキャリアとの向き合い方を考える
    1. インプットとアウトプットを繰り返し、自分のやってきたことを証明する
    2. より良いポジションに着き、キャリアとしての経験を積む
    3. キャリアを成長させるために成果を出す
      • 成果を出すためには日頃のマインドセット、習慣が重要
      • 個人のパフォーマンスは、これまでの経験、取組みによる帰結に過ぎない
    4. 1 ~ 3のサイクルを回していく
    5. 社内、社外におけて影響力のあるスキルと認知度を獲得する
  • 自己学習の記録として、もっとGitHubを使っていく
    • 学習サンプルコードやメモは一律GitHub上で管理する
    • 書いたコードは使い捨てず記録として残しておく

Task

Discussion