🗒️

24/09/09 ~ 24/09/15 Weekly Report

2024/09/23に公開

はじめに

この一週間に学んだ内容や私生活について、備忘録として残していこうと思います。

Input

Books

1. A/Bテスト実践ガイド 真のデータドリブンへ至る信用できる実験とは

読了。今まで学んできた効果検証手法の書籍と違い、実務に効果検証を適応する上でシステム、ビジネス上の考慮点も含め詳しくまとめてあり参考になることは多かった。
WebシステムにおけるA/Bテストをメインに説明されているが、Web以外にも転用できる内容が多く含まれていたので、ユースケースに当てはめて活用できそう。
この領域は機械学習と違い、多くのドメインにおいて汎用的に使用される手法であるため、これからも知見を深めていきたい。

  • 第11章:観察的因果関係研究

    • オンラインでのコントロール実験は、プロダクトやサービスへの変更の因果関係を調査するための最良の方法だが、実行不可能な場合がある
    • そのような場合に、観察データを用いて因果関係を推定する観察的因果関係研究が用いられる。
    • 観察的因果関係研究には、回帰不連続デザイン傾向スコアマッチングなどの手法がある。
    • ただし、観察データにはバイアスが含まれている可能性があり、慎重に分析する必要がある
  • 第12章:クライアントサイドの実験

    • クライアントサイドの実験は、ユーザーのデバイス上で実行される実験である。
    • サーバーサイドの実験と比較して、ユーザー体験をより詳細に制御できるという利点がある。
    • 一方で、データ収集の遅延実験の実施期間の予測など、考慮すべき点もある。
  • 第13章:計測装置

    • 計測装置は、ユーザーの行動に関するデータを収集する仕組みである。
    • 実験の効果を正しく測定するために、適切な計測装置を開発する必要がある
    • 複数のソースからのログの処理計測装置のための文化など、考慮すべき点もある。
  • 第14章:ランダム化単位の選択

    • ランダム化単位は、実験群にランダムに割り当てる単位である。
    • 一般的にはユーザーが用いられるが、ページセッションなどを用いる場合もある。
    • ランダム化単位の選択は、実験の結果の解釈に影響を与えるため、適切に選択する必要がある
  • 第15章:実験対象の拡大

    • 実験対象の拡大とは、実験の対象となるユーザー数を徐々に増やしていくプロセスである。
    • スピード品質リスクのバランスを考慮しながら、適切な拡大方法を選択する必要がある。
    • 実験対象の拡大には、**MPR(最小検出可能変化)**などの指標が用いられる。
  • 第16章:実験の分析のスケール

    • 大規模な実験では、膨大な量のデータを処理する必要がある。
    • データの処理データの計算結果の要約と可視化など、効率的な分析のための方法を検討する必要がある。
  • 第17章:コントロール実験を支える統計学

    • コントロール実験の分析には、統計学の知識が必要となる。
    • 2標本t検定p値信頼区間などの基本的な統計的概念を理解しておく必要がある。
    • 偽陽性偽陰性検出力などの統計的なエラーについても考慮する必要がある。
  • 第18章:実験におけるメトリクスの選択

    • メトリクスは、実験の効果を測定するための指標である。
    • 実験の目的を達成するために、適切なメトリクスを選択する必要がある
    • メトリクスの選択には、ビジネスの目標ユーザーの行動統計的な性質などを考慮する必要がある。
  • 第19章:A/Aテスト

    • A/Aテストは、同じ設定の2つの実験群を比較するテストである。
    • 実験システムに問題がないかを確認するために用いられる。
    • ランダム化計測などに問題がないかを検証することができる。
  • 第20章:トリガーを用いた分析

    • トリガーを用いた分析は、特定の条件を満たすユーザーのみを分析対象とする方法である。
    • 例えば、特定のページを閲覧したユーザー特定の機能を利用したユーザーのみを分析対象とすることができる。
    • トリガーを用いることで、分析の精度統計的な検出力を向上させることができる。
  • 第21章:サンプル比率のミスマッチと信用性に関連するガードレールメトリクス

    • サンプル比率のミスマッチ(SRM)は、実験群間でユーザーの割り当て比率が想定と異なる場合に発生する問題である。
    • SRMが発生すると、実験の結果の信用性が低下する可能性がある。
    • SRMを検出するために、ガードレールメトリクスを用いることができる。
  • 第22章:実験群の間での情報のリークと干渉

    • 情報のリークは、ある実験群の情報が他の実験群に影響を与えることである。
    • 干渉は、ある実験群のユーザーの行動が他の実験群のユーザーの行動に影響を与えることである。
    • 情報のリークや干渉が発生すると、実験の結果の解釈が困難になる
  • 第23章:介入効果の長期影響の測定

    • 長期効果とは、実験の介入が長期間にわたって与える影響のことである。
    • 短期効果と長期効果は異なる場合があり、長期効果を測定することが重要となる。
    • 長期効果を測定する方法として、長期実験期間後分析などがある。

2. 不動産業界のしくみとビジネスがこれ1冊でしっかりわかる教科書

  • chapter1: 不動産業界の基礎知識と現状

    • 不動産業は、「取引業」と「賃貸・管理業」に分類される。
    • 不動産の定義と範囲
      • 土地や建物に加え、土地に定着した樹木や取り外しが容易ではない物置なども含まれる。
      • 反対に、容易に動かせる物置や植木鉢などは含まれない。
    • 不動産業務に関わる法律
      • 宅建業法、建築基準法、マンション管理適正化法、都市計画法などが挙げられる。
      • 特に、宅建業法は不動産取引において、購入者保護の観点から重要な役割を果たす。
    • 不動産業界の市場規模と特徴
      • 不動産業の付加価値額は高く、全産業平均の2倍以上である。
        • 商品の単価が高額であること、売上に対する原価が低いことが要因として挙げられる。
      • 建設業、金融業と密接な関係を持つ。
    • 不動産価格は2013年から上昇傾向にあり、低金利などが要因として挙げられる。
    • 不動産業の事業者は小規模事業者が多く、事業を行う上では、不動産の所有権と売買などの自由な取引が重要となる。
  • chapter2: 不動産の各事業の構成と流れ

    • 不動産事業は、開発・分譲、流通、賃貸管理、ビル・マンション管理、証券化の5つに分類される。
      • 開発事業は、オフィスビルや商業施設、マンションなどを建設し、付加価値を高めて利益を得る事業である。
        • 明治時代末期から大正時代にかけて、財閥や私鉄会社によって発展した。
      • 流通事業は、不動産の売買や賃貸を行い、所有者と顧客を繋ぐ役割を担う。
      • 賃貸管理事業は、アパートやマンションなどの賃貸と管理を行う事業である。
      • ビル・マンション管理事業は、オフィスビルや分譲マンションの管理を行う事業である。
      • 証券化事業は、不動産を証券化して投資家に販売する事業である。
    • 不動産事業は、不動産の種類(土地、建物付土地)や所有者の意向によって、プロジェクトの流れが変化する。
      • 例えば、土地に事務所ビルを建設する場合、土地の取得→開発事業→ビル・賃貸管理事業という流れになることが多い。
      • 一棟マンションをリノベーションして賃貸する場合、賃料査定→リノベーション工事→マンション管理事業という流れになることが多い。
    • 各事業に携わる不動産会社の勢力は、売上高や利益、管理戸数などによって異なる。
      • 開発事業やマンション分譲事業では、三井不動産や三菱地所など、大手企業がリードしている。
      • 一戸建て分譲事業では、大手企業に加え、パワービルダーと呼ばれる中小不動産会社も活躍している。
      • 流通事業では、三井不動産リアルティグループや住友不動産販売など、大手企業が上位を占めている。
      • 賃貸管理事業では、大東建託グループやミニミニなど、アパート系の大手企業が市場を牽引している。
  • chapter3: 開発・分譲に関連する事業と業務

    • 開発・分譲事業は、大きく 「開発賃貸事業」, 「再開発・不動産活用事業」, 「戸建て土地分譲事業」, **「マンション分譲事業」**に分類される。
    • 開発事業と分譲事業は、どちらも不動産に資本と企画を投下し、付加価値を高めて利益を得る事業であるが、事業期間や必要となる資本力が異なる。
      • 開発事業は、事業規模によっては十数年から数十年かかることもあり、多大な資本力が必要となるため、大手不動産会社が中心となって行われている。
      • 分譲事業は、数百戸程度までの規模であれば2~3年で投下資本の回収が可能であるため、中小不動産会社も参入しやすい。
    • 開発賃貸事業の代表的な業務は、事業用地の情報収集、企画立案・マーケティング、土地の価格交渉・取得、建物の設計監理・建設、建物の管理運営である。
      • 特に、条件交渉と取得は、土地所有者との調整が難航することも多く、最も労力と時間が必要な業務である。
    • 再開発・不動産活用事業は、古くなった都市や不動産に新たな価値を創造し、収益性を高める事業である。
      • 所有者との相談、企画立案・調査、事業方式の選定、計画案の提案・契約、計画の実施、サポートといった業務の流れで行われる。
    • 一戸建て・土地分譲事業は、土地を購入または賃借し、一戸建て住宅を建設または土地を造成して分譲する事業である。
      • 不動産情報の収集、企画立案・建物プラン、条件交渉・取得、建物の設計・建設(土地分譲の場合は造成)、分譲販売という流れで行われる。
    • マンション分譲事業は、土地を購入または賃借し、マンションを建設して分譲する事業である。
      • 不動産情報の収集・調査、企画立案・建物プラン、条件交渉・取得、近隣対策、マンション建設、分譲販売・進捗管理という流れで行われる。
    • 日本の不動産開発は、公共交通指向型、環境共生指向型、高品質な建築技術といった点で、世界的に高く評価されている。
      • 特に、東南アジア諸国では、人口増加や都市化に伴う課題解決の手段として、日本の不動産開発のノウハウが注目されている。
    • 近年、地球温暖化対策として、不動産業界では、住宅や建築物の省エネ化、再生可能エネルギーの導入が求められている。
      • 政府は2050年までにカーボンニュートラルの実現を目指しており、住宅・建築物の省エネ基準の強化、太陽光発電設備の導入促進などを進めている。
    • スマートシティは、ITや環境技術を活用し、エネルギー効率を高め、環境負荷を低減した都市のことである。
    • ZEHは、省エネ基準を満たした上で、太陽光発電などでエネルギーを創出し、年間のエネルギー消費量を実質ゼロにする住宅のことである。

MOOC

LeetCode

  • SQL 50
    • 38/50まで完了

Articles

Medias

Services

  • illuminate
    Googleの論文要約サービス。対話形式で論文の重要事項をまとめてくれるらしい。waitlistに登録した。
  • expand.ai
    あらゆるウェブサイトをAPI化するサービス。開発など行ない際に重宝しそう。waitlistに登録した。
  • o1
    推論に特化した言語モデル。事前に何度も推論を重ねた上で回答を生成するプロセスが発生している。特に専門領域の回答において強力な性能を発揮するとのこと。
    主に学術研究分野で重宝されそうなモデルという印象。情報系エンジニアにおいてもコーディング性能はかなり高そうなので、積極的に使っていきたい。
    最近Claudeに乗り換え気味でOpenAIのサブスクを解約しようと考えていたが保留することにした。
  • OpenAI o1 API
    まだ使用できないが、o1のAPIも使えるようになるらしい(o1 miniはすでに使える)。APIの機能としては「Reasoning Model(推論モデル)」という位置づけらしい。
    プラウザ版は現状、週にたった30回しか使えないとのことなので、APIでガンガン使っていくのもありかもしれない。ただし金額による。
  • DataGemma
    o1で話題をかき消されたが、Googleからまた革新的なオープンモデルが発表されている。
    軽量モデルで大きな課題となるハルシネーションを推論の仕組みで解決するようなモデルみたい。 RIGとRAGを組み合わせて結果を出力する構造。RIGは、会頭候補を生成した後に一度DataCommonsと内容に間違いがないか照合することで生成機能を強化する。RAGはおなじみの手法で、生成前にDataCommonsから情報を取得し正確性を向上するといった少し複雑な推論フローが行われている。現状では研究分野のみ使用可能とのこと。
  • Python 3.13
    10月1日からPython3.13がリリースされる。
  • NotebookLM Audio Overview
    NotebookLMに、音声自動サマリ機能が追加された。現在は英語のみ対応で、日本語の文書であっても英語で要約される。データはできる限りテキストで所持する。できればPDFで所持しておけば、簡単にナレッジベースを構築できる時代になっている。

Insights

  • 考えがまとまらずごちゃごちゃしているときは、積極的にランニングしよう。走ることで頭が真っ白になりフラットに考えることができるようになる気がする。
  • 技術を学習する際はできる限り抽象的に捉えることを意識する。今書いているコードは新しい言語、記法に置き換わる可能性が高いので、やり方ではなく仕組みを理解する。学習する内容も、アルゴリズム、データ構造など広く転用が効く内容を学ぶことを大切にする。
  • データ分析領域では軽視されがちだが、最近アルゴリズムについて学ぶ必要があると感じることが多い。いかに効率的にデータを処理していくか考える際に必要になるため。近年はデータ量も肥大化してきており、効率の悪いクエリや加工処理を記述するとコストやパフォーマンスに影響を与えるため、知見を深めていこう。

Life

  • 最近、leetcodeを再開した。何だかんだ効果的なアルゴリズムを記述できるのはデータ加工、抽出領域では重要になるので、知見を深めるため。1日1~2問程度、無理せず少しづつ進めていく。
  • couseraのコースが若干古い&なんか思っていたのと違うと思ったので、学習を中止した。色々考えた結果、直近で必要になるスキルとしてAWSのデータ基盤の知見が必要となるため、公式のAWS Skill Builderを始めることにした。
  • 今週末は妻と1日スパリゾートで過ごすという休日を送ってみた。岩盤浴で汗を流し、カフェでコーヒーを嗜み、作業スペースではPCで作業もできるため良い体験だった。妻も私もゆっくり過ごす休日を好むので定期的に行こうと思った。
  • 新たに書籍を購入した

Task

技術

  1. 因果推論 基礎から機械学習・時系列解析・因果探索を用いた意思決定のアプローチ
  2. つくって、壊して、直して学ぶ Kubernetes入門
  3. コンピュータビジョンのための実践機械学習

読書

  1. 独学で鍛える数理思考
  2. 評価指標入門
  3. データ指向アプリケーションデザイン

Discussion