ミライCRMの全体アーキテクチャと技術スタック

こんにちは、ミライCRM CTOの四方田です。ミライCRMの開発を始めてから一定の規模になり、コードベースもメンバーも増えてきました。新しく入ったメンバーや、社外のエンジニアの方に向けて、ミライCRMが何をするプロダクトで、どのような構成で動いていて、なぜその技術を選んでいるのかを紹介します！

1. ミライCRMとは

ミライCRM は、「次世代AI LINE CRMツール」 をコンセプトにしたSaaS型のCRMプラットフォームです。

プロダクトとしてのコアバリューは 「EC × LINE 連携で売上向上を実現する」 こと。ECの購買データとLINE上のリアルタイム行動データをかけ合わせ、ユーザー一人ひとりに最適化されたコミュニケーションを実現することで、「一斉配信から脱却し、LINEを”売れるタッチポイント”に変える」というポジショニングを取っています。

EC事業者をメインのターゲットに、

配信業務の 売上最大化
テナントの 業務効率化
AIによる施策提案・運用支援

を一つのプロダクトで提供しています。システムとしてはマルチテナント構成（organization）で、テナントごとにLINE公式アカウント・ECストア・ユーザーが完全に分離された状態で動きます。

主な機能

機能はおおまかにメッセージ配信／顧客管理／LINE内コンテンツ／分析／AIによる業務効率化 の5領域に分かれています。

メッセージ配信

セグメント配信: ECやLINE上のデータを元に、特定のセグメントにのみ配信する
シナリオ配信: ユーザーのアクションをトリガーに、メッセージを自動配信する

顧客管理

1対1チャット: 友だちとの個別チャットをミライCRM内で完結させる
タグ管理: 手動／ユーザー行動に応じた自動付与でタグを管理する
回答フォーム機能: 自由記述・アンケート用のフォームを作成して配信する
ランク機能: ECでの購入金額に応じた会員ランク付与と、ランク連動のクーポン発行

LINE内コンテンツ

Flexメッセージ: ブロックを組み合わせた自由なレイアウトのメッセージ。生成AIによるFlexメッセージ自動生成を搭載
リッチメニュー: LINE公式アカウント単体ではできない「複数タブ表示」「セグメント配信」に対応
シナリオ設定: 選択肢に応じてシナリオが分岐する応答botを作成する

分析

友だち分析: 有効友だち・ブロック数などを時系列で確認
配信分析: 配信ごとに開封率・CTR・CVR・売上・ROASをファネル形式で一覧表示。前月比の変動も自動算出
流入経路分析URL: 流入経路別に友だち追加URLを発行・タグ付与
CSV出力: 友だち・配信データをCSVで抽出
AI分析: 「直近1ヶ月の配信効果を分析してください」といった自然言語の問い合わせに対し、LINE × ECデータを横断してインサイトとネクストアクションを返す

AIによる業務効率化

ミライCRMの大きな差別化ポイントが AIによる運用業務の自動化 です。

AI Flexメッセージ生成: AIが配信用Flexメッセージのデザインを自動生成
AIチャットアシスタント: 問い合わせ内容を理解し、最適な返信案を提示
AI配信分析: 配信のパフォーマンスを解析し、インサイトとネクストアクションを提示

「専任のアナリストやデザイナーがいなくても、データドリブンなLINE配信運用を回せる」状態を作るのが狙いです。

これらの機能群を、EC運用のナレッジを持った専任チームによる導入後の伴走支援とセットで提供している、というのがプロダクト全体としての立ち位置になります。

2. 全体アーキテクチャ

現状のシステム構成を、ざっくり次のように分けて説明します。

フロントエンド: 管理者向けWebアプリ／LIFFアプリ／Shopifyアプリ
バックエンド: APIサーバー／ワーカー類
データストア: PostgreSQL／ClickHouse／Redis
非同期処理基盤: Cloud Pub/Sub と Temporal
エッジ／トラッキング基盤: Cloudflare Workers
インフラ: Google Cloud（Cloud Run中心）

全体像をまず1枚にすると、次のような構成になっています。

flowchart LR
    subgraph Clients["Clients"]
        Tenant[テナント運用者]
        Customer[顧客<br/>LINE / Webサイト]
    end

    subgraph External["External Services"]
        LINE[LINE Messaging API]
        Ecforce[ecforce]
        Clerk[Clerk]
        Shopify[Shopify]
    end

    subgraph Edge["Cloudflare Edge"]
        CFW[Tracking Edge Workers]
        CFQueue[(Cloudflare Queues)]
    end

    subgraph GCP["Google Cloud"]
        Web[Web Frontend]
        LIFF[LIFF Web App]
        ShopifyApp[Shopify App]
        API[Main API Server]
        Broker[Webhook Broker]
        Worker[Temporal Worker]
        Agent[Analytics Agent]
        PubSub[(Cloud Pub/Sub)]
        Temporal[(Temporal Cloud)]
        PG[(PostgreSQL)]
        CH[(ClickHouse)]
        Redis[(Redis)]
    end

    Tenant --> Web
    Customer --> LIFF
    Customer --> CFW
    Tenant --> ShopifyApp
    Tenant --> Agent

    Web --> API
    LIFF --> API
    ShopifyApp --> API

    CFW --> CFQueue
    CFQueue --> CH
    LINE -- Webhook --> Broker
    Ecforce -- Webhook --> Broker
    Clerk -- Webhook --> Broker
    Broker -- publish --> PubSub
    Shopify -- ネイティブPub/Sub配送 --> PubSub

    PubSub --> API

    API --> PG
    API --> CH
    API --> Redis
    API --> Temporal
    Agent --> CH

    Temporal --> Worker
    Worker --> PG
    Worker --> CH
    Worker --> LINE

2.1 サービス構成

ミライCRMは単一のモノリシックなサーバーではなく、用途の異なる複数のサービスから構成されています。主なものは次の通りです。

サービス	役割
Main API Server	メインのAPIサーバー。Connect RPCでフロントエンドからのリクエストを受ける
Webhook Broker	LINE / Clerk / ecforce などからのWebhookを受け、Pub/Subにルーティングする
Temporal Worker	キャンペーン配信・データ同期などの長時間ワークフローを実行するワーカー
Web Frontend	テナント向けの管理画面（Reactアプリ）
LIFF Web App	LINE上で動く顧客向け画面（LIFFアプリ）
Shopify App	Shopify組み込みアプリ／Flowアクション拡張
Analytics Agent	LINE × ECデータを横断で分析する、AI分析エージェント
Tracking Edge Workers	Cloudflare Workers上で動くトラッキング系エッジ関数群

2.2 マルチテナンシー

ミライCRMのマルチテナンシーは 共有モデル（Pool / Shared モデル） で構築しています。テナントごとに別DBや別スキーマを切るのではなく、1つのデータベース・1つのスキーマを全テナントで共有し、各テーブルの org_id カラムでテナントを区別する方式です。

このモデルを選んだ理由は次の通りです。

運用コストが線形に増えない: テナントごとにDBを切るサイロモデルは、N個のマイグレーション実行・N個のバックアップ・N個の接続プールを管理することになる。SaaSとしてテナント数が伸びる前提に立つと、ここを線形にしない設計が必須
横断クエリ・横断機能を作りやすい: 全テナントを横断した内部分析・運用ダッシュボード・課金集計を、追加の集約パイプラインなしで素直に書ける
デプロイ・スキーマ変更がシンプル: マイグレーションは1度流せばよく、「あるテナントだけ古いスキーマで動いている」状態が起きない

代わりに、共有モデルは テナントの取り違え事故が即セキュリティインシデントになる というリスクを背負います。だからこそ、後述するRLSのような「アプリ層が間違ってもDB側で止める」防御を設計の中心に据えています。

具体的には、すべてのテナント固有テーブルに org_id カラムを持たせ、Row Level Security (RLS) をテナント分離の最後の砦として有効にしています。リクエストごとに SET LOCAL app.org_id = ... でセッション変数へ現在のテナントIDを設定し、各テーブルに張ったRLSポリシー (tenant_isolation_policy) で「自テナントの行しか見えない／書けない」状態を強制する形です。

これにより、アプリケーションコードでうっかり WHERE org_id = ? を書き忘れても、別テナントの行が漏れることはないという、アプリケーション層の規律とは独立した防御層を持てています。 「org_id を入れ忘れたクエリは、そもそもPostgreSQLが拒否する」 状態にしておくことが、マルチテナントSaaSの安心の基盤になっています。

RLSをテストで強制する

ただし、「RLSポリシーを張る」のを忘れてしまっては元も子もありません。

そこで、ミライCRMでは 「public スキーマの全テーブルが、org_id カラム・RLS有効・tenant_isolation_policy の3点を満たしていること」をテストとして強制 しています。マイグレーションを足したPRでこのテストが落ちれば、CIの段階で気づけるようになっています。

具体的には、PostgreSQLのカタログ (pg_tables / pg_policies / information_schema.columns) を直接覗きにいって、以下のような検査を行うGoテストを書いています。

func TestRLSEnabledOnAllRequiredTables(t *testing.T) {
	t.Parallel()

	// Arrange
	db := NewTestDB(t)
	ctx := context.Background()

	// Act - Query to get all tables with their RLS status and org_id column existence
	query := `
		WITH table_info AS (
			SELECT
				t.tablename,
				t.rowsecurity AS rls_enabled,
				EXISTS (
					SELECT 1
					FROM information_schema.columns c
					WHERE c.table_schema = 'public'
					AND c.table_name = t.tablename
					AND c.column_name = 'org_id'
				) AS has_org_id,
				EXISTS (
					SELECT 1
					FROM pg_policies p
					WHERE p.schemaname = 'public'
					AND p.tablename = t.tablename
					AND p.policyname = 'tenant_isolation_policy'
				) AS has_tenant_isolation_policy
			FROM pg_tables t
			WHERE t.schemaname = 'public'
			ORDER BY t.tablename
		)
		SELECT * FROM table_info;
	`

	rows, err := db.QueryContext(ctx, query)
	require.NoError(t, err)
	defer rows.Close()

	var failedTables []string
	var tablesChecked int

	// Assert
	for rows.Next() {
		var tableName string
		var rlsEnabled bool
		var hasOrgID bool
		var hasTenantIsolationPolicy bool

		err := rows.Scan(&tableName, &rlsEnabled, &hasOrgID, &hasTenantIsolationPolicy)
		require.NoError(t, err)

		// Skip excluded tables (e.g. organizations table itself)
		if rlsExcludedTables[tableName] {
			continue
		}

		tablesChecked++

		if !hasOrgID {
			failedTables = append(failedTables,
				"Table '"+tableName+"' is missing 'org_id' column")
		}
		if !rlsEnabled {
			failedTables = append(failedTables,
				"Table '"+tableName+"' does not have RLS enabled")
		}
		if !hasTenantIsolationPolicy {
			failedTables = append(failedTables,
				"Table '"+tableName+"' does not have 'tenant_isolation_policy'")
		}
	}

	require.NoError(t, rows.Err())

	if len(failedTables) > 0 {
		t.Errorf("RLS verification failed for the following tables:\n")
		for _, failure := range failedTables {
			t.Errorf("  - %s\n", failure)
		}
	}

	assert.Greater(t, tablesChecked, 0, "No tables were checked")
}

ポイントは次の3つです。

対象を「特定のテーブル」ではなく「全テーブル」にしている: 新しいテーブルを足したとき、テスト側で何も書き換えなくても自動的に検査対象になる。RLSを張り忘れた瞬間にテストが落ちる
検査をPostgreSQL自身に問い合わせている: スキーマ定義ファイルをパースするのではなく、pg_tables / pg_policies という実態に問い合わせるので、「マイグレーションは書いたがDDLが流れていない」のようなずれも検知できる
意図的に除外したいテーブルだけ rlsExcludedTables で明示する: テナント横断のメタテーブル（organizations 自身など、ごく少数）はallowlistに入れる。「除外する判断は明示的に書かないと通らない」 のが大事で、暗黙的に抜けることを許さない

さらに、ポリシーの内容そのものがズレていないかを別テストで検証しています。

func TestRLSPolicyDefinition(t *testing.T) {
	t.Parallel()

	// Arrange
	db := NewTestDB(t)
	ctx := context.Background()

	// Act
	query := `
		SELECT tablename, policyname, permissive, roles, cmd, qual
		FROM pg_policies
		WHERE schemaname = 'public'
		AND policyname = 'tenant_isolation_policy'
		ORDER BY tablename;
	`

	rows, err := db.QueryContext(ctx, query)
	require.NoError(t, err)
	defer rows.Close()

	expectedQual := "(org_id = current_setting('app.org_id'::text))"
	policiesChecked := 0

	// Assert
	for rows.Next() {
		var tableName, policyName, permissive, cmd string
		var roles []byte
		var qual *string

		err := rows.Scan(&tableName, &policyName, &permissive, &roles, &cmd, &qual)
		require.NoError(t, err)

		if rlsExcludedTables[tableName] {
			continue
		}
		policiesChecked++

		assert.Equal(t, "tenant_isolation_policy", policyName, "Policy name mismatch for table %s", tableName)
		assert.Equal(t, "PERMISSIVE", permissive, "Policy should be PERMISSIVE for table %s", tableName)
		assert.Equal(t, "ALL", cmd, "Policy command should be ALL for table %s", tableName)
		if qual != nil {
			assert.Equal(t, expectedQual, *qual, "Policy qualification mismatch for table %s", tableName)
		}
	}

	require.NoError(t, rows.Err())
	assert.Greater(t, policiesChecked, 0, "No policies were checked")
}

こちらは「ポリシーの中身が (org_id = current_setting('app.org_id'::text)) で・PERMISSIVEで・ALL（SELECT/INSERT/UPDATE/DELETE全て）に効いていること」を全テーブル横断で検査します。万が一誰かが個別テーブルだけポリシーを間違えて作成してしまった、みたいな事故も拾えます。

「RLSを張る」というルールを人間の規律に頼らず、スキーマ自身を機械的にテストすることで、テナント分離のSLOを長期で維持できる仕組みにしています。

2.3 Webhook Broker を分離している理由

ミライCRMでは、LINE / ecforce / Clerk といった外部サービスからのWebhookを、Main API Server で直接受けるのではなく、Webhook Broker という独立した薄いサービスで一度受けてからPub/Subに流す 構成を取っています。役割としては「Webhookを受け取り、署名検証してPub/Subにpublishするだけ」のごく薄いサービスです。

なお、ShopifyはWebhookの配送先として Google Cloud Pub/Sub をネイティブにサポートしているため、Brokerを経由せず直接 Pub/Sub にpublishしています。「Brokerを噛ませる理由（受信SLAの切り離し・スパイクの吸収）」を、Shopify側のマネージドな配送機構がそのまま肩代わりしてくれる形です。

flowchart LR
    LINE[LINE Messaging API]
    Ecforce[ecforce]
    Clerk[Clerk]
    Shopify[Shopify]

    Broker[Webhook Broker<br/>署名検証 / ルーティング]
    PubSub[(Cloud Pub/Sub)]
    API[Main API Server]
    Worker[Temporal Worker]

    LINE -- Webhook --> Broker
    Ecforce -- Webhook --> Broker
    Clerk -- Webhook --> Broker
    Shopify -- ネイティブPub/Sub配送 --> PubSub

    Broker -- publish --> PubSub
    PubSub --> API
    PubSub --> Worker

あえてMain APIから切り出している理由は次の通りです。

外部サービスのSLAと自社APIのSLAを切り離す: WebhookはLINEやecforce側から見ると「受信が成功すること」が最優先で、受信に失敗するとリトライ・最悪は配送停止につながる。Main APIのデプロイ中・障害中・スロークエリの巻き添えで Webhook を取りこぼすと、LINEの友だち追加イベントやECの注文通知が欠損し、後段の業務データが恒久的に壊れる。「Webhookを取り逃さないこと」だけを責務にした、極力薄くて壊れにくいサービスを独立に置く価値が大きい
スパイクの吸収レイヤーになる: LINEの一斉メッセージ送信後の既読・クリックイベントや、ecforceのキャンペーンセール時の注文Webhookは、瞬間的に通常の数十〜数百倍のリクエストが飛んでくる。Brokerは受けたら即Pub/Subに積むだけなので、後段のMain APIやWorkerは自分のペースで消化できる。外部からの突発トラフィックがMain APIのレイテンシに直接影響しない
配送先のファンアウトをPub/Sub に任せられる: 1本のWebhookを「PostgreSQLへの反映」「ClickHouseへのイベント記録」「Temporalワークフローのトリガー」など複数の用途に流したいケースが多い。Brokerが publish した時点で、購読側を増やしても Broker 側のコード変更は不要。新しい用途を足すたびに Main API のエンドポイントを増やす必要がない
デプロイ・スケーリングを独立させる: Main API は機能追加で頻繁にデプロイされるが、Brokerは安定して動き続けてほしい。逆にBrokerは外部トラフィックの量だけで水平にスケールしたい。両者のライフサイクルを切り離すことで、Main APIのデプロイ中でもWebhook受信が継続される

要するに、Webhook Broker は「外部からのイベントを絶対に落とさない」という単一責務を引き受けて、Main APIをドメインロジックに集中させる ためのレイヤーです。実体としては薄いサービスですが、外部連携が増えるほどこの分離の効果が効いてきます。

3. 技術スタックの選定理由

まず、現在の主要な技術スタックを一覧にまとめます。

用途	Technology / Service
API インターフェース	Connect, Protobuf
フロントエンド	TypeScript, React, TanStack Router, TanStack Query, connect-web, shadcn/ui, Tailwind CSS, Vitest, happy-dom, GCS
E2E テスト	Playwright
API サーバー	Go, connect-go, sqlc, Atlas, Cloud Run
ワークフローエンジン	Temporal Cloud
データベース	Cloud SQL for PostgreSQL / ClickHouse
WAF	Cloud Armor
認証	Clerk
DB踏み台サーバー	GCE
IaC	Terraform
ソースコード管理	GitHub
CI / CD	GitHub Actions, Blacksmith
ロギング	Grafana Cloud
モニタリング / エラートラッキング	Grafana Cloud, Sentry, Slack
分析基盤	ClickHouse, dbt, lightdash
Feature Flag / プロダクトアナリティクス	Statsig

ここからは、特に判断のあった主要レイヤーについて「なぜそれを選んだのか」の話をしていきます。

3.1 バックエンド: Go

メインAPI・Webhook Broker・Temporal Worker といった主要なサーバーサイドはGoに統一しています。正直なところ私が一番経験のある得意な言語であったことが主な採用理由ですが、以下の点からもフィットしているなと感じています。

静的型付け＋シンプルな言語仕様で、新しく入ったメンバーがコードを読み進めやすい
並行処理（goroutine / channel）が言語レベルで自然に書ける。ミライCRMでは「LINEに対して数十万通のメッセージを並行して送る」ような処理が日常的に必要で、ここがGoの得意領域と相性が良い
バイナリが単一でデプロイが軽く、Cloud Run のような Serverless container との組み合わせがそのまま素直にハマる
gRPC / Connect / sqlc / Temporal SDK など、必要な周辺ライブラリのエコシステムが厚い

また開発当初の想定にはなかったですが、黒魔術が少なく可読性が高いので、AIコーディングでもその恩恵を感じています。

3.2 バックエンド: TypeScript（Cloudflare Workers / Analytics Agent）

メインのサーバーサイドはGoで揃えていますが、性質が大きく異なる2つのワークロードについては TypeScript で書いています。

Tracking Edge Workers: Cloudflare Workers 上で動くWebトラッキング／リンククリック計測のエッジ関数群
Analytics Agent: LINE × ECデータを横断で問い合わせるAI分析エージェント

それぞれGoではなくTypeScriptを採用している理由は次の通りです。

Tracking Edge Workers

ランタイムが V8 isolates なので、第一級の言語サポートはJavaScript / TypeScript。GoをWASM経由で動かすこともできるが、コールドスタートとバンドルサイズで素直に不利
Hono / Wrangler / Cloudflare 公式SDKといったエッジ周辺のエコシステムがTypeScript前提で揃っており、wrangler deploy するだけで型付きのバインディング（KV, Queues, Secrets など）がそのまま使える
ロジック自体が薄く（受け取って Cloudflare Queues に積むだけ）、Goに揃えることによる運用上のメリットよりも、エッジネイティブな書き方ができるメリットの方が大きい

Analytics Agent

LLMエージェント周辺のツーリング（Mastra・MCPクライアント・ストリーミングUIプロトコルなど）がTypeScript / Pythonに集中している。Goから扱うと自分でラッパーを書き続ける羽目になり、エコシステムへの追従コストが線形に効いてくる
AI機能はプロンプト・ツール定義・レスポンス整形の変更サイクルが非常に速い領域で、エコシステムの最新版にすぐ乗れることがそのまま開発速度になる

「Goに統一する」ことでアーキテクチャ全体を揃える価値より、ランタイム・エコシステムが寄っている領域は素直にそのエコシステムの言語で書く 方が、現状のチーム規模では結果として効率が良いと判断しています。

3.3 フロントエンド: React + TanStack Router

フロントエンドの選定は、ミライCRMの管理画面が 「ログイン後のテナント向け管理画面」 という性格を強く持つ前提で決めています。SEOや初期表示HTMLが要件にならないため、SSRなしのSPAで十分という判断です。

React: フロントエンドのデファクトスタンダード。エコシステム・知見・採用市場のいずれも厚く、長期で運用するプロダクトのフロントエンド基盤として安全な選択
TanStack Router: SPA前提のルーターとして、ファイルベースルーティング・型安全なsearch params・ルートローダーでのデータ先読み・Suspense/Error境界の宣言的な扱いが揃っており現状もっとも噛み合う。CRMの画面では「URLにフィルタ・ページネーション状態を載せる」「ルート遷移時にデータをまとめて取得する」のが日常的なので、ここの型安全性が効く
TanStack Query: サーバーステートはこれに集約。Connect RPCの生成クライアントと組み合わせると、createQueryOptions(rpcFn, params, { transport }) のようにクエリキー管理まで含めて自然に書ける
TanStack Form + valibot: ノーコードフォームビルダーやキャンペーン編集など、フォームの状態管理が複雑な画面が多い。TanStack Form のフィールドAPIは入れ子構造に強く、valibotとの組み合わせで型安全なバリデーションが書ける
Vite: SPA前提なら、開発サーバーの起動・HMRが圧倒的に速いViteを選ばない理由がない
Tailwind CSS v4 + shadcn/ui (Base UI): 業務画面のように「同じパターンの画面を量産する」用途では、デザインシステムをトークンとプリミティブで管理した方が早い。DESIGN.md でセマンティックトークン・スペーシング・コンポーネント方針を厳格に定義し、ぶれない密度のUIを保っている
oxlint + oxfmt: ESLint + Prettierから移行。Rustベースで速く、tsgolintで型を見たlintも回せる

3.4 API: Connect RPC（gRPC互換）+ Protocol Buffers

APIインターフェースには Connect RPC を採用しています。connect-go でバックエンドを実装し、connect-es で生成したクライアントを Web / LIFF / Shopify アプリから利用しています。

Connect を選んだ理由:

Protocol Buffersでスキーマを書けば、Go と TypeScript の両方の型・クライアント・サーバースタブが一気に生成される
API定義がOpenAPI YAMLより圧倒的に読みやすい: Protobufは型・サービス・メソッドが専用構文で構造化されているので、スキーマそのものがそのまま仕様書として読める。OpenAPIの冗長なYAMLと比べて、PRレビューでも差分が追いやすい
HTTP/1.1にネイティブ対応しているので、gRPCと違ってブラウザから素直に喋れる（Protobuf binary と JSON のどちらも first-class なエンコーディングとして選べる）。「ブラウザのために別途REST層を維持する」という典型的な二重実装の手間がない
同じハンドラで Connect / gRPC / gRPC-Web を同時に受けられるので、サーバー間通信で gRPC を使いたくなっても別実装を用意する必要がない
protovalidateによる宣言的なバリデーションが柔軟: スキーマに制約を直接書けて、サーバー側はインターセプター1つで全エンドポイントに自動適用できる。クライアント側にも同じ制約を配れるので、バリデーションロジックの二重実装が要らない
ストリーミング・エラーコード・インターセプターが標準化されているので、認可・ロギング・監査ログのミドルウェアが書きやすい

「OpenAPIとgRPCの中間で、現実的に最も摩擦が少ないものを選ぶ」と考えたとき、Connectが最もハマりました。

3.5 データストア: PostgreSQL + ClickHouse + Redis

データの種類によってストアを使い分けています。

PostgreSQL（メインデータ）

テナント・顧客・キャンペーン・オーディエンス・フォームなど、「正」になる業務データはPostgreSQLに置く
トランザクションが必要、JOINが頻繁、強い整合性が要る、というCRUD的なドメインのほぼ全てを引き受ける
スキーマ管理は Atlas で宣言的に行い、SQLからGoコードへの変換は次節で触れる sqlc に任せている

ClickHouse（イベント・顧客プロフィール・セグメント配信のデータソース）

ミライCRMにおけるClickHouseは、「裏側で運用者が分析に使うDB」ではなく、テナントの顧客向け機能そのものを駆動するオペレーショナルなデータソース として位置付けているのが特徴です。

具体的には、ClickHouseに次のようなデータを置いています。

顧客イベント（Webトラッキング、LINEイベント、メッセージ開封・クリックなど）
顧客プロフィール（属性の最新値）
セグメント所属（顧客 × セグメントのメンバーシップ・履歴）
監査・変更ログ（「いつ・誰の・どの属性が変わったか」）

そして、これらのデータは内部分析だけでなく、テナントが画面から実行するセグメント配信のクエリ先 としてリアルタイムに引かれます。「過去30日にカート追加したが未購入」「特定LPの閲覧履歴あり×特定商品の購入回数3回以上」のようなEC × LINEを横断した条件で対象顧客を絞り込み、配信ジョブの宛先リストとして即座に返す——というオペレーショナルな経路にClickHouseが直接乗っているのが、ミライCRMにおけるClickHouseの一番の特徴です。

このアーキテクチャを選んだ理由は次の通りです。

数千万〜数億行のイベント／プロフィールから、数秒以内にセグメント対象を返す必要がある: PostgreSQLでは現実的でない件数の絞り込みを、テナント運用者が画面操作で繰り返す。列指向＋MergeTreeエンジンの圧倒的な集計性能がそのまま機能要件になる
「分析用DB」と「配信用DB」を二重化したくない: 「Postgresで配信用、ClickHouseで分析用」のように二系統を持つと、片方だけ更新が遅れたり、定義がズレたりする。配信に使った絞り込み条件と、その配信の分析が、同じテーブル・同じ定義で説明できることに価値がある
イベントの書き込みスループットを犠牲にしない: トラッキングやLINEイベントは数十万〜数百万 events/day レベルで流れ込む。ClickHouseはこの書き込みを直接受けつつ、同時に配信用のクエリにも応えられる
マルチテナント前提のスキーマ設計: すべてのテーブルでソートキーに org_id を含め、テナントごとにクエリがパーティション・スキップで効率化されるようにしている

テナントが画面操作のたびに数千万〜数億行のイベント／プロフィールをリアルタイムに絞り込む——という要件には、書き込みと集計の両方を同時にこなせる リアルタイム分析DB が不可欠です。ミライCRMでは、その役割を担うストアとしてClickHouseをテナントの顧客向け機能の中核に据えています。

Incremental Materialized View で event log から「最新状態」を導出する

このオペレーショナル用途を成り立たせている最大の武器が、ClickHouseの Incremental Materialized View です。

ClickHouseのMaterialized Viewは、RDBMSの「定期的にREFRESHして更新するスナップショット」とは性質がまったく違います。ClickHouse公式ドキュメントの表現を借りれば、Materialized View は “a trigger that runs a query on blocks of data as they’re inserted into a table” — ソーステーブルへINSERTされるブロック単位で起動し、そのブロックに対してだけクエリを走らせて結果テーブルに流し込んでいく インクリメンタルな差分集計パイプライン です。ReplacingMergeTree や AggregatingMergeTree などのMergeTree系エンジンと組み合わせると、書き込みが続くなかでも「最新値」「集計値」が常に最新の状態へ畳み込まれ続けます。

具体例: 「顧客属性ログ」から「最新顧客属性」を導出する

ミライCRMでは、顧客の属性（例: 「会員ランク」「最終購入日」「累計購入金額」など）を、追記専用のイベントログと、最新値だけを持つテーブルの二段構成 で管理しています。

顧客属性ログ（MergeTree）: 属性が書かれるたびに1行追記されるイベントログ。過去にどう変化したか をすべて残す
最新顧客属性（ReplacingMergeTree）: 顧客 × 属性キーごとに 最新値だけ を持つテーブル。セグメント配信はここを読む

この2つを接続するのが「顧客属性集約MV」と呼んでいる Materialized View です。

CREATE MATERIALIZED VIEW customer_traits_mv TO customer_traits AS
SELECT
    org_id,
    customer_id,
    source,
    key,
    argMax(value, timestamp)      AS value,
    argMax(value_type, timestamp) AS value_type,
    argMax(timestamp, timestamp)  AS last_timestamp
FROM customer_trait_logs
GROUP BY org_id, customer_id, source, key;

顧客属性ログにINSERTブロックが入るたびに、そのブロックの中身に対してだけ argMax 集計が走り、結果が最新顧客属性テーブルに流し込まれます。MV内部の FROM 句も「テーブル全体」ではなく「今入ってきたブロック」に対して評価されるので、毎回フルテーブルを scan することはありません。最新顧客属性テーブルは ReplacingMergeTree(last_timestamp) として宣言しており、last_timestamp をバージョンカラムに使うことで、ブロックをまたいだ重複もバックグラウンドマージで最新のタイムスタンプのものに収束していきます。マージは非同期なので、読み出し時には未マージの重複が見えうる点を考慮し、参照側は FINAL もしくは argMax で最新値を取り出すルールにしています。

flowchart LR
    Source[(LINE / Webトラッキング / ECイベント)]
    Logs[("顧客属性ログ<br/>MergeTree / append-only log")]
    MV{{顧客属性集約MV<br/>argMax by timestamp}}
    Latest[("最新顧客属性<br/>ReplacingMergeTree<br/>最新値のみ")]
    Segment[セグメント配信の絞り込みクエリ]

    Source -- 属性書き込みイベント --> Logs
    Logs -. INSERTブロックごとにtrigger .-> MV
    MV -- 集計結果を流し込む --> Latest
    Latest -- 最新値を読む --> Segment

結果として、

書き込み側はイベントログに append するだけ でよい（イベントとしての履歴も残る）
読み込み側はいつでも最新顧客属性テーブルを読めば最新値が手に入る

という状態が、夜間バッチや別パイプラインを動かすことなく INSERTそのものによって維持され続ける わけです。セグメント配信で「会員ランクが Gold の顧客」を絞り込みたいときは、最新顧客属性テーブルを「ランク属性が Gold」という条件で引くだけで済み、生のイベントログを毎回 scan して argMax を走らせる必要はありません。

同じパターンを別の用途にも展開している

「追記専用ログ → 最新状態テーブル」のパターンは、ミライCRMの様々な機能で使い回されています。

セグメント所属の最新状態: 「いつ・誰がセグメントに入った／出た」を追記する セグメント出入りログ から、argMax で最新の所属状態だけを持つ 最新セグメント所属テーブル に畳み込む。配信時の宛先リスト生成はこのテーブルを叩くので、過去の出入りログを scan する必要がない
Webトラッキング → 顧客イベントへの identity resolution: Webサイト上の行動は、ログイン前の訪問者では 匿名ID でしか識別できないため、生イベントは一旦 匿名イベントログ に溜まる。これを 匿名ID → 顧客ID 対応テーブル と JOIN する MV を2本動かして、顧客イベントの正本テーブルに流し込んでいる
- リアルタイムMV: 匿名イベントが入った瞬間、すでに対応が存在すれば顧客IDを解決して顧客イベントテーブルに流す
- バックフィルMV: identify で新しい対応が作られた瞬間、その匿名IDに紐づく過去の匿名イベントをまとめて顧客イベントテーブルに流し込む
このMV2本のおかげで、identify が 先か後か を気にせず、後段のセグメント配信・分析からは「同一顧客のイベント」として一貫して見える状態が、別パイプライン無しに保てる

ポイントは次の2つです。

「バッチ集計ジョブ」を運用しなくていい: AirflowやCloud Schedulerで動く「夜間集計ジョブ」を一切持たず、INSERTそのものが派生テーブルを更新する。失敗・遅延・再実行といった夜間バッチ特有の運用コストが消える
「集計」と「紐付け (JOIN)」の両方をINSERT契機で宣言的に書ける: 「最新値への畳み込み（最新顧客属性 / 最新セグメント所属）」も「identity resolution 付きの転送（Webトラッキング → 顧客イベント）」も、同じMVの仕組みで表現できる。新しい派生テーブル・新しい結合先が必要になっても、別パイプラインや夜間ジョブを増やさずに済む

「イベントは1回入れるだけで、セグメント配信にも分析にも、必要な切り口の集計結果が常に最新で手元にある」という状態を作れること——これがミライCRMでClickHouseを選んだ最大の理由です。

私たちがCRMの中心でもあるイベントをClickHouseを活用してどのように扱っているかについてはまた別途詳細記事でも話せればと思っています！

Redis（キャッシュ／セッション）

RPCのレスポンスキャッシュなどで利用
「壊れても復元できる」ものに限定して使うルールで使用

3.6 SQL → Go の橋渡し: sqlc

PostgreSQL とのアプリケーション層のやり取りには sqlc を採用しています。SQL クエリを書いておくと、コード生成コマンドで型付きのGoコードに変換される形です。

選定の理由は次の通りです。

「SQLが書ければ、そのまま型付きGoコードになる」というモデルの素直さ: ORMの抽象化を覚え直す必要がない。新しく入ったエンジニアでも、SQLが読めれば即戦力になる
クエリの実態をレビューできる: ORMだと最終的に発行されるSQLが隠れがちだが、sqlcは「人間が書いたSQLがそのままDBに飛ぶ」モデル。N+1・インデックス活用・実行計画といった性能議論が、PRレビューの中でそのまま行える
スキーマと型のずれが必ずコンパイルエラーになる: 列を増減した／型を変えた瞬間に、それを使っている全クエリ・全Goコードがコンパイルエラーで一気に浮かび上がる。マイグレーションのリスクが目に見える形で減る

「ORMの黒魔術と生database/sqlの型安全性のなさ」のちょうど中間を取れていて、長期保守を前提にしたバックエンドの選択として現状もっとも納得感があります。

3.7 非同期処理: Cloud Pub/Sub と Temporal の使い分け

非同期処理は Pub/Sub と Temporal の二段構えです。これは意図的に使い分けています。

flowchart LR
    subgraph Inputs["入力"]
        Webhook[LINE / Shopify / ecforce / Clerk<br/>Webhook]
        Track[Tracking events]
        UI[配信開始ボタン<br/>同期API初期化]
    end

    subgraph Light["軽量・ステートレス → Pub/Sub"]
        PubSub[(Cloud Pub/Sub)]
        Subs["Subscribers<br/>(at-least-once / idempotent)"]
        CH[(ClickHouse)]
        PG1[(PostgreSQL)]
    end

    subgraph Heavy["長時間・多段階・要リトライ → Temporal"]
        Temporal[(Temporal Cloud)]
        WF["Workflow<br/>キャンペーン配信 / 大量同期"]
        Acts["Activities<br/>(LINE送信 / Shopify fetch)"]
        PG2[(PostgreSQL)]
        LINEAPI[LINE Messaging API]
    end

    Webhook --> PubSub
    Track --> PubSub
    PubSub --> Subs
    Subs --> CH
    Subs --> PG1

    UI --> Temporal
    Temporal --> WF
    WF --> Acts
    Acts --> LINEAPI
    Acts --> PG2

Cloud Pub/Sub を使うケース:

単発の軽いイベント配信（Webhook受信 → ファンアウト、トラッキングイベント → ClickHouse書き込み）
「at-least-onceで投げて、消費側が冪等に処理すればよい」もの
高スループットが要るが、ステートレスな処理

Temporal を使うケース:

LINEへのキャンペーン配信のような、長時間・多段階・部分失敗のリトライが必要な処理
ShopifyやecforceなどECプラットフォームからの大量データ同期（顧客・注文の初回ロード）などのバッチ処理
シナリオなど「途中でクラッシュしても、決定論的に最後まで進む」ことが求められるワークフロー

LINEへの一斉配信は、対象顧客が数万件あり、レート制限を考慮しつつ送信し、途中でAPIエラーがあれば該当の顧客だけリトライする、という処理が要求されます。これを「Pub/Sub + 自前で進捗テーブル」で組むと、プログレスの正しさを担保するのが想像以上に大変で、結局自前のワークフローエンジンを書くことになります。Temporalはこの問題をワークフローのコードがそのまま耐久性のある実行履歴になる形で解決してくれるので、運用上もっとも信頼性が高いという判断です。

3.8 認証: Clerk

認証・組織管理には Clerk を使っています。

マルチテナント前提のCRMでは、ユーザー × 組織 × ロールの管理が初日から必要で、ここを自前で組むのは費用対効果が悪い
ClerkはOrganizations / Invitations / Roles をマネージドで提供していて、ミライCRMの「組織」モデルとそのまま噛み合った
WebhookでユーザーやOrganization の変化を webhook_broker 経由で受け取り、内部の organizations / users テーブルと整合性を取っている

「認証は買って、ドメインに集中する」という典型的な選択です。

3.9 エッジ: Cloudflare Workers

Webトラッキングやリンククリックのトラッキングには Cloudflare Workers を使用しています。

ユーザーに最も近い場所で受けたい（レイテンシが顧客体験そのもの）
1リクエストの処理が軽い（受け取って Cloudflare Queues に積むだけ）ので、Workers のコストモデル・コールドスタートの薄さが効く

「重い処理はGCPのCloud Run、薄くて広いトラッキングはCloudflare Workers」と役割を分けています。

3.10 インフラ: Google Cloud / Cloud Run

インフラは GCP に統一しています。

Cloud Run: Goバイナリ単体で動くワークロードが多く、Kubernetesを抱えるほどの運用余力は割きたくない。Cloud Runは「コンテナをそのままデプロイ」「リクエストベース課金」「スケールを意識しない」のバランスが良い
Cloud Pub/Sub: 上で書いた通り、軽い非同期メッセージング基盤として
Cloud Storage: 画像・添付ファイルなどの永続オブジェクト
Cloud Scheduler: 定期ジョブの起動（ローカルでは cron で代替）

「マネージドに寄せられるところは全部寄せて、ドメインのコードを書く時間を最大化する」のが基本方針です。

4. これから

ここまでが2026年5月時点のミライCRMの全体像です。今後は、

顧客イベントを使ったレコメンデーションや、CRMのAIエージェント化を本格化する

といった方向で、引き続きアーキテクチャを進化させていく予定です。

技術選定のひとつひとつには「なぜこれを選んだか」の理由があり、その背景を共有することで、新しく入ってくるメンバーが既存のコードに納得感を持って手を入れられるようになると考えています。気になる箇所や深掘りしたいテーマがあれば、続編として個別の技術トピックの記事も書いていきます。