안녕하세요!

Federico Calò

Sviluppatore Software | Divulgatore Tecnico

Creo applicazioni web moderne e strumenti digitali personalizzati per aiutare le attività a crescere attraverso l'innovazione tecnologica. La mia passione è unire informatica ed economia per generare valore reale.

연락하기

소개

La mia passione per l'informatica è nata tra i banchi dell'Istituto Tecnico Commerciale di Maglie, dove ho scoperto il potere della programmazione e il fascino di creare soluzioni digitali. Fin da subito, ho capito che l'informatica non era solo codice, ma uno strumento straordinario per trasformare idee in realtà.

Durante gli studi superiori in Sistemi Informativi Aziendali, ho iniziato a intrecciare informatica ed economia, comprendendo come la tecnologia possa essere il motore della crescita per qualsiasi attività. Questa visione mi ha accompagnato all'Università degli Studi di Bari, dove ho conseguito la Laurea in Informatica, approfondendo le mie competenze tecniche e la mia passione per lo sviluppo software.

Oggi metto questa esperienza al servizio di imprese, professionisti e startup, creando soluzioni digitali su misura che automatizzano processi, ottimizzano risorse e aprono nuove opportunità di business. Perché la vera innovazione inizia quando la tecnologia incontra le esigenze reali delle persone.

역량

Analisi Dati & Modelli Previsionali

Trasformo i dati in insights strategici con analisi approfondite e modelli predittivi per decisioni informate

프로세스 자동화

Creo strumenti personalizzati che automatizzano operazioni ripetitive e liberano tempo per attività a valore aggiunto

맞춤 시스템

Sviluppo sistemi software su misura, dalle integrazioni tra piattaforme alle dashboard personalizzate

const federico = {
  nome: "Federico Calò",
  ruolo: "Sviluppatore Software",
  città: "Bari, Italia",
  missione: "Aiutare attraverso l'informatica",
  passioni: [
    "Codice Pulito",
    "Innovazione",
    "Crescita Continua"
  ]
};

미션

Credo fermamente che l'informatica sia lo strumento più potente per trasformare le idee in realtà e migliorare la vita delle persone.

🚀

기술의 민주화

La mia missione è rendere l'informatica accessibile a tutti: dalle piccole imprese locali alle startup innovative, fino ai professionisti che vogliono digitalizzare la propria attività. Ogni realtà merita di sfruttare le potenzialità del digitale.

💡

IT와 비즈니스 통합

Non è solo questione di scrivere codice: è capire come la tecnologia possa generare valore reale. Intrecciando competenze informatiche e visione economica, aiuto le attività a crescere, ottimizzare processi e raggiungere nuovi traguardi di efficienza e redditività.

🎯

맞춤 솔루션

Ogni attività è unica, e così devono esserlo le soluzioni. Sviluppo strumenti personalizzati che rispondono alle esigenze specifiche di ciascun cliente, automatizzando processi ripetitivi e liberando tempo per ciò che conta davvero: far crescere il business.

기술로 비즈니스를 혁신하세요

Dicembre 2024

Visualizza

Master SQL

RoadMap.sh

Novembre 2024

Visualizza

Oracle Certified Foundations Associate

Oracle

Ottobre 2024

Visualizza

People Leadership Credential

Connect

Settembre 2024

💻 Linguaggi & Tecnologie

☕Java

🐍Python

📜JavaScript

🅰️Angular

⚛️React

🔷TypeScript

🗄️SQL

🐘PHP

🎨CSS/SCSS

🔧Node.js

🐳Docker

🌿Git

💼

12/2024 - Presente

Custom Software Engineering Analyst

Accenture

Bari, Puglia, Italia · Ibrida Analisi e sviluppo di sistemi informatici attraverso l'utilizzo di Java e Quarkus in Health and Public Sector. Formazione continua su tecnologie moderne per la creazione di soluzioni software personalizzate ed efficienti e sugli agenti.

💼

06/2022 - 12/2024

Analista software e Back End Developer Associate Consultant

Links Management and Technology SpA

Esperienza nell'analisi di sistemi software as-is e flussi ETL utilizzando PowerCenter. Formazione completata su Spring Boot per lo sviluppo di applicazioni backend moderne e scalabili. Sviluppatore Backend specializzato in Spring Boot, con esperienza in progettazione di database, analisi, sviluppo e testing dei task assegnati.

💼

02/2021 - 10/2021

Programmatore software

Adesso.it (prima era WebScience srl)

Esperienza nell'analisi AS-IS e TO-BE, evoluzioni SEO ed evoluzioni website per migliorare le performance e l'engagement degli utenti.

🎓

2018 - 2025

Laurea in Informatica

Università degli Studi di Bari Aldo Moro

Bachelor's degree in Computer Science, focusing on software engineering, algorithms, and modern development practices.

📚

2013 - 2018

Diploma - Sistemi Informativi Aziendali

Istituto Tecnico Commerciale di Maglie

Technical diploma specializing in Business Information Systems, combining IT knowledge with business management.

연락하기

프로젝트가 있으신가요? 아래 양식을 작성해 주시면 빠르게 답변드리겠습니다.

* Campi obbligatori. I tuoi dati saranno utilizzati solo per rispondere alla tua richiesta.

게임 원격 측정 파이프라인: Scala의 플레이어 분석

현대의 멀티플레이어 게임은 매일 수십억 개의 이벤트를 생성합니다. 즉, 플레이어가 움직이고, 공격을 수행하고, 아이템을 구매하고, 게임을 포기하세요. Fortnite는 등록된 플레이어가 3억 5천만 명을 넘어섰고 수십 명이 생성되었습니다. 하루에 테라바이트의 데이터가 발생합니다. 리그 오브 레전드는 완료된 경기당 100개 이상의 변수를 수집합니다. 전화 의무는 발사된 모든 총알, 모든 사망, 대기 시간이 임계 임계값을 초과하는 모든 프레임을 기록합니다.

이 엄청난 양의 데이터는 배경 소음이 아니라 게임의 신경계입니다. 그리고 공개할 원격 측정 플레이어가 세 번째 레벨 이후에 포기하는 이유, 메타에서 어떤 무기가 너무 강한지, 어느 서버 지역인지 피크 시간 동안 지연이 발생하고 일부 사용자가 지불을 중단하기까지 걸리는 시간. 강력한 원격 측정 파이프라인이 없으면 눈을 가린 채 200km/h의 속도로 운전하게 됩니다.

이 기사에서는 하나를 만듭니다. 산업용 파이프라인 원격 측정 게임 엔드투엔드: 컬렉션에서 클라이언트 및 서버 측 이벤트, Apache Kafka를 통한 수집, Apache Flink를 통한 실시간 처리, 기록 분석을 위한 데이터 웨어하우스와 LiveOps 결정을 위한 대시보드까지. 우리도 볼 것이다 구현 방법 플레이어 세분화 그리고 이탈 예측 직접 파이프라인에서.

무엇을 배울 것인가

게임 이벤트 분류: 플레이어 이벤트, 게임플레이 이벤트, 경제 이벤트, 시스템 이벤트
파이프라인 아키텍처: 클라이언트 SDK, 이벤트 버스, 스트림 처리, 데이터 웨어하우스
실시간 분석을 위해 Kafka, Flink 및 ClickHouse를 사용한 구현
유효성 검사를 위해 Avro 및 스키마 레지스트리를 사용하는 메시지 스키마
실시간 RFM(Recency, Frequency, Monetary) 플레이어 세분화
Flink 파이프라인의 기능 엔지니어링을 통한 이탈 예측
LiveOps 결정을 위한 유입경로 분석 및 유지 지표
데이터 품질, 중복 제거 및 지연 이벤트 처리

1. 게임 이벤트 분류

파이프라인을 구축하기 전에 무엇을 수집하는지 알아야 합니다. 게임 이벤트는 4가지로 구분됩니다. 주요 카테고리는 각각 빈도, 우선순위, 수집 방법이 다릅니다.

범주	Esempi	빈도	우선 사항	보유
플레이어 이벤트	로그인, 로그아웃, 세션 시작, 레벨 업, 업적	낮음(1-10/h)	높은	영원히
게임플레이 이벤트	죽이기, 죽음, match_start, 능력_사용, zone_enter	높음(100-1000/분)	평균	90일
경제 이벤트	구매, item_grant, 통화_수입, shop_open	낮음(0-5/h)	비판	영원히
시스템 이벤트	fps_drop, packet_loss, 재연결, crash_report	중간(10-100/분)	높은	30일
사교 행사	친구_추가, 파티_참여, 채팅_전송, 신고_플레이어	낮음(0-20/h)	평균	180일

각 이벤트에는 표준 필드가 포함된 공통 구조(봉투)가 있어야 합니다. event_id, event_type, player_id, session_id, server_timestamp, client_timestamp, 유형별 페이로드. 엄격하고 근본적인 계획 다운스트림 데이터 품질.

// Schema base evento telemetria (TypeScript/protobuf-like)
interface TelemetryEvent {
  // Envelope comune a tutti gli eventi
  event_id: string;        // UUID v4 per deduplicazione
  event_type: string;      // "player.level_up", "gameplay.kill", etc.
  schema_version: string;  // "1.2.0" per compatibilità

  // Identita
  player_id: string;       // ID univoco giocatore
  session_id: string;      // ID sessione corrente
  game_build: string;      // "2024.12.1" versione client

  // Timestamp dual (client + server)
  client_ts: number;       // Unix ms dal client (non fidarsi ciecamente)
  server_ts: number;       // Unix ms dal server (source of truth)
  client_tz: string;       // "Europe/Rome" per analytics geo

  // Contesto
  platform: "pc" | "console" | "mobile";
  region: string;          // "eu-west-1"
  match_id?: string;       // Se in una partita

  // Payload specifico del tipo
  payload: Record<string, unknown>;
}

// Esempio evento kill
const killEvent: TelemetryEvent = {
  event_id: "a3f7e2d1-8c4b-4e9a-b1f2-3d5e7c9a1b2c",
  event_type: "gameplay.kill",
  schema_version: "1.2.0",
  player_id: "player_12345",
  session_id: "sess_abcdef",
  game_build: "2024.12.1",
  client_ts: 1703123456789,
  server_ts: 1703123456812,
  client_tz: "Europe/Rome",
  platform: "pc",
  region: "eu-west-1",
  match_id: "match_789xyz",
  payload: {
    victim_id: "player_67890",
    weapon: "assault_rifle",
    headshot: true,
    distance_meters: 47.3,
    position: { x: 145.2, y: 89.1, z: 12.0 },
    ttk_ms: 320
  }
};

2. 파이프라인 아키텍처: 클라이언트에서 대시보드까지

산업용 게임 원격 측정 파이프라인의 아키텍처는 다음 패턴을 따릅니다. 람다 아키텍처 또는 최신 버전에서는 카파 건축 단일 스트림 처리 계층 실시간 및 과거 분석을 모두 제공합니다.

파이프라인 구성요소


레이어
요소
기술
역할


수집
클라이언트 SDK
타입스크립트/C++/유니티
버퍼링, 일괄 처리, 재시도

수집
원격 측정 게이트웨이
이동/특사
인증, 속도 제한, 팬아웃

음식물 섭취
이벤트 버스
아파치 카프카
내구성, 재생, 주문

처리
스트림 엔진
아파치 플링크
실시간 분석, 강화

피복재
OLAP 데이터베이스
클릭하우스
수십억 행에 대한 빠른 쿼리

피복재
핫 스토어
레디스
LiveOps에 대한 실시간 측정항목

심상
대시보드
그라파나/메타베이스
LiveOps 대시보드 및 분석

3. 클라이언트 SDK: 버퍼링 및 일괄 처리

각 이벤트를 개별적으로 서버에 보내는 것은 엄청난 네트워크 오버헤드를 초래하는 전형적인 실패입니다. 좋은 클라이언트 SDK는 로컬 버퍼링 e 일괄 전송: 이벤트 메모리 내 버퍼에 축적되어 주기적으로 또는 버퍼가 특정 수준에 도달하면 전송됩니다. 크기. 네트워크 장애가 발생한 경우 SDK는 디스크 버퍼 이벤트를 놓치지 않도록.

// Client SDK di telemetria in TypeScript
class TelemetrySDK {
  private buffer: TelemetryEvent[] = [];
  private diskBuffer: DiskQueue;
  private readonly BATCH_SIZE = 100;
  private readonly FLUSH_INTERVAL_MS = 5000;
  private readonly MAX_RETRY_ATTEMPTS = 3;

  constructor(private config: SDKConfig) {
    this.diskBuffer = new DiskQueue('telemetry_offline');
    this.startFlushLoop();
    this.startOfflineRetryLoop();
  }

  // Registra un evento nel buffer in-memory
  track(eventType: string, payload: Record<string, unknown>): void {
    const event: TelemetryEvent = {
      event_id: crypto.randomUUID(),
      event_type: eventType,
      schema_version: "1.2.0",
      player_id: this.config.playerId,
      session_id: this.config.sessionId,
      game_build: this.config.gameBuild,
      client_ts: Date.now(),
      server_ts: 0, // Valorizzato dal server
      client_tz: Intl.DateTimeFormat().resolvedOptions().timeZone,
      platform: this.config.platform,
      region: this.config.region,
      payload
    };

    this.buffer.push(event);

    if (this.buffer.length >= this.BATCH_SIZE) {
      this.flush(); // Flush immediato se buffer pieno
    }
  }

  private async flush(): Promise<void> {
    if (this.buffer.length === 0) return;

    const batch = this.buffer.splice(0, this.BATCH_SIZE);

    try {
      await this.sendBatch(batch);
    } catch (error) {
      // Fallback su disk buffer per invio offline
      console.warn('Telemetry send failed, persisting to disk', error);
      this.diskBuffer.enqueue(batch);
    }
  }

  private async sendBatch(events: TelemetryEvent[]): Promise<void> {
    const response = await fetch(this.config.gatewayUrl + '/v1/events', {
      method: 'POST',
      headers: {
        'Content-Type': 'application/x-ndjson',
        'X-Game-Build': this.config.gameBuild,
        'Authorization': `Bearer ${this.config.apiKey}`
      },
      // NDJSON: una riga per evento, più efficiente di JSON array
      body: events.map(e => JSON.stringify(e)).join('\n'),
      signal: AbortSignal.timeout(5000) // 5s timeout
    });

    if (!response.ok) {
      throw new Error(`Gateway error: ${response.status}`);
    }
  }

  private startFlushLoop(): void {
    setInterval(() => this.flush(), this.FLUSH_INTERVAL_MS);
  }

  private startOfflineRetryLoop(): void {
    setInterval(async () => {
      const pendingBatch = await this.diskBuffer.dequeue(this.BATCH_SIZE);
      if (pendingBatch.length > 0) {
        try {
          await this.sendBatch(pendingBatch);
        } catch {
          this.diskBuffer.requeue(pendingBatch);
        }
      }
    }, 30_000); // Retry ogni 30s
  }
}

4. Kafka 주제 및 스키마 레지스트리

파이프라인의 핵심은 Apache Kafka입니다. 이벤트는 카테고리별로 별도의 주제로 게시되며, 소비자가 관심 있는 이벤트 유형에만 등록할 수 있도록 허용합니다. 그만큼 스키마 레지스트리 Confluent는 각 메시지가 정의된 Avro 스키마를 준수하는지 확인하여 잘못된 형식의 메시지를 차단합니다. 데이터 웨어하우스를 오염시키기 전에

# Schema Avro per TelemetryEvent (Avro IDL)
{
  "type": "record",
  "name": "TelemetryEvent",
  "namespace": "io.gamestudio.telemetry",
  "fields": [
    { "name": "event_id", "type": "string" },
    { "name": "event_type", "type": "string" },
    { "name": "schema_version", "type": "string" },
    { "name": "player_id", "type": "string" },
    { "name": "session_id", "type": "string" },
    { "name": "game_build", "type": "string" },
    { "name": "client_ts", "type": "long", "logicalType": "timestamp-millis" },
    { "name": "server_ts", "type": "long", "logicalType": "timestamp-millis" },
    { "name": "platform", "type": { "type": "enum", "name": "Platform",
      "symbols": ["pc", "console", "mobile"] } },
    { "name": "region", "type": "string" },
    { "name": "match_id", "type": ["null", "string"], "default": null },
    { "name": "payload", "type": { "type": "map", "values": "string" } }
  ]
}

# Configurazione Kafka topics con partitioning
# Topic per categoria, partitionato per player_id (ordering per player)

kafka-topics.sh --create \
  --bootstrap-server kafka:9092 \
  --topic game.player.events \
  --partitions 32 \
  --replication-factor 3 \
  --config retention.ms=2592000000    # 30 giorni
  --config compression.type=lz4      # 60% riduzione size
  --config segment.ms=3600000        # Roll segment ogni ora

kafka-topics.sh --create \
  --bootstrap-server kafka:9092 \
  --topic game.gameplay.events \
  --partitions 128 \                  # Più partizioni: alta throughput
  --replication-factor 3 \
  --config retention.ms=7776000000    # 90 giorni
  --config compression.type=snappy

kafka-topics.sh --create \
  --bootstrap-server kafka:9092 \
  --topic game.economy.events \
  --partitions 32 \
  --replication-factor 3 \
  --config retention.ms=-1            # Forever (economia critica)
  --config cleanup.policy=compact     # Compact per mantenerla

5. Flink 스트림 처리: 실시간 분석

Apache Flink는 EA, Riot Games 및 기타 주요 기업이 선택한 스트림 처리 엔진입니다. 게임 원격 측정. 그의 관리 능력 이벤트 시간 처리 워터마크와 지연 이벤트(네트워크에서 늦게 도착하는 이벤트) 및 그 상태를 관리하기 위한 기본 분산을 사용하면 데이터 손실 없이 기간 동안 집계가 가능합니다.

// Apache Flink job: Kill/Death ratio in real-time per match (Java/Flink API)
public class KDAStreamProcessor {

  public static void main(String[] args) throws Exception {
    StreamExecutionEnvironment env =
      StreamExecutionEnvironment.getExecutionEnvironment();

    // Checkpoint ogni 10s per fault tolerance
    env.enableCheckpointing(10_000);
    env.getCheckpointConfig()
       .setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE);

    // Source: Kafka consumer per eventi gameplay
    KafkaSource<TelemetryEvent> source = KafkaSource
      .<TelemetryEvent>builder()
      .setBootstrapServers("kafka:9092")
      .setTopics("game.gameplay.events")
      .setGroupId("flink-kda-processor")
      .setStartingOffsets(OffsetsInitializer.latest())
      .setDeserializer(new TelemetryEventDeserializer())
      .build();

    DataStream<TelemetryEvent> events = env
      .fromSource(source, WatermarkStrategy
        // Tollerata latenza massima di 30s per eventi ritardati
        .<TelemetryEvent>forBoundedOutOfOrderness(Duration.ofSeconds(30))
        .withTimestampAssigner((e, ts) -> e.getServerTs()),
        "Kafka-Telemetry-Source"
      );

    // Filtra solo eventi kill e death
    DataStream<TelemetryEvent> combatEvents = events
      .filter(e -> e.getEventType().equals("gameplay.kill") ||
                   e.getEventType().equals("gameplay.death"));

    // Aggrega KDA per player ogni minuto, keyed by player_id
    DataStream<PlayerKDA> kdaStream = combatEvents
      .keyBy(TelemetryEvent::getPlayerId)
      .window(TumblingEventTimeWindows.of(Time.minutes(1)))
      .aggregate(new KDAAggregateFunctionK(), new KDAWindowFunctionK())
      .name("KDA-Per-Minute");

    // Sink 1: Redis per LiveOps dashboard (latenza < 1s)
    kdaStream.addSink(new RedisSink<>(redisConfig, new KDARedisMapper()));

    // Sink 2: ClickHouse per storico (latenza accettabile 5-10s)
    kdaStream.addSink(ClickHouseSink.builder()
      .setTableName("game_analytics.player_kda_minutes")
      .build());

    env.execute("Game KDA Real-Time Processor");
  }
}

// Funzione di aggregazione KDA
public class KDAAggregateFunctionK
    implements AggregateFunction<TelemetryEvent, KDAAcc, KDAAcc> {

  @Override
  public KDAAcc createAccumulator() {
    return new KDAAcc(0, 0, 0);
  }

  @Override
  public KDAAcc add(TelemetryEvent event, KDAAcc acc) {
    if (event.getEventType().equals("gameplay.kill")) {
      return new KDAAcc(acc.kills + 1, acc.deaths, acc.assists);
    } else {
      return new KDAAcc(acc.kills, acc.deaths + 1, acc.assists);
    }
  }

  @Override
  public KDAAcc getResult(KDAAcc acc) { return acc; }

  @Override
  public KDAAcc merge(KDAAcc a, KDAAcc b) {
    return new KDAAcc(a.kills + b.kills, a.deaths + b.deaths,
                      a.assists + b.assists);
  }
}

6. 플레이어 세분화: 실시간 RFM

모델 RFM(최근성, 빈도, 화폐), 전자상거래에서 차용하여 적응 플레이어를 실행 가능한 클러스터(이탈 위험이 있는 사람, 이탈할 위험이 있는 사람, 프리미엄 제안을 받을 준비가 되어 있으며, 가장 큰 지출을 하는 사람은 주의 깊게 대우를 받아야 합니다.

최신: 마지막 세션 이후 일수(낮은 최근성 = 이탈 위험)
빈도: 지난 30일 동안의 세션(빈도가 높음 = 활성 플레이어)
통화의: 지난 90일 동안 실제 통화로 지출한 총액

-- ClickHouse: query RFM per segmentazione giocatori
-- Eseguita ogni ora tramite scheduled materialized view

CREATE MATERIALIZED VIEW game_analytics.player_rfm_segments
ENGINE = ReplacingMergeTree()
ORDER BY (player_id, computed_at)
AS
WITH rfm_base AS (
  SELECT
    player_id,
    -- Recency: giorni dall'ultima sessione
    dateDiff('day', max(toDate(server_ts / 1000)), today()) AS recency_days,

    -- Frequency: sessioni negli ultimi 30 giorni
    countDistinct(
      CASE WHEN server_ts > subtractDays(now(), 30) THEN session_id END
    ) AS frequency_30d,

    -- Monetary: spesa totale ultimi 90 giorni (economy events)
    sumIf(
      toFloat64OrZero(payload['amount_usd']),
      event_type = 'economy.purchase' AND
      server_ts > subtractDays(now(), 90)
    ) AS monetary_90d,

    now() AS computed_at

  FROM game_analytics.events_all
  WHERE event_type IN ('player.session_start', 'economy.purchase')
  GROUP BY player_id
),
rfm_scored AS (
  SELECT
    player_id,
    recency_days,
    frequency_30d,
    monetary_90d,
    computed_at,
    -- Score da 1-5 per ogni dimensione (quintili)
    ntile(5) OVER (ORDER BY recency_days DESC) AS r_score,  -- Desc: bassa recency = buono
    ntile(5) OVER (ORDER BY frequency_30d ASC) AS f_score,
    ntile(5) OVER (ORDER BY monetary_90d ASC) AS m_score
  FROM rfm_base
)
SELECT
  player_id,
  recency_days,
  frequency_30d,
  monetary_90d,
  r_score,
  f_score,
  m_score,
  -- Segment label
  multiIf(
    r_score >= 4 AND f_score >= 4 AND m_score >= 4, 'champions',
    r_score >= 4 AND f_score >= 4, 'loyal_players',
    r_score >= 4 AND m_score >= 4, 'potential_champions',
    r_score <= 2 AND f_score >= 3, 'at_risk',
    r_score <= 2 AND f_score <= 2, 'churned_risk',
    m_score >= 4, 'big_spenders',
    'casual'
  ) AS segment,
  computed_at
FROM rfm_scored;

RFM 세그먼트 및 권장 LiveOps 작업

분절	% 전형적인	권장 조치	채널
챔피언	5%	VIP 대우, 베타 액세스, 독점 콘텐츠	게임 내 + 이메일
충성스러운 플레이어	15%	충성도 보상, 배틀 패스 인센티브	게임 내
위험에 처하다	20%	재참여 캠페인, 30% 할인 혜택	푸시 + 이메일
이탈된 위험	25%	Win-back: 7일 무료 프리미엄	이메일 + SMS
큰 지출자	3%	고래 보호, 맞춤형 제안	직접적인 봉사활동
평상복	32%	향상된 튜토리얼, 간소화된 온보딩	게임 내

7. Flink의 기능 엔지니어링을 통한 이탈 예측

이탈 예측에는 실시간 특성 엔지니어링이 필요합니다. 즉, 파일 추출 ML 모델이 향후 7일 이내에 포기할 확률을 예측하는 데 사용하는 특성입니다. 이러한 기능은 슬라이딩 윈도우에서 계산되고 기능 저장소(Redis 또는 Feast)에 기록됩니다.

// Flink: Feature engineering per churn prediction
// Calcola feature su finestra scorrevole di 7 giorni

DataStream<ChurnFeatures> churnFeatures = events
  .keyBy(TelemetryEvent::getPlayerId)
  .window(SlidingEventTimeWindows.of(Time.days(7), Time.hours(1)))
  .process(new ChurnFeatureExtractor())
  .name("Churn-Feature-Engineering");

public class ChurnFeatureExtractor
    extends ProcessWindowFunction<TelemetryEvent, ChurnFeatures, String, TimeWindow> {

  @Override
  public void process(String playerId, Context ctx,
      Iterable<TelemetryEvent> events, Collector<ChurnFeatures> out) {

    List<TelemetryEvent> eventList = new ArrayList<>();
    events.forEach(eventList::add);

    // Feature calcolo
    long sessionCount = eventList.stream()
      .filter(e -> e.getEventType().equals("player.session_start"))
      .count();

    double avgSessionDurationMin = eventList.stream()
      .filter(e -> e.getEventType().equals("player.session_end"))
      .mapToDouble(e -> Double.parseDouble(e.getPayload().getOrDefault("duration_sec", "0")))
      .average().orElse(0.0) / 60.0;

    long matchesCompleted = eventList.stream()
      .filter(e -> e.getEventType().equals("gameplay.match_end"))
      .count();

    long matchesAbandoned = eventList.stream()
      .filter(e -> e.getEventType().equals("gameplay.match_abandon"))
      .count();

    double abandonRate = matchesCompleted > 0
      ? (double) matchesAbandoned / (matchesCompleted + matchesAbandoned)
      : 0.0;

    double totalSpend = eventList.stream()
      .filter(e -> e.getEventType().equals("economy.purchase"))
      .mapToDouble(e -> Double.parseDouble(e.getPayload().getOrDefault("amount_usd", "0")))
      .sum();

    long daysSinceLastSession = eventList.stream()
      .filter(e -> e.getEventType().equals("player.session_start"))
      .mapToLong(TelemetryEvent::getServerTs)
      .max()
      .map(lastTs -> (System.currentTimeMillis() - lastTs) / 86_400_000L)
      .orElse(999L);

    out.collect(new ChurnFeatures(
      playerId,
      sessionCount,
      avgSessionDurationMin,
      matchesCompleted,
      abandonRate,
      totalSpend,
      daysSinceLastSession,
      ctx.window().getEnd()
    ));
  }
}

// Sink su Redis Feature Store con TTL
churnFeatures.addSink(new RedisSink<>(
  redisConfig,
  (ChurnFeatures f, FlinkJedisPoolConfig config) -> {
    try (Jedis jedis = new Jedis(config.getHost(), config.getPort())) {
      String key = "churn_features:" + f.getPlayerId();
      Map<String, String> fields = new HashMap<>();
      fields.put("session_count_7d", String.valueOf(f.getSessionCount()));
      fields.put("avg_session_min", String.valueOf(f.getAvgSessionDurationMin()));
      fields.put("abandon_rate", String.valueOf(f.getAbandonRate()));
      fields.put("total_spend_usd", String.valueOf(f.getTotalSpend()));
      fields.put("days_since_last", String.valueOf(f.getDaysSinceLastSession()));
      jedis.hset(key, fields);
      jedis.expire(key, 86400 * 7); // TTL 7 giorni
    }
  }
));

8. 데이터 품질: 중복 제거 및 지연 이벤트 처리

분산 시스템에서는 중복이 불가피합니다. 클라이언트는 일괄 처리를 받지 못하면 다시 보낼 수 있습니다. 확인하면 네트워크 파티션으로 인해 이중 쓰기가 발생할 수 있습니다. 다음을 기반으로 하는 중복 제거 event_id 가능한 한 파이프라인 초기에 발생해야 합니다.

// Flink: Deduplicazione stateful con event_id
// Usa RocksDB state backend per gestire miliardi di ID

DataStream<TelemetryEvent> deduplicated = rawEvents
  .keyBy(TelemetryEvent::getEventId)
  .process(new DeduplicationFunction(Duration.ofHours(24)))
  .name("Event-Deduplication");

public class DeduplicationFunction
    extends KeyedProcessFunction<String, TelemetryEvent, TelemetryEvent> {

  private final Duration deduplicationWindow;
  private ValueState<Boolean> seenState;

  @Override
  public void open(Configuration parameters) {
    ValueStateDescriptor<Boolean> descriptor =
      new ValueStateDescriptor<>("event-seen", Boolean.class);
    // TTL: pulisce lo stato dopo 24h per evitare memory leak
    StateTtlConfig ttlConfig = StateTtlConfig
      .newBuilder(org.apache.flink.api.common.time.Time.hours(24))
      .setUpdateType(StateTtlConfig.UpdateType.OnCreateAndWrite)
      .setStateVisibility(StateTtlConfig.StateVisibility.NeverReturnExpired)
      .build();
    descriptor.enableTimeToLive(ttlConfig);
    seenState = getRuntimeContext().getState(descriptor);
  }

  @Override
  public void processElement(TelemetryEvent event, Context ctx,
      Collector<TelemetryEvent> out) throws Exception {

    if (seenState.value() == null) {
      // Prima volta che vediamo questo event_id
      seenState.update(true);
      out.collect(event); // Passa all'avanti
    }
    // Altrimenti: duplicato, scartato silenziosamente
    // (registra metrica per monitoring)
  }
}

-- ClickHouse: tabella eventi con ReplacingMergeTree per dedup storage-level
CREATE TABLE game_analytics.events_all (
  event_id       String,
  event_type     LowCardinality(String),
  player_id      String,
  session_id     String,
  server_ts      DateTime64(3),
  platform       LowCardinality(String),
  region         LowCardinality(String),
  match_id       Nullable(String),
  payload        Map(String, String),
  ingested_at    DateTime DEFAULT now()
) ENGINE = ReplacingMergeTree(ingested_at)
PARTITION BY toYYYYMM(server_ts)
ORDER BY (player_id, event_type, server_ts)
SETTINGS index_granularity = 8192;

-- Indice bloom filter su player_id per query veloci per giocatore
ALTER TABLE game_analytics.events_all
ADD INDEX bf_player_id player_id TYPE bloom_filter(0.01) GRANULARITY 4;

경고: 타임스탬프 클라이언트와 타임스탬프 서버

절대 믿지 마세요 client_ts 분석을 위한 진실의 소스: 클라이언트 시계 몇 시간 동안 위상이 어긋나거나(특히 모바일에서), 사기꾼에 의해 조작되거나, 단순히 틀렸어. 항상 사용 server_ts 분석 쿼리의 경우. 그만큼 client_ts 유용하고 단지 네트워크 대기 시간을 측정하기 위한 것입니다(server_ts - client_ts) 그리고 재구축 단일 세션 내의 일련의 이벤트.

9. 유입경로 분석 및 유지 지표

라이브 서비스 게임에서는 유지 지표가 가장 중요합니다. 1일째 보존, 7일과 30일(D1/D7/D30)은 게임 상태를 평가하기 위한 업계 표준 KPI입니다.

-- ClickHouse: calcolo retention D1/D7/D30 per coorte
-- Una "coorte" e il gruppo di giocatori con lo stesso primo giorno di gioco

SELECT
  install_date,
  count(DISTINCT player_id) AS cohort_size,

  -- D1 Retention: tornati il giorno dopo l'installazione
  countDistinctIf(player_id,
    dateDiff('day', install_date, last_seen_date) >= 1
  ) AS retained_d1,

  -- D7 Retention
  countDistinctIf(player_id,
    dateDiff('day', install_date, last_seen_date) >= 7
  ) AS retained_d7,

  -- D30 Retention
  countDistinctIf(player_id,
    dateDiff('day', install_date, last_seen_date) >= 30
  ) AS retained_d30,

  -- Percentuali
  round(100.0 * retained_d1 / cohort_size, 2) AS d1_pct,
  round(100.0 * retained_d7 / cohort_size, 2) AS d7_pct,
  round(100.0 * retained_d30 / cohort_size, 2) AS d30_pct

FROM (
  -- Subquery: per ogni giocatore, data installazione e ultima sessione
  SELECT
    player_id,
    min(toDate(server_ts / 1000)) AS install_date,
    max(toDate(server_ts / 1000)) AS last_seen_date
  FROM game_analytics.events_all
  WHERE event_type = 'player.session_start'
  GROUP BY player_id
)
WHERE install_date >= today() - 90  -- Ultimi 90 giorni di coorti
GROUP BY install_date
ORDER BY install_date DESC;

-- Benchmark settore (mobile games 2024):
-- D1: 25-40% (buono), D7: 10-20%, D30: 3-8%
-- Top performers: D1 40%+, D7 20%+, D30 8%+

10. 확장: 실수 및 비용 고려 사항

출시 주말의 AAA 게임은 분당 최대 1,000만~5,000만 개의 이벤트를 생성할 수 있습니다. 방법은 다음과 같습니다 파이프라인 규모는 무엇이며 지표 비용은 얼마입니까?

100만 명의 동시 플레이어를 위한 규모

요소	사이징	AWS 비용/월(추정)
카프카(MSK)	12개의 m5.4xlarge 브로커	~$8,000
플링크(EMR)	20 작업 관리자 r5.2xlarge	~$12,000
ClickHouse(자체 호스팅)	6노드 r6a.8xlarge + 50TB SSD	~$15,000
Redis(ElastiCache)	r7g.2xlarge 클러스터 노드 3개	~$3,000
원격 측정 게이트웨이	ECS 자동 확장(10~50개 작업)	~$5,000
Totale		~$43,000/월

월간 활성 플레이어가 천만 명인 경우 비용은 ~$0.004/사용자/월입니다. 대규모 투자입니다. ARPU 및 유지율을 최적화하는 능력으로 정당화됩니다.

비용 최적화

지능형 샘플링: 빈도가 높은 게임플레이 이벤트(위치, 애니메이션)의 경우, 전체 대신 5개 중 1개의 이벤트만 보냅니다. 품질 손실은 거의 없고 처리량은 80% 절감됩니다.
계층형 스토리지: S3에 콜드 계층이 있는 ClickHouse. 로컬 SSD의 최근 데이터(7일), S3의 기록 데이터는 액세스 속도가 느리지만 10배 저렴합니다.
전송 전 집계: fps 또는 ping과 같은 간단한 측정항목의 경우 클라이언트 측 집계 (30초마다 평균, 최소, 최대) 모든 프레임을 보내는 대신.

결론

산업용 게임 원격 측정 파이프라인은 표준 데이터 엔지니어링 프로젝트가 아닙니다. 게임 패턴, 대기 시간 제약, LiveOps 요구 사항에 대한 깊은 이해. 조합 Kafka + Flink + ClickHouse + Redis 그리고 사실상의 표준이 되었습니다. 측정항목에 대한 대기 시간을 1초 미만으로 유지하면서 대규모 볼륨을 처리할 수 있는 능력으로 업계 최고의 평가를 받았습니다. 비판.

RFM 플레이어 세분화 및 실시간 이탈 예측을 통해 원시 데이터를 작업으로 변환 구체적: 타겟 재참여 캠페인, 맞춤형 제안, LiveOps 결정 직관보다는 데이터로 정보를 얻습니다. 고품질 원격 측정에 투자하는 게임은 다음을 참조하세요. 그렇지 않은 사람들에 비해 D30 유지율이 평균 15-25% 향상되었습니다.

게임 백엔드 시리즈의 다음 단계

이전 기사: LiveOps: 이벤트 시스템 및 기능 플래그
다음 기사: 클라우드 게이밍: WebRTC 및 Edge Node를 사용한 스트리밍
관련 통찰력: 비즈니스용 MLOps - 프로덕션의 AI 모델

레이어	요소	기술	역할
수집	클라이언트 SDK	타입스크립트/C++/유니티	버퍼링, 일괄 처리, 재시도
수집	원격 측정 게이트웨이	이동/특사	인증, 속도 제한, 팬아웃
음식물 섭취	이벤트 버스	아파치 카프카	내구성, 재생, 주문
처리	스트림 엔진	아파치 플링크	실시간 분석, 강화
피복재	OLAP 데이터베이스	클릭하우스	수십억 행에 대한 빠른 쿼리
피복재	핫 스토어	레디스	LiveOps에 대한 실시간 측정항목
심상	대시보드	그라파나/메타베이스	LiveOps 대시보드 및 분석