안녕하세요!

Federico Calò

Sviluppatore Software | Divulgatore Tecnico

Creo applicazioni web moderne e strumenti digitali personalizzati per aiutare le attività a crescere attraverso l'innovazione tecnologica. La mia passione è unire informatica ed economia per generare valore reale.

연락하기

소개

La mia passione per l'informatica è nata tra i banchi dell'Istituto Tecnico Commerciale di Maglie, dove ho scoperto il potere della programmazione e il fascino di creare soluzioni digitali. Fin da subito, ho capito che l'informatica non era solo codice, ma uno strumento straordinario per trasformare idee in realtà.

Durante gli studi superiori in Sistemi Informativi Aziendali, ho iniziato a intrecciare informatica ed economia, comprendendo come la tecnologia possa essere il motore della crescita per qualsiasi attività. Questa visione mi ha accompagnato all'Università degli Studi di Bari, dove ho conseguito la Laurea in Informatica, approfondendo le mie competenze tecniche e la mia passione per lo sviluppo software.

Oggi metto questa esperienza al servizio di imprese, professionisti e startup, creando soluzioni digitali su misura che automatizzano processi, ottimizzano risorse e aprono nuove opportunità di business. Perché la vera innovazione inizia quando la tecnologia incontra le esigenze reali delle persone.

역량

Analisi Dati & Modelli Previsionali

Trasformo i dati in insights strategici con analisi approfondite e modelli predittivi per decisioni informate

프로세스 자동화

Creo strumenti personalizzati che automatizzano operazioni ripetitive e liberano tempo per attività a valore aggiunto

맞춤 시스템

Sviluppo sistemi software su misura, dalle integrazioni tra piattaforme alle dashboard personalizzate

const federico = {
  nome: "Federico Calò",
  ruolo: "Sviluppatore Software",
  città: "Bari, Italia",
  missione: "Aiutare attraverso l'informatica",
  passioni: [
    "Codice Pulito",
    "Innovazione",
    "Crescita Continua"
  ]
};

미션

Credo fermamente che l'informatica sia lo strumento più potente per trasformare le idee in realtà e migliorare la vita delle persone.

🚀

기술의 민주화

La mia missione è rendere l'informatica accessibile a tutti: dalle piccole imprese locali alle startup innovative, fino ai professionisti che vogliono digitalizzare la propria attività. Ogni realtà merita di sfruttare le potenzialità del digitale.

💡

IT와 비즈니스 통합

Non è solo questione di scrivere codice: è capire come la tecnologia possa generare valore reale. Intrecciando competenze informatiche e visione economica, aiuto le attività a crescere, ottimizzare processi e raggiungere nuovi traguardi di efficienza e redditività.

🎯

맞춤 솔루션

Ogni attività è unica, e così devono esserlo le soluzioni. Sviluppo strumenti personalizzati che rispondono alle esigenze specifiche di ciascun cliente, automatizzando processi ripetitivi e liberando tempo per ciò che conta davvero: far crescere il business.

기술로 비즈니스를 혁신하세요

Dicembre 2024

Visualizza

Master SQL

RoadMap.sh

Novembre 2024

Visualizza

Oracle Certified Foundations Associate

Oracle

Ottobre 2024

Visualizza

People Leadership Credential

Connect

Settembre 2024

💻 Linguaggi & Tecnologie

☕Java

🐍Python

📜JavaScript

🅰️Angular

⚛️React

🔷TypeScript

🗄️SQL

🐘PHP

🎨CSS/SCSS

🔧Node.js

🐳Docker

🌿Git

💼

12/2024 - Presente

Custom Software Engineering Analyst

Accenture

Bari, Puglia, Italia · Ibrida Analisi e sviluppo di sistemi informatici attraverso l'utilizzo di Java e Quarkus in Health and Public Sector. Formazione continua su tecnologie moderne per la creazione di soluzioni software personalizzate ed efficienti e sugli agenti.

💼

06/2022 - 12/2024

Analista software e Back End Developer Associate Consultant

Links Management and Technology SpA

Esperienza nell'analisi di sistemi software as-is e flussi ETL utilizzando PowerCenter. Formazione completata su Spring Boot per lo sviluppo di applicazioni backend moderne e scalabili. Sviluppatore Backend specializzato in Spring Boot, con esperienza in progettazione di database, analisi, sviluppo e testing dei task assegnati.

💼

02/2021 - 10/2021

Programmatore software

Adesso.it (prima era WebScience srl)

Esperienza nell'analisi AS-IS e TO-BE, evoluzioni SEO ed evoluzioni website per migliorare le performance e l'engagement degli utenti.

🎓

2018 - 2025

Laurea in Informatica

Università degli Studi di Bari Aldo Moro

Bachelor's degree in Computer Science, focusing on software engineering, algorithms, and modern development practices.

📚

2013 - 2018

Diploma - Sistemi Informativi Aziendali

Istituto Tecnico Commerciale di Maglie

Technical diploma specializing in Business Information Systems, combining IT knowledge with business management.

연락하기

프로젝트가 있으신가요? 아래 양식을 작성해 주시면 빠르게 답변드리겠습니다.

* Campi obbligatori. I tuoi dati saranno utilizzati solo per rispondere alla tua richiesta.

머신러닝을 활용한 부동산 평가: Zestimate와 유사한 시스템 구축

2006년 Zillow는 최초의 자동 평가 시스템인 Zestimate를 출시했습니다. 전국 규모의 부동산. 현재 미국 내 평가 주택 수는 1억 3,500만 채가 넘습니다. Zestimate는 전체 PropTech 부문의 참조 벤치마크가 되었습니다. 하지만 어떻게 시스템이 실제로 작동하는지 자동 평가 모델(AVM)? 어느 것 기계 학습 알고리즘이 최상의 결과를 생성합니까? 그리고 무엇보다 그것이 어떻게 만들어졌는지 차별 금지 규정을 갖춘 신뢰할 수 있고 해석 가능하며 준수하는 시스템이 있습니까?

이 기사에서는 데이터 수집 및 정리부터 기능까지 완전한 AVM을 구축합니다. 훈련 그래디언트 부스팅 모델부터 프로덕션 배포까지 고급 엔지니어링 REST API를 사용하여 SHAP 해석 기술 및 모니터링을 통과합니다. 시간이 지남에 따라 모델 드리프트.

무엇을 배울 것인가

부동산에 대한 AVM(자동 평가 모델)의 엔드투엔드 아키텍처
고급 기능 엔지니어링: 물리적 속성, 위치, 비교 대상, 거시경제학
ML 모델 비교: XGBoost, LightGBM, CatBoost, Random Forest, 신경망
각 개별 평가를 설명하기 위한 SHAP 값의 해석성
헤도닉 가격 모델 및 비교 접근 방식(CMA)
FastAPI를 사용한 배포 및 Evidently AI를 사용한 모델 드리프트 모니터링
알고리즘 편향 관리 및 공정주택 규정 준수

2025년 AVM 시장

글로벌 자동 평가 모델 시장은 2024년에 23% 성장할 것이며, 모기지 프로세스의 디지털화와 하이브리드 모델 채택에 힘입어 그들은 AI와 인간 평가를 결합합니다. 주요 플레이어로는 Zillow(Zestimate), CoreLogic, Black Knight, HouseCanary 및 Hometrack(영국).

최신 AVM의 평균 정확도는 약 1입니다. 중앙 절대 백분율 오류 (MdAPE) 3%~6% 고밀도 시장의 주거용 부동산용 데이터. 이는 300,000유로 아파트의 경우 일반적인 오류는 다음과 같습니다. 9,000~18,000유로 사이이며, 이는 많은 상황에서 정확도를 초과하는 결과입니다. 표준 속성에 대한 인간 평가자.

AVM 시스템 아키텍처

엔터프라이즈 AVM 시스템은 각각 책임이 있는 5개의 주요 레이어로 구성됩니다. 잘 정의된 특정 대기 시간 요구 사항.

# Architettura AVM - Schema a livelli

┌─────────────────────────────────────────────────────┐
│                   DATA LAYER                        │
│  MLS Feed  │  Catasto  │  Transazioni  │  OSM/Maps  │
└─────────────────────┬───────────────────────────────┘
                      │
┌─────────────────────▼───────────────────────────────┐
│              FEATURE ENGINEERING                    │
│  Property Features │ Location │ Market │ Temporal   │
└─────────────────────┬───────────────────────────────┘
                      │
┌─────────────────────▼───────────────────────────────┐
│               MODEL ENSEMBLE                        │
│  XGBoost  │  LightGBM  │  Neural Net  │  CMA Model │
└─────────────────────┬───────────────────────────────┘
                      │
┌─────────────────────▼───────────────────────────────┐
│             INFERENCE & EXPLAINABILITY              │
│  Confidence Interval │ SHAP Values │ Comparables   │
└─────────────────────┬───────────────────────────────┘
                      │
┌─────────────────────▼───────────────────────────────┐
│              SERVING LAYER (FastAPI)                │
│  REST API  │  Caching  │  Monitoring  │  Audit Log │
└─────────────────────────────────────────────────────┘

데이터 세트 및 기능 엔지니어링

효과적인 AVM의 핵심은 기능 엔지니어링입니다. Zillow 연구진은 ML 팀이 다양한 알고리즘을 실험하느라 몇 주를 허비하는 경우가 많다는 사실이 기록되어 있습니다. 진정한 경쟁 우위는 기능이 아닌 기능의 품질에 있는 경우 모델의 복잡성.

기능은 네 가지 매크로 범주로 구분됩니다.

범주	주요 특징	데이터 소스	AVM 영향
물리적 속성	표면적, 방, 욕실, 건축 연도, 바닥, 보존 상태	토지 등록부, MLS	높음(35-45%)
위치	GPS 좌표, 동네, 인근 학교, 교통, 홍수 위험	오픈스트리트맵, ISTAT, PCN	매우 높음(40-50%)
시장	비교 가능한 가격, 지역 동향, 시장 출시일, 흡수율	MLS, 공증인 거래	중간(10-20%)
거시경제	모기지 금리, 인플레이션, 건설 지수, 지역 GDP	ECB, ISTAT, 이탈리아 은행	낮음-중간(5-10%)

import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from geopy.distance import geodesic

class PropertyFeatureEngineer:
    """
    Feature engineering per AVM immobiliare.
    Gestisce attributi fisici, location e market features.
    """

    def __init__(self, comparables_db, poi_db):
        self.comparables_db = comparables_db
        self.poi_db = poi_db
        self.scaler = StandardScaler()

    def build_physical_features(self, prop: dict) -> dict:
        """Feature relative agli attributi fisici dell'immobile."""
        surface = prop['superficie_mq']
        rooms = prop['num_vani']
        bathrooms = prop['num_bagni']
        year_built = prop['anno_costruzione']

        return {
            'superficie_mq': surface,
            'num_vani': rooms,
            'num_bagni': bathrooms,
            'rapporto_superficie_vani': surface / max(rooms, 1),
            'eta_immobile': 2025 - year_built,
            'eta_categoria': self._categorize_age(year_built),
            'piano_normalizzato': prop.get('piano', 0) / max(prop.get('piani_totali', 1), 1),
            'is_ultimo_piano': int(prop.get('piano', 0) == prop.get('piani_totali', 0)),
            'has_garage': int(prop.get('garage', False)),
            'has_terrazzo': int(prop.get('terrazzo', False)),
            'classe_energetica_encoded': self._encode_energy_class(
                prop.get('classe_energetica', 'G')
            ),
        }

    def build_location_features(self, lat: float, lon: float) -> dict:
        """Feature geografiche e di prossimita ai servizi."""
        coords = (lat, lon)

        # Distanze dai principali POI
        nearest_school = self._nearest_poi(coords, 'scuola')
        nearest_metro = self._nearest_poi(coords, 'metro')
        nearest_hospital = self._nearest_poi(coords, 'ospedale')
        nearest_supermarket = self._nearest_poi(coords, 'supermercato')
        city_center = self.poi_db.get_city_center()

        return {
            'lat': lat,
            'lon': lon,
            'dist_scuola_km': nearest_school['distance'],
            'dist_metro_km': nearest_metro['distance'],
            'dist_ospedale_km': nearest_hospital['distance'],
            'dist_supermercato_km': nearest_supermarket['distance'],
            'dist_centro_km': geodesic(coords, city_center).km,
            'zona_istat': self._get_zone_code(lat, lon),
            'reddito_medio_zona': self._get_zone_income(lat, lon),
            'densita_abitativa': self._get_population_density(lat, lon),
            'walk_score': self._calculate_walk_score(lat, lon),
            'rischio_idrogeologico': self._get_flood_risk(lat, lon),
        }

    def build_market_features(self, lat: float, lon: float,
                               surface: float, reference_date: str) -> dict:
        """Feature di mercato basate su transazioni recenti nell'area."""
        # CRITICO: usare solo dati passati rispetto a reference_date
        # per evitare data leakage!
        comps = self.comparables_db.get_comparables(
            lat=lat,
            lon=lon,
            radius_km=0.5,
            before_date=reference_date,
            limit=20
        )

        if len(comps) == 0:
            # Fallback su area più ampia
            comps = self.comparables_db.get_comparables(
                lat=lat, lon=lon, radius_km=2.0,
                before_date=reference_date, limit=20
            )

        prices_per_sqm = [c['prezzo'] / c['superficie_mq'] for c in comps]

        return {
            'prezzo_medio_mq_zona': np.mean(prices_per_sqm) if prices_per_sqm else 0,
            'prezzo_mediano_mq_zona': np.median(prices_per_sqm) if prices_per_sqm else 0,
            'prezzo_std_mq_zona': np.std(prices_per_sqm) if prices_per_sqm else 0,
            'num_transazioni_6m': len(comps),
            'dom_medio_zona': np.mean([c.get('days_on_market', 0) for c in comps]),
            'trend_prezzi_12m': self._calculate_price_trend(lat, lon, reference_date),
            'absorption_rate': self._calculate_absorption_rate(lat, lon, reference_date),
        }

    def _categorize_age(self, year_built: int) -> int:
        """Categorizza l'eta dell'immobile in fasce storiche."""
        if year_built < 1919: return 0   # Storico
        elif year_built < 1945: return 1  # Pre-guerra
        elif year_built < 1970: return 2  # Dopoguerra
        elif year_built < 1990: return 3  # Anni 70-80
        elif year_built < 2000: return 4  # Anni 90
        elif year_built < 2010: return 5  # Anni 2000
        else: return 6                    # Recente

    def _encode_energy_class(self, energy_class: str) -> float:
        """Converte la classe energetica in valore numerico."""
        mapping = {'A4': 10, 'A3': 9, 'A2': 8, 'A1': 7, 'A': 7,
                    'B': 6, 'C': 5, 'D': 4, 'E': 3, 'F': 2, 'G': 1}
        return mapping.get(energy_class.upper(), 1)

    def _calculate_price_trend(self, lat, lon, reference_date) -> float:
        """Calcola il trend % dei prezzi negli ultimi 12 mesi."""
        # Prezzi mediani 12m fa vs 6m fa vs oggi
        prices_12m = self.comparables_db.get_median_price(lat, lon, reference_date, months_back=12)
        prices_6m = self.comparables_db.get_median_price(lat, lon, reference_date, months_back=6)
        if prices_12m and prices_12m > 0:
            return (prices_6m - prices_12m) / prices_12m * 100
        return 0.0

평가를 위한 머신러닝 모델

Zillow, CoreLogic 및 학계 연구원이 발표한 벤치마크는 다음과 같습니다. 그래디언트 부스팅 모델(XGBoost, LightGBM, CatBoost)이 지속적으로 지배적입니다. 표 형식의 부동산 데이터에 대한 정확도 순위. 신경망은 돈을 번다 부동산 이미지를 기능으로 사용할 수 있는 경우 토지.

모델	MdAPE 일반	훈련 속도	해석 가능성	BestFor
XGBoost	3.8~5.2%	중간	높음(SHAP)	균형 잡힌 데이터 세트, 중요한 기능
라이트GBM	3.5~4.9%	매우 빠름	높음(SHAP)	대규모 데이터 세트, 범주형 기능
캣부스트	3.6~5.0%	중간	높음(SHAP)	인코딩이 없는 범주형 기능
랜덤 포레스트	4.5~6.5%	느린	평균	견고한 기준선, 이상치 저항
신경망(표 형식)	4.0~5.5%	매우 느림	낮은	복잡한 기능, 이미지 통합
앙상블(스태킹)	3.2~4.5%	-	평균	생산, 최대 정확도

import xgboost as xgb
import lightgbm as lgb
from sklearn.ensemble import RandomForestRegressor, StackingRegressor
from sklearn.linear_model import Ridge
from sklearn.model_selection import cross_val_score, KFold
from sklearn.metrics import mean_absolute_percentage_error
import shap
import numpy as np

class AVMEnsemble:
    """
    Ensemble di modelli per valutazione immobiliare.
    Combina XGBoost, LightGBM e Random Forest con meta-learner Ridge.
    """

    def __init__(self):
        self.xgb_model = xgb.XGBRegressor(
            n_estimators=1000,
            learning_rate=0.05,
            max_depth=6,
            subsample=0.8,
            colsample_bytree=0.8,
            reg_alpha=0.1,
            reg_lambda=1.0,
            random_state=42,
            n_jobs=-1,
            early_stopping_rounds=50,
        )

        self.lgb_model = lgb.LGBMRegressor(
            n_estimators=1000,
            learning_rate=0.05,
            num_leaves=63,
            min_child_samples=20,
            feature_fraction=0.8,
            bagging_fraction=0.8,
            bagging_freq=5,
            lambda_l1=0.1,
            lambda_l2=1.0,
            random_state=42,
            n_jobs=-1,
            verbose=-1,
        )

        self.rf_model = RandomForestRegressor(
            n_estimators=500,
            max_depth=None,
            min_samples_leaf=5,
            n_jobs=-1,
            random_state=42,
        )

        # Meta-learner: combina le previsioni dei base models
        self.ensemble = StackingRegressor(
            estimators=[
                ('xgb', self.xgb_model),
                ('lgb', self.lgb_model),
                ('rf', self.rf_model),
            ],
            final_estimator=Ridge(alpha=1.0),
            cv=5,
            n_jobs=-1,
        )

        self.explainer = None

    def train(self, X_train, y_train, X_val=None, y_val=None):
        """Addestramento con cross-validation e early stopping."""

        # Early stopping per XGBoost
        if X_val is not None:
            self.xgb_model.fit(
                X_train, np.log1p(y_train),  # log-transform per stabilità
                eval_set=[(X_val, np.log1p(y_val))],
                verbose=False,
            )
            self.lgb_model.fit(
                X_train, np.log1p(y_train),
                eval_set=[(X_val, np.log1p(y_val))],
                callbacks=[lgb.early_stopping(50), lgb.log_evaluation(0)],
            )
        else:
            self.xgb_model.fit(X_train, np.log1p(y_train))
            self.lgb_model.fit(X_train, np.log1p(y_train))

        self.rf_model.fit(X_train, np.log1p(y_train))

        # Fit dell'ensemble finale
        self.ensemble.fit(X_train, np.log1p(y_train))

        # Inizializza SHAP explainer per interpretabilita
        self.explainer = shap.TreeExplainer(self.xgb_model)

        return self

    def predict(self, X) -> dict:
        """
        Restituisce valutazione con intervallo di confidenza.
        """
        log_pred = self.ensemble.predict(X)
        price_pred = np.expm1(log_pred)  # Inverti log-transform

        # Calcola incertezza tramite predizioni dei singoli modelli
        xgb_pred = np.expm1(self.xgb_model.predict(X))
        lgb_pred = np.expm1(self.lgb_model.predict(X))
        rf_pred = np.expm1(self.rf_model.predict(X))

        predictions = np.stack([xgb_pred, lgb_pred, rf_pred])
        uncertainty = np.std(predictions, axis=0) / price_pred

        return {
            'valuation': price_pred,
            'low_estimate': price_pred * (1 - 2 * uncertainty),
            'high_estimate': price_pred * (1 + 2 * uncertainty),
            'confidence_score': np.clip(1 - uncertainty * 10, 0, 1),
        }

    def explain(self, X_single) -> dict:
        """
        Genera spiegazione SHAP per una singola valutazione.
        Mostra quali feature hanno influenzato il prezzo e in che misura.
        """
        shap_values = self.explainer.shap_values(X_single)

        feature_impacts = [
            {
                'feature': feat,
                'value': float(X_single[feat]),
                'impact_euro': float(shap_val * np.expm1(1)),  # Approx
                'direction': 'positive' if shap_val > 0 else 'negative',
            }
            for feat, shap_val in zip(X_single.index, shap_values[0])
        ]

        # Ordina per impatto assoluto
        feature_impacts.sort(key=lambda x: abs(x['impact_euro']), reverse=True)

        return {
            'top_features': feature_impacts[:10],
            'base_value': float(np.expm1(self.explainer.expected_value)),
            'final_value': float(np.expm1(self.explainer.expected_value + shap_values[0].sum())),
        }

    def evaluate(self, X_test, y_test) -> dict:
        """Metriche di valutazione complete."""
        predictions = self.predict(X_test)
        pred_prices = predictions['valuation']

        mape = mean_absolute_percentage_error(y_test, pred_prices) * 100
        mdape = np.median(np.abs((y_test - pred_prices) / y_test)) * 100

        # Percentuale previsioni entro 5%, 10%, 20% del valore reale
        errors = np.abs((y_test - pred_prices) / y_test)
        within_5 = np.mean(errors <= 0.05) * 100
        within_10 = np.mean(errors <= 0.10) * 100
        within_20 = np.mean(errors <= 0.20) * 100

        return {
            'mape': round(mape, 2),
            'mdape': round(mdape, 2),
            'within_5pct': round(within_5, 1),
            'within_10pct': round(within_10, 1),
            'within_20pct': round(within_20, 1),
        }

헤도닉 가격 모델 및 비교 가능한 시장 분석

순수 ML 모델 외에도 프로덕션 AVM은 두 가지 보완적인 접근 방식을 통합합니다. 는 헤도닉 가격 모델(HPM) 그리고 비교 가능한 시장 분석(CMA). HPM은 부동산 가격을 각 부동산의 내재 가치의 합으로 간주합니다. 특성(각 평방미터는 X의 가치가 있고, 각 추가 욕실은 Y의 가치가 있습니다. 등) 그러나 CMA는 최근 근처에서 판매된 유사한 부동산을 찾아 조정합니다. 차이에 대한 가격.

from dataclasses import dataclass
from typing import List
import numpy as np

@dataclass
class Comparable:
    id: str
    prezzo: float
    superficie_mq: float
    num_vani: int
    num_bagni: int
    distanza_km: float
    giorni_fa: int
    lat: float
    lon: float

class ComparableMarketAnalysis:
    """
    CMA: stima il valore comparando con immobili simili venduti di recente.
    Applica aggiustamenti per differenze nelle caratteristiche.
    """

    # Aggiustamenti di mercato (da calibrare per zona)
    ADJUSTMENTS = {
        'per_mq_extra': 1800,        # EUR per mq di differenza
        'per_bagno_extra': 8000,      # EUR per bagno aggiuntivo
        'per_anno_eta': -150,         # EUR per anno di eta
        'per_piano': 1200,            # EUR per piano (es: piano 3 vs piano 1)
        'garage_premium': 15000,      # EUR per garage incluso
        'terrazzo_premium': 8000,     # EUR per terrazzo
    }

    def estimate(self, subject: dict, comparables: List[Comparable]) -> dict:
        """
        Stima il valore dell'immobile tramite analisi dei comparables.
        """
        if not comparables:
            return {'error': 'Nessun comparable disponibile'}

        adjusted_prices = []

        for comp in comparables:
            adjusted_price = comp.prezzo

            # Aggiustamento superficie
            surface_diff = subject['superficie_mq'] - comp.superficie_mq
            adjusted_price += surface_diff * self.ADJUSTMENTS['per_mq_extra']

            # Aggiustamento bagni
            bath_diff = subject.get('num_bagni', 1) - comp.num_bagni
            adjusted_price += bath_diff * self.ADJUSTMENTS['per_bagno_extra']

            # Aggiustamento eta (più recente = più valore)
            age_diff = (2025 - subject.get('anno_costruzione', 1980)) - \
                       (2025 - getattr(comp, 'anno_costruzione', 1980))
            adjusted_price += age_diff * self.ADJUSTMENTS['per_anno_eta']

            # Peso per distanza e freschezza dei dati
            distance_weight = 1 / (1 + comp.distanza_km * 2)
            recency_weight = 1 / (1 + comp.giorni_fa / 90)
            weight = distance_weight * recency_weight

            adjusted_prices.append((adjusted_price, weight))

        # Media ponderata
        total_weight = sum(w for _, w in adjusted_prices)
        weighted_value = sum(p * w for p, w in adjusted_prices) / total_weight

        return {
            'cma_value': round(weighted_value, -3),  # Arrotonda a migliaia
            'num_comparables': len(comparables),
            'comparable_range': {
                'min': min(p for p, _ in adjusted_prices),
                'max': max(p for p, _ in adjusted_prices),
            },
        }

FastAPI를 사용한 평가 API

모델 제공은 FastAPI가 포함된 REST API를 통해 수행됩니다. 200ms 미만의 대기 시간으로 분당 수천 개의 요청을 관리합니다.

from fastapi import FastAPI, HTTPException, Depends
from pydantic import BaseModel, Field, field_validator
from typing import Optional
import numpy as np
import logging

app = FastAPI(title="AVM API", version="2.0.0")
logger = logging.getLogger(__name__)

class PropertyInput(BaseModel):
    """Schema di input per la valutazione immobiliare."""
    superficie_mq: float = Field(..., gt=10, lt=2000, description="Superficie in mq")
    num_vani: int = Field(..., ge=1, le=20)
    num_bagni: int = Field(..., ge=1, le=10)
    anno_costruzione: int = Field(..., ge=1800, le=2025)
    piano: int = Field(default=0, ge=0, le=50)
    piani_totali: int = Field(default=1, ge=1, le=50)
    classe_energetica: str = Field(default='G')
    has_garage: bool = False
    has_terrazzo: bool = False
    lat: float = Field(..., ge=35.0, le=48.0)  # Italia
    lon: float = Field(..., ge=6.0, le=19.0)

    @field_validator('classe_energetica')
    @classmethod
    def validate_energy_class(cls, v):
        valid = ['A4', 'A3', 'A2', 'A1', 'A', 'B', 'C', 'D', 'E', 'F', 'G']
        if v.upper() not in valid:
            raise ValueError(f'Classe energetica non valida. Usa: {valid}')
        return v.upper()

class ValuationResponse(BaseModel):
    """Risposta della valutazione con range e spiegazione."""
    valuation: float
    low_estimate: float
    high_estimate: float
    confidence_score: float
    price_per_sqm: float
    comparable_value: Optional[float]
    top_factors: list
    model_version: str

@app.post("/api/v1/valuation", response_model=ValuationResponse)
async def valuate_property(
    prop: PropertyInput,
    model: AVMEnsemble = Depends(get_model),
    feature_eng: PropertyFeatureEngineer = Depends(get_feature_engineer),
):
    """
    Valuta un immobile con ML ensemble + CMA.
    Restituisce stima puntuale, range e spiegazione.
    """
    try:
        # Feature engineering
        features = {
            **feature_eng.build_physical_features(prop.dict()),
            **feature_eng.build_location_features(prop.lat, prop.lon),
            **feature_eng.build_market_features(
                prop.lat, prop.lon, prop.superficie_mq,
                reference_date='2025-03-01'
            ),
        }

        X = pd.DataFrame([features])

        # Predizione ensemble
        prediction = model.predict(X)
        explanation = model.explain(X.iloc[0])

        # CMA come cross-check
        comparables = feature_eng.comparables_db.get_comparables(
            lat=prop.lat, lon=prop.lon, radius_km=1.0,
            before_date='2025-03-01', limit=10
        )
        cma = ComparableMarketAnalysis().estimate(prop.dict(), comparables)

        logger.info(
            "Valuation completed",
            extra={
                "lat": prop.lat, "lon": prop.lon,
                "valuation": prediction['valuation'][0],
                "confidence": prediction['confidence_score'][0],
            }
        )

        return ValuationResponse(
            valuation=round(float(prediction['valuation'][0]), -3),
            low_estimate=round(float(prediction['low_estimate'][0]), -3),
            high_estimate=round(float(prediction['high_estimate'][0]), -3),
            confidence_score=round(float(prediction['confidence_score'][0]), 3),
            price_per_sqm=round(float(prediction['valuation'][0]) / prop.superficie_mq, 0),
            comparable_value=cma.get('cma_value'),
            top_factors=explanation['top_features'][:5],
            model_version="avm-v2.1.0",
        )

    except Exception as e:
        logger.error(f"Valuation error: {e}", exc_info=True)
        raise HTTPException(status_code=500, detail="Errore durante la valutazione")

Evidently AI를 사용한 모델 드리프트 모니터링

부동산 평가 모델은 특히 드리프트에 민감합니다. 시간이 지남에 따라 가격 변화, 지역 변화, 새로운 인프라 지어졌습니다. 생산 중인 AVM 시스템은 지속적으로 모니터링해야 합니다. 예측의 질과 데이터 분포의 변화.

from evidently.report import Report
from evidently.metrics import (
    DataDriftTable, ColumnDriftMetric,
    RegressionQualityMetric, RegressionPredictedVsActualScatter,
)
from evidently.test_suite import TestSuite
from evidently.tests import (
    TestColumnDrift, TestValueMeanInNSigmas,
)
import pandas as pd
from datetime import datetime, timedelta

class AVMMonitor:
    """
    Monitoraggio continuo della qualità del modello AVM.
    Rilevazione data drift e degradazione delle performance.
    """

    def __init__(self, reference_data: pd.DataFrame):
        self.reference_data = reference_data

    def run_quality_report(self, current_data: pd.DataFrame,
                           predictions: pd.Series,
                           actuals: pd.Series) -> dict:
        """
        Report completo: data drift + qualità regressione.
        """
        report = Report(metrics=[
            DataDriftTable(),
            RegressionQualityMetric(),
            RegressionPredictedVsActualScatter(),
            ColumnDriftMetric(column_name='prezzo_medio_mq_zona'),
            ColumnDriftMetric(column_name='superficie_mq'),
        ])

        # Unisci predictions e actuals al current_data
        eval_data = current_data.copy()
        eval_data['prediction'] = predictions.values
        eval_data['target'] = actuals.values

        report.run(
            reference_data=self.reference_data,
            current_data=eval_data,
        )

        report_dict = report.as_dict()

        # Estrai metriche chiave
        metrics = report_dict.get('metrics', [])
        drift_detected = any(
            m.get('result', {}).get('drift_detected', False)
            for m in metrics
        )

        return {
            'drift_detected': drift_detected,
            'report_date': datetime.now().isoformat(),
            'metrics': report_dict,
        }

    def run_test_suite(self, current_data: pd.DataFrame) -> dict:
        """
        Test automatici: fallisce se il modello degrada oltre soglie.
        """
        tests = TestSuite(tests=[
            TestColumnDrift(column_name='superficie_mq'),
            TestColumnDrift(column_name='prezzo_medio_mq_zona'),
            TestValueMeanInNSigmas(
                column_name='error_pct',
                n=3,  # Allerta se media errore supera 3 sigma
            ),
        ])

        tests.run(
            reference_data=self.reference_data,
            current_data=current_data,
        )

        return {
            'passed': tests.as_dict()['summary']['all_passed'],
            'results': tests.as_dict(),
        }

PropTech의 알고리즘 편향 관리

2024년 5월, HUD는 다음과 같은 방법을 명시적으로 설명하는 지침을 발표했습니다. 공정주택법은 자동 평가 시스템에도 적용됩니다.. 영역에서 체계적으로 낮은 등급을 생성하는 AVM 모델 소수민족이 널리 퍼져 있는 것은 법률 위반이 될 수 있으며, 차별 의도가 없더라도 말이죠.

필수 조치:

기능에서 인종, 민족, 국적, 종교를 적극적으로 제외합니다.
우편번호별로 등급을 추적하고 인구통계학적 구성과 비교합니다.
CI/CD 파이프라인의 일부로 공정성 테스트(다른 영향, 균등 확률) 구현
수행된 모든 평가에 대한 완전한 감사 로그를 유지합니다.
사용자 요청 시 SHAP 값을 사용하여 각 개별 견적을 설명합니다.

모범 사례 및 안티 패턴

프로덕션의 AVM 모범 사례

대상의 로그 변환: 부동산 가격은 로그정규분포를 따른다. log1p()를 대상에 적용하면 이상값의 영향이 줄어들고 훈련이 향상됩니다.
엄격한 시간 분리: 기능 엔지니어링(유출)에서 예측 날짜보다 미래의 데이터를 사용하지 마세요. 항상 사용 before_date 비교 쿼리에서.
필수 신뢰 구간: 신뢰 범위 없이 점 추정치를 반환하지 마십시오. 사용자는 모델이 얼마나 불확실한지 알아야 합니다.
CMA에 대한 대체: ML 신뢰도가 낮은 경우(<0.5) CMA를 기본 추정값으로 사용하거나 두 가지를 신뢰도에 비례하는 가중치와 결합합니다.
월간 재교육: AVM 모델은 변동성이 큰 시장에서 빠르게 성능이 저하됩니다. 24개월 롤링 데이터에 대한 월간 재교육을 예약합니다.
모델 버전 관리: 각 예측은 이를 생성한 모델의 특정 버전까지 추적 가능해야 합니다(감사 준수).

중요한 안티 패턴

기능 누출: 평가 날짜 이후의 거래 데이터를 포함하면 훈련에서는 인위적으로 정확하지만 생산에서는 쓸모가 없는 모델이 생성됩니다.
우편번호에 대한 과적합: 평활화 없이 우편번호를 범주형 특성으로 사용하면 데이터가 거의 없는 영역이 불안정해집니다.
이상값 무시: 고급 부동산, 경매, 포트폴리오 처분은 교육을 왜곡합니다. 별도로 여과하거나 무게를 잰다.
검증 없이 예측: 모니터링 시스템이 없는 AVM은 움직이는 시장에서 몇 달이 지나면 신뢰할 수 없게 됩니다.

결론 및 다음 단계

안정적인 AVM을 구축하려면 좋은 ML 알고리즘 그 이상이 필요합니다. 엄격한 기능 엔지니어링, 알고리즘 편향 관리, 해석 가능성 SHAP 가치와 지속적인 모니터링 시스템을 통해 그라디언트 부스팅 모델 (XGBoost, LightGBM)은 부동산 표 형식 데이터에 대한 최신 기술을 유지하지만 CMA와 신뢰 레이어가 포함된 앙상블은 프로덕션 AVM을 구별하는 요소입니다. 간단한 학문적 연습에서.

PropTech 시리즈의 다른 기사 살펴보기

기사 00 - Scala의 부동산 플랫폼 아키텍처
기사 02 - BIM 소프트웨어 아키텍처: AEC를 위한 3D 모델링
기사 03 - 스마트 빌딩 IoT: 센서 통합 및 엣지 컴퓨팅
기사 09-PropTech의 개인 정보 보호 및 규정 준수: 공정한 주택 및 편견