こんにちは！

Federico Calò

Sviluppatore Software | Divulgatore Tecnico

Creo applicazioni web moderne e strumenti digitali personalizzati per aiutare le attività a crescere attraverso l'innovazione tecnologica. La mia passione è unire informatica ed economia per generare valore reale.

お問い合わせ

自己紹介

La mia passione per l'informatica è nata tra i banchi dell'Istituto Tecnico Commerciale di Maglie, dove ho scoperto il potere della programmazione e il fascino di creare soluzioni digitali. Fin da subito, ho capito che l'informatica non era solo codice, ma uno strumento straordinario per trasformare idee in realtà.

Durante gli studi superiori in Sistemi Informativi Aziendali, ho iniziato a intrecciare informatica ed economia, comprendendo come la tecnologia possa essere il motore della crescita per qualsiasi attività. Questa visione mi ha accompagnato all'Università degli Studi di Bari, dove ho conseguito la Laurea in Informatica, approfondendo le mie competenze tecniche e la mia passione per lo sviluppo software.

Oggi metto questa esperienza al servizio di imprese, professionisti e startup, creando soluzioni digitali su misura che automatizzano processi, ottimizzano risorse e aprono nuove opportunità di business. Perché la vera innovazione inizia quando la tecnologia incontra le esigenze reali delle persone.

スキル

Analisi Dati & Modelli Previsionali

Trasformo i dati in insights strategici con analisi approfondite e modelli predittivi per decisioni informate

プロセス自動化

Creo strumenti personalizzati che automatizzano operazioni ripetitive e liberano tempo per attività a valore aggiunto

カスタムシステム

Sviluppo sistemi software su misura, dalle integrazioni tra piattaforme alle dashboard personalizzate

const federico = {
  nome: "Federico Calò",
  ruolo: "Sviluppatore Software",
  città: "Bari, Italia",
  missione: "Aiutare attraverso l'informatica",
  passioni: [
    "Codice Pulito",
    "Innovazione",
    "Crescita Continua"
  ]
};

ミッション

Credo fermamente che l'informatica sia lo strumento più potente per trasformare le idee in realtà e migliorare la vita delle persone.

🚀

テクノロジーの民主化

La mia missione è rendere l'informatica accessibile a tutti: dalle piccole imprese locali alle startup innovative, fino ai professionisti che vogliono digitalizzare la propria attività. Ogni realtà merita di sfruttare le potenzialità del digitale.

💡

ITとビジネスの融合

Non è solo questione di scrivere codice: è capire come la tecnologia possa generare valore reale. Intrecciando competenze informatiche e visione economica, aiuto le attività a crescere, ottimizzare processi e raggiungere nuovi traguardi di efficienza e redditività.

🎯

カスタムソリューション

Ogni attività è unica, e così devono esserlo le soluzioni. Sviluppo strumenti personalizzati che rispondono alle esigenze specifiche di ciascun cliente, automatizzando processi ripetitivi e liberando tempo per ciò che conta davvero: far crescere il business.

テクノロジーでビジネスを変革

Dicembre 2024

Visualizza

Master SQL

RoadMap.sh

Novembre 2024

Visualizza

Oracle Certified Foundations Associate

Oracle

Ottobre 2024

Visualizza

People Leadership Credential

Connect

Settembre 2024

💻 Linguaggi & Tecnologie

☕Java

🐍Python

📜JavaScript

🅰️Angular

⚛️React

🔷TypeScript

🗄️SQL

🐘PHP

🎨CSS/SCSS

🔧Node.js

🐳Docker

🌿Git

💼

12/2024 - Presente

Custom Software Engineering Analyst

Accenture

Bari, Puglia, Italia · Ibrida Analisi e sviluppo di sistemi informatici attraverso l'utilizzo di Java e Quarkus in Health and Public Sector. Formazione continua su tecnologie moderne per la creazione di soluzioni software personalizzate ed efficienti e sugli agenti.

💼

06/2022 - 12/2024

Analista software e Back End Developer Associate Consultant

Links Management and Technology SpA

Esperienza nell'analisi di sistemi software as-is e flussi ETL utilizzando PowerCenter. Formazione completata su Spring Boot per lo sviluppo di applicazioni backend moderne e scalabili. Sviluppatore Backend specializzato in Spring Boot, con esperienza in progettazione di database, analisi, sviluppo e testing dei task assegnati.

💼

02/2021 - 10/2021

Programmatore software

Adesso.it (prima era WebScience srl)

Esperienza nell'analisi AS-IS e TO-BE, evoluzioni SEO ed evoluzioni website per migliorare le performance e l'engagement degli utenti.

🎓

2018 - 2025

Laurea in Informatica

Università degli Studi di Bari Aldo Moro

Bachelor's degree in Computer Science, focusing on software engineering, algorithms, and modern development practices.

📚

2013 - 2018

Diploma - Sistemi Informativi Aziendali

Istituto Tecnico Commerciale di Maglie

Technical diploma specializing in Business Information Systems, combining IT knowledge with business management.

お問い合わせ

プロジェクトをお考えですか？お気軽にお問い合わせください。

* Campi obbligatori. I tuoi dati saranno utilizzati solo per rispondere alla tua richiesta.

アイデアから本番まで: 完全な ML パイプライン

Jupyter ノートブック上で実行される ML モデルの構築は、作業のわずか 10% です。残りの90％はそれをシステムに変換することにあります 本番環境に対応: 信頼性があり、監視されており、再現可能そしてメンテナンス可能。あ エンドツーエンドの ML パイプライン 生データからデータに至るまでのフロー全体を自動化します。本番環境で予測し、実行ごとに一貫性と品質を保証します。この記事のビルド実際の問題に対する完全なパイプライン: チャーン予測 （放棄の予測お客様）。

パイプラインは、データの読み込み、前処理、特徴エンジニアリング、トレーニング、評価、モデルの選択と展開。各フェーズはモジュール式でテスト可能な、調整されたコンポーネントです実験追跡用の MLflow やコンテナ化用の Docker などのツールから。

この記事で学べること

完全な ML パイプラインのアーキテクチャ
ケーススタディ: エンドツーエンドのチャーン予測
MLflow による実験の追跡
データのバージョン管理と再現性
FastAPI を使用したモデル提供
本番環境でのモニタリングと再トレーニング

フェーズ 1: データのロードと検証

最初のフェーズでは、ソースからデータをロードし、その品質をチェックします。コントロールには次のものが含まれます: スキーマ検証 (予期される列、データ型)、データ品質チェック (欠損値の割合、有効な範囲、異常分布）、およびデータプロファイリング（記述統計）。データがチェックに失敗した場合、パイプラインは信頼性の低いモデルを生成するのではなく、明らかなエラーで停止します。

Python — データのロードと検証

import pandas as pd
import numpy as np
from dataclasses import dataclass
from typing import List, Dict, Optional

@dataclass
class DataValidationResult:
    """Risultato della validazione dati."""
    is_valid: bool
    errors: List[str]
    warnings: List[str]
    stats: Dict[str, float]

def load_and_validate(filepath: str, expected_columns: List[str]) -> tuple:
    """Carica e valida il dataset."""
    errors = []
    warnings = []

    # Caricamento
    df = pd.read_csv(filepath)

    # Schema validation
    missing_cols = set(expected_columns) - set(df.columns)
    if missing_cols:
        errors.append(f"Colonne mancanti: {missing_cols}")

    # Data quality checks
    null_pct = df.isnull().mean()
    high_null_cols = null_pct[null_pct > 0.3].index.tolist()
    if high_null_cols:
        warnings.append(f"Colonne con >30% null: {high_null_cols}")

    # Duplicati
    n_dupes = df.duplicated().sum()
    if n_dupes > 0:
        warnings.append(f"{n_dupes} righe duplicate trovate")

    # Statistiche
    stats = {
        'n_rows': len(df),
        'n_cols': len(df.columns),
        'null_pct_avg': null_pct.mean(),
        'n_duplicates': n_dupes
    }

    result = DataValidationResult(
        is_valid=len(errors) == 0,
        errors=errors,
        warnings=warnings,
        stats=stats
    )

    return df, result

# Uso
# df, validation = load_and_validate('data/churn.csv', expected_columns)
# if not validation.is_valid:
#     raise ValueError(f"Validazione fallita: {validation.errors}")
print("Pipeline Stage 1: Data Loading & Validation - OK")

フェーズ 2-3: 前処理と特徴エンジニアリング

前処理と特徴エンジニアリングは次のようにカプセル化されています。 scikit-learn パイプライン e カスタムトランス。カスタムトランスの拡張 BaseEstimator e TransformerMixin パイプラインにシームレスに統合します。これにより、同じことが保証されます変換はトレーニングと本番環境の両方に適用されるため、不一致のリスクが排除されます。

Python — 完全な前処理パイプライン

from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.impute import SimpleImputer
import numpy as np
import pandas as pd

class FeatureEngineer(BaseEstimator, TransformerMixin):
    """Custom transformer per feature engineering."""

    def fit(self, X, y=None):
        return self

    def transform(self, X):
        df = X.copy() if isinstance(X, pd.DataFrame) else pd.DataFrame(X)

        # Feature derivate (esempio churn prediction)
        if 'tenure' in df.columns and 'monthly_charges' in df.columns:
            df['total_spent'] = df['tenure'] * df['monthly_charges']
            df['avg_monthly_ratio'] = df['monthly_charges'] / (df['tenure'] + 1)

        if 'tenure' in df.columns:
            df['tenure_group'] = pd.cut(
                df['tenure'], bins=[0, 12, 24, 48, 72],
                labels=['new', 'developing', 'mature', 'loyal']
            )
        return df

def build_preprocessing_pipeline(
    numeric_features: list,
    categorical_features: list
) -> Pipeline:
    """Costruisce la pipeline di preprocessing."""

    numeric_transformer = Pipeline([
        ('imputer', SimpleImputer(strategy='median')),
        ('scaler', StandardScaler())
    ])

    categorical_transformer = Pipeline([
        ('imputer', SimpleImputer(strategy='most_frequent')),
        ('encoder', OneHotEncoder(drop='first', handle_unknown='ignore'))
    ])

    preprocessor = ColumnTransformer(transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ])

    return Pipeline([
        ('feature_engineer', FeatureEngineer()),
        ('preprocessor', preprocessor)
    ])

print("Pipeline Stage 2-3: Preprocessing & Feature Engineering - OK")

フェーズ 4 ～ 5: トレーニング、評価、モデルの選択

トレーニングフェーズでは、複数のアルゴリズムを相互検証で体系的に比較し、もっと良い。ザ」実験的な追跡 MLflow を使用すると、パラメータ、メトリクスが自動的に記録されます各実験から得られるアーティファクトにより、プロセスを再現可能かつ比較可能にします。選択したモデルデプロイメント用にシリアル化され、バージョン管理されます。

Python — 実験追跡によるトレーニング

from sklearn.ensemble import (
    RandomForestClassifier, GradientBoostingClassifier
)
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_validate, StratifiedKFold
from sklearn.metrics import make_scorer, f1_score, roc_auc_score
import numpy as np
from datetime import datetime

class ExperimentTracker:
    """Tracker semplificato per esperimenti ML."""

    def __init__(self):
        self.experiments = []

    def log_experiment(self, name, params, metrics, model):
        self.experiments.append({
            'name': name,
            'params': params,
            'metrics': metrics,
            'model': model,
            'timestamp': datetime.now().isoformat()
        })

    def get_best(self, metric='f1'):
        return max(self.experiments, key=lambda x: x['metrics'].get(metric, 0))

def train_and_evaluate(X, y, tracker):
    """Addestra e valuta più' modelli."""
    cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
    scoring = {
        'accuracy': 'accuracy',
        'f1': 'f1',
        'roc_auc': 'roc_auc',
        'precision': 'precision',
        'recall': 'recall'
    }

    models = {
        'LogisticRegression': LogisticRegression(max_iter=10000, random_state=42),
        'RandomForest': RandomForestClassifier(n_estimators=200, random_state=42),
        'GradientBoosting': GradientBoostingClassifier(
            n_estimators=200, learning_rate=0.05, max_depth=5, random_state=42
        )
    }

    for name, model in models.items():
        results = cross_validate(
            model, X, y, cv=cv, scoring=scoring, return_train_score=True
        )

        metrics = {
            metric: results[f'test_{metric}'].mean()
            for metric in scoring.keys()
        }

        tracker.log_experiment(name, model.get_params(), metrics, model)
        print(f"{name:<25s} F1={metrics['f1']:.3f} AUC={metrics['roc_auc']:.3f}")

    best = tracker.get_best('f1')
    print(f"\nMiglior modello: {best['name']} (F1={best['metrics']['f1']:.3f})")
    return best

# Uso
tracker = ExperimentTracker()
# best_model = train_and_evaluate(X_preprocessed, y, tracker)
print("Pipeline Stage 4-5: Training & Evaluation - OK")

フェーズ 6: FastAPI を使用したモデル提供

モデルの展開 REST API FastAPI を使用すると、あらゆるアプリケーションで次のことが可能になります。リアルタイムの予測を取得します。 API は顧客の機能を含む JSON リクエストを受け入れ、返しますチャーンの確率と予測されたクラス。シリアル化されたモデル (joblib または pickle を使用) が付属しますサーバーの起動時にロードされます。

Python — FastAPI を使用したモデル提供

# api.py - Deployment del modello con FastAPI
# pip install fastapi uvicorn

from dataclasses import dataclass
from typing import Dict, Any
import json

@dataclass
class PredictionRequest:
    """Schema della richiesta di predizione."""
    tenure: int
    monthly_charges: float
    total_charges: float
    contract: str
    payment_method: str

@dataclass
class PredictionResponse:
    """Schema della risposta."""
    churn_probability: float
    prediction: str
    confidence: float
    model_version: str

class ModelServer:
    """Server per il modello ML."""

    def __init__(self, model_path: str, version: str = "1.0.0"):
        self.version = version
        # In produzione: self.model = joblib.load(model_path)
        # self.pipeline = joblib.load(f"{model_path}/pipeline.pkl")
        print(f"Modello v{version} caricato da {model_path}")

    def predict(self, request: PredictionRequest) -> PredictionResponse:
        """Genera predizione per un singolo cliente."""
        # features = self.pipeline.transform(request_to_dataframe(request))
        # proba = self.model.predict_proba(features)[0]
        # Simulazione
        proba = [0.3, 0.7]

        return PredictionResponse(
            churn_probability=round(proba[1], 3),
            prediction="churn" if proba[1] > 0.5 else "no_churn",
            confidence=round(max(proba), 3),
            model_version=self.version
        )

# FastAPI app (in produzione):
# app = FastAPI(title="Churn Prediction API")
# server = ModelServer("models/best_model")
#
# @app.post("/predict")
# async def predict(request: PredictionRequest):
#     return server.predict(request)
#
# Avvio: uvicorn api:app --host 0.0.0.0 --port 8000
print("Pipeline Stage 6: Model Serving - OK")

フェーズ 7: モニタリングと再トレーニング

実稼働モデルは時間の経過とともに次のような理由で劣化します。 データドリフト (生産データトレーニングと比較した変化）と コンセプトドリフト (機能とターゲットの関係が変わります)。継続的なモニタリングにより、モデルのパフォーマンス、入力の分布、分布を追跡します。予測の。メトリクスがしきい値を下回ると、 再訓練自動.

ML 制作チェックリスト: (1) データとモデルのバージョニング、(2) 再現可能なパイプライン、 (3) 前処理と予測のための自動テスト、(4) 本番環境でのメトリクスの監視、 (5) データのドリフトとパフォーマンスの低下に関するアラート、(6) 以前のバージョンへの迅速なロールバック、 (7) デバッグ用の完全なログ記録、(8) 新しいモデルバージョンの A/B テスト。

MLOps ツール

MLOps エコシステムは、各段階に特化したツールを提供します。 MLフロー 実験的な追跡用そしてモデルレジストリ。 DVC (データバージョンコントロール) データとパイプラインのバージョン管理用。 ドッカー コンテナ化のため。 GitHub アクション CI/CDの場合。 プロメテウス + グラファナ モニタリング用。 大きな期待 データ品質のために。の選択ツールはプロジェクトの規模と既存のインフラストラクチャによって異なります。

重要なポイント

エンドツーエンドの ML パイプラインは、生データから本番環境で監視されるモデルまでの 7 つの段階をカバーします。
scikit-learn のカスタムトランスフォーマーはトレーニングと推論の間の一貫性を確保します
実験追跡 (MLflow) により、実験を再現可能かつ比較可能にします
FastAPI + Docker はモデル提供のための標準スタックです
データドリフトとコンセプトドリフトには継続的なモニタリングと自動再トレーニングが必要です
再現性は本番環境の ML パイプラインで最も重要な要件です