こんにちは！

Federico Calò

Sviluppatore Software | Divulgatore Tecnico

Creo applicazioni web moderne e strumenti digitali personalizzati per aiutare le attività a crescere attraverso l'innovazione tecnologica. La mia passione è unire informatica ed economia per generare valore reale.

お問い合わせ

自己紹介

La mia passione per l'informatica è nata tra i banchi dell'Istituto Tecnico Commerciale di Maglie, dove ho scoperto il potere della programmazione e il fascino di creare soluzioni digitali. Fin da subito, ho capito che l'informatica non era solo codice, ma uno strumento straordinario per trasformare idee in realtà.

Durante gli studi superiori in Sistemi Informativi Aziendali, ho iniziato a intrecciare informatica ed economia, comprendendo come la tecnologia possa essere il motore della crescita per qualsiasi attività. Questa visione mi ha accompagnato all'Università degli Studi di Bari, dove ho conseguito la Laurea in Informatica, approfondendo le mie competenze tecniche e la mia passione per lo sviluppo software.

Oggi metto questa esperienza al servizio di imprese, professionisti e startup, creando soluzioni digitali su misura che automatizzano processi, ottimizzano risorse e aprono nuove opportunità di business. Perché la vera innovazione inizia quando la tecnologia incontra le esigenze reali delle persone.

スキル

Analisi Dati & Modelli Previsionali

Trasformo i dati in insights strategici con analisi approfondite e modelli predittivi per decisioni informate

プロセス自動化

Creo strumenti personalizzati che automatizzano operazioni ripetitive e liberano tempo per attività a valore aggiunto

カスタムシステム

Sviluppo sistemi software su misura, dalle integrazioni tra piattaforme alle dashboard personalizzate

const federico = {
  nome: "Federico Calò",
  ruolo: "Sviluppatore Software",
  città: "Bari, Italia",
  missione: "Aiutare attraverso l'informatica",
  passioni: [
    "Codice Pulito",
    "Innovazione",
    "Crescita Continua"
  ]
};

ミッション

Credo fermamente che l'informatica sia lo strumento più potente per trasformare le idee in realtà e migliorare la vita delle persone.

🚀

テクノロジーの民主化

La mia missione è rendere l'informatica accessibile a tutti: dalle piccole imprese locali alle startup innovative, fino ai professionisti che vogliono digitalizzare la propria attività. Ogni realtà merita di sfruttare le potenzialità del digitale.

💡

ITとビジネスの融合

Non è solo questione di scrivere codice: è capire come la tecnologia possa generare valore reale. Intrecciando competenze informatiche e visione economica, aiuto le attività a crescere, ottimizzare processi e raggiungere nuovi traguardi di efficienza e redditività.

🎯

カスタムソリューション

Ogni attività è unica, e così devono esserlo le soluzioni. Sviluppo strumenti personalizzati che rispondono alle esigenze specifiche di ciascun cliente, automatizzando processi ripetitivi e liberando tempo per ciò che conta davvero: far crescere il business.

テクノロジーでビジネスを変革

Dicembre 2024

Visualizza

Master SQL

RoadMap.sh

Novembre 2024

Visualizza

Oracle Certified Foundations Associate

Oracle

Ottobre 2024

Visualizza

People Leadership Credential

Connect

Settembre 2024

💻 Linguaggi & Tecnologie

☕Java

🐍Python

📜JavaScript

🅰️Angular

⚛️React

🔷TypeScript

🗄️SQL

🐘PHP

🎨CSS/SCSS

🔧Node.js

🐳Docker

🌿Git

💼

12/2024 - Presente

Custom Software Engineering Analyst

Accenture

Bari, Puglia, Italia · Ibrida Analisi e sviluppo di sistemi informatici attraverso l'utilizzo di Java e Quarkus in Health and Public Sector. Formazione continua su tecnologie moderne per la creazione di soluzioni software personalizzate ed efficienti e sugli agenti.

💼

06/2022 - 12/2024

Analista software e Back End Developer Associate Consultant

Links Management and Technology SpA

Esperienza nell'analisi di sistemi software as-is e flussi ETL utilizzando PowerCenter. Formazione completata su Spring Boot per lo sviluppo di applicazioni backend moderne e scalabili. Sviluppatore Backend specializzato in Spring Boot, con esperienza in progettazione di database, analisi, sviluppo e testing dei task assegnati.

💼

02/2021 - 10/2021

Programmatore software

Adesso.it (prima era WebScience srl)

Esperienza nell'analisi AS-IS e TO-BE, evoluzioni SEO ed evoluzioni website per migliorare le performance e l'engagement degli utenti.

🎓

2018 - 2025

Laurea in Informatica

Università degli Studi di Bari Aldo Moro

Bachelor's degree in Computer Science, focusing on software engineering, algorithms, and modern development practices.

📚

2013 - 2018

Diploma - Sistemi Informativi Aziendali

Istituto Tecnico Commerciale di Maglie

Technical diploma specializing in Business Information Systems, combining IT knowledge with business management.

お問い合わせ

プロジェクトをお考えですか？お気軽にお問い合わせください。

* Campi obbligatori. I tuoi dati saranno utilizzati solo per rispondere alla tua richiesta.

K 最近傍: 遅延分類器

K 最近傍 (KNN) は、最も直感的な機械学習アルゴリズムの 1 つです。新しい点を分類するには、i を見てください。 K 個の最近接点 トレーニングデータセット e 多数派クラスを割り当てます。トレーニング中に明示的なモデルを構築しません (これが呼ばれる理由です) 怠惰な学習者): すべての計算作業は予測時に発生します。アルゴリズムは特徴空間内で近傍を検索する必要があります。

KNN のシンプルさは長所でもあり短所でもあります。理解と実装が簡単です。ただし、データセットが大きい場合は、各トレーニングポイントからの距離を計算する必要があるため遅くなります。新しい予言。 KD-Tree や Ball Tree などのデータ構造はこの問題を軽減しますが、完全に解決するわけではありません。完全に。

この記事で学べること

KNN の仕組みと距離メトリック
K の最適な値を選択する方法
K-Means: 最も一般的なクラスタリング
DBSCAN: 密度ベースのクラスタリング
ラベルフリークラスタリングを評価する方法
シルエットスコアとエルボーメソッド

距離メトリクス

KNN は次の概念に基づいています。距離特徴空間内の点の間。選択メトリクスの値は結果に大きく影響します。そこには ユークリッド距離 そこにあります最も一般的なもの: n 次元空間内の 2 点間の直線。そこには マンハッタンの距離 絶対差の合計を計算します (道路グリッド内を歩く場合など)。そこには の距離ミンコフスキー これは最初の 2 つを一般化したもので、パラメータ p によって制御されます。

Python — K チューニングを使用した KNN

from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
import numpy as np

# Dataset
wine = load_wine()
X, y = wine.data, wine.target

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

# Trovare il K ottimale
k_range = range(1, 31)
cv_scores = []

for k in k_range:
    pipeline = Pipeline([
        ('scaler', StandardScaler()),
        ('knn', KNeighborsClassifier(n_neighbors=k))
    ])
    scores = cross_val_score(pipeline, X_train, y_train, cv=5, scoring='accuracy')
    cv_scores.append(scores.mean())

best_k = k_range[np.argmax(cv_scores)]
print(f"Miglior K: {best_k} con accuracy: {max(cv_scores):.3f}")

# Modello finale con il K ottimale
final_pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('knn', KNeighborsClassifier(n_neighbors=best_k, weights='distance'))
])
final_pipeline.fit(X_train, y_train)
test_accuracy = final_pipeline.score(X_test, y_test)
print(f"Test accuracy con K={best_k}: {test_accuracy:.3f}")

K 平均法クラスタリング

K 平均法 これは最もよく使用されるクラスタリングアルゴリズムです。データを分割する K 個のクラスター、各クラスターは独自に定義されます。重心 (ポイント中）。アルゴリズムは、各点を最も近い重心に割り当てることと、i を再計算することの 2 つのフェーズを交互に実行します。割り当てられたポイントの平均としての重心。収束するまで繰り返します。

K 平均法は、同様のサイズの球状クラスターではうまく機能しますが、重要な制限があります。 Kを事前に指定すると、重心の初期化に敏感になります（部分的に修正されました） K-Means++ より）、不規則な形状や異なるサイズのクラスターを適切に処理できません。

Python — エルボー法とシルエットを使用した K 平均法

from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import silhouette_score
import numpy as np

# Dati di esempio: segmentazione clienti
np.random.seed(42)
# 3 gruppi naturali di clienti
group1 = np.random.randn(100, 2) * 0.5 + [2, 2]    # Budget
group2 = np.random.randn(100, 2) * 0.8 + [7, 7]    # Premium
group3 = np.random.randn(100, 2) * 0.6 + [2, 8]    # Frequenti
X = np.vstack([group1, group2, group3])

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Elbow method: trovare il K ottimale
inertias = []
silhouettes = []
K_range = range(2, 11)

for k in K_range:
    kmeans = KMeans(n_clusters=k, random_state=42, n_init=10)
    labels = kmeans.fit_predict(X_scaled)
    inertias.append(kmeans.inertia_)
    silhouettes.append(silhouette_score(X_scaled, labels))

# Risultati
for k, inertia, sil in zip(K_range, inertias, silhouettes):
    marker = " <-- ottimale" if k == 3 else ""
    print(f"K={k}: Inertia={inertia:.1f}, Silhouette={sil:.3f}{marker}")

# Modello finale
kmeans_final = KMeans(n_clusters=3, random_state=42, n_init=10)
clusters = kmeans_final.fit_predict(X_scaled)
print(f"\nDistribuzione cluster: {np.bincount(clusters)}")

DBSCAN: 密度ベースのクラスタリング

DBSCAN (ノイズを含むアプリケーションの密度ベースの空間クラスタリング) それはアルゴリズムですクラスター数を事前に指定する必要のないクラスタリング。クラスターを次のように識別します低密度領域によって分離された高密度領域。 2 つのパラメータは動作を制御します。 eps (近接半径) e min_samples (最低ポイント数クラスターを形成します）。

DBSCAN はポイントを 3 つのカテゴリに分類します。 コアポイント (少なくとも min_samples が以内に近いもの) eps)、 境界点 (コアポイントに近いが、適切な近傍がほとんどない) e ノイズポイント (コアでも境界でもありません)。 K 平均法とは異なり、DBSCAN は任意の形状のクラスターを処理し、外れ値を自動的に識別します。

Python — DBSCAN と階層的クラスタリング

from sklearn.cluster import DBSCAN, AgglomerativeClustering
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import silhouette_score
from sklearn.datasets import make_moons
import numpy as np

# Dataset con cluster non sferici (mezzalune)
X, y_true = make_moons(n_samples=300, noise=0.1, random_state=42)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# DBSCAN
dbscan = DBSCAN(eps=0.3, min_samples=10)
labels_dbscan = dbscan.fit_predict(X_scaled)
n_clusters = len(set(labels_dbscan)) - (1 if -1 in labels_dbscan else 0)
n_noise = list(labels_dbscan).count(-1)

print(f"DBSCAN: {n_clusters} cluster, {n_noise} punti rumore")
if n_clusters > 1:
    mask = labels_dbscan != -1
    sil = silhouette_score(X_scaled[mask], labels_dbscan[mask])
    print(f"  Silhouette (escluso rumore): {sil:.3f}")

# Clustering Gerarchico (Agglomerativo)
agg = AgglomerativeClustering(n_clusters=2, linkage='ward')
labels_agg = agg.fit_predict(X_scaled)
sil_agg = silhouette_score(X_scaled, labels_agg)
print(f"\nHierarchical (Ward): Silhouette = {sil_agg:.3f}")

# K-Means per confronto (fatica con mezzalune)
from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=2, random_state=42, n_init=10)
labels_km = kmeans.fit_predict(X_scaled)
sil_km = silhouette_score(X_scaled, labels_km)
print(f"K-Means: Silhouette = {sil_km:.3f}")

クラスタリングの評価指標

クラスタリングの評価は教師付き分類よりも困難です。参照ラベルはありません。の シルエットスコア 各ポイントがいくらであるかを測定します近隣のクラスターと比較したクラスターの類似度: -1 (不正な割り当て) から 1 (密なクラスター) までの範囲そしてよく分離されています）。の デイビス・ボールディン指数 クラスター間の平均類似性を測定します。低いほど良いです。の カリンスキー・ハラバス指数 ～の間の関係を測定しますクラスター間およびクラスター内の分散: 高いほど優れています。

KNN 対 K 平均法: 混同しないでください。 KNNはアルゴリズムです 監督された 分類/回帰用 (ラベルを使用)。 K-Means はアルゴリズムです 監視されていない クラスタリング (ラベルは使用しません)。彼らが共有している唯一のものは、文字「K」です。

各アルゴリズムをいつ使用するか

KNN: 中小規模のデータセットの分類問題と、機能とターゲットはローカルで非線形です。 K 平均法: クラスターによるセグメンテーション用球形でバランスが取れています。 DBSCAN: クラスターの形状が不規則な場合、外れ値が存在します。有意であるか、クラスターの数が不明です。 階層的: 理解する必要があるときグループ化階層とデータセットは大きすぎません。

重要なポイント

KNN は K 最近傍に基づいて分類します。単純ですが、大規模なデータセットでは時間がかかります。
K の選択は相互検証によって行われます。K が低すぎると過剰適合が発生し、高すぎると過小適合が発生します。
K-Means は重心を持つ K 個のクラスターに分割します。既知の K が必要で、球状クラスターで動作します
DBSCAN は密度に基づいて任意の形状のクラスターを検出し、外れ値を特定します
シルエットスコアは、クラスタリングの品質を評価するために最も使用される指標です
特徴のスケーリングはすべての距離ベースのアルゴリズムに不可欠です