こんにちは！

Federico Calò

Sviluppatore Software | Divulgatore Tecnico

Creo applicazioni web moderne e strumenti digitali personalizzati per aiutare le attività a crescere attraverso l'innovazione tecnologica. La mia passione è unire informatica ed economia per generare valore reale.

お問い合わせ

自己紹介

La mia passione per l'informatica è nata tra i banchi dell'Istituto Tecnico Commerciale di Maglie, dove ho scoperto il potere della programmazione e il fascino di creare soluzioni digitali. Fin da subito, ho capito che l'informatica non era solo codice, ma uno strumento straordinario per trasformare idee in realtà.

Durante gli studi superiori in Sistemi Informativi Aziendali, ho iniziato a intrecciare informatica ed economia, comprendendo come la tecnologia possa essere il motore della crescita per qualsiasi attività. Questa visione mi ha accompagnato all'Università degli Studi di Bari, dove ho conseguito la Laurea in Informatica, approfondendo le mie competenze tecniche e la mia passione per lo sviluppo software.

Oggi metto questa esperienza al servizio di imprese, professionisti e startup, creando soluzioni digitali su misura che automatizzano processi, ottimizzano risorse e aprono nuove opportunità di business. Perché la vera innovazione inizia quando la tecnologia incontra le esigenze reali delle persone.

スキル

Analisi Dati & Modelli Previsionali

Trasformo i dati in insights strategici con analisi approfondite e modelli predittivi per decisioni informate

プロセス自動化

Creo strumenti personalizzati che automatizzano operazioni ripetitive e liberano tempo per attività a valore aggiunto

カスタムシステム

Sviluppo sistemi software su misura, dalle integrazioni tra piattaforme alle dashboard personalizzate

const federico = {
  nome: "Federico Calò",
  ruolo: "Sviluppatore Software",
  città: "Bari, Italia",
  missione: "Aiutare attraverso l'informatica",
  passioni: [
    "Codice Pulito",
    "Innovazione",
    "Crescita Continua"
  ]
};

ミッション

Credo fermamente che l'informatica sia lo strumento più potente per trasformare le idee in realtà e migliorare la vita delle persone.

🚀

テクノロジーの民主化

La mia missione è rendere l'informatica accessibile a tutti: dalle piccole imprese locali alle startup innovative, fino ai professionisti che vogliono digitalizzare la propria attività. Ogni realtà merita di sfruttare le potenzialità del digitale.

💡

ITとビジネスの融合

Non è solo questione di scrivere codice: è capire come la tecnologia possa generare valore reale. Intrecciando competenze informatiche e visione economica, aiuto le attività a crescere, ottimizzare processi e raggiungere nuovi traguardi di efficienza e redditività.

🎯

カスタムソリューション

Ogni attività è unica, e così devono esserlo le soluzioni. Sviluppo strumenti personalizzati che rispondono alle esigenze specifiche di ciascun cliente, automatizzando processi ripetitivi e liberando tempo per ciò che conta davvero: far crescere il business.

テクノロジーでビジネスを変革

Dicembre 2024

Visualizza

Master SQL

RoadMap.sh

Novembre 2024

Visualizza

Oracle Certified Foundations Associate

Oracle

Ottobre 2024

Visualizza

People Leadership Credential

Connect

Settembre 2024

💻 Linguaggi & Tecnologie

☕Java

🐍Python

📜JavaScript

🅰️Angular

⚛️React

🔷TypeScript

🗄️SQL

🐘PHP

🎨CSS/SCSS

🔧Node.js

🐳Docker

🌿Git

💼

12/2024 - Presente

Custom Software Engineering Analyst

Accenture

Bari, Puglia, Italia · Ibrida Analisi e sviluppo di sistemi informatici attraverso l'utilizzo di Java e Quarkus in Health and Public Sector. Formazione continua su tecnologie moderne per la creazione di soluzioni software personalizzate ed efficienti e sugli agenti.

💼

06/2022 - 12/2024

Analista software e Back End Developer Associate Consultant

Links Management and Technology SpA

Esperienza nell'analisi di sistemi software as-is e flussi ETL utilizzando PowerCenter. Formazione completata su Spring Boot per lo sviluppo di applicazioni backend moderne e scalabili. Sviluppatore Backend specializzato in Spring Boot, con esperienza in progettazione di database, analisi, sviluppo e testing dei task assegnati.

💼

02/2021 - 10/2021

Programmatore software

Adesso.it (prima era WebScience srl)

Esperienza nell'analisi AS-IS e TO-BE, evoluzioni SEO ed evoluzioni website per migliorare le performance e l'engagement degli utenti.

🎓

2018 - 2025

Laurea in Informatica

Università degli Studi di Bari Aldo Moro

Bachelor's degree in Computer Science, focusing on software engineering, algorithms, and modern development practices.

📚

2013 - 2018

Diploma - Sistemi Informativi Aziendali

Istituto Tecnico Commerciale di Maglie

Technical diploma specializing in Business Information Systems, combining IT knowledge with business management.

お問い合わせ

プロジェクトをお考えですか？お気軽にお問い合わせください。

* Campi obbligatori. I tuoi dati saranno utilizzati solo per rispondere alla tua richiesta.

はじめに: 実験から本番まで

開発者のラップトップ上で実行される AI エージェントの構築は比較的簡単です。信頼性、拡張性、可観測性を備えたものを本番環境に導入することは完全に困難です違う。 Gartner によると、 組織の 25% 彼らが開発したもの AI エージェントのプロトタイプを作成し、実稼働環境へのスケールアップに成功しました。間のギャッププロトタイプおよび実稼働準備が整ったシステムは巨大であり、その原因はほとんどの場合インフラストラクチャにあります。適切なコンテナ化の欠如、モニタリングの欠如、非効率なスケーリングと管理おおよその状態。

AI エージェントには、従来のアプリケーションと比較して、導入に特有の課題があります。エージェントは単純なステートレスマイクロサービスではありません。エージェントは会話状態を維持し、実行します。外部 API 呼び出しは遅延が変動し、計算リソースを予期せず消費しますまた、1 つのタスクで数分 (または数時間) アクティブなままにすることができます。これらの機能には次のことが必要です従来の要求と応答のパターンを超えた特定の展開戦略。

この記事では、コンテナ化から AI エージェントの展開スタック全体を分析します。 Docker を使用したものから Kubernetes を使用したオーケストレーションまで、スケーリング戦略から高度な監視まで。各セクションには、実稼働対応の構成と統合されたアーキテクチャパターンが含まれていますエージェントを大規模に管理するチームによって。

この記事で学べること

Docker とマルチステージビルドを使用して AI エージェントをコンテナ化する方法
エージェントの負荷に合わせて最適化されたマニフェストを使用した Kubernetes へのデプロイメント
水平、垂直、キューベースのスケーリング戦略
状態の永続性: Redis、PostgreSQL、および Persistent Volumes
エージェント間通信のためのサービスメッシュとネットワーキング
エージェントの特定のヘルスチェック: 稼働状況、準備状況、起動プローブ
Prometheus と Grafana によるモニタリング: エージェントのカスタムメトリクス
OpenTelemetry による構造化ロギングと分散トレース

AI エージェントの Docker コンテナ化

コンテナ化は、AI エージェントを移植可能かつ再現可能にするための重要な最初のステップです。 Docker コンテナは、エージェント、その依存関係、ローカルモデル (存在する場合)、およびどこにでも展開可能なユニットに構成できます。ただし、AI エージェントをコンテナ化するには、従来の Web アプリケーションには存在しない特定の詳細に注意を払います。

Dockerfile の最適化: マルチステージビルド

複数段階のビルドアプローチにより、複数の要素を分離することで最終イメージのサイズが大幅に削減されます。実行環境からビルド環境へ。 Python ベースのエージェントの場合、これはインストールを意味します。ビルド段階でのみ依存関係をビルドし、必要なアーティファクトのみをコピーします最終段階で。

# === Stage 1: Builder ===
FROM python:3.12-slim AS builder

WORKDIR /app

# Installa dipendenze di sistema per compilazione
RUN apt-get update && apt-get install -y --no-install-recommends \
    build-essential \
    gcc \
    && rm -rf /var/lib/apt/lists/*

# Copia e installa dipendenze Python
COPY requirements.txt .
RUN pip install --no-cache-dir --prefix=/install -r requirements.txt

# === Stage 2: Runtime ===
FROM python:3.12-slim AS runtime

WORKDIR /app

# Copia solo le dipendenze installate
COPY --from=builder /install /usr/local

# Copia il codice dell'agente
COPY src/ ./src/
COPY config/ ./config/

# Crea utente non-root per sicurezza
RUN useradd --create-home --shell /bin/bash agent
USER agent

# Variabili d'ambiente
ENV PYTHONUNBUFFERED=1
ENV AGENT_ENV=production
ENV LOG_LEVEL=INFO

# Health check integrato nel container
HEALTHCHECK --interval=30s --timeout=10s --start-period=60s --retries=3 \
    CMD python -c "import requests; requests.get('http://localhost:8080/health')" || exit 1

# Esponi porta del servizio
EXPOSE 8080

# Avvia l'agente
CMD ["python", "-m", "src.agent_server"]

この Dockerfile は、いくつかの重要なベストプラクティスを実装しています。の使用 python:3.12-slim 基本イメージとして、攻撃対象領域と全体のサイズを削減します。マルチステージビルド最終イメージからビルドツールを削除します。非 root ユーザーが攻撃を防ぐ権限昇格。の HEALTHCHECK ネイティブによりDocker自体を監視できるようになりますコンテナのステータス。

画像の最適化

PyTorch や TensorFlow などの重いライブラリを使用するエージェントの場合、最適化イメージの重要性が高まります。いくつかの効果的な戦略:

レイヤーのキャッシュ: COPY ステートメントを揮発性の低いものから最も高いもの (ソースコードの前の requirements.txt) に並べ替えて、Docker レイヤーキャッシュを最大化します。
.dockerignore: 運用環境で必要のないテスト、ドキュメント、一時ファイル、仮想環境、モデルを除外します。
アルパイン vs スリム: Python エージェントの場合、 slim そして一般的には alpine glibc を必要とするパッケージとの互換性の問題を回避できるためです。
ディストロレス: 最大限のセキュリティを実現するために、Google Distroless イメージはコンテナからシェルを削除し、攻撃対象領域を最小限に抑えます。

環境固有の構成

運用環境のエージェントには、開発環境とは異なる構成が必要です。実際の API キー、運用エンドポイント、適切なログレベル。構成管理が行われる環境変数、ボリュームとしてマウントされた構成ファイル、または外部シークレットマネージャーを通じて。

# config/production.yaml
agent:
  name: "research-agent-v2"
  max_iterations: 15
  timeout_seconds: 300
  model:
    provider: "anthropic"
    name: "claude-sonnet-4-20250514"
    temperature: 0.1
    max_tokens: 4096
  memory:
    backend: "redis"
    redis_url: "${REDIS_URL}"
    ttl_hours: 24
  tools:
    - name: "web_search"
      enabled: true
      rate_limit: 10  # richieste/minuto
    - name: "database_query"
      enabled: true
      connection_pool_size: 5
  observability:
    metrics_port: 9090
    tracing_enabled: true
    log_format: "json"

Kubernetesのデプロイメント

Kubernetes は、実稼働環境のコンテナ化されたワークロードのための標準のオーケストレーションプラットフォームです。 AI エージェントにとって、Kubernetes は自動スケーリング、自己修復、シークレット管理、サービス検出、ローリングアップデートをダウンタイムなしで実行できます。しかし、エージェントたちは、 AI には、専用の Kubernetes 構成を必要とする特定の要件があります。

基本マニフェスト: 導入とサービス

デプロイメントマニフェストは、Kubernetes がエージェントポッドを実行および管理する方法を定義します。 AI エージェントの場合、リソース (CPU とメモリ)、プローブを正しく構成することが重要ですヘルスポリシーと再起動ポリシー。

# k8s/deployment.yaml
apiVersion: apps/v1
kind: Deployment
metadata:
  name: research-agent
  labels:
    app: research-agent
    version: v2.1.0
spec:
  replicas: 3
  selector:
    matchLabels:
      app: research-agent
  template:
    metadata:
      labels:
        app: research-agent
      annotations:
        prometheus.io/scrape: "true"
        prometheus.io/port: "9090"
    spec:
      containers:
        - name: agent
          image: registry.example.com/research-agent:v2.1.0
          ports:
            - containerPort: 8080
              name: http
            - containerPort: 9090
              name: metrics
          resources:
            requests:
              cpu: "500m"
              memory: "1Gi"
            limits:
              cpu: "2000m"
              memory: "4Gi"
          env:
            - name: AGENT_ENV
              value: "production"
            - name: ANTHROPIC_API_KEY
              valueFrom:
                secretKeyRef:
                  name: agent-secrets
                  key: anthropic-api-key
            - name: REDIS_URL
              valueFrom:
                configMapKeyRef:
                  name: agent-config
                  key: redis-url
          livenessProbe:
            httpGet:
              path: /health/live
              port: 8080
            initialDelaySeconds: 30
            periodSeconds: 15
            timeoutSeconds: 5
            failureThreshold: 3
          readinessProbe:
            httpGet:
              path: /health/ready
              port: 8080
            initialDelaySeconds: 10
            periodSeconds: 10
            timeoutSeconds: 5
          startupProbe:
            httpGet:
              path: /health/startup
              port: 8080
            initialDelaySeconds: 15
            periodSeconds: 10
            failureThreshold: 12
---
apiVersion: v1
kind: Service
metadata:
  name: research-agent-svc
spec:
  selector:
    app: research-agent
  ports:
    - name: http
      port: 80
      targetPort: 8080
    - name: metrics
      port: 9090
      targetPort: 9090
  type: ClusterIP

ConfigMap とシークレット

設定とコードを分離することは、 Twelve-Factor アプリ。 Kubernetes では、ConfigMap が機密性の低い構成を管理し、Secret が保護します API キー、データベース認証情報、TLS 証明書。 AI エージェントの場合、LLM プロバイダーの API キーそれらは守るべき最も重要な秘密です。

# k8s/configmap.yaml
apiVersion: v1
kind: ConfigMap
metadata:
  name: agent-config
data:
  redis-url: "redis://redis-cluster.default.svc:6379"
  max-iterations: "15"
  model-name: "claude-sonnet-4-20250514"
  log-level: "INFO"
---
# k8s/secret.yaml (valori codificati in base64)
apiVersion: v1
kind: Secret
metadata:
  name: agent-secrets
type: Opaque
data:
  anthropic-api-key: <base64-encoded-key>
  database-password: <base64-encoded-password>

永続的な状態を持つエージェントの StatefulSet

エージェントが永続的なローカル状態を維持する必要がある場合 (キャッシュの埋め込み、ローカルで微調整されたモデル、またはディスク上のセッション履歴）、 ステートフルセット デプロイメントよりも推奨されます。 StatefulSet は各ポッドの安定したネットワーク ID を保証します。 PersistentVolumeClaim による永続ストレージ、および決定的なブート順序とシャットダウン。

スケーリング戦略

AI エージェントのスケーリングは、従来のマイクロサービスよりも複雑です。エージェント複数ステップのタスクを実行している間、スレッドを数十秒 (または数分) 占有する可能性があります。従来のメトリクス (CPU、メモリ) は実際の負荷を示す指標としては不十分です。多次元のスケーリング戦略が必要です。

水平ポッドオートスケーラー (HPA)

HPA は、観察されたメトリクスに基づいてレプリカの数を自動的にスケールします。のために AI エージェント、カスタムメトリクスは基本です: 同時タスクの数、深さリクエストキューの数とタスクごとの平均レイテンシは、使用率のより重要な指標です。 CPU。

# k8s/hpa.yaml
apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
  name: research-agent-hpa
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: research-agent
  minReplicas: 2
  maxReplicas: 20
  metrics:
    # Metrica CPU standard
    - type: Resource
      resource:
        name: cpu
        target:
          type: Utilization
          averageUtilization: 70
    # Metrica custom: task concorrenti per pod
    - type: Pods
      pods:
        metric:
          name: agent_active_tasks
        target:
          type: AverageValue
          averageValue: "5"
    # Metrica custom: profondità coda
    - type: External
      external:
        metric:
          name: task_queue_depth
        target:
          type: AverageValue
          averageValue: "10"
  behavior:
    scaleUp:
      stabilizationWindowSeconds: 60
      policies:
        - type: Pods
          value: 4
          periodSeconds: 60
    scaleDown:
      stabilizationWindowSeconds: 300
      policies:
        - type: Pods
          value: 2
          periodSeconds: 120

キューベースのスケーリング

非同期タスクを処理するエージェントの場合、キューの深さに基づいてスケーリングします。最も効果的なパターン。考え方は単純です。キューが大きくなったらワーカーを追加します。いつそれは空になります、減らします。のようなツール KEDA (Kubernetes イベント駆動型自動スケーリング) RabbitMQ、Redis Streams、カフカとかSQSとか。

ゼロへのスケール: キューに入れられたタスクがない場合、KEDA はレプリケーションをゼロに削減し、ダウンタイム中のインフラストラクチャコストを完全に排除できます。
バーストスケーリング: 突然のスパイクが発生した場合、KEDA はキューの増加率に基づいて積極的にスケールできます。
クールダウン期間：安定化期間により、一時的な負荷変動によるスラッシング（連続的な上下スケーリング）を防止します。

垂直スケーリング

一部のエージェントタスクでは、複数のインスタンスではなく単一インスタンスごとに多くのリソースが必要になります。たとえば、ローカルモデルまたはプロセスを使用して複雑な推論を実行するエージェント大きなドキュメントの場合は、ポッドごとにメモリと CPU を増やすほうがメリットが得られます。リソースが限られている複数のポッド。の 垂直ポッドオートスケーラー (VPA) ルール過去の使用状況に基づいてリソースを自動的に要求します。

状態の永続性

状態管理は、AI エージェントを導入する際の最も重要な課題の 1 つです。エージェント会話状態、長期記憶、またはタスクのコンテキストを失うものポッドの再起動により進行中であり、運用環境では使用できません。の持続性状態には多層的なアプローチが必要です。

セッション状態の Redis

レディス エージェントのセッション状態にとって理想的な選択です: 低遅延 (ミリ秒未満)、複雑なデータ構造のサポート、およびクリーニングのための自動 TTL 期限切れのセッションの数。マルチレプリカのコンテキストでは、Redis は共有セッションストアとして機能しますこれにより、どのポッドでも、別のポッドで開始された会話を継続できるようになります。

PostgreSQL + pgvector による長期メモリ

エージェントの長期記憶には、両方のデータを管理できるデータベースが必要です構造化（インタラクション履歴、ユーザー設定、指標）および検索セマンティクス (ベクトル埋め込みの類似性検索)。 pgvector を使用した PostgreSQL 単一のソリューションで両方の要件を満たし、管理の複雑さを回避します。ベクトルストアとは別のリレーショナルデータベース。

ローカルキャッシュの Persistent Volume

エージェントがローカルキャッシュ (事前に計算された埋め込み、ダウンロードされたテンプレート、ファイル) を使用する場合一時処理)、Kubernetes Persistent Volumes によりこのデータが保証されます。生存ポッドが再起動します。を構成することが重要です。 storageClassName データの損失や孤立したボリュームの蓄積を避けるために、適切な再利用ポリシーを適用してください。

ネットワーキングとエージェント間通信

マルチエージェントアーキテクチャでは、エージェント間の通信は重要な側面であり、遅延、信頼性、セキュリティ。 Kubernetes のネットワーキングには、次のようないくつかのオプションがあります。シンプルなサービス検出から高度なサービスメッシュまで。

Istio を使用したサービスメッシュ

Un サービスメッシュ Istio のように、専用のインフラストラクチャ層を追加します。サービス間の通信。マルチエージェントシステムの場合、Istio は以下を提供します。

自動mTLS: すべてのポッド間の相互暗号化により、エージェント間の通信が常に暗号化および認証されることが保証されます。
サーキットブレーカー: ダウンストリームエージェントが過負荷または応答しない場合、サーキットブレーカーはリクエストを中断し、連鎖的な障害を回避します。
自動再試行: 失敗したリクエストは指数バックオフで再試行され、一時的なエラーが透過的に処理されます。
高度な負荷分散: 最小接続や一貫性のあるハッシュなどのアルゴリズムによるインテリジェントなトラフィック分散
可観測性: エージェントコードを変更しない、サービスの各ペアのトラフィック、遅延、エラー率のメトリクス

コミュニケーションパターン

通信パターンの選択は、エージェント間の対話のタイプによって異なります。

同期リクエスト/レスポンス: 呼び出し側エージェントが結果 (gRPC または REST) を待つ必要がある対話の場合。ツールの呼び出しや専門のサブエージェントへのクエリに適しています
非同期メッセージキュー: 即時の応答を必要としない委任されたタスク用 (RabbitMQ、Kafka)。各エージェントが処理して結果を次のエージェントに渡すマルチエージェントパイプラインに最適です。
イベント駆動型: 通知とトリガー用 (Kafka、Redis Pub/Sub)。イベントを生成するエージェントとイベントを消費するエージェント間の完全な分離が可能になります。

AIエージェントのヘルスチェック

Kubernetes プローブは、正常なポッドのみがトラフィックを受信するようにするために不可欠です。 AI エージェントにとって、3 種類のプローブは特定の意味を持ちます。

活性プローブ処置: エージェントプロセスが生きており、デッドロックになっていないことを確認してください。 HTTP サーバーが応答していること、およびメインループがブロックされていないことを確認してください。失敗したら、 Kubernetes がポッドを再起動します。
レディネスプローブ: エージェントが新しいタスクを受信する準備ができていることを確認します。 Redis、データベースへの接続、および外部 API の可用性を確認します。失敗すると、ポッドはサービスから削除されますが (受信トラフィックはなくなります)、再起動されません。
スタートアッププローブ: 初期化が完了していることを確認します。エージェント向けモデルをロードしたり、キャッシュにデータを追加したり、複数の接続を確立したりする必要がある場合、起動にかなり時間がかかる場合があります (30 ～ 120 秒)。起動プローブにより活性/準備完了が妨げられる準備が完了する前にポッドを終了してください。

健康エンドポイントの実装

# health.py - Endpoint di salute per l'agente
from fastapi import FastAPI, Response
import redis
import psycopg2
import time

app = FastAPI()

# Stato globale dell'agente
agent_ready = False
agent_start_time = time.time()

@app.get("/health/live")
async def liveness():
    """L'agente è vivo? Il processo funziona?"""
    return {"status": "alive", "uptime": time.time() - agent_start_time}

@app.get("/health/ready")
async def readiness():
    """L'agente è pronto a ricevere task?"""
    checks = {}

    # Verifica connessione Redis
    try:
        r = redis.from_url("redis://redis:6379")
        r.ping()
        checks["redis"] = "ok"
    except Exception:
        checks["redis"] = "failed"
        return Response(status_code=503, content="Redis non disponibile")

    # Verifica connessione database
    try:
        conn = psycopg2.connect("postgresql://agent:pass@db:5432/agentdb")
        conn.close()
        checks["database"] = "ok"
    except Exception:
        checks["database"] = "failed"
        return Response(status_code=503, content="Database non disponibile")

    # Verifica API key configurata
    import os
    if not os.getenv("ANTHROPIC_API_KEY"):
        checks["api_key"] = "missing"
        return Response(status_code=503, content="API key mancante")

    checks["api_key"] = "configured"
    return {"status": "ready", "checks": checks}

@app.get("/health/startup")
async def startup():
    """L'inizializzazione è completata?"""
    if not agent_ready:
        return Response(status_code=503, content="Inizializzazione in corso")
    return {"status": "started"}

監視と警告

監視は運用の操作性の根幹です。 AI エージェントのメトリクスインフラストラクチャ標準 (CPU、メモリ、ネットワーク) は必要ですが、不十分です。彼らは必要とされているエージェント推論の動作とパフォーマンスをキャプチャする特定のメトリクス。

エージェントの Prometheus メトリクス

プロメテウス これは、クラウドネイティブシステムを監視するための事実上の標準です。 AI エージェントについては、ライフサイクルのあらゆる重要な側面を追跡するカスタムメトリクスを定義します。タスクの。

# metrics.py - Metriche Prometheus per agente AI
from prometheus_client import Counter, Histogram, Gauge, Summary

# --- Metriche di Task ---
TASKS_TOTAL = Counter(
    "agent_tasks_total",
    "Numero totale di task processati",
    ["agent_name", "status"]  # status: success, failure, timeout
)

TASK_DURATION = Histogram(
    "agent_task_duration_seconds",
    "Durata del task in secondi",
    ["agent_name", "task_type"],
    buckets=[1, 5, 10, 30, 60, 120, 300, 600]
)

# --- Metriche LLM ---
LLM_CALLS_TOTAL = Counter(
    "agent_llm_calls_total",
    "Numero totale di chiamate LLM",
    ["agent_name", "model", "status"]
)

LLM_LATENCY = Histogram(
    "agent_llm_latency_seconds",
    "Latenza delle chiamate LLM",
    ["agent_name", "model"],
    buckets=[0.5, 1, 2, 5, 10, 20, 30]
)

TOKEN_USAGE = Counter(
    "agent_token_usage_total",
    "Token consumati (input + output)",
    ["agent_name", "model", "direction"]  # direction: input, output
)

# --- Metriche Tool ---
TOOL_CALLS_TOTAL = Counter(
    "agent_tool_calls_total",
    "Numero di invocazioni tool",
    ["agent_name", "tool_name", "status"]
)

TOOL_LATENCY = Histogram(
    "agent_tool_latency_seconds",
    "Latenza delle chiamate tool",
    ["agent_name", "tool_name"],
    buckets=[0.1, 0.5, 1, 2, 5, 10, 30]
)

# --- Metriche di Stato ---
ACTIVE_TASKS = Gauge(
    "agent_active_tasks",
    "Numero di task attualmente in esecuzione",
    ["agent_name"]
)

ITERATIONS_PER_TASK = Histogram(
    "agent_iterations_per_task",
    "Numero di iterazioni del loop per task",
    ["agent_name"],
    buckets=[1, 2, 3, 5, 8, 10, 15, 20]
)

グラファナダッシュボード

Prometheus メトリクスは次のように表示されます。 グラファナ ダッシュボード内献身的。 AI エージェントにとって効果的なダッシュボードには、少なくとも次のパネルが含まれます。

タスクの概要: 過去 24 時間以内に完了したタスク、失敗したタスク、およびタイムアウトしたタスク。成功率のパーセント。平均継続時間の傾向
LLM パフォーマンス: LLM コールの P50、P90、P99 遅延。 1 時間あたりに消費されるトークンと推定コスト。モデルごとのエラー率
ツールの使用法: ツールごとの呼び出しの分布。各ツールのレイテンシとエラー率。最もよく使われるツール
インフラストラクチャー: ポッドごとの CPU とメモリの使用量。アクティブなレプリカの数。 Redis とデータベース接続のステータス
警告: アクティブなアラート、設定されたルール、通知履歴を含むパネル

PagerDuty と Slack を使用したアラート

アラートルールは、過度のノイズを生成することなく、重大な状況を捕捉する必要があります。 AI エージェントの場合、一般的なアラートしきい値は次のとおりです。

致命的: 過去 15 分間の成功率が 90% 未満 (PagerDuty: 即時ページ)
警告: P90 レイテンシが 60 秒を超え、10 分以上発生 (Slack: ops チャネル通知)
致命的: 時間当たりの LLM コストが予想予算の 200% を超えています (PagerDuty + Slack)
警告: 一定の増加におけるタスクごとの平均反復数 (無限ループの可能性)
致命的: Redis またはデータベース接続が 2 分以上失われました

ロギングと分散トレース

エージェントシステムでは、単一のユーザータスクが数十の LLM 呼び出しを生成する可能性があります。ツールの呼び出しと外部サービスとの対話。タスクの完全なフローをトレースする構造化されたロギングと分散トレースが必要です。

構造化ログ (JSON)

JSON 形式の構造化ログにより、自動解析、インデックス付き検索、および出来事間の相関関係。各ログエントリには、 相関ID (またはトレース ID) は、単一のユーザータスクに関連するすべてのログをリンクします。

# Esempio di log entry strutturato (JSON)
{
  "timestamp": "2026-02-14T10:23:45.123Z",
  "level": "INFO",
  "service": "research-agent",
  "trace_id": "abc123def456",
  "span_id": "span_789",
  "task_id": "task_001",
  "event": "tool_call_completed",
  "tool": "web_search",
  "query": "AI agents market trends 2026",
  "duration_ms": 1250,
  "results_count": 8,
  "tokens_used": 0,
  "iteration": 3,
  "message": "Web search completata con 8 risultati"
}

分散トレーシング用の OpenTelemetry

オープンテレメトリー (OTel) 分散可観測性のためのオープンソース標準です。 AI エージェントの場合、OTel を使用すると、タスクのパス全体を追跡できます。システムコンポーネント: リクエストの受信からループの各繰り返しまでエージェント、すべての LLM 呼び出し、すべてのツール呼び出し、最終応答まで。

重要な操作はすべて 1 つにラップされます スパン オテレ。スパンタスクはルートスパンであり、ループの各反復は階層的に構成されています。息子であり、LLM とツールの呼び出しは孫です。この階層により、次のことを視覚化できます。などのツールでのタスクの完全なフロー イェーガー o ジップキンス、ボトルネックと障害点を即座に特定します。

ログの集約

数十または数百のエージェントインスタンスを備えたシステムの場合、一元的なログ集約それは不可欠です。最も広く普及しているソリューションは次のとおりです。

エルクスタック (Elasticsearch、Logstash、Kibana): 全文検索と高度なログ分析には強力ですが、大量のリソースが必要です
グラファナ・ロキ: 完全なコンテンツではなく、ログのメタデータ (ラベル) のみにインデックスを作成する、軽量でコスト効率の高いソリューション。すでに Grafana を使用しているチームに最適
Datadog / New Relic: ログ、メトリクス、トレースを単一のプラットフォームに統合し、AI を活用した分析で異常を特定する SaaS ソリューション

可観測性プラットフォームとしての LangSmith

ラング・スミスLangChain チームによって開発された、可観測性プラットフォームです。 LLM および AI エージェントアプリケーション向けに特別に設計されています。道具と違ってジェネリックスを監視することで、LangSmith はエージェント対話のセマンティクスを理解します。

LLM チェーンの痕跡: 各ノードの入力、出力、レイテンシー、コストを含む各チェーン/グラフ実行の完全なビュー
統合された遊び場: 迅速なデバッグのために変更されたプロンプトを使用して任意のステップを再実行する機能
データセットと評価: 自動回帰テスト用の実稼働トレースからのテストデータセットの作成
ネイティブアラート: エージェント固有の応答品質、コスト、エラーパターンに基づくルール
セルフホスト型または SaaS: コンプライアンス要件に合わせて、クラウドサービスとしてもオンプレミス展開としても利用可能

AI エージェント用の CI/CD

AI エージェント用の CI/CD パイプラインは、検証という特定の手順で従来のパイプラインを拡張します。プロンプト、LLM プロバイダーとの統合のテスト、パフォーマンスの検証推論の。堅牢なパイプラインには次のものが含まれます。

単体テスト: 個々のツールのテスト、ルーティングロジック、エラー管理
結合テスト: 事前定義されたシナリオで実際の (またはモックの) LLM を使用したエンドツーエンドのテスト
回帰テスト: プロンプトまたはモデルの更新によって品質が低下しないことを確認するためのゴールデンアンサーデータセット
カナリア展開: 自動メトリクス監視によるトラフィックの 5%、25%、50%、100% で段階的にリリース
自動ロールバック: カナリア中にメトリクスが低下した場合、自動的に以前のバージョンにロールバックします

導入前チェックリスト

エージェントを実稼働環境に導入する前に、このチェックリストの各項目を確認してください。

セキュリティ監査完了: API キーの保護、入力のサニタイズ、出力のフィルタリング
負荷テストの実行: システムは予想される負荷を 50% のマージンで管理します。
構成されたモニタリング: メトリクス、ダッシュボード、運用アラート
アクティブなログ: 相関 ID を使用した構造化ログ、一元的な集約
ヘルスチェックの実装: liveness、readiness、および起動プローブが機能する
スケーリングの構成: カスタムメトリックを使用した HPA、適切な最小/最大制限
文書化されたロールバック計画: 以前のバージョンに戻すためのテスト済み手順
アクティブなレート制限: トラフィックのバーストと無限ループに対する保護
予算アラートの設定: LLM API の支出しきい値と通知
テスト済みの災害復旧: データのバックアップ、検証済みの復旧手順
更新されたドキュメント: 運用ランブック、アーキテクチャ、エスカレーション手順

結論

AI エージェントを実稼働環境に導入するには、次のような厳密なエンジニアリングアプローチが必要です。それは単にコードをコンテナにパッケージ化するだけではありません。インフラストラクチャは管理する必要がありますエージェントのワークロードの特殊性: 変動する遅延、予測できないリソース消費、永続的な会話状態と外部サービスへの依存。

堅牢な展開には 4 つの柱があります。 コンテナ化 最適化された多段Dockerを使用すると、 オーケストレーション プローブとスケーリングが構成された Kubernetes エージェント負荷の場合、 可観測性 カスタム Prometheus メトリクスを完備し、分散トレーシング、e 持続性 Redis と PostgreSQL を介して状態を監視します。

プロトタイプと製品の間のギャップは、プラットフォームに投資することで埋められます。優れた監視と自動スケーリングはビジネス資産です。可観測性のないエージェントそれは運用上のリスクです。この記事で紹介する本番前チェックリストは次のことを示しています。責任を持って稼働させるための最低限のものです。

次の記事では、 「AI エージェントの FinOps とコストの最適化」、生産のもう 1 つの重要な側面であるコスト管理に取り組みます。分析してみますトークンエコノミー、支出を 60 ～ 80% 削減するためのモデルルーティング戦略、およびテクニック節約を目的とした迅速なエンジニアリングの実現。