Questo documento della Google Cloud Well-Architected Framework: prospettiva FSI fornisce una panoramica dei principi e dei suggerimenti per ottimizzare le prestazioni dei workload del settore dei servizi finanziari (FSI) in Google Cloud. I consigli contenuti in questo documento sono in linea con il pilastro dell'ottimizzazione del rendimento del Well-Architected Framework.
L'ottimizzazione del rendimento ha una lunga storia nei servizi finanziari. Ha aiutato le organizzazioni di servizi finanziari a superare le sfide tecniche ed è quasi sempre stato un fattore abilitante o acceleratore per la creazione di nuovi modelli di business. Ad esempio, i bancomat (introdotti nel 1967) hanno automatizzato il processo di erogazione di contanti e hanno aiutato le banche a ridurre il costo della loro attività principale. Tecniche come l'aggiramento del kernel del sistema operativo e il blocco dei thread dell'applicazione sui core di calcolo hanno contribuito a ottenere una latenza deterministica e bassa per le applicazioni di trading. La riduzione della latenza ha facilitato una liquidità maggiore e più solida con spread più ristretti nei mercati finanziari.
Il cloud crea nuove opportunità per l'ottimizzazione del rendimento. Inoltre, mette in discussione alcuni dei pattern di ottimizzazione accettati storicamente. Nello specifico, i seguenti compromessi sono più trasparenti e controllabili nel cloud:
- Time to market rispetto al costo.
- Rendimento end-to-end a livello di sistema rispetto al rendimento a livello di nodo.
- Disponibilità di talenti rispetto all'agilità del processo decisionale relativo alla tecnologia.
Ad esempio, adattare l'hardware e le risorse IT a requisiti di competenza specifici è un'attività banale nel cloud. Per supportare la programmazione GPU, puoi creare facilmente VM basate su GPU. Puoi scalare la capacità nel cloud per far fronte ai picchi di domanda senza eseguire il provisioning eccessivo delle risorse. Questa funzionalità contribuisce a garantire che i carichi di lavoro possano gestire i picchi di carico, ad esempio nei giorni di nonfarm payroll e quando i volumi di trading sono significativamente superiori ai livelli storici. Invece di concentrarti sulla scrittura di codice altamente ottimizzato a livello di singoli server (come codice ottimizzato nel linguaggio C) o sulla scrittura di codice per ambienti di calcolo ad alte prestazioni (HPC) convenzionali, puoi scalare in modo ottimale utilizzando un sistema distribuito basato su Kubernetes ben progettato.
I consigli per l'ottimizzazione del rendimento contenuti in questo documento sono mappati in base ai seguenti principi fondamentali:
- Allineare le metriche di rendimento della tecnologia agli indicatori chiave dell'attività
- Dai la priorità alla sicurezza senza sacrificare le prestazioni per rischi non dimostrati
- Ripensa l'architettura per adattarla a nuove opportunità e requisiti
- Tecnologia a prova di futuro per soddisfare le esigenze aziendali attuali e future
Allineare le metriche di rendimento della tecnologia agli indicatori chiave di business
Puoi mappare l'ottimizzazione del rendimento ai risultati di valore aziendale in diversi modi. Ad esempio, in un ufficio di ricerca buy-side, un obiettivo aziendale potrebbe essere quello di ottimizzare l'output per ora di ricerca o di dare la priorità agli esperimenti dei team che hanno un track record comprovato, ad esempio con Sharpe ratio più elevati. Dal lato della vendita, puoi utilizzare l'analisi per monitorare l'interesse dei clienti e di conseguenza dare la priorità al throughput dei modelli di AI che supportano la ricerca più interessante.
Il collegamento degli obiettivi di rendimento agli indicatori chiave di prestazione (KPI) aziendali è importante anche per finanziare i miglioramenti del rendimento. Le iniziative di innovazione e trasformazione aziendale (a volte chiamate iniziative di change-the-bank) hanno budget diversi e potenzialmente diversi gradi di accesso alle risorse rispetto alle operazioni BAU (business-as-usual) o run-the-bank. Ad esempio, Google Cloud ha aiutato i team di gestione del rischio e tecnologia di un G-SIFI a collaborare con gli analisti quantitativi del front office a una soluzione per eseguire calcoli di analisi del rischio (come XVA) in pochi minuti anziché ore o giorni. Questa soluzione ha aiutato l'organizzazione a soddisfare i requisiti di conformità pertinenti. Inoltre, ha consentito ai trader di avere conversazioni di qualità superiore con i propri clienti, offrendo potenzialmente spread più ristretti, liquidità più solida e copertura più conveniente.
Quando allinei le metriche sul rendimento agli indicatori aziendali, tieni conto dei seguenti consigli:
- Collega ogni iniziativa tecnologica agli obiettivi e risultati chiave (OKR) pertinenti, ad esempio aumentare le entrate o i profitti, ridurre i costi e mitigare i rischi in modo più efficiente o olistico.
- Concentrati sull'ottimizzazione delle prestazioni a livello di sistema. Vai oltre la separazione convenzionale tra change-the-bank e run-the-bank e i silos front office e back office.
Dai la priorità alla sicurezza senza sacrificare le prestazioni per rischi non dimostrati
La conformità normativa e la sicurezza nelle organizzazioni FSI devono essere inequivocabilmente di standard elevati. Mantenere uno standard elevato è essenziale per evitare di perdere clienti e per prevenire danni irreparabili al brand di un'organizzazione. Spesso, il valore più elevato deriva da innovazioni tecnologiche come l'AI generativa e servizi gestiti unici come Spanner. Non scartare automaticamente queste opzioni tecnologiche a causa di un'idea sbagliata generalizzata su un rischio operativo proibitivo o su una conformità normativa inadeguata.
Google Cloud ha collaborato a stretto contatto con i G-SIFI per garantire che un approccio basato sull'AI per l'antiriciclaggio (AML) possa essere utilizzato nelle giurisdizioni in cui gli istituti servono i clienti. Ad esempio, HSBC ha migliorato significativamente il rendimento della sua unità di reati finanziari (Fincrime) con i seguenti risultati:
- Quasi 2-4 volte in più le attività sospette confermate.
- Costi operativi inferiori grazie all'eliminazione di oltre il 60% di falsi positivi e tempi di indagine concentrati solo su avvisi strategici ad alto rischio.
- Output verificabili e spiegabili per supportare la conformità normativa.
Prendi in considerazione i seguenti consigli:
- Verifica che i prodotti che intendi utilizzare possano contribuire a soddisfare i requisiti di sicurezza, resilienza e conformità per le giurisdizioni in cui operi. Per raggiungere questo obiettivo, collabora con i team Google Cloud dedicati all'account, ai rischi e ai prodotti.
- Crea modelli più potenti e fornisci trasparenza ai clienti sfruttando l'interpretabilità dell'AI (ad esempio, l'attribuzione del valore di Shapley). Tecniche come l'attribuzione del valore di Shapley possono attribuire le decisioni del modello a caratteristiche particolari a livello di input.
Ottieni trasparenza per i carichi di lavoro di AI generativa utilizzando tecniche come citazioni delle fonti, fondatezza e RAG.
Quando l'interpretabilità non è sufficiente, separa i passaggi decisionali nei tuoi flussi di valore e utilizza l'AI per automatizzare solo i passaggi non decisionali. In alcuni casi, l'AI spiegabile potrebbe non essere sufficiente o un processo potrebbe richiedere l'intervento umano a causa di problemi normativi (ad esempio, articolo 22 del GDPR). In questi casi, presenta tutte le informazioni di cui l'agente umano ha bisogno per prendere decisioni in un unico pannello di controllo, ma automatizza le attività di raccolta, importazione, manipolazione e riepilogo dei dati.
Rimodella la tua architettura per adattarla a nuove opportunità e requisiti
L'integrazione delle architetture attuali con funzionalità basate su cloud può fornire un valore significativo. Per ottenere risultati più trasformativi, devi ripensare periodicamente la tua architettura utilizzando un approccio cloud-first.
Prendi in considerazione i seguenti consigli per ripensare periodicamente l'architettura dei tuoi workload per ottimizzare ulteriormente il rendimento.
Utilizza alternative basate sul cloud ai sistemi e agli scheduler HPC on-premise
Per sfruttare una maggiore elasticità, una migliore strategia di sicurezza e ampie funzionalità di monitoraggio e governance, puoi eseguire i carichi di lavoro HPC nel cloud o trasferire i carichi di lavoro on-premise sul cloud. Tuttavia, per determinati casi d'uso di modellazione numerica come la simulazione di strategie di investimento o la modellazione XVA, la combinazione di Kubernetes con Kueue potrebbe offrire una soluzione più potente.
Passare alla programmazione basata su grafici per le simulazioni
Le simulazioni Monte Carlo potrebbero essere molto più efficienti in un sistema di esecuzione basato su grafici come Dataflow. Ad esempio, HSBC utilizza Dataflow per eseguire i calcoli del rischio 16 volte più velocemente rispetto al suo approccio precedente.
Gestire piattaforme di scambio e trading basate sul cloud
Le conversazioni con i Google Cloud clienti rivelano che il principio di Pareto 80/20 si applica ai requisiti di rendimento dei mercati e delle applicazioni di trading.
- Più dell'80% delle applicazioni di trading non richiede una latenza estremamente bassa. Tuttavia, ottengono vantaggi significativi dalle funzionalità di resilienza, sicurezza ed elasticità del cloud. Ad esempio, BidFX, una piattaforma multi-dealer di cambio valuta, utilizza il cloud per lanciare rapidamente nuovi prodotti e per aumentare significativamente la loro disponibilità e impronta senza aumentare le risorse.
- Le applicazioni rimanenti (meno del 20%) richiedono bassa latenza (meno di un millisecondo), determinismo ed equità nella distribuzione dei messaggi. Convenzionalmente, questi sistemi vengono eseguiti in strutture di colocation rigide e costose. Sempre più spesso, anche questa categoria di applicazioni viene ripubblicata nel cloud, all'edge o come applicazioni cloud-first.
Rendere la tua tecnologia a prova di futuro per soddisfare le esigenze aziendali presenti e future
Storicamente, molte organizzazioni di servizi finanziari hanno creato tecnologie proprietarie per ottenere un vantaggio competitivo. Ad esempio, nei primi anni 2000, le banche di investimento e le società di trading di successo avevano le proprie implementazioni di tecnologie di base come i sistemi di pubblicazione/sottoscrizione e i broker di messaggi. Con l'evoluzione delle tecnologie open source e del cloud, queste tecnologie sono diventate commodity e non offrono un valore aziendale incrementale.
Tieni presente i seguenti consigli per preparare la tua tecnologia al futuro.
Adottare un approccio Data-as-a-Service (DaaS) per ridurre il time to market e garantire la trasparenza dei costi
Le organizzazioni FSI spesso si evolvono attraverso una combinazione di crescita organica e fusioni e acquisizioni (M&A). Di conseguenza, le organizzazioni devono integrare tecnologie disparate. Devono anche gestire le risorse duplicate, come fornitori di dati, licenze di dati e punti di integrazione. Google Cloud offre opportunità per creare valore differenziato nelle integrazioni post-fusione.
Ad esempio, puoi utilizzare servizi come la condivisione di BigQuery per creare una piattaforma DaaS (data-as-a-service) pronta per l'analisi. La piattaforma può fornire dati di mercato e input da fonti alternative. Questo approccio elimina la necessità di creare pipeline di dati ridondanti e ti consente di concentrarti su iniziative più preziose. Inoltre, le società unite o acquisite possono razionalizzare rapidamente e in modo efficiente le proprie esigenze di licenze e infrastrutture per i dati post-fusione. Invece di impegnarsi ad adattare e unire le proprietà e le operazioni di dati legacy, l'attività combinata può concentrarsi su nuove opportunità commerciali.
Crea un livello di astrazione per isolare i sistemi esistenti e gestire i modelli di business emergenti
Sempre più spesso, il vantaggio competitivo per le banche non è il sistema bancario di base, ma il livello di customer experience. Tuttavia, i sistemi bancari legacy spesso utilizzano applicazioni monolitiche sviluppate in linguaggi come Cobol e integrate nell'intera catena del valore bancaria. Questa integrazione ha reso difficile separare i livelli della catena del valore, quindi era quasi impossibile eseguire l'upgrade e modernizzare questi sistemi.
Una soluzione per affrontare questa sfida è utilizzare un livello di isolamento come un sistema di gestione API o un livello di staging come Spanner che duplica il libro dei record e facilita la modernizzazione dei servizi con analisi avanzate e AI. Ad esempio, Deutsche Bank ha utilizzato Spanner per isolare il proprio sistema bancario principale legacy e iniziare il percorso di innovazione.