Questa pagina elenca i modelli Gemini, i modelli con deployment automatico e i modelli con API gestite su Vertex AI che supportano Vertex AI RAG Engine.
Modelli Gemini
I seguenti modelli supportano Vertex AI RAG Engine:
- Gemini 2.5 Flash (anteprima)
- Gemini 2.5 Flash-Lite (anteprima)
- Gemini 2.5 Flash-Lite
- Gemini 2.5 Pro
- Gemini 2.5 Flash
- Gemini 2.0 Flash
I modelli Gemini sottoposti a fine tuning non sono supportati quando i modelli Gemini utilizzano Vertex AI RAG Engine.
Modelli con deployment autonomo
Vertex AI RAG Engine supporta tutti i modelli in Model Garden.
Utilizza il motore RAG di Vertex AI con gli endpoint dei modelli open con deployment automatico.
Sostituisci le variabili utilizzate nell'esempio di codice:
- PROJECT_ID: il tuo ID progetto.
- LOCATION: la regione in cui elaborare la richiesta.
ENDPOINT_ID: il tuo ID endpoint.
# Create a model instance with your self-deployed open model endpoint rag_model = GenerativeModel( "projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID", tools=[rag_retrieval_tool] )
Modelli con API gestite su Vertex AI
I modelli con API gestite su Vertex AI che supportano Vertex AI RAG Engine includono quanto segue:
Il seguente esempio di codice mostra come utilizzare l'API Gemini
GenerateContent
per creare un'istanza del modello generativo. L'ID modello,
/publisher/meta/models/llama-3.1-405B-instruct-maas
, si trova nella
scheda del modello.
Sostituisci le variabili utilizzate nell'esempio di codice:
- PROJECT_ID: il tuo ID progetto.
- LOCATION: la regione in cui elaborare la richiesta.
RAG_RETRIEVAL_TOOL: lo strumento di recupero RAG.
# Create a model instance with Llama 3.1 MaaS endpoint rag_model = GenerativeModel( "projects/PROJECT_ID/locations/LOCATION/publisher/meta/models/llama-3.1-405B-instruct-maas", tools=RAG_RETRIEVAL_TOOL )
Il seguente esempio di codice mostra come utilizzare l'API ChatCompletions
compatibile con OpenAI per generare una risposta del modello.
Sostituisci le variabili utilizzate nell'esempio di codice:
- PROJECT_ID: il tuo ID progetto.
- LOCATION: la regione in cui elaborare la richiesta.
- MODEL_ID: modello LLM per la generazione di contenuti. Ad
esempio,
meta/llama-3.1-405b-instruct-maas
. - INPUT_PROMPT: il testo inviato all'LLM per la generazione di contenuti. Utilizza un prompt pertinente ai documenti in Vertex AI Search.
- RAG_CORPUS_ID: l'ID della risorsa del corpus RAG.
- ROLE: il tuo ruolo.
- USER: il tuo nome utente.
CONTENT: i tuoi contenuti.
# Generate a response with Llama 3.1 MaaS endpoint response = client.chat.completions.create( model="MODEL_ID", messages=[{"ROLE": "USER", "content": "CONTENT"}], extra_body={ "extra_body": { "google": { "vertex_rag_store": { "rag_resources": { "rag_corpus": "RAG_CORPUS_ID" }, "similarity_top_k": 10 } } } }, )