2025년 4월 29일부터 신규 프로젝트를 포함해 이전에 이러한 모델을 사용한 적이 없는 프로젝트에서는 Gemini 1.5 Pro 및 Gemini 1.5 Flash 모델을 사용할 수 없습니다. 자세한 내용은 모델 버전 및 수명 주기를 참조하세요.

Gemini로 일괄 예측

Gemini의 일괄 예측 기능을 사용하면 대규모 데이터 처리 요구사항에 맞게 비동기식의 높은 처리량과 비용 효율적인 추론을 얻을 수 있습니다. 이 가이드에서는 일괄 예측의 가치, 작동 방식, 제한사항, 최적의 결과를 위한 권장사항을 설명합니다.

일괄 예측을 사용해야 하는 이유

실제 시나리오에서는 언어 모델의 즉각적인 응답이 필요하지 않은 경우가 많습니다. 대신 효율적이고 저렴하게 처리해야 하는 프롬프트의 대규모 데이터 세트가 있을 수 있습니다. 이때 일괄 예측이 유용합니다.

이를 통해 얻을 수 있는 주요 이점은 다음과 같습니다.

비용 효율성: 일괄 처리는 실시간 추론에 비해 50% 할인된 요금으로 제공되므로 긴급하지 않은 대규모 태스크에 적합합니다.
높은 비율 제한: 실시간 Gemini API에 비해 높은 비율 제한으로 단일 배치에서 수십만 개의 요청을 처리합니다.
간소화된 워크플로: 개별 실시간 요청의 복잡한 파이프라인을 관리하는 대신 단일 배치 작업을 제출하고 처리가 완료되면 결과를 검색할 수 있습니다. 서비스는 형식을 검증하고, 동시 처리를 위한 요청을 동시에 로드하며, 24시간 처리 시간 내에 높은 완료율을 달성하기 위해 자동으로 재시도합니다.

일괄 예측은 다음과 같은 대규모 처리 태스크에 최적화되어 있습니다.

다음 기본 및 조정된 Gemini 모델은 일괄 예측을 지원합니다.

일괄 예측은 강력하지만 다음과 같은 제한사항을 알고 있어야 합니다.

할당량: 사용량에 사전 정의된 할당량 제한이 없습니다. 대신 배치 서비스는 해당 모델의 모든 고객에 걸쳐 리소스의 가용성과 실시간 수요에 따라 동적으로 할당되는 대규모 공유 리소스 풀에 대한 액세스를 제공합니다. 활성 고객 수가 많아지고 용량이 포화 상태에 이르면 일괄 요청은 용량이 확보될 때까지 대기열에 들어갈 수 있습니다.
대기열 시간: 서비스에 트래픽이 많은 경우 일괄 작업이 용량 큐에 추가됩니다. 작업은 만료되기 전 최대 72시간 동안 큐에 있습니다.
요청 한도: 단일 일괄 작업에는 최대 200,000개의 요청이 포함될 수 있습니다. Cloud Storage를 입력으로 사용하는 경우 파일 크기 제한은 1GB입니다.
처리 시간: 일괄 작업은 비동기적으로 처리되며 실시간 애플리케이션용으로 설계되지 않습니다. 대부분의 작업은 실행이 시작된 후 24시간 이내에 완료됩니다(큐 시간은 제외). 24시간이 지나면 미완료 작업이 취소되며 완료된 요청에 대해서만 요금이 청구됩니다.
지원되지 않는 기능: 일괄 예측은 컨텍스트 캐싱, RAG 또는 전역 엔드포인트를 지원하지 않습니다.

Gemini를 ��용�� 괄 예측�� 최대한 활용하려면 다음 권장사항을 따르는 것이 좋습니다.

작업 결합: 시스템 한도 내에서 처리량을 최대화하려면 작은 작업을 하나의 큰 작업으로 결합합니다. 예를 들어 요청이 200,000개인 일괄 작업을 하나 제출하는 것이 요청이 200개인 작업 1,000개를 제출하는 것보다 처리량이 더 뛰어납니다.
작업 상태 모니터링: API, SDK 또는 UI를 사용하여 작업 진행 상황을 모니터링할 수 있습니다. 자세한 내용은 작업 상태 모니터링을 참조하세요. 작업이 실패하면 오류 메시지를 확인하여 문제를 진단하고 해결하세요.
비용 최적화: 즉각적인 응답이 필요하지 않은 태스크에 일괄 처리로 제공되는 비용 절감을 활용하세요.