GSP048

Informações gerais
Com a API Speech-to-Text, é possível transcrever arquivos de fala em áudio para arquivos de texto em mais de 80 idiomas.
Neste laboratório, você vai enviar um arquivo de áudio para transcrição usando a API Speech.
Conteúdo
Neste laboratório, você aprenderá a realizar estas tarefas:
- Criar uma solicitação da API Speech-to-Text e chamar a API usando o comando
curl
.
- Chamar a API Speech-to-Text com arquivos de áudio em um idioma diferente.
Configuração e requisitos
Antes de clicar no botão Começar o Laboratório
Leia estas instruções. Os laboratórios são cronometrados e não podem ser pausados. O timer é ativado quando você clica em Iniciar laboratório e mostra por quanto tempo os recursos do Google Cloud vão ficar disponíveis.
Este laboratório prático permite que você realize as atividades em um ambiente real de nuvem, e não em uma simulação ou demonstração. Você vai receber novas credenciais temporárias para fazer login e acessar o Google Cloud durante o laboratório.
Confira os requisitos para concluir o laboratório:
- Acesso a um navegador de Internet padrão (recomendamos o Chrome).
Observação: para executar este laboratório, use o modo de navegação anônima (recomendado) ou uma janela anônima do navegador. Isso evita conflitos entre sua conta pessoal e de estudante, o que poderia causar cobranças extras na sua conta pessoal.
- Tempo para concluir o laboratório: não se esqueça que, depois de começar, não será possível pausar o laboratório.
Observação: use apenas a conta de estudante neste laboratório. Se usar outra conta do Google Cloud, você poderá receber cobranças nela.
Como iniciar seu laboratório e fazer login no console do Google Cloud
-
Clique no botão Começar o laboratório. Se for preciso pagar por ele, uma caixa de diálogo vai aparecer para você selecionar a forma de pagamento.
No painel Detalhes do Laboratório, à esquerda, você vai encontrar o seguinte:
- O botão Abrir Console do Google Cloud
- O tempo restante
- As credenciais temporárias que você vai usar neste laboratório
- Outras informações, se forem necessárias
-
Se você estiver usando o navegador Chrome, clique em Abrir console do Google Cloud ou clique com o botão direito do mouse e selecione Abrir link em uma janela anônima.
O laboratório ativa os recursos e depois abre a página Fazer Login em outra guia.
Dica: coloque as guias em janelas separadas lado a lado.
Observação: se aparecer a caixa de diálogo Escolher uma conta, clique em Usar outra conta.
-
Se necessário, copie o Nome de usuário abaixo e cole na caixa de diálogo Fazer login.
{{{user_0.username | "Username"}}}
Você também encontra o nome de usuário no painel Detalhes do Laboratório.
-
Clique em Próxima.
-
Copie a Senha abaixo e cole na caixa de diálogo de Olá.
{{{user_0.password | "Password"}}}
Você também encontra a senha no painel Detalhes do Laboratório.
-
Clique em Próxima.
Importante: você precisa usar as credenciais fornecidas no laboratório, e não as da sua conta do Google Cloud.
Observação: se você usar sua própria conta do Google Cloud neste laboratório, é possível que receba cobranças adicionais.
-
Acesse as próximas páginas:
- Aceite os Termos e Condições.
- Não adicione opções de recuperação nem autenticação de dois fatores (porque essa é uma conta temporária).
- Não se inscreva em testes gratuitos.
Depois de alguns instantes, o console do Google Cloud será aberto nesta guia.
Observação: para acessar os produtos e serviços do Google Cloud, clique no Menu de navegação ou digite o nome do serviço ou produto no campo Pesquisar.
Tarefa 1: crie uma chave de API
Como você usa o comando curl
para enviar solicitações para a API Speech-to-Text, é necessário ter uma chave de API para transmitir o URL da solicitação.
-
Para criar uma chave de API, acesse o Menu de navegação (
) e selecione APIs e serviços > Credenciais.
-
Clique em Criar credenciais e selecione Chave de API.
-
Copie a chave que você acabou de usar e a armazene em um local de fácil acesso para usar neste laboratório mais tarde.
-
Clique em Fechar.
Clique em Verificar meu progresso para conferir o andamento do objetivo.
Crie uma chave de API
Em seguida, salve a chave em uma variável de ambiente para não precisar inserir o valor dela em cada solicitação.
- Para executar as próximas etapas, conecte-se à linux-instance provisionada para você por SSH:
No Menu de navegação (
), clique em Compute Engine > Instâncias de VM.
Verifique a VM da linux-instance na lista de instâncias de VM. Os detalhes da VM estão localizados à direita do nome da máquina virtual.
- Clique em SSH à direita do nome da VM linux-instance.
Isso exibirá um shell interativo, que será usado para realizar as próximas operações.
- No shell (SSH), execute o seguinte comando, substituindo
<your_api_key>
pela chave que você copiou:
export API_KEY=<YOUR_API_KEY>
Tarefa 2: Crie sua solicitação de API
Observação: este laboratório usa um arquivo pré-gravado disponível no Cloud Storage: gs://cloud-samples-data/speech/brooklyn_bridge.flac
. Antes de enviá-lo para a API Speech-to-Text, é possível ouvir o arquivo.
- Crie a solicitação para a API no arquivo
request.json
. Crie o arquivo request.json
:
touch request.json
- Abra o arquivo usando o editor de linha de comando da sua preferência (
nano
, vim
, emacs
) ou gcloud
e adicione o seguinte código ao seu arquivo request.json
, usando o valor uri
do arquivo RAW de amostra de áudio:
{
"config": {
"encoding":"FLAC",
"languageCode": "en-US"
},
"audio": {
"uri":"gs://cloud-samples-data/speech/brooklyn_bridge.flac"
}
}
- Salve o arquivo conforme necessário.
O corpo da solicitação tem objetos config
e audio
.
Em config
, você informa à API Speech-to-Text como processar a solicitação:
- O parâmetro
encoding
informa à API o tipo de codificação de áudio que está sendo usado, enquanto o arquivo é enviado à API. FLAC
é o tipo de codificação para arquivos .raw. Saiba mais sobre tipos de codificação na Referência da RecognitionConfig.
- Se
languageCode
não for usado na solicitação, o idioma inglês será usado.
É possível adicionar outros parâmetros ao objeto config
, mas encoding
é o único obrigatório.
No objeto audio
, você transmite à API o URI do arquivo de áudio deste laboratório, que está armazenado no Cloud Storage.
Clique em Verificar meu progresso para conferir o andamento do objetivo.
Crie uma solicitação da API Speech
Agora está tudo pronto para chamar a API Speech-to-Text!
Tarefa 3: Chamar a API Speech-to-Text
- Para enviar o corpo da sua solicitação à API usando a variável de ambiente da chave de API, use o comando
curl
abaixo. Ele deve ter apenas uma linha:
curl -s -X POST -H "Content-Type: application/json" --data-binary @request.json \
"https://speech.googleapis.com/v1/speech:recognize?key=${API_KEY}" > result.json
A resposta é armazenada em um arquivo chamado result.json.
- Use o código a seguir para mostrar o conteúdo do arquivo:
cat result.json
A resposta do comando curl
deverá ser parecida com esta:
{
"results": [
{
"alternatives": [
{
"transcript": "how old is the Brooklyn Bridge",
"confidence": 0.98216057
}
],
"resultEndTime": "1.770s",
"languageCode": "en-us"
}
],
"totalBilledTime": "15s"
}
O valor de transcript
corresponde à transcrição de texto do seu arquivo de áudio que a API Speech fez. O valor de confidence
indica o quanto a API considera preciso o texto da transcrição.
Você chamou o método syncrecognize
na solicitação acima. A API Speech-to-Text oferece suporte à fala síncrona e assíncrona para transcrição de texto.
Nesse exemplo, usamos um arquivo de áudio completo, mas também é possível usar o método syncrecognize
para fazer a transcrição de voz em texto por streaming, enquanto o usuário estiver falando.
Clique em Verificar meu progresso para conferir o andamento do objetivo.
Chamar a API Speech para o idioma inglês
Tarefa 4: Transcrição de voz em texto em diversos idiomas
Você fala diversos idiomas? A API Speech-to-Text oferece suporte para a transcrição de voz em texto em mais de 100 idiomas.
Você pode alterar o parâmetro language_code
em request.json
. Consulte a lista de idiomas compatíveis no Guia de suporte a idiomas.
Use um arquivo de áudio em francês - (para uma prévia, clique aqui).
- Edite o
request.json
e mude o conteúdo para o seguinte:
{
"config": {
"encoding":"FLAC",
"languageCode": "fr"
},
"audio": {
"uri":"gs://cloud-samples-data/speech/corbeau_renard.flac"
}
}
-
Chame a Speech-to-Text executando o comando curl
novamente.
-
Confira os resultados:
cat result.json
Você vai encontrar a seguinte resposta:
{
"results": [
{
"alternatives": [
{
"transcript": "maître corbeau sur un arbre perché Tenait dans son bec un fromage maître Renard par l'odeur alléché lui tint à peu près ce langage et bonjour monsieur du corbeau",
"confidence": 0.93855613
}
],
"resultEndTime": "12.630s",
"languageCode": "fr-fr"
}
],
"totalBilledTime": "15s"
}
Essa é uma frase de um famoso conto infantil francês de Jean de la Fontaine. Se você tiver arquivos de áudio em outro idioma, tente adicioná-los ao Cloud Storage e altere o parâmetro languageCode
na solicitação.
Observação: as restrições da API e os limites de uso na Cloud Speech-to-Text estão documentadas nas Cotas e limites de recursos.
Chamar a API Speech para o idioma francês
Parabéns!
Você realizou a transcrição de voz em texto usando a API Speech. Você transmitiu para a API o URI do Cloud Storage do seu arquivo de áudio e analisou a alternativa de transmitir uma string codificada em base64 do seu conteúdo de áudio.
Próximas etapas / Saiba mais
Treinamento e certificação do Google Cloud
Esses treinamentos ajudam você a aproveitar as tecnologias do Google Cloud ao máximo. Nossas aulas incluem habilidades técnicas e práticas recomendadas para ajudar você a alcançar rapidamente o nível esperado e continuar sua jornada de aprendizado. Oferecemos treinamentos que vão do nível básico ao avançado, com opções de aulas virtuais, sob demanda e por meio de transmissões ao vivo para que você possa encaixá-las na correria do seu dia a dia. As certificações validam sua experiência e comprovam suas habilidades com as tecnologias do Google Cloud.
Manual atualizado em 4 de novembro de 2024
Laboratório testado em 4 de novembro de 2024
Copyright 2025 Google LLC. Todos os direitos reservados. Google e o logotipo do Google são marcas registradas da Google LLC. Todos os outros nomes de produtos e empresas podem ser marcas registradas das respectivas empresas a que estão associados.