Inteligência Artificial Generativa: construção e avaliação de um modelo em apoio à Autoridade Marítima Brasileira
Resumo
Este artigo apresenta o desenvolvimento de um modelo de inteligência artificial generativa com arquitetura de recuperação, ampliação e geração (RAG) para aplicação de normas da Autoridade Marítima Brasileira. O estudo abordou a construção de uma base vetorial, a partir de normativos selecionados, e a implementação de uma ferramenta usando um grande modelo de linguagem (LLM). A avaliação de desempenho do modelo utilizou questões de concurso público da Marinha do Brasil para ingresso no quadro técnico de segurança do tráfego aquaviário, alcançando 75% de acurácia. Métricas complementares mostraram fidelidade entre 50–100%, relevância da resposta entre 80–89% e relevância do contexto entre 5–25%. Os resultados indicam desempenho robusto da ferramenta, comparável a benchmarks de modelos avançados do mercado. O trabalho discute, ainda, limitações como alucinações, vieses e questões de interpretabilidade. Por fim, conclui-se que o modelo representa um avanço significativo, com potencial para automatizar consultas, agilizar interpretações e aprimorar o treinamento de pessoal.
Destaques
- Arquitetura RAG (Retrieval-Augmented Generation) sobre as Normas da Autoridade Marítima (NORMAM), combinando recuperação de contexto com um LLM para responder com base nos normativos vigentes.
- Stack: Python, LangChain (arquitetura RAG), RAGAS (avaliação), Gemini 1.0 Pro como LLM, embeddings embedding-001 e banco vetorial ChromaDB.
- Avaliação com questões de concurso público da Marinha do Brasil (segurança do tráfego aquaviário): 75% de acurácia, desempenho comparável a benchmarks de mercado.
- Discussão honesta de limitações: alucinações, vieses e interpretabilidade — e o potencial de automatizar consultas e agilizar a interpretação de um arcabouço normativo vasto e em constante atualização.
Palavras-chave
Abstract (EN)
This article presents the development of a generative artificial intelligence model with retrieval-augmented generation architecture for applying Brazilian Maritime Authority regulations. The model's performance evaluation utilized Brazilian Navy public examination questions for the waterway traffic safety technical corps, achieving 75% accuracy, with results comparable to benchmarks of advanced market models. The work also discusses limitations such as hallucinations, biases, and interpretability, concluding that the model represents a significant advancement with potential to automate queries, streamline regulatory interpretations, and enhance personnel training.