Este script foi desenvolvido para extrair conteúdo de texto de diversos tipos de arquivos, incluindo PDFs e imagens. O texto extraído é então processado usando um serviço de IA (neste caso, o GeminiApi
) para obter informações ou insights adicionais.
-
Python 3.x instalado em sua máquina.
-
Os pacotes Python necessários podem ser instalados com o seguinte comando:
pip install -r requirements.txt
-
Clone o repositório:
git clone https://github.com/seu-nome/extrator-de-documentos.git
-
Navegue até o diretório do projeto:
cd extrator-de-documentos
-
Execute o script com as opções desejadas:
python main.py -f /caminho/para/seu/arquivo.pdf -t pdf_text
Substitua
/caminho/para/seu/arquivo.pdf
pelo caminho real do seu arquivo epdf_text
pelo tipo de arquivo desejado.
-f, --file_path
: Especifique o caminho do arquivo que deseja processar.-t, --file_type
: Especifique o tipo de arquivo a ser processado (pdf_image
,pdf_text
,image
outext
).
python main.py -f arquivo.pdf -t pdf_image
Este projeto está licenciado sob a Licença MIT.