Chuyển đến nội dung chính
Phiên bản: 2.0.0

Cơ sở kiến thức từ tệp PDF

Trong phần này, chúng ta sẽ thảo luận về cách tạo ảnh chụp nhanh bộ sưu tập vector từ tệp PDF. Đầu tiên, chúng ta sẽ phân tích cú pháp tệp PDF phi cấu trúc thành tệp đánh dấu có cấu trúc. Sau đó, chúng tôi sẽ làm theo các bước từ Cơ sở kiến thức từ tệp đánh dấu để tạo nhúng cho tệp PDF của bạn.

Các công cụ để chuyển đổi tệp PDF thành tệp đánh dấu

Công cụ #1: LlamaParse

LlamaParse là một công cụ để phân tích cú pháp các tập tin cho RAID tối ưu. Bạn sẽ cần một khóa LlamaCloud từ https://cloud.llamaindex.ai.

Đầu tiên, cài đặt các phụ thuộc. Chúng tôi giả định rằng bạn đã cài đặt Node.JS 20+.

https://github.com/alabulei1/llamaparse-integration.git sao chép Git
CD llamaparse-tích hợp
npm cài đặt llamaindex
npm cài đặt dotenv

Sau đó, chỉnh sửa .env để thiết lập đường dẫn tệp PDF và Khóa LlamaCloud. Trong trường hợp này, bạn không cần quan tâm đến các cài đặt liên quan đến LLM.

Sau đó, chạy dòng lệnh sau để phân tích cú pháp pdf của bạn thành tệp đánh dấu.

transMd.ts NPX TSX

Tệp đánh dấu đầu ra sẽ được đặt trong thư mục này có tên output.md theo mặc định. Bạn có thể thay đổi đường dẫn trong .env tệp.

Công cụ #2: GPTPDF

GPTPDF là một công cụ mã nguồn mở sử dụng GPT-4o để phân tích cú pháp PDF thành markdown. Bạn sẽ cần một khóa OpenAI ở đây.

Đầu tiên, cài đặt phần mềm gptpdf.

Cài đặt pip gptpdf

Sau đó, vào môi trường Python.

trăn

Tiếp theo, sử dụng lệnh sau để phân tích cú pháp pdf của bạn.

Từ parse_pdf nhập GPTpdf
api_key = 'Khóa API OpenAI của bạn'
nội dung, image_paths = parse_pdf(Your_Pdf_Path, api_key=api_key)
in (nội dung)

Các tệp đánh dấu đầu ra được gọi là output.md sẽ được đặt trong thư mục gốc của bạn.

Tạo nhúng từ các tệp đánh dấu

Vui lòng làm theo hướng dẫn Cơ sở kiến thức từ tệp đánh dấu để chuyển đổi tệp đánh dấu của bạn thành ảnh chụp nhanh các nhúng có thể được nhập vào nút GaiaNet.