Chuyển đến nội dung chính
Phiên bản: 1.0.0

Cơ sở kiến thức từ URL

Trong phần này, chúng ta sẽ thảo luận về cách tạo ảnh chụp nhanh bộ sưu tập vector từ URL Web. Đầu tiên, chúng ta sẽ phân tích cú pháp URL thành một tệp đánh dấu có cấu trúc. Sau đó, chúng tôi sẽ làm theo các bước từ Cơ sở kiến thức từ tệp đánh dấu để tạo nhúng cho URL của bạn.

Phân tích cú pháp nội dung URL thành tệp đánh dấu

Firecrawl có thể thu thập dữ liệu và chuyển đổi bất kỳ trang web nào thành dữ liệu có cấu trúc hoặc đánh dấu sẵn sàng LLM. Nó cũng hỗ trợ thu thập dữ liệu URL và tất cả các trang con có thể truy cập.

Để sử dụng Firecrawl, bạn cần đăng ký trên Firecrawl và nhận khóa API.

Đầu tiên, cài đặt các phụ thuộc. Chúng tôi giả định rằng bạn đã cài đặt Node.JS 20+.

https://github.com/JYC0413/firecrawl-integration.git sao chép Git
Tích hợp CD Firecrawl
Cài đặt npm

Sau đó, xuất khóa API trong thiết bị đầu cuối.

xuất FIRECRAWL_KEY="your_api_key_here"

Tiếp theo, chúng ta có thể sử dụng dòng lệnh sau để chạy dịch vụ.

crawlWebToMd.js nút

Sau khi ứng dụng chạy thành công, bạn sẽ thấy lời nhắc xuất hiện trên Terminal.

Bạn có thể nhập URL của mình vào thiết bị đầu cuối ngay bây giờ. Ở đây chúng ta có hai sự lựa chọn.

  • Nhiều trang: nhập liên kết của bạn với / Cuối cùng, chương trình sẽ thu thập dữ liệu và chuyển đổi trang và các trang con của nó thành một tệp đánh dấu duy nhất. Cách này sẽ tốn rất nhiều chi phí sử dụng mã thông báo API.
  • Một trang duy nhất: nhập liên kết của bạn mà không cần / Cuối cùng. Chương trình sẽ thu thập dữ liệu và chuyển đổi trang hiện tại thành một tệp đánh dấu duy nhất.

Tệp đánh dấu đầu ra sẽ được đặt trong thư mục này có tên output.md.

Tạo nhúng từ các tệp đánh dấu

Vui lòng làm theo hướng dẫn Cơ sở kiến thức từ tệp đánh dấu để chuyển đổi tệp đánh dấu của bạn thành ảnh chụp nhanh các nhúng có thể được nhập vào nút GaiaNet.