Robot của công cụ tìm kiếm chịu trách nhiệm thu thập thông tin các trang web. Chương trình tự động đọc dữ liệu từ tất cả các trang web và đăng ký chúng dưới dạng dễ hiểu đối với chính công cụ tìm kiếm, để sau này hệ thống sẽ hiển thị kết quả phù hợp nhất cho người dùng.
Chức năng
Tất cả thông tin được lập chỉ mục được ghi lại trong một cơ sở dữ liệu chung.
Robot tìm kiếm là một chương trình tự động di chuyển qua các trang của Internet, yêu cầu các tài liệu cần thiết và nhận cấu trúc của các trang web đã được thu thập thông tin. Robot chọn các trang được quét một cách độc lập. Trong hầu hết các trường hợp, các trang web cần quét được chọn ngẫu nhiên.
Các loại bot
Robot hoạt động không đúng cách sẽ làm tăng đáng kể tải trên mạng và máy chủ, điều này có thể khiến tài nguyên không khả dụng.
Mỗi công cụ tìm kiếm có một số chương trình được gọi là rô bốt. Mỗi người trong số họ có thể thực hiện một chức năng cụ thể. Ví dụ: tại Yandex, một số robot chịu trách nhiệm quét các nguồn cấp tin RSS, điều này sẽ hữu ích cho việc lập chỉ mục các blog. Cũng có những chương trình chỉ tìm kiếm hình ảnh. Tuy nhiên, điều quan trọng nhất là bot lập chỉ mục, tạo cơ sở cho bất kỳ tìm kiếm nào. Ngoài ra còn có một robot nhanh phụ trợ được thiết kế để tìm kiếm các cập nhật trên nguồn cấp tin tức và các sự kiện.
Quy trình quét
Một cách khác để ngăn việc thu thập thông tin nội dung là tạo quyền truy cập vào trang web thông qua bảng đăng ký.
Khi truy cập trang web, chương trình sẽ quét hệ thống tệp để tìm tệp hướng dẫn robots.txt. Nếu có một tài liệu, việc đọc các chỉ thị được viết trong tài liệu sẽ bắt đầu. Robots.txt có thể cấm hoặc ngược lại, cho phép quét các trang và tệp nhất định trên trang web.
Quá trình quét phụ thuộc vào loại chương trình. Đôi khi robot chỉ đọc tiêu đề trang và một vài đoạn văn. Trong một số trường hợp, việc quét được thực hiện trong toàn bộ tài liệu tùy thuộc vào đánh dấu HTML, cũng có thể hoạt động như một phương tiện để chỉ định các cụm từ khóa. Một số chương trình chuyên về thẻ ẩn hoặc thẻ meta.
Thêm vào danh sách
Mọi quản trị viên web đều có thể ngăn công cụ tìm kiếm thu thập dữ liệu các trang thông qua robots.txt hoặc thẻ META. Ngoài ra, người tạo trang web có thể thêm trang web vào hàng đợi lập chỉ mục theo cách thủ công, nhưng thêm nó không có nghĩa là rô bốt sẽ thu thập dữ liệu trang mong muốn ngay lập tức. Để thêm một trang web vào hàng đợi, các công cụ tìm kiếm cũng cung cấp các giao diện đặc biệt. Việc thêm một trang web sẽ tăng tốc đáng kể quá trình lập chỉ mục. Ngoài ra, để đăng ký nhanh trong công cụ tìm kiếm, có thể sử dụng hệ thống phân tích trang web, thư mục trang web, v.v.