Vòng tròn trình thu thập thông tin có thể sắp xáo trộn. Bất cứ ai đã sử dụng Firecrawl đều biết rằng bản nâng cấp này quả thực hơi tàn nhẫn.
Phương pháp cũ của quá khứ - cấu hình môi trường, viết quy tắc, các biện pháp đối phó chống thu thập dữ liệu và bẻ khóa mã xác minh, một tập hợp các quy trình không thể được thực hiện trong vài giờ. Bây giờ tôi nghĩ khác: Tôi chỉ ném nhu cầu vào nó, và nó lo phần còn lại. Tìm kiếm, tự động cạo, dọn dẹp dữ liệu, dịch vụ một cửa.
Điều tốt nhất là tính bao gồm của điều này. Các tài liệu như PDF và DOCX không có vấn đề gì và thậm chí nội dung hình ảnh cũng có thể được phân tích cú pháp trực tiếp. Nói cách khác, nó ăn bất kể nguồn dữ liệu của bạn là định dạng nào. Đối với các nhà phát triển thực hiện tổng hợp dữ liệu và trích xuất thông tin, đây thực sự là rất nhiều rắc rối. Khi các dự án Web3 thực hiện phân tích dữ liệu on-chain và thu thập thông tin off-chain, ưu điểm của các công cụ đó thậm chí còn rõ ràng hơn.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
6 thích
Phần thưởng
6
4
Đăng lại
Retweed
Bình luận
0/400
OnlyOnMainnet
· 23giờ trước
Thật sự, dùng Firecrawl trong một tuần, cảm giác những script chống crawler trước đây đều vô dụng rồi
Lần này thực sự tuyệt vời, hình ảnh tài liệu đều lấy được, dữ liệu trên chuỗi và ngoài chuỗi đều nắm trong tay
Trước đây phải mất cả buổi để vượt captcha, giờ chỉ cần giao cho nó, phấn khích vô cùng
Cảm giác ngành crawler này sắp mất việc rồi...
Nhưng thành thật mà nói, nếu độ ổn định theo kịp, thứ này thực sự có thể thay thế nhiều công cụ
Có ai đã chạy trong môi trường sản xuất chưa, độ tin cậy thế nào
Xem bản gốcTrả lời0
FreeMinter
· 23giờ trước
Ôi trời, thật sao? Các trình thu thập dữ liệu đã bị loại bỏ nhanh vậy sao?
Xem bản gốcTrả lời0
HorizonHunter
· 23giờ trước
Lúc này các crawler thật sự hoảng loạn, cứ tiếp tục như vậy kỹ năng cũ sẽ không còn tác dụng gì nữa
Xem bản gốcTrả lời0
PuzzledScholar
· 23giờ trước
Thật sao, còn có thể trực tiếp phân tích nội dung hình ảnh? Vậy bộ logic crawler trước đây của tôi đã vô ích rồi.
Vòng tròn trình thu thập thông tin có thể sắp xáo trộn. Bất cứ ai đã sử dụng Firecrawl đều biết rằng bản nâng cấp này quả thực hơi tàn nhẫn.
Phương pháp cũ của quá khứ - cấu hình môi trường, viết quy tắc, các biện pháp đối phó chống thu thập dữ liệu và bẻ khóa mã xác minh, một tập hợp các quy trình không thể được thực hiện trong vài giờ. Bây giờ tôi nghĩ khác: Tôi chỉ ném nhu cầu vào nó, và nó lo phần còn lại. Tìm kiếm, tự động cạo, dọn dẹp dữ liệu, dịch vụ một cửa.
Điều tốt nhất là tính bao gồm của điều này. Các tài liệu như PDF và DOCX không có vấn đề gì và thậm chí nội dung hình ảnh cũng có thể được phân tích cú pháp trực tiếp. Nói cách khác, nó ăn bất kể nguồn dữ liệu của bạn là định dạng nào. Đối với các nhà phát triển thực hiện tổng hợp dữ liệu và trích xuất thông tin, đây thực sự là rất nhiều rắc rối. Khi các dự án Web3 thực hiện phân tích dữ liệu on-chain và thu thập thông tin off-chain, ưu điểm của các công cụ đó thậm chí còn rõ ràng hơn.