Lấy thông tin (tên sản phẩm, đơn giá) từ các website như (hoanghamobile,dienmayxanh...) về Excel (1 người xem)

Người dùng đang xem chủ đề này

Tôi tuân thủ nội quy khi đăng bài

congtk.vcb

Thành viên mới
Tham gia
21/9/25
Bài viết
6
Được thích
0
Có cách nào lấy dữ liệu như sản phẩm, đơn giá từ các website như hoanghamobile, dienmayxanh... Về Excel được không ạ?
 
Trả lời là có bạn nhé.
Cách thức làm tương tự như mô hình các bot cào dữ liệu để huấn luyện AI.
Phần cứng: 2 trang như trên thì dựng 4 tới 10 máy tính cpu và RAM cao một chút, chạy 24/24
Phần mềm: có khả năng viết bằng gì thì viết như python, nodejs, java... Nhưng ưu tiên là python nhé.
Rồi cho hệ thống chạy liên tục 1-2 tuần là cào được kha khá dữ liệu.
Muốn dữ liệu luôn được cập nhật thì cứ để hệ thống chạy 24/24, ghi kết quả vào database.
Cuối cùng muốn xuất dữ liệu ra xlsx, csv đều được.
 
Trả lời là có bạn nhé.
Cách thức làm tương tự như mô hình các bot cào dữ liệu để huấn luyện AI.
Phần cứng: 2 trang như trên thì dựng 4 tới 10 máy tính cpu và RAM cao một chút, chạy 24/24
Phần mềm: có khả năng viết bằng gì thì viết như python, nodejs, java... Nhưng ưu tiên là python nhé.
Rồi cho hệ thống chạy liên tục 1-2 tuần là cào được kha khá dữ liệu.
Muốn dữ liệu luôn được cập nhật thì cứ để hệ thống chạy 24/24, ghi kết quả vào database.
Cuối cùng muốn xuất dữ liệu ra xlsx, csv đều được.
Dạ em cảm ơn ạ!
 
Xong việc công an tới tận nhà bắt, hốt hết dàn PC luôn
Vi phạm nghiêm trọng luật pháp, ra tòa, bị xử phạt, khả năng đi "to".

Tốt nhất liên hệ họ có cung cấp dữ liệu không, theo tôi biết là bạn có quyền liên kết sản phẩm của họ vào web của bạn. Hoặc vẫn có cách khác
 
Xong việc công an tới tận nhà bắt, hốt hết dàn PC luôn
Vi phạm nghiêm trọng luật pháp, ra tòa, bị xử phạt, khả năng đi "to".

Tốt nhất liên hệ họ có cung cấp dữ liệu không, theo tôi biết là bạn có quyền liên kết sản phẩm của họ vào web của bạn. Hoặc vẫn có cách khác
Việc cào dữ liệu như mô tả trên là tra cứu cũng như đọc web và quét thu thông tin public mà anh nhỉ ?
Mình trỏ từng sản phẩm và thu lại thủ công thôi anh, thay cho việc mở web và copy tên sản phẩm và giá.
Đâu phải mình tấn công vào database của họ.
*** Suy nghĩ cá nhân của em.
 
Không có quyền nào cho phép bạn gửi yêu cầu liên tục đến website, để thu thập tất cả dữ liệu của họ. Dù cho là dữ liệu công khai, bạn là người dùng cũng nằm trong khuôn khổ và giới hạn nhất định. Khi bạn gửi các yêu cầu, ip của bạn là địa chỉ để định danh bạn là ai.

Một ví dụ rất đơn giản. Mặc dù bạn tải dữ liệu là rất bình thường, nhưng việc gửi yêu cầu liên tục nó như một cuộc tất công đến website, không phải riêng bạn muốn tải mà có hàng nghìn người muốn tải như vậy, không những vậy còn có hàng chục con BOT thu thập dữ liệu như Google, Bing, GPT, Copilot, Gemini, ... , và nếu tải dữ liệu ảnh, bạn phải gửi hàng nghìn yêu cầu, gây ra nghẻn hệ thống, làm trì trệ, thì làm sao còn nhiều băng thông để các khách hàng họ truy cập đến website mượt mà, website của người ta là web kinh doanh đóng thuế, được nhà nước bảo vệ.

Luật an ninh mạng có từ 2023, làm gì mà liên quan đến lấy những gì của công ty, dữ liệu mạng, thì cẩn trọng hết sức.

Còn những người xem thường pháp luật thì giả ip, sử dụng VPN, miễn sao có được thử mình muốn.
Với tôi thì tôi chọn con đường tươi sáng. Làm gì cũng có quy tắc, luật lệ. Để tránh tự làm khổ mình. Cái gì không phải của mình, muốn cũng cần "phải xin, phải hỏi".

Lập trình giống như nắm trong tay con dao sắc nhọn, dễ đứt tay. Có khi không thấy hại mình, mà ầm thầm hại người khác.
 

Bài viết mới nhất

Back
Top Bottom