Một trong những công việc "Data mining" là vét ở đâu đó về một cụm dữ liệu rồi tìm trong đó cái tin tức mà mình muốn.
Ở cấp thấp thì có một chủ ý nhất định và tìm đúng ngay chủ ý đó (như email ở đây)
Ở cấp cao thì liên hệ đến trí tuệ nhân tạo, người ta tự mò lấy những dữ liệu, những sự liên hệ và thống kê lại.
Như cái ảnh thớt đưa ra bên trên thì cơ quan của thớt có cái phần mềm. Hình như họ đang tuyển người làm Ai Ti gì đó. Bên ứng viên đưa một link mạng xã hội của mình (theo như cách hành văn trong ảnh thì đại khái nó theo kiểu LinkedIn). Bên tuyển vào đó hốt tin tức về và lọc ra khoảng 10 người để phỏng vấn.
Cũng có thể là họ đọc cái cover letter (bức thư xin việc) bằng Word hay PDF gì đó rồi túm cái phần giữa "Dear..." và "Yours..." đưa vào.
Câu hỏi tôi đặt ra là:
1. nếu cần thì người ta phân tách thêm những yếu tố khác, điển hình số năm làm việc, độ chuyên môn,... Chứ đâu chỉ có cái email.
(Hầu hết những trường hợp chỉ tách lấy email là do người ta muốn soạn một danh sách email để xì pem hoặc bán lại cho các công ty chuyên xì pem)
2. 9 trên 10 người trong danh sách kia là dân Ai Ti tầm cỡ. Chứng tỏ cơ quan của thớt cũng phải có nhân viên Ai Ti đại khái đủ để nói chuyện với họ. Thế thì tại sao công việc này không giao cho người ấy, lại để cho một tay mơ Excel lên dễn đàn GPE xin "cứu mạng"? Chẳng nhẽ cơ quan này nó không có tự trọng?
@CHAOQUAY:
1. Bạn đã thử \w với tiếng Việt chưa? (tôi chỉ hỏi chứ chưa thử)
2. Có một vài cái domain (.com) bị dính với từ khác. Ngay dòng đầu: "
ittroller8@gmail.comkinh nghiệm"
3. Nếu dùng dấu chấm để loại domain cũng không được. Vì có một số superdomain là viết tắt của quốc gia, ví dụ .co.uk (Anh quốc). Trừ phi bạn bảo đảm là danh sách không có người dùng email Âu-Úc.
Túm lại, cái danh sách thớt đưa ra là một thử thách cho Ai Ti. Nó có thể dùng làm để tài thi tuyển cho chính những người trong danh sách.