Đúng như batman1 nói. ai nói gì thì sao cấm được. Có được 500 nghìn bản ghi để test ban đầu thì quá ổn.Việc tạo dữ liệu là chuyện bình thường. Tôi nhớ lúc viết code để sắp xếp tiếng Việt tôi cũng cần có dữ liệu để test code. Mà tôi cần rất nhiều, ít nhất là nửa triệu, vì tôi cần test cả tốc độ. Với mục đích ấy tôi không cần biết có tồn tại ngoài đời bé Nguyễn Ánh Tuyết hay không. Vì có hay không thì nó cũng không ảnh hưởng tới việc test code của tôi. Để có được dữ liệu có vẻ "đời thực" một chút thì nếu tôi nhớ không lầm thì tôi đã tìm và tải về các kết quả thi đại học, và mọi kết quả khác. Cứ có danh sách khủng họ tên là được.
Nếu việc bạn cần làm chỉ là bước phụ, vd. chỉ để kiểm tra một cái gì đấy, mà tính "đời thực" của dữ liệu không quan trọng thì bạn hoàn toàn có thể sử dụng dữ liệu tự tạo. Excel không có hàm để làm y nguyên cái bạn muốn nên phải viết. Nếu không tự viết được thì phải nhờ người khác. Họ có thể giúp hoặc đùa cợt, đó là quyền của họ. Rất tiếc là tôi đã không còn giữ dữ liệu hồi xưa. Quãng gần nửa triệu luôn.
Đúng như batman1 nói. ai nói gì thì sao cấm được. Có được 500 nghìn bản ghi để test ban đầu thì quá ổn.
Gầy dữ liệu giả định, và trộn dữ liệu ngẫu nhiên là kỹ thuật căn bản của người làm nghiên cứu thống kê.Tặng bạn 10 000 bản ghi, gồm 5000 nam và 5000 nữ để bạn test.
Cảm ơn bạn, đúng như mình mong muốnTặng bạn 10 000 bản ghi, gồm 5000 nam và 5000 nữ để bạn test.
Mình ko khoe đi nghiên cứu này nọ, vì bạn cứ thắc mắc những cái không đâu vào đâu cả. Nếu ai đã có dữ liệu rồi thì xin để đỡ mất thời gian làm từ đầuGầy dữ liệu giả định, và trộn dữ liệu ngẫu nhiên là kỹ thuật căn bản của người làm nghiên cứu thống kê.
Thớt khoe mình nghiên cứu, test models mà không biết tự làm hai việc trên thì quá lạ.
Cảm ơn bạn, đúng như mình mong muốn
Bài đã được tự động gộp:
Mình ko khoe đi nghiên cứu này nọ, vì bạn cứ thắc mắc những cái không đâu vào đâu cả. Nếu ai đã có dữ liệu rồi thì xin để đỡ mất thời gian làm từ đầu