Mình đóng góp ý kiến thế này
1, Bạn đang phân tích 1 chỉ tiêu có sự tương quan cao giữa các dòng (thuật ngữ gọi là bản ghi) - tức là kết quả cần tìm phụ thuộc vào các dòng khác
2, Bình thường nếu bạn chỉ xử lý dữ liệu nội bộ bản ghi: tức là lấy value các cột trong 1 bản ghi cộng trừ nhân chia tán loạn cho nhau rồi đẩy kết quả vào 1 cột mới, thì dùng máy tính casio cũng ra.
3, Nhưng khi có nhiều bản ghi cũng cần tính toán như vậy, thì bạn phải dùng excel, bằng cách tạo hàm và kéo full các dòng (bản ghi)
4, Nhưng khi thông tin cần tìm lại phụ thuộc vào nhiều bản ghi, thì nên dùng công cụ so sánh khác như Pivot table. Đừng đẩy kết quả ra 1 cột rồi Filter để xem cũng như để phân tích.
Mình ko chuyên về dữ liệu nên ko gọi ra chính xác tên vấn đề được mà chỉ mô tả cách làm ở trên như kiểu dùng màn hình 10px xem jav vậy, ko thể dựng nổi.
Như hình ở đây, chỉ liếc sơ cũng biết ngày 25 máy 4 chạy trên 2 trạm, nếu kéo giờ ra là biết có trùng, có hơn cái filter rối mắt tốn code kia không
View attachment 225502
5, [Về cái gọi là ánh xạ 1 phần hay gì gì không nhớ, túm lại là kiểu 1 đầu vào, đẩy vào 1 hàm cho ra nhiều kết quả].
Ngày 07/07 trạm A có 3 máy là [1,2,5] cùng chạy, nếu muốn tính số giờ trùng thì bạn sẽ phải tính:
Trùng giữa máy [2,1] là bao lâu, [2,5] ; [1,5] là bao lâu và nếu số máy nhiều hơn thì chắc là tổ hợp chịch X của Y các thể loại.
Vậy thời gian trùng phải ghi nhận của trường hợp nào [2,1] hay [2,5] hay [1,5], thực tế mà nhiều hơn nữa thì thế nào, so sánh làm sao ?
Nếu chị A hôm nay đang ngủ với anh B, thì chồng chị là C về, ngủ 1 tí thì C đi, D đến chơi phát, rồi rủ E sang some, thì tính thời gian trùng của bạn là thời gian anh B cùng anh C có mặt ở nhà, hay anh B cùng anh D, E có mặt ở nhà với chị A.
Vì vậy cột thời gian trùng này mình để xuất xem lại mục đích khai thác thông tin, hoặc là phải đổi kiểu ghi chép dữ liệu, sang thành cứ mỗi 1 giây thì có bao nhiêu máy tính đang hoạt động để đỡ tốn công ngồi phân tích nhé (gọi là gì nhỉ, right data collecting ?)