Xin hỏi cách nạp 200 triệu dòng dữ liệu

Liên hệ QC

tranhungdao12a3

Thành viên thường trực
Tham gia
29/11/07
Bài viết
367
Được thích
333
Nhờ các anh chị tư vấn giải pháp nạp 200 triệu dòng dữ liệu+ Refresh( làm mới cập nhật nó)
Hiện tại em cần nạp 200 triệu dòng dữ liệu( trong đó chỉ làm mới 1 tháng hiện tại khoảng 5 triệu dòng dữ liệu. Em đã thử nạp bằng các cách:
1. Thử nạp bằng Python( đặc thù file của em là đuôi xlsx, nạp Python xlsx rất chậm, nhanh hơn phải chuyển sang csv. Món Python này này em không thạo nên nạp tương đối chậm( cách nạp nhanh em chưa biết)
2. Thử nạp bằng SQL sử dụng SISS tool (viết mấy cái code nạp thẳng nhanh, đoạn này em chưa biết) cũng vẫn chậm
3. Nạp bằng Power query trong Power Bi cơ bản thì nhanh hơn 2 cách trên( Đoạn này do 2 cái trên em chưa thạo nên nạp nhanh em cũng chưa biết)
Nhược điểm của cả 3 cách là Refresh làm mới dữ liệu thực sự là vấn đề tương đối lớn. Power Bi nó có cái Incremental refresh đoạn thời gian, mà nó lại không dùng cho bản Desktop
Em xin hỏi các anh chị thông thạo những ngôn ngữ trên thì giải pháp nào để xử lý cho việc cập nhật 200 triệu dòng + làm mới cập nhật dữ liệu hiệu quả.
Em cảm ơn!
 
....giải pháp nạp 200 triệu dòng dữ liệu .....
Hiện tại em cần nạp 200 triệu dòng dữ liệu( trong đó chỉ làm mới 1 tháng hiện tại khoảng 5 triệu dòng dữ liệu. Em đã thử nạp bằng các cách:
.... đặc thù file của em là đuôi xlsx,

.......xử lý cho việc cập nhật 200 triệu dòng + làm mới cập nhật dữ liệu hiệu quả.
Thật sao? Phiên bản nào mà File .xlsx có 200 triệu dòng dữ liệu !?!?
 
Nhờ các anh chị tư vấn giải pháp nạp 200 triệu dòng dữ liệu+ Refresh( làm mới cập nhật nó)
Hiện tại em cần nạp 200 triệu dòng dữ liệu( trong đó chỉ làm mới 1 tháng hiện tại khoảng 5 triệu dòng dữ liệu. Em đã thử nạp bằng các cách:
1. Thử nạp bằng Python( đặc thù file của em là đuôi xlsx, nạp Python xlsx rất chậm, nhanh hơn phải chuyển sang csv. Món Python này này em không thạo nên nạp tương đối chậm( cách nạp nhanh em chưa biết)
2. Thử nạp bằng SQL sử dụng SISS tool (viết mấy cái code nạp thẳng nhanh, đoạn này em chưa biết) cũng vẫn chậm
3. Nạp bằng Power query trong Power Bi cơ bản thì nhanh hơn 2 cách trên( Đoạn này do 2 cái trên em chưa thạo nên nạp nhanh em cũng chưa biết)
Nhược điểm của cả 3 cách là Refresh làm mới dữ liệu thực sự là vấn đề tương đối lớn. Power Bi nó có cái Incremental refresh đoạn thời gian, mà nó lại không dùng cho bản Desktop
Em xin hỏi các anh chị thông thạo những ngôn ngữ trên thì giải pháp nào để xử lý cho việc cập nhật 200 triệu dòng + làm mới cập nhật dữ liệu hiệu quả.
Em cảm ơn!
Power BI cũng quá tải à a (giới hạn của nó là 100 triệu phải không a nhỉ).
 
Theo tôi nghĩ thì 200 triệu dòng không xài cùng lúc, hoặc phải tính toán mới ra báo cáo. Vậy thì khi dùng SQL hoặc Power BI, chỉ lấy 1 số cột cần dùng, lọc những dòng cần dùng, hoặc group by (theo yêu cầu), sẽ giảm xuống đáng kể.
 
Theo tôi nghĩ thì 200 triệu dòng không xài cùng lúc

Dùng cùng một lúc đó anh. Em đã gặp một số trường hợp rồi (dữ liệu ít hơn thớt một chút).
Vậy thì khi dùng SQL hoặc Power BI, chỉ lấy 1 số cột cần dùng, lọc những dòng cần dùng, hoặc group by (theo yêu cầu), sẽ giảm xuống đáng kể.
Trước khi có cái để lọc thì những công cụ đó để phải đọc cả file mà anh, nên vẫn nặng.

1. Thử nạp bằng Python( đặc thù file của em là đuôi xlsx, nạp Python xlsx rất chậm, nhanh hơn phải chuyển sang csv. Món Python này này em không thạo nên nạp tương đối chậm( cách nạp nhanh em chưa biết)

Nếu bạn dùng Pandas thì cần chỉnh lại source code của nó để chỉ đọc dữ liệu, hoặc đơn giản nhất là bạn chuyển tập tin thành định dạng *.csv.
 
Bạn nạp bằng Bulk Insert trong SQL Server vẫn chậm à?
Sao dữ liệu gốc không phải là CSV mà là Excel vậy?
Phần mềm bên em nó xuất ra xlsx, do cơ bản các bộ phận họ đều dùng excel là chính, cho nên họ không xuất Csv. Em đang gặp vấn đề refresh dữ liệu đấy, mà chỉ refresh 1,2 tháng gần nhất thôi chứ không refresh toàn bộ. Vì một số lý do nên không trích dữ liệu tháng cũ đưa ra riêng được mà vẫn phải để chung tất cả các tháng dữ liệu.
Bài đã được tự động gộp:

Power BI cũng quá tải à a (giới hạn của nó là 100 triệu phải không a nhỉ).
Không quá tải bạn, vấn đề là không Refresh đoạn được, mỗi lần Refresh thì phải Refresh toàn bộ ý
 
Phần mềm bên em nó xuất ra xlsx, do cơ bản các bộ phận họ đều dùng excel là chính, cho nên họ không xuất Csv. Em đang gặp vấn đề refresh dữ liệu đấy, mà chỉ refresh 1,2 tháng gần nhất thôi chứ không refresh toàn bộ. Vì một số lý do nên không trích dữ liệu tháng cũ đưa ra riêng được mà vẫn phải để chung tất cả các tháng dữ liệu.
Bài đã được tự động gộp:


Không quá tải bạn, vấn đề là không Refresh đoạn được, mỗi lần Refresh thì phải Refresh toàn bộ ý
À công nhận, mỗi lần refresh mà với đống dữ liệu này thì nó chạy rất lâu.
 
Theo tôi nghĩ thì 200 triệu dòng không xài cùng lúc, hoặc phải tính toán mới ra báo cáo. Vậy thì khi dùng SQL hoặc Power BI, chỉ lấy 1 số cột cần dùng, lọc những dòng cần dùng, hoặc group by (theo yêu cầu), sẽ giảm xuống đáng kể.
Dữ liệu nó còn nhiều hơn 200 triệu dòng đấy anh. Dữ liệu của em chỉ có 30 nghìn điểm bán thôi. Còn tính toàn bộ công ty bao gồm 250 nghìn điểm bán + 25 nhãn hàng + 100sku thì nguyên nạp 1 tháng khoảng 40 triệu dòng( chỉ tính nguyên bộ phận sales thôi, chưa tính dữ liệu logistics.... các bộ phận khác) rồi nên tính ra 200 triệu dòng chỉ nạp được 5 tháng dữ liệu thôi
 
Sao lại cười vậy befaint?
 
Tôi thấy bên cty thằng bạn tôi làm thường chạy refreah, cập nhật dữ liệu cho BI vào ban đêm thôi. :)
Em cũng dùng Power Bi, vấn đề chính gặp phải là không refresh 1,2 tháng trong 6 tháng dữ liệu được. Power bi bản cao cấp chạy web thì có thể làm được việc đấy, mà em dùng bản desktop free nó không chạy được chức năng refresh đoạn đấy
 
Sao lại cười vậy befaint?

Việc đó nặng quá, chạm tới giới hạn phần cứng rồi. Làm em nhớ thời đầu máy tính, mở trang web mà ngồi chờ dài cổ, nhưng hồi đó vẫn ngồi chờ bình thường. :D :D

Với trường hợp chủ thớt chắc đầu tư phần cứng thật mạnh là ổn.
 
Việc đó nặng quá, chạm tới giới hạn phần cứng rồi. Làm em nhớ thời đầu máy tính, mở trang web mà ngồi chờ dài cổ, nhưng hồi đó vẫn ngồi chờ bình thường. :D :D

Với trường hợp chủ thớt chắc đầu tư phần cứng thật mạnh là ổn.
Vẫn chạy được anh ạ, Ram 64gb chạy máy bàn vẫn được, chỉ hơi lâu chút thôi. Tuy nhiên laptop 16gb ram chạy bị ngất, mà em dùng laptop nhiều hơn
 
Giờ toàn là Big Data, Data WareHouse không, mình không có cơ hội đụng tới mấy loại CSDL này rồi nên cũng không có cơ hội học hỏi, trải nghiệm được gì. :(
 
Vẫn chạy được anh ạ, Ram 64gb chạy máy bàn vẫn được, chỉ hơi lâu chút thôi. Tuy nhiên laptop 16gb ram chạy bị ngất, mà em dùng laptop nhiều hơn
Hehe, file để vào thư mục onedrive trên cả 2 máy. Refresh trên máy bàn, còn laptop xách đi chinh chiến. Nó sẽ chỉ download về chứ không refresh.
 
Vẫn chạy được anh ạ, Ram 64gb chạy máy bàn vẫn được, chỉ hơi lâu chút thôi. Tuy nhiên laptop 16gb ram chạy bị ngất, mà em dùng laptop nhiều hơn
Data của em hơn 18 triệu dòng mà mỗi lần chạy đã cỡ 30 phút rồi.
Máy i5, ram 24G.
Với data trên của anh, không biết nó refresh hết bao lâu?
 
Web KT
Back
Top Bottom