[ Python và ứng dụng ] Phần mềm tìm và xóa Files trùng lặp tốc độ siêu#

Liên hệ QC

befaint

|||||||||||||
Tham gia
6/1/11
Bài viết
14,368
Được thích
19,327

[ Python và ứng dụng ] Phần mềm tìm và xóa Files trùng lặp tốc độ siêu#​


Phầm mềm được viết bằng Python.
  • Tìm và liệt kê tất cả các thể loại Files có trong Folder được chọn mà có nội dung giống nhau.
  • Kết quả tìm kiếm được ghi ra tập tin Duplicate Files.log. Đường dẫn File đầu tiên mà trùng với File khác sẽ thêm đuôi "Original".
  • #Tốc độ siêu chậm, vừa hay nhanh thì tùy vào sức mạnh phần cứng của máy tính sử dụng.

Ai có nhu cầu dùng thì tải về dùng tại link này.

* 2022-04-14: Cập nhật chức năng xóa files trùng.
Trong tập tin Duplicate Files.log đường dẫn file đã xóa được sẽ thêm đuôi "Deleted".

Version 1.1


1649908885230.png 1649908892586.png

1649908905063.png

---
Version 1.0

1649834824817.png 1649837033938.png

1649835128359.png
 
Chỉnh sửa lần cuối bởi điều hành viên:
Phầm mềm được viết bằng Python.
  • Tìm và liệt kê tất cả các thể loại Files có trong Folder được chọn mà có nội dung giống nhau.
  • Kết quả tìm kiếm được ghi ra tập tin Duplicate Files.log. Đường dẫn File đầu tiên mà trùng với File khác sẽ thêm đuôi "Original".
  • #Tốc độ siêu chậm, vừa hay nhanh thì tùy vào sức mạnh phần cứng của máy tính sử dụng.

Ai có nhu cầu dùng thì tải về dùng tại link này.


View attachment 274409 View attachment 274412

View attachment 274410
Tuyệt vời, cám ơn anh nhiều !
 
Phầm mềm được viết bằng Python.
  • Tìm và liệt kê tất cả các thể loại Files có trong Folder được chọn mà có nội dung giống nhau.
  • Kết quả tìm kiếm được ghi ra tập tin Duplicate Files.log. Đường dẫn File đầu tiên mà trùng với File khác sẽ thêm đuôi "Original".
  • #Tốc độ siêu chậm, vừa hay nhanh thì tùy vào sức mạnh phần cứng của máy tính sử dụng.

Ai có nhu cầu dùng thì tải về dùng tại link này.


View attachment 274409 View attachment 274412

View attachment 274410
File chạy rất tốt anh, tuy nhiên anh có thể thay dấu / thành \ được không ạ, như vậy sẽ dễ lấy đường dẫn của các file bị trùng hơn. :)

1649838448588.png
 
Phầm mềm được viết bằng Python.
  • Tìm và liệt kê tất cả các thể loại Files có trong Folder được chọn mà có nội dung giống nhau.
  • Kết quả tìm kiếm được ghi ra tập tin Duplicate Files.log. Đường dẫn File đầu tiên mà trùng với File khác sẽ thêm đuôi "Original".
  • #Tốc độ siêu chậm, vừa hay nhanh thì tùy vào sức mạnh phần cứng của máy tính sử dụng.

Ai có nhu cầu dùng thì tải về dùng tại link này.


View attachment 274409 View attachment 274412

View attachment 274410
Anh @befaint có chia sẻ source code không :D
 
chưa hiểu cách tính file trùng lặp lắm .... mai mốt rảnh test thử các kiểu xem sao
ai rảnh thử 2 folder Files sau xem trước tình hình như thế nào
Test_TrungLap = có 27 Files trùng lặp nhau
 

File đính kèm

  • Test_TrungLap.rar
    3.4 MB · Đọc: 44
  • Database_FoxPro.rar
    45.2 KB · Đọc: 31
Test_TrungLap = có 27 Files trùng lặp nhau

Như thế này anh.

Tổng số files trong thư mục Test_TrungLap: 27
Số files trùng lặp nhau: 18

Cách đếm số files trùng:
- Nếu có 2 files giống nhau thì có 1 file trùng (với 1 file còn lại).
- Nếu có 3 files giống nhau thì có 2 files trùng (với 1 file còn lại).
- Nếu có 4 files giống nhau thì có 3 files trùng (với 1 file còn lại).
....

1649899866240.png
 
Như thế này anh.

Tổng số files trong thư mục Test_TrungLap: 27
Số files trùng lặp nhau: 18

Cách đếm số files trùng:
- Nếu có 2 files giống nhau thì có 1 file trùng (với 1 file còn lại).
- Nếu có 3 files giống nhau thì có 2 files trùng (với 1 file còn lại).
- Nếu có 4 files giống nhau thì có 3 files trùng (với 1 file còn lại).
....

View attachment 274449
còn cái Folder kia ... chưa hình dung ra nó lắm

1649903804568.png
 
tạm hiểu chút ... vậy là lấy tên File giống nhau thì cho nó là trùng lặp ??!!
Còn phần mở rộng của File ( đuôi file ) ko quan tâm

Không quan tâm tên, không quan tâm phần mở rộng đuôi file. Chỉ quan tâm cái ruột (nội dung) file thôi anh.

Bởi cái tên, cái đuôi file anh chủ động thay đổi được mà. Muốn nhận diện file là gì thì phải xem mã nhận diện trong ruột file chứ anh.
 
Không quan tâm tên, không quan tâm phần mở rộng đuôi file. Chỉ quan tâm cái ruột (nội dung) file thôi anh.

Bởi cái tên, cái đuôi file anh chủ động thay đổi được mà. Muốn nhận diện file là gì thì phải xem mã nhận diện trong ruột file chứ anh.
Tại đang vọc cái thuật toán tìm File trùng lặp 1 chút ... nên hỏi chút ấy mà

Xem các tiêu chí trên nhiều tools khác nhau + cách xét nó trùng lặp sao

1649909200378.png
 

File đính kèm

  • New folder.rar
    51.1 KB · Đọc: 13
Web KT
Back
Top Bottom