[?] cách đếm những từ lặp lại trong các chuỗi

Liên hệ QC

emlt10

Thành viên mới
Tham gia
5/6/09
Bài viết
1
Được thích
0
Kính nhờ quý anh chị chỉ giúp tôi cách giải vấn đề sau đây:

  • Có nhiều (5-7 triệu) chuỗi dài khoảng 20-30 từ, các từ cách nhau bởi khoảng trống, chẳng hạn 4 chuỗi:
s[1] = "thí dụ thứ nhất nhờ diễn đàn giải pháp excel"
s[2] = "thí dụ thứ hai chỉ giải pháp đếm các từ thường gặp"
s[3] = "ví dụ thứ ba các từ có hai ba bốn âm tiết"
s[4] = "tỉ dụ thứ tư để thống kê các âm tiết"
  • Cần rút ra các từ (âm) đôi, ba, bốn... lặp lại, như ví dụ trên gặp:
2 lần - "âm tiết"
2 lần - "các từ"
4 lần - "dụ thứ"
2 lần - "giải pháp"
2 lần - "thí dụ"
2 lần - "thí dụ thứ"

(để thống kê các âm đôi, ba, bốn... thường gặp trong các văn bản tiếng Việt).

Xin cám ơn quý anh chị rất nhiều.
 
Bài này nếu làm trong excel có lẽ cũng chỉ dừng lại ở mức đưa ra được giải thuật có tính khả thi thôi chứ chắc không thể giải quyết đầy đủ yêu cầu được vì dữ liệu khổng lồ (5-7 triệu chuỗi dài từ 20-30 từ). Nhưng có 1 điều tôi thắc mắc là ví dụ có 1 chuỗi là "x x x x" thì chuỗi "x x" được coi là lặp lại bao nhiêu lần???
 
Mình có cách vầy, tham gia thảo luận cùng các bạn

Cắt thành từng từ riêng rẽ & cho vô tám cột của excel theo độ dài của từ
Ví dụ
A|B|C|D|E|F|G|H
L1|L2|L3|L4|L5|L6|L7|L8
à|Em|yêu|mình|nhiều|nguyễn|nghoằnh|????????
||||. . .|||

Sau đó ta tìm tiếp từ nào được dùng nhiều nhứt trong các cột;
Tiếp theo, nó dùng để ghép với các từ nào. . . .
Khá nan giải

Chúc vui!
 
Cắt thành từng từ riêng rẽ & cho vô tám cột của excel theo độ dài của từ
Ví dụ
A|B|C|D|E|F|G|H
L1|L2|L3|L4|L5|L6|L7|L8
à|Em|yêu|mình|nhiều|nguyễn|nghoằnh|????????
||||. . .|||

Sau đó ta tìm tiếp từ nào được dùng nhiều nhứt trong các cột;
Tiếp theo, nó dùng để ghép với các từ nào. . . .
Khá nan giải

Chúc vui!
Không rõ ý tưởng của cái bước "Sau đó ta tìm tiếp từ nào được dùng nhiều nhứt trong các cột;" dùng để làm gì nhỉ?
 
2 lần - "âm tiết"
"các từ"
"dụ thứ"
"giải pháp"
"thí dụ"
"thí dụ thứ"
Ta sẽ biết được trong đoạn trích trên có từ 'dụ' được xài nhiều nhứt í mà!
Sau đó là xem nó thường cặp bồ với ai, vậy thôi. . . .
 
Ta sẽ biết được trong đoạn trích trên có từ 'dụ' được xài nhiều nhứt í mà!
Sau đó là xem nó thường cặp bồ với ai, vậy thôi. . . .
Tôi thấy thao tác này không có ý nghĩa, vì từ xuất hiện nhiều nhất chưa chắc đã góp mặt trong các từ lặp. Trong ví dụ của tác giả đưa ra chỉ là 1 trường hợp mà từ xuất hiện nhiều nhất có bị lặp mà thôi.
 
Kính nhờ quý anh chị chỉ giúp tôi cách giải vấn đề sau đây:

  • Có nhiều (5-7 triệu) chuỗi dài khoảng 20-30 từ, các từ cách nhau bởi khoảng trống, chẳng hạn 4 chuỗi:
s[1] = "thí dụ thứ nhất nhờ diễn đàn giải pháp excel"
s[2] = "thí dụ thứ hai chỉ giải pháp đếm các từ thường gặp"
s[3] = "ví dụ thứ ba các từ có hai ba bốn âm tiết"
s[4] = "tỉ dụ thứ tư để thống kê các âm tiết"
  • Cần rút ra các từ (âm) đôi, ba, bốn... lặp lại, như ví dụ trên gặp:
2 lần - "âm tiết"
2 lần - "các từ"
4 lần - "dụ thứ"
2 lần - "giải pháp"
2 lần - "thí dụ"
2 lần - "thí dụ thứ"

(để thống kê các âm đôi, ba, bốn... thường gặp trong các văn bản tiếng Việt).

Xin cám ơn quý anh chị rất nhiều.


bạn xem topic sau, từ các bài #14,#15, #16

http://www.giaiphapexcel.com/forum/showthread.php?t=6127

thế nhé, ghi đó bạn thích cụm từ nào chỉ việc gõ vào 1 ô nhập là xong
 
Đừng phức tạp vấn đề lên thế,
Ví dụ cần tìm số lần lặp của từ "Thí dụ" thì chỉ cần thay vào là được
.
Phức tạp hay không là do yêu cầu của tác giả. Người ta đang muốn thống kê các âm đôi, âm ba, âm bốn thường gặp trong tiếng Việt. Vậy cách này có đáp ứng được không?
 
Web KT
Back
Top Bottom