Tài liệu Đề tài Tìm hiểu về thuật toán sắp xếp: NGHIÊN CỨU KHOA HỌC
Đề tài : Tìm hiểu về Thuật Toán Sắp Xếp
Mục lục
PHẦN MỞ ĐẦU
1. Lý do chọn đề tài
Trong hai thập kỷ qua, mô phỏng thuật toán đã được các nhà sư phạm của ngành công nghệ thông tin sử dụng như một công cụ có tính chất giúp đỡ trong việc dạy các thuật toán đồ thị, các thuật toán sắp xếp, … khác nhau bằng máy tính. Nguyên nhân của việc mô phỏng thuật toán được sử dụng như một công cụ trợ giúp cho việc giảng dạy là do nó có thể cung cấp các mô phỏng động bằng đồ họa của một thuật toán và các thay đổi trong cấu trúc dữ liệu của nó trong suốt quá trình thực thi.
Như một phần của quá trình học thuật toán, những sinh viên ngành công nghệ thông tin sẽ học về cấu trúc của một trình biên dịch (compiler) trong một ngôn ngữ lập trình cho quá trình đó. Điều này sẽ chỉ ra cho chúng ta từng nhiệm vụ của các giai đoạn khác nhau trong trình biên dịch.
Hiện nay, một số hệ thống mô phỏng thuật toán được phát triển sau hai thập kỷ. Hầu hết các thuật toán được đề cập đến trong gi...
42 trang |
Chia sẻ: hunglv | Lượt xem: 1547 | Lượt tải: 1
Bạn đang xem trước 20 trang mẫu tài liệu Đề tài Tìm hiểu về thuật toán sắp xếp, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
NGHIÊN CỨU KHOA HỌC
Đề tài : Tìm hiểu về Thuật Tốn Sắp Xếp
Mục lục
PHẦN MỞ ĐẦU
1. Lý do chọn đề tài
Trong hai thập kỷ qua, mơ phỏng thuật tốn đã được các nhà sư phạm của ngành cơng nghệ thơng tin sử dụng như một cơng cụ cĩ tính chất giúp đỡ trong việc dạy các thuật tốn đồ thị, các thuật tốn sắp xếp, … khác nhau bằng máy tính. Nguyên nhân của việc mơ phỏng thuật tốn được sử dụng như một cơng cụ trợ giúp cho việc giảng dạy là do nĩ cĩ thể cung cấp các mơ phỏng động bằng đồ họa của một thuật tốn và các thay đổi trong cấu trúc dữ liệu của nĩ trong suốt quá trình thực thi.
Như một phần của quá trình học thuật tốn, những sinh viên ngành cơng nghệ thơng tin sẽ học về cấu trúc của một trình biên dịch (compiler) trong một ngơn ngữ lập trình cho quá trình đĩ. Điều này sẽ chỉ ra cho chúng ta từng nhiệm vụ của các giai đoạn khác nhau trong trình biên dịch.
Hiện nay, một số hệ thống mơ phỏng thuật tốn được phát triển sau hai thập kỷ. Hầu hết các thuật tốn được đề cập đến trong giai đoạn này đều là các hệ thống phổ biến hơn và tinh vi hơn các hệ thống mà thực tế đang sử dụng.
Mơ phỏng thuật tốn ngày càng trở nên hữu ích và trở thành một giáo cụ trực quan rất quan trọng trong hầu hết các lĩnh vực, nhất là trong mơi trường giáo dục. Với các nhà sư phạm của ngành cơng nghệ thơng tin thì mơ phỏng thuật tốn cĩ tác dụng như một tài liệu hướng dẫn trong việc dạy các thuật tốn bằng máy tính. Đặc biệt, nĩ giúp học sinh và sinh viên hiểu cấu trúc dữ liệu và thuật tốn nhanh hơn. Như vậy, mơ phỏng thuật tốn gĩp phần to lớn vào việc ứng dụng CNTT trong giảng dạy và gĩp phần vào sự phát triển nhanh chĩng của hệ thống elearning.
Thuật tốn về sắp xếp rất đa dạng và phong phú. Vì vậy vấn đề “ Mơ phỏng thuật tốn sắp xếp ” được chọn để nghiên cứu trong khĩa luận này.
2. Mục tiêu và nhiệm vụ
Nghiên cứu tổng quan về mơ phỏng thuật tốn.
Hướng đến các kỹ thuật lập trình với mã nguồn mở và ngơn ngữ lập trình C#
Áp dụng kết quả nghiên cứu làm một demo mơ phỏng thuật tốn sắp xếp
3. Cấu trúc khĩa luận
Chương 1: Một số kiến thức cơ sở
Trình bày khái niệm thuật tốn, các đặc trưng của thuật tốn
Độ phức tạp của thuật tốn
Chương 2: Mơ phỏng thuật tốn
Tổng quan về mơ phỏng thuật tốn
Một số yêu cầu đối với mơ phỏng thuật tốn
Quy trình thiết kế nhiệm vụ mơ phỏng thuật tốn
Chương 3: Chương trình ứng dụng thuật tốn sắp xếp
Phân tích và thiết kế hệ thống mơ phỏng thuật tốn sắp xếp
Phân tích một số thuật tốn hiện tại
Chương 1. MỘT SỐ KIẾN THỨC CƠ SỞ
Thuật tốn
Khái niệm thuật tốn
Thuật ngữ “algorithm” (thuật tốn hoặc cịn gọi là giải thuật) được gọi theo tên nhà tốn học Ả rập thế kỷ IX al-Khowarizmi, người đã viết cuốn sách về các chữ số Hindu – cơ sở của kí hiệu số thập phân hiện đại (xem [4], trang 118). Xuất xứ ban đầu là từ algorism, được dùng để chỉ các quy tắc thực hiện các phép tính số học trên các số thập phân. Sau đĩ, vào thế kỷ XVIII algorism biến thành algorithm. Với sự quan tâm ngày càng tăng đối với máy tính, khái niệm thuật tốn đã được cho một ý nghĩa chung hơn, bao hàm cả các thủ tục xác định để giải các bài tốn, chứ khơng phải chỉ là thủ tục để thực hiện các phép tính số học.
Thuật tốn là một dãy hữu hạn các thao tác được sắp xếp theo một trình tự xác định sao cho sau khi thực hiện dãy các thao tác ấy, từ Input của bài tốn ta nhận được Output cần tìm.
Cũng cĩ thế xem thuật tốn như một cơng cụ để giải quyết một bài tốn cụ thể. Phát biểu bài tốn sẽ chỉ định tổng quát mối quan hệ Input/Output cần thiết. Thuật tốn mơ tả một thủ tục tính tốn cụ thể để đạt được mối quan hệ Input/Output đĩ.
Vào khoảng những năm 1930 - 1936, lần lượt các nhà tốn học K.Gưdel, S. Kleene, A. Church, A. Turing đã đề ra một số định nghĩa khác nhau cho khái niệm thuật tốn. Trong số các định nghĩa tốn học khác nhau (nhưng tương đương) về thuật tốn, các khái niệm Máy Turing (1937) và Hàm đệ quy (1931-1936) được sử dụng rộng rãi hơn vì cĩ nhiều thuận tiện cho các nghiên cứu cả về lí thuyết lẫn thực hành.
Các đặc trưng của thuật tốn
Các thuật tốn cĩ một số tính chất chung, đĩ là:
Đầu vào (Input): Một thuật tốn cĩ các giá trị đầu vào từ một tập xác định.
Đầu ra (Output): Từ mỗi tập giá trị đầu vào, thuật tốn sẽ tạo ra các giá trị đầu ra. Các giá trị đầu ra chính là nghiệm của bài tốn.
Tính xác định: Các bước của thuật tốn phải được xác định một cách chính xác.
Tính đúng đắn: Một thuật tốn phải cho các giá trị đầu ra đúng đối với mỗi tập giá trị đầu vào.
Tính hữu hạn: Một thuật tốn phải tạo ra các giá trị đầu ra sau một số hữu hạn (cĩ thể rất lớn) các bước thực hiện đối với mỗi tập đầu vào.
Tính hiệu quả: Mỗi bước của thuật tốn phải thực hiện được một cách chính xác và trong một khoảng thời gian chấp nhận được.
Tính tổng quát: Thuật tốn cần phải áp dụng được cho mọi tập dữ liệu đầu vào của bài tốn, chứ khơng phải chỉ cho một tập đặc biệt các giá trị đầu vào.
1.2.Độ phức tạp của thuật tốn
Cần chú ý rằng mỗi thuật tốn chỉ giải một lớp bài tốn nào đĩ, nhưng cĩ thể cĩ nhiều thuật tốn khác nhau giải cùng một bài tốn. Một vấn đề đặt ra là ta cần chọn một thuật tốn tốt để giải bài tốn đã cho.
Nhưng thế nào là thuật tốn tốt? Thước đo hiệu quả là thời gian máy tính sử dụng để giải bài tốn theo thuật tốn đang xét khi các giá trị đầu vào cĩ kích thước xác định, và dung lượng bộ nhớ địi hỏi để thực hiện thuật tốn đĩ. Như vậy khi xem xét đến độ phức tạp tính tốn của thuật tốn ta phải xem xét đến độ phức tạp thời gian và độ phức tạp khơng gian.
Độ phức tạp khơng gian gắn liền với cấu trúc dữ liệu cụ thể được dùng để thực hiện thuật tốn.
Độ phức tạp thời gian:
Độ phức tạp thời gian của một thuật tốn cĩ thể biểu diễn qua số phép tốn thực hiện thuật tốn đĩ khi các giá trị đầu vào cĩ kích thước xác định.
Độ phức tạp trong trường hợp xấu nhất là trường hợp phải dùng tối đa các phép tốn để giải bài tốn theo thuật tốn đang xét.
Độ phức tạp trong trường hợp trung bình, trong trường hợp này ta phải đi tìm số trung bình các phép tốn để giải bài tốn trên tồn bộ các giá trị đầu vào cĩ kích thước đã cho.
Các thuật ngữ thường dùng cho độ phức tạp của thuật tốn:
O(1): Độ phức tạp hằng số
O(logn): Độ phức tạp lơgarit
O(n): Độ phức tạp tuyến tính
O(nlogn): Độ phức tạp nlogn
O(nb): Độ phức tạp đa thức
O(bn), b > 1: Độ phức tạp hàm mũ
O(n!): Độ phức tạp giai thừa
Chương 2. MƠ PHỎNG THUẬT TỐN
Tổng quan về mơ phỏng thuật tốn
Khái niệm mơ phỏng thuật tốn
Mơ phỏng thuật tốn là quá trình tách dữ liệu, thao tác, ngữ nghĩa và tạo mơ phỏng đồ họa cho quá trình trên [Stasko 1990] (xem [23]). Mơ phỏng thuật tốn được thiết kế để giúp người dùng cĩ thể hiểu thuật tốn, đánh giá chương trình và sửa lỗi chương trình.
Một chương trình máy tính chứa các cấu trúc dữ liệu của thuật tốn mà nĩ thực thi. Trong quá trình thực thi chương trình, các giá trị trong cơ sở dữ liệu được thay đổi. Mơ phỏng thuật tốn sử dụng biểu diễn đồ họa để biểu diễn cấu trúc dữ liệu và chỉ ra sự thay đổi giá trị trong cơ sở dữ liệu trong mỗi trạng thái. Thơng qua đĩ, người sử dụng cĩ thể xem được từng bước thực thi chương trình và nhờ vậy cĩ thể hiểu chi tiết được thuật tốn.
Mơ phỏng thuật tốn cũng được dùng để đánh giá một chương trình đã cĩ bằng cách cung cấp các mơ phỏng cho các thành phần của hệ thống, nhờ đĩ cĩ thể kiểm tra được hiệu năng của hệ thống.
Bên cạnh việc giúp người sử dụng hiểu hơn về hệ thống, mơ phỏng thuật tốn cịn được dùng để giúp thực hiện quá trình dị lỗi dễ dàng hơn. Để sử dụng mơ phỏng thuật tốn trong quá trình dị lỗi của một chương trình, người sử dụng chú thích vào các trạng thái của chương trình để tạo ra các lệnh mơ phỏng, sau đĩ chúng sẽ được đưa vào hệ thống mơ phỏng thuật tốn để tạo mơ phỏng. Người sử dụng cĩ thể xem chương trình của họ đã thực hiện như thế nào, các giá trị dữ liệu ở mỗi bước và một bước sẽ ảnh hưởng tới các bước sau như thế nào. Nĩ sẽ giúp người sử dụng tìm ra tất cả các lỗi cĩ thể xảy ra trong chương trình.
Lịch sử mơ phỏng thuật tốn
Mơ phỏng thuật tốn đã được xây dựng từ hai thập kỷ gần đây. Nhưng chương trình mơ phỏng thuật tốn đầu tiên là của Ken Knowlton ở Bell Telephone Laboratories khi mơ phỏng ngơn ngữ liên kết danh sách vào năm 1966. Mơ phỏng thuật tốn phát triển mạnh vào đầu những năm 80 của thế kỷ 20.
Vào năm 1981, video (sorting out sorting) được xây dựng bởi Ronald Baecker ở đại học Toronto được coi là khởi điểm của lĩnh vực mơ phỏng thuật tốn. Từ đĩ các nhà giáo dục đã sử dụng mơ phỏng thuật tốn để trợ giúp quá trình dạy học. Giữa những năm 80 và đầu những năm 90, hai hệ thống cĩ ảnh hưởng mạnh đến về sau được phát triển và cĩ ý nghĩa lớn trên tất cả những hệ thống sau này. Hai hệ thống này là BALSA-I (Brown ALgorithm Simulator and Animator) [Brown 1984] và TANGO (Transition-based Animation GeneratiOn) [Stasko 1990].
BALSA-I là hệ thống mơ phỏng thuật tốn nổi tiếng rộng khắp đầu tiên. Nĩ được phát triển bởi Marc Brown và Robert Sedgewick tại trường đại học Brown. BALSA-I là hệ thống mơ phỏng thuật tốn tương tác mà hỗ trợ đồng thời nhiều cái nhìn của một cấu trúc dữ liệu thuật tốn và cĩ thể hiển thị nhiều thuật tốn thực thi đồng thời. Sự phát triển của nĩ là động cơ thúc đẩy các nhà nghiên cứu khác tham gia vào việc phát triển các hệ thống mơ phỏng thuật tốn khác nữa.
Một hệ thống khác là TANGO, được phát triển bởi John Stasko của trường đại học Brown. Sự nổi bật của TANGO là chỉ ra mơ hình path-transition để thiết kế mơ phỏng và một framework cho hệ thống mơ phỏng thuật tốn. Nĩ đưa ra một khái niệm framework mới mà được chấp nhận bởi một số hệ thống sau này như kiến trúc cơ sở của chúng. Kiến trúc này sẽ được mơ tả trong mục tiếp theo.
Từ khi hai hệ thống của BALSA và TANGO được phát triển, các hệ thống đi sau của hai hệ thống đáng chú ý này cũng được phát triển. BALSA-I cĩ một hệ thống đi sau đĩ là BALSA-II [Brown 1988]. BALSA-II là một hệ thống mơ phỏng thuật tốn vùng-độc lập thao tác các ảnh với nhiều cái nhìn và cung cấp quá trình tạo ra bộ điều khiển dễ dàng. TANGO thì khác, cĩ nhiều hệ thống đi sau. XTANGO [Stasko 1992] là hệ thống trực tiếp đi sau TANGO. POLKA được thiết kế để xây dựng mơ phỏng đồng thời cho các chương trình song song. Nĩ là một hệ thống mơ phỏng thuật tốn hướng đối tượng 2-D và được mở rộng thành hệ thống 3-D, POLKA 3-D. POLKA 3-D cung cấp cái nhìn 3-D và 3-D nguyên thủy, ví dụ như: hình nĩn, hình cầu, hình lập phương và một số hình khác nữa. Người dùng khơng bị yêu cầu phải cĩ hiểu biết trước về đồ họa máy tính 3-D để sử dụng POLKA 3-D. Samba cho phép thể hiện mơ phỏng tương tác mà đọc các câu lệnh ASCII và thực hiện các hành động mơ phỏng tương ứng. Cĩ một phiên bản Java của Samba được gọi là JSamba (xem samba.html).
Các hệ thống mơ phỏng thuật tốn khác bao gồm: Zeus, Leonardo, CATAI, Mocha. Zeus [Brown 1991] được phát triển tại trường đại học Brown cùng với BALSA và BALSA-II, nĩ được coi như một trong số các hệ thống phần mềm cĩ ảnh hưởng lớn đến nhau đầu tiên. Zeus được thực thi trong mơi trường multi-threaded và multi-processor, vì thế nĩ cĩ thể làm cho các chương trình song song. CATAI (xem là một hệ thống mơ phỏng các chương trình C++. Nĩ tin tưởng vào những cơng nghệ đối tượng phân tán và cho phép một vài người dùng chia sẻ mơ phỏng đĩ thơng qua sự trừu tượng hĩa lớp học thực tế. Truyền thơng và sự đồng bộ hĩa giữa các khách hàng mơ phỏng và thuật tốn được mơ phỏng được đảm bảo bởi người phục vụ mơ phỏng Java mà sử dụng cơng nghệ CORBA. Mocha (xem là một mơ hình phân tán với kiến trúc client-server nhằm tối ưu phân chia những thành phần của phần mềm trong một hệ thống mơ phỏng thuật tốn tiêu biểu. Trong mơ hình Mocha, chỉ mã giao diện được xuất tới máy người dùng, trong khi thuật tốn được thực hiện trên một server chạy trên máy của nhà cung cấp.
Với việc phát triển của cơng nghệ mới, tính phổ dụng của mạng tồn cầu và sự tiến hĩa của ngơn ngữ lập trình Java, những người phát triển đã xây dựng những hệ thống mơ phỏng thuật tốn trực tuyến, cĩ lợi thế của những hệ thống mở dễ tiếp cận hơn.
Một số nhà phát triển cũng hợp nhất việc sử dụng đa phương tiện trong các hệ thống của họ. Việc sử dụng các hệ thống mơ phỏng thuật tốn khơng cịn bị bĩ hẹp trong các lớp học truyền thống hoặc phịng thí nghiệm giảng dạy nữa mà đã được mở rộng để dạy từ xa.
Trong khoảng hai thập niên gần đây, một số rất lớn các hệ thống mơ phỏng thuật tốn đã ra đời và phát triển mạnh mẽ. Phần lớn các hệ thống mơ phỏng thuật tốn đã đề cập trong mục này đều phổ biến hơn và phức tạp hơn các hệ thống đang được sử dụng trong thực tế. Chúng đã được phát triển và sử dụng bởi những nhà chuyên mơn, với mục đích giáo dục hoặc nghiên cứu thực nghiệm của họ. Một trong số các hệ thống này cĩ một kiến trúc phức tạp và cần những cơng nghệ đặc biệt để chạy nĩ. Chúng ta khơng cĩ bất kỳ tiện ích nào của các hệ thống này để xây dựng hệ thống mơ phỏng các thuật tốn đồ thị; thay vào đĩ, chúng ta đã ước lượng được các hệ thống mơ phỏng hiện hữu khác mà kích thước nhỏ hơn và cĩ những kiến trúc đơn giản hơn.
Tác dụng của mơ phỏng thuật tốn
Các hệ thống mơ phỏng thuật tốn được sử dụng rộng rãi như cơng cụ hỗ trợ giảng dạy trong ngành giáo dục khoa học máy tính. Một số nghiên cứu thực nghiệm đã ước lượng hiệu quả của chúng trong giáo dục và kết quả nhận được cĩ thay đổi. Cụ thể là:
Brown (1984) đã sử dụng BALSA-I để dạy một khĩa giới thiệu lập trình và một khĩa “ cấu trúc dữ liệu và giải thuật”. Hệ thống được sử dụng như một chương trình trực quan trong khĩa giới thiệu, và như một người mơ phỏng thuật tốn mức cao trong lớp cấu trúc dữ liệu. Ơng ta báo cáo rằng việc sử dụng các hoạt cảnh mơ phỏng để phụ thêm vào thuyết trình dẫn tới ‘những lợi ích cĩ thể chứng minh được trong việc tăng tốc độ hiểu biết’ qua thuyết trình truyền thống. Stasko (1997) đã sử dụng Samba, chương trình mơ phỏng của hệ thống XTango dạy một khĩa thuật tốn khoa học máy tính. Những sinh viên được yêu cầu sử dụng hệ thống cĩ thêm vào mơ phỏng cho các chương trình ấn định của họ. Các kết quả thu được cho biết rằng những sinh viên thích các mơ phỏng và những mơ phỏng đĩ cĩ thể làm tăng tính sáng tạo của các sinh viên. Hơn nữa, sự hiểu biết của sinh viên về thuật tốn được tăng lên nhờ việc mơ phỏng.
Tuy nhiên, sử dụng thuật tốn trong việc dạy học khơng phải lúc nào cũng thành cơng. Các nhà giáo dục đã làm các thực nghiệm và thu được các kết quả pha trộn. Stasko et al. (1993) đã chỉ ra một thí nghiệm bằng việc dạy hai nhĩm sinh viên với hai cách thuyết trình khác nhau. Cả hai nhĩm sinh viên này cùng nghiên cứu thuật tốn “ Pairing heap” (ghép đơi đống). Một nhĩm học thuật tốn dựa vào sự mơ tả văn bản và nhĩm kia cũng nhận các tài liệu đĩ nhưng cĩ thêm sự trợ giúp bằng các chương trình mơ phỏng thuật tốn. Mặc dầu những kết quả chỉ ra rằng nhĩm thứ hai đạt được nhiều điểm hơn nhĩm kia, nhưng khơng cĩ điểm nổi trội nào cĩ thể được kết luận là nhờ sự trợ giúp của mơ phỏng.
Tương tự, Byrne et al. (1996) đã chủ đạo hai thí nghiệm mà trong đĩ các kết quả chỉ ra rằng lợi ích của mơ phỏng khơng phải là hiển nhiên. Những kết quả pha trộn này đã gây ra chán nản, nhưng đa số các nhà giáo dục đều tin tưởng rằng mơ phỏng hỗ trợ việc học.
Tuy nhiên, những kết quả thí nghiệm bất lợi này gợi ý những yếu tố quan trọng khác trong việc sử dụng mơ phỏng thuật tốn. Các kết quả đã thơng báo rằng để đạt được hiệu quả mơ phỏng thuật tốn đầy đủ thì điều quan trọng là mơ phỏng được sử dụng phối hợp với những yếu tố khác. Lawrence et al. (1994) đã sử dụng các hệ thống XTANGO và POLKA để dạy thuật tốn cây khung nhỏ nhất Kruskal. Trong số nhĩm sinh viên tham dự các thí nghiệm, kết quả của những sinh viên mà tham dự một phiên thí nghiệm tương tác tốt hơn đáng kể so với những sinh viên mà tham dự những phiên thí nghiệm bị động. Các kết quả này đã cho phép các sinh viên điều khiển và tương tác với mơ phỏng tốt hơn, chẳng hạn, chương trình mơ phỏng cho phép sinh viên đưa vào tập dữ liệu của chính họ và thực hiện mơ phỏng trên tập dữ liệu này chứ khơng chỉ dừng lại ở việc quan sát những tập dữ liệu mẫu.
Hơn nữa, nhiều nghiên cứu gần đây bởi Kehoe et al. (1999) cho thấy cĩ thể sử dụng mơ phỏng như một cơng cụ giáo dục. Thí nghiệm được thực hiện trong một thái độ khác từ các thí nghiệm khác. Những sinh viên được chia thành hai nhĩm và cả hai nhĩm đều học thuật tốn ‘binomial heap” (đống nhị thức). Một nhĩm học thuật tốn bởi sự tương tác với mơ phỏng trong khi nhĩm cịn lại là đọc những hình dạng phẳng về các điểm khĩa thao tác của thuật tốn. Sự khác nhau trong thí nghiệm này là kịch bản bài tập về nhà. Những sinh viên được đưa cho những câu hỏi trước khi bắt đầu khĩa học. Trong suốt thời gian kiểm tra thử, những sinh viên cĩ thể truy cập tới bài dạy và thời gian để hồn thành bài kiểm tra thử này được cho tương đối nhiều. Các kết quả của thí nghiệm này cho thấy nhĩm được trang bị chương trình mơ phỏng thuật tốn thực hiện bài kiểm tra thử tốt hơn nhĩm kia. Các sinh viên của nhĩm cĩ sử dụng mơ phỏng thuật tốn phản hồi rằng mơ phỏng đã giúp đỡ họ hiểu thuật tốn tốt hơn.
Báo cáo của Kehoe et al (1999) đã trình diễn một cách sử dụng mơ phỏng thuật tốn trong việc dạy để đạt được giá trị sư phạm cao hơn. Nĩ đã được thuyết trình rằng mơ phỏng thuật tốn được sử dụng tốt hơn trong các tình trạng học tương tác và mơ phỏng (như một bài tập về nhà). Cũng như vậy, mơ phỏng thuật tốn cĩ thể cĩ tính sư phạm hơn khi nĩ được sử dụng trong việc phối hợp với các cách học khác hoặc giúp đỡ những chỉ dẫn khác để giải thích làm thế nào thực hiện một thao tác của thuật tốn. Báo cáo cũng nĩi rằng với mơ phỏng thuật tốn người ta cĩ thể dễ dàng học các thao tác theo thủ tục của các thuật tốn. Ngồi ra nĩ cĩ thể làm cho việc học một thuật tốn bớt đáng sợ hơn vì nĩ làm cho thuật tốn dễ tiếp cận hơn.
Stasko et al. (1993) đã kết luận từ thí nghiệm của họ một số điều kiện mà mơ phỏng thuật tốn cĩ thể cĩ lợi nhất. Một trong số những điều kiện này là hỗ trợ mơ phỏng thuật tốn với những chỉ dẫn thúc đẩy tồn diện. Khi mơ phỏng thuật tốn đĩng vai trị chỉ dẫn này, màn hình mơ phỏng phải được bổ sung bởi các mơ tả văn bản của các thao tác đang diễn ra. Một điều kiện khác đĩ là hệ thống mơ phỏng thuật tốn cần phải bao gồm các chức năng: quay lại hoặc lặp lại những bước thực hiện thuật tốn để cho phép những người dùng sao lưu và xem lại những thao tác quan trọng. Một số bài giảng địi hỏi các trạng thái thực hiện thuật tốn cũng cần phải được ghi lại và cung cấp lại được. Sự phản hồi của sinh viên cũng là quý giá trong việc cải thiện chất lượng chỉ dẫn của mơ phỏng.
Mặc dù những kết quả được đưa ra từ những nghiên cứu thực nghiệm này khơng phải luơn cĩ lợi, thì cũng khơng cĩ nghĩa rằng mơ phỏng thuật tốn khơng hiệu quả trong dạy học. Hiện nay đang cĩ nhiều nghiên cứu đang được tiến hành về thiết kế và đánh giá mơ phỏng thuật tốn. Hansen et al. (1999) tin rằng các kết quả trong các nghiên cứu thực nghiệm trên chưa tốt khơng phải vì mơ phỏng thuật tốn là phương pháp dạy học khơng tốt, mà vì cách thức thực hiện các mơ phỏng chưa tốt. Họ đã phát triển một hệ thống trực quan hĩa giải thuật siêu phương tiện gọi là HalVis (Hypermedia Algorithm Visualizations). Dựa vào framework của chúng, họ đã thiết kế các trực quan hĩa giải thuật, và họ đã hướng dẫn vài thí nghiệm thực nghiệm bởi việc sử dụng hệ thống này. Tất cả các kết quả thí nghiệm cho thấy trực quan hĩa giải thuật bằng đồ họa cĩ hiệu quả hơn so với các phương pháp dạy truyền thống. Những kết quả này cho thấy rằng để mơ phỏng thuật tốn cĩ hiệu quả và cĩ lợi cho người dùng, thì việc thiết kế cho thích hợp và cách thức mơ phỏng là những yếu tố quan trọng. Để mơ phỏng thuật tốn cĩ hiệu quả thì hệ thống mơ phỏng cần phải đáp ứng những điều sau :
Truy cập mở (Open access): Người dùng cĩ thể truy cập hệ thống mơ phỏng mở. Hơn nữa, nếu cĩ cài đặt hệ thống mơ phỏng trong trường học, thì họ cĩ thể truy cập tới hệ thống này từ nhà hoặc từ bất cứ nơi nào khác.
Mơ phỏng một cách cĩ điều khiển (Control animation): Người dùng cĩ thể tự tạo tập dữ liệu của chính mình khi sử dụng hệ thống mơ phỏng. Trong khi các tập dữ liệu được cài đặt sẵn cũng cĩ thể giúp đỡ sinh viên cĩ những sự hiểu biết ban đầu, hệ thống nên cĩ cả 2 tùy chọn này.
Tương tác (Ineractivity): Hệ thống mơ phỏng phải cung cấp được sự tương tác giữa người dùng và hệ thống. Sự tương tác bao gồm: người dùng xem theo từng bước, hủy, chạy nhanh tới một bước mong muốn, hay xem lại từ đầu, ...
Lịch sử (History): Hệ thống mơ phỏng cho phép người dùng xem lại các bước trước trong quá trình thực hiện.
Phản hồi (Feedback): Phải tiếp thu phản hồi của sinh viên về việc sử dụng hệ thống mơ phỏng để ước lượng hiệu quả của hệ thống cũng như để cải thiện hệ thống.
Kiến trúc của hệ thống mơ phỏng thuật tốn
Đa số các hệ thống mơ phỏng thuật tốn cĩ những thư viện hỗ trợ thủ tục mơ phỏng và giao diện mơ phỏng. Vài hệ thống mơ phỏng địi hỏi phải đưa vào trực tiếp bằng tay những thơng điệp gửi tới các thủ tục mơ phỏng trong chương trình thực hiện thuật tốn. Những hệ thống mơ phỏng thuật tốn ra đời sớm như: BALSA and TAGO là sự kiện – điều khiển (event-driven), nghĩa là chúng cĩ một chương trình phát sinh những sự kiện trong dạng những thơng điệp tới một máy chủ thơng điệp. Máy chủ thơng điệp chuyển thơng điệp tới những cảnh quan tương ứng. Một cảnh quan là một cửa sổ trong một thiết bị màn hình nơi người dùng nhìn những đối tượng mơ phỏng. Thơng điệp bao gồm thơng tin của một đối tượng mơ phỏng. Sau khi cảnh quan nhận thơng điệp, nĩ tính tốn lại đối tượng và kéo lại nĩ trên cảnh quan.
Vài hệ thống gần đây được viết bằng Java và tất cả đều cĩ những kiến trúc tương tự nhau. Ví dụ như: JSamba, hệ thống POLKA tiền tiêu (xem gatech.due/gvu/softviz/parviz/samba.html) và JAWAA (Java và mơ phỏng thuật tốn trên mạng, xem phát triển bởi Pierson và Rodger tại trường đại học Duke vào năm 1996. Những hệ thống này chấp nhận framework của TANGO như kiến trúc của nĩ. Tất cả các hệ thống sẽ gồm cĩ 3 thành phần, các hàm mơ phỏng (animator), kênh mơ phỏng (animation interpreter) và trình diễn mơ phỏng (animation viewer) như đã chỉ ra trong sơ đồ sau:
Màn hình trình diễn mơ phỏng
Các hàm mơ phỏng
File kịch bản ASCII
Kênh mơ phỏng
Hình 1. Kiến trúc của hệ thống mơ phỏng thuật tốn
Các hàm mơ phỏng: Chứa các thư viện để vẽ các đối tượng mơ phỏng trên thiết bị màn hình.
Màn hình trình diễn mơ phỏng: Cung cấp một mơi trường đồ họa để trình diễn mơ phỏng trên thiết bị màn hình tới người dùng cuối.
Kênh mơ phỏng: Đĩng vai trị như một kênh truyền thơng giữa hệ thống mơ phỏng và người dùng cuối. Nĩ đọc một file kịch bản ASCII được cung cấp bởi người dùng cuối mà trong đĩ cĩ chứa mơ phỏng văn bản cung cấp việc phát sinh những lệnh.
Kênh mơ phỏng dịch các lệnh kịch bản thành các lệnh mơ phỏng tương ứng và chuyển qua những tham số điều khiển của đối tượng mơ phỏng tới các hàm mơ phỏng.
Các hàm mơ phỏng vẽ đối tượng được mơ phỏng theo các tham số điều khiển của đối tượng đĩ tới Animation viewer.
Các tham số điều khiển bao gồm tọa độ x và y chỉ rõ nơi đối tượng được mơ phỏng xuất hiện trong Animation viewer hoặc màu sắc của đối tượng được mơ phỏng.
Lựa chọn cơng cụ mơ phỏng thuật tốn
Trong mục này, chúng ta sẽ phân tích cách tiếp cận khác để xây dựng hệ thống mơ phỏng và tính khả thi của chúng. Chúng ta cũng sẽ ước lượng một vài cơng cụ mơ phỏng thuật tốn thích hợp để xây dựng hệ thống mơ phỏng thuật tốn. Cơng cụ thích hợp nhất sẽ được lựa chọn và các căn chỉnh trên sự lựa chọn này sẽ được cung cấp.
Cĩ ba cách tiếp cận cĩ thể để xây dựng hệ thống mơ phỏng phân tách. Cách tiếp cận đầu tiên sẽ xây dựng hệ thống từ đầu nhờ việc sử dụng ngơn ngữ C#. Cách tiếp cận thứ hai sẽ lựa chọn hệ thống mơ phỏng thuật tốn cĩ mục đích chung thích hợp để xây dựng các thành phần tương tác của hệ thống phân tách từ đầu. Cách tiếp cận cuối cùng là lựa chọn một hệ thống mơ phỏng thuật tốn phân tách đã tồn tại và sửa đổi hệ thống đĩ thành hệ thống cuối cùng.
Một số yêu cầu đối với mơ phỏng thuật tốn
Mơ tả đúng theo thuật tốn
Thuật tốn được đưa ra mơ phỏng phải chính xác, các bước thực hiện thuật tốn phải trực quan và phản ánh đúng theo nội dung thuật tốn đã đưa ra để đảm bảo tính đúng đắn của thuật tốn.
Để kiểm tra tính đúng đắn của thuật tốn, ta cĩ thể cài đặt giải thuật đĩ trên máy tính rồi đưa vào các bộ dữ liệu xác định, lấy kết quả thu được xác định với kết quả đã biết. Bộ dữ liệu đưa vào phải đảm bảo kết quả thu được phải vét kín các trường hợp nghiệm của bài tốn (trường hợp thơng thường và các trường hợp đặc biệt). Làm theo cách này thì khơng chắc chắn, ta chỉ phát hiện được thuật tốn sai chứ khơng khẳng định được luơn đúng. Tính đúng đắn chỉ cĩ thể khẳng định bằng phương pháp chứng minh tốn học.
Hệ thống mơ phỏng phải được thực hiện theo từng bước
Thuật tốn thường là trìu tượng, nếu để chương trình chạy tự động thì người dùng sẽ khĩ hiểu. Vì vậy, cần phải cĩ chế độ thực hiện mơ phỏng thuật tốn theo từng bước, để người học cĩ thể quan sát, theo dõi sự thay đổi giá trị của từng biến. Nhờ đĩ, sẽ giúp cho người học hiểu thuật tốn rõ hơn và nhanh hơn.
Mơ phỏng thuật tốn phải cĩ tính động
Để mơ tả trực quan hĩa quá trình thực hiện của thuật tốn ta nên đưa vào hình ảnh động (cĩ thể cĩ âm thanh) để thể hiện sự thay đổi của dữ liệu trong quá trình thực thi. Thuật tốn phải được thử nghiệm trong mọi trường hợp để đảm bảo thời gian thực thi tốt nhất
Một thuật tốn được mơ phỏng phải đảm bảo là thuật tốn tốt, dễ hiểu và đúng đắn. Muốn vậy ta phải thử nghiệm trong các trường hợp dữ liệu ngẫu nhiên, tốt nhất, xấu nhất. Nếu thuật tốn vẫn chạy tốt và trong một thời gian cho phép thì thuật tốn mới hiệu quả. Ta khơng thể chấp nhận một thuật tốn đúng mà thời gian chạy quá lớn.
Phải tạo ra sự phân cấp cho người học
Đối tượng học thuật tốn thường là các sinh viên. Họ cĩ trình độ tiếp thu khác nhau, nên ta phải đưa ra nhiều chế độ thao tác khác nhau để người học được phép lựa chọn.
Cấu trúc của mơ phỏng thuật tốn
INPUT ALGORITHM OUTPUT
- Dữ liệu mẫu
- Dữ liệu trực tiếp
- Tự động
- Từng bước
Cấu trúc dữ liệu trừu tượng
Biểu diễn bằng demo
Độ phức tạp của thuật tốn
Hình 2. Cấu trúc của mơ phỏng thuật tốn
Quy trình thiết kế nhiệm vụ mơ phỏng thuật tốn
Phân tích giải thuật thành nhiều bước
Những khĩ khăn thuận lợi khi tiếp thu giải thuật
Tổng hợp các bước thành giải thuật
Xây dựng mơ hình mơ phỏng Input, Output
Cơ chế sinh dữ liệu vào
Nghiên cứu và phân tích giải thuật
Hình 3. Sơ đồ quy trình thiết kế nhiệm vụ mơ phỏng thuật tốn
Nghiên cứu và phân tích giải thuật
Trước khi lập trình cho máy tính giải một bài tốn, điều đầu tiên là chúng ta phải đi xác định bài tốn, để từ đĩ xây dựng giải thuật cho bài tốn. Một bài tốn đưa ra cĩ thể cĩ nhiều hơn một giải thuật, vấn đề là ta phải đi đánh giá các giải thuật đĩ để lựa chọn ra một giải thuật tốt nhất. Vậy như thế nào là một giải thuật tốt? Để làm được điều này ta cĩ thể căn cứ vào các tiêu chuẩn sau:
Giải thuật đưa ra phải đúng đắn
Giải thuật phải đơn giản (dễ hiểu)
Giải thuật phải thực hiện nhanh (độ phức tạp của thuật tốn phải thấp)
Khi đưa ra một giải thuật, điều đầu tiên chúng ta quan tâm đến đĩ là tính đúng đắn của giải thuật đĩ. Để biết giải thuật mình đưa ra cĩ đúng đắn hay chưa ta cĩ thể cài đặt giải thuật bằng một ngơn ngữ lập trình cụ thể và cho thực hiện trên máy với bộ dữ liệu mẫu, lấy kết quả thu được so sánh với kết quả đã biết. Cách làm này nĩi chung là chưa chắc chắn, vì kết quả cĩ thể đúng với bộ dữ liệu mẫu, nhưng với bộ dữ liệu khác thì chưa khẳng định là đúng được. Mặt khác, cách làm này thực tế chỉ phát hiện ra giải thuật sai chứ khơng kết luận được là giải thuật đúng. Tính đúng đắn của giải thuật cần phải được chứng minh bằng tốn học. Nhưng điều này khơng hề đơn giản. Vì vậy, chúng ta cĩ thể kiểm tra tính đúng đắn của giải thuật bằng cách kiểm tra với các bộ dữ liễu mẫu, sao cho các bộ dữ liệu này phải phủ kín các trường hợp nghiệm cĩ thể của bài tốn.
Sau khi xây dựng giải thuật của bài tốn xong. Khâu tiếp theo là chúng ta tiến hành cài đặt giải thuật của bài tốn bằng một ngơn ngữ lập trình nào đĩ. Nếu bài tốn với dữ liệu nhỏ, khơng quan tâm đến thời gian chạy chương trình (tức là thuật tốn chỉ được sử dụng một vài lần) thì giải thuật sẽ tốt hơn nếu việc cài đặt nĩ là dễ dàng và người dùng dễ hiểu.
Tuy nhiên, giải thuật cho một bài tốn sau khi được cài đặt thường xử lý với dữ liệu lớn và được sử dụng nhiều lần trong chương trình. Vì thế khi xây dựng một giải thuật, người lập trình thường quan tâm đến độ phức tạp của thuật tốn (thường là độ phức tạp về thời gian mà đã được đề cập rất kỹ ở mục 1.3). Điều này dẫn đến việc giải thuật được xây dựng phải cĩ tính hiệu quả về thời gian thực hiện chương trình.
Các phương pháp diễn tả giải thuật
Phương pháp liệt kê từng bước (sử dụng ngơn ngữ tự nhiên)
Giả mã và ngơn ngữ lập trình thân thiện với người dùng (ví dụ như: PASCAL)
Dùng sơ đồ khối
Hiện nay, trong ba phương pháp trên thì việc dùng giả mã và một ngơn ngữ lập trình thân thiện với người dùng để diễn tả một giải thuật được đề cập đến nhiều hơn cả; được sử dụng trong dạy học cấu trúc dữ liệu và giải thuật mà rất nhiều tài liệu đã đưa ra.
Phân tích các trường hợp đặc biệt của dữ liệu đầu vào, các giá trị của biến điều khiển lúc thốt khỏi vịng lặp.
Các giá trị của biến lúc thốt khỏi vịng lặp thường là một dấu hiệu đặc biệt để thốt khỏi vịng lặp. Dữ liệu đầu vào thường gồm nhiều bộ dữ liệu khác nhau về giá trị, tuy nhiên trong số đĩ phải cĩ một số bộ dữ liệu đặc biệt. Những bộ dữ liệu đĩ đặc biệt về giá trị dữ liệu đầu vào hoặc đặc biệt về kết quả trả ra. Bộ dữ liệu đầu vào đặc biệt giúp ta khơng cần chạy thử chương trình cũng cĩ thể biết kết quả thu được. Vì vậy, những bộ dữ liệu đặc biệt thường được dùng làm giá trị kiểm thử để đánh giá thuật tốn đúng hay sai, hoặc đánh giá chương trình được viết để chạy trên máy tính cĩ đúng với thuật tốn đưa ra hay khơng?
Phân tích đánh giá các lỗi cĩ thể mắc phải khi viết chương trình thực thi giải thuật
Bài tốn sau khi được xác định và dựa trên ý tưởng ta sẽ xây dựng được giải thuật của bài tốn đĩ. Sau đĩ tiến hành cài đặt thuật tốn này bằng một ngơn ngữ lập trình cụ thể ở một mơi trường lập trình trên máy tính để máy thực hiện tự động giải thuật cho ta kết quả của bài tốn.
Một bài tốn cĩ thể được viết bằng nhiều ngơn ngữ lập trình. Vì vậy giải thuật phải được viết sao cho mọi lập trình viên của các ngơn ngữ lập trình đều cĩ thể hiểu được và dễ dàng chuyển từ giải thuật sang cài đặt bằng ngơn ngữ lập trình mà họ thơng thạo. Vì thế, khi viết giải thuật cho một bài tốn, nên viết bằng ngơn ngữ tự nhiên, gần gũi, dễ hiểu và ít gị bĩ.
Tuy nhiên, việc sử dụng một ngơn ngữ lập trình bậc cao để cài đặt giải thuật thường gặp phải một số vấn đề:
Phải tuân thủ chặt chẽ các quy tắc về cú pháp
Phụ thuộc vào cấu trúc dữ liệu mặc định của ngơn ngữ
Ngơn ngữ tự nhiên thường rất đa nghĩa, nên việc chuyển từ ngơn ngữ tự nhiên sang ngơn ngữ lập trình cũng dễ mắc phải lỗi bởi vì câu lệnh được chuyển khơng đúng với nghĩa thực của nĩ. Chính vì vậy mà ta cĩ thể sử dụng giả mã để viết giải thuật. Vì giả mã dùng ngơn ngữ tựa Pascal – một ngơn ngữ lập trình bậc cao thân thuộc với hầu hết người dùng để viết giải thuật cho một bài tốn.
Phân tích sự giống nhau và khác nhau của các giải thuật tương tự
Một bài tốn khi đưa ra cĩ thể cĩ nhiều giải thuật, tuy nhiên trong số những giải thuật đĩ ta cần lựa chọn ra một giải thuật để làm việc. Câu hỏi đặt ra ở đây là nên chọn giải thuật nào trong số các giải thuật đĩ? Muốn vậy ta phải đánh giá xem giải thuật nào là đơn giản, thời gian thực hiện nhanh, tốn ít bộ nhớ, tối ưu,… nhằm lựa chọn ra giải thuật tốt nhất để giải bài tốn sao cho dễ mơ phỏng.
Phân tích giải thuật thành nhiều bước, sau đĩ lần lượt mơ phỏng từng bước đĩ
Việc phân chia giải thuật ra làm các modul, mỗi modul thực hiện một cơng việc khác nhau rất cĩ ý nghĩa trong việc tinh chỉnh giải thuật.
Phân tích giải thuật ra thành nhiều bước khác nhau và tiến hành mơ phỏng từng bước của giải thuật đĩ giúp người dùng dễ theo dõi giải thuật hơn. Từ đĩ cĩ thể hiểu được cơ chế hoạt động của chương trình.
Dựa trên các bước của giải thuật được phân tích, ta xây dựng các đoạn code mơ phỏng từng bước của thuật tốn. Nhờ đĩ người dùng dễ dàng hiểu thuật tốn hơn.
Phân tích khả năng tổng hợp các bước đã phân tích thành giải thuật
Với mỗi thuật tốn, khi đã phân tích thành các bước, vấn đề cịn lại là tổng hợp chúng lại thành giải thuật của bài tốn. Điều này khơng cĩ gì khĩ khăn, ta chỉ việc cài đặt lại giải thuật đĩ bằng một ngơn ngữ lập trình cụ thể (Java chẳng hạn) rồi thiết kế, chỉnh sửa để thực hiện mơ phỏng thuật tốn đĩ là tốt nhất cĩ thể.
Phân tích những khĩ khăn và thuận lợi với những người lần đầu tiên biết đến giải thuật
Khi người học lần đầu tiên tiếp thu giải thuật mới sẽ gặp những thuận lợi và khĩ khăn sau:
Khĩ khăn: Đối với mơn học cấu trúc dữ liệu và giải thuật, cĩ rất nhiều giải thuật phức tạp, trừu tượng, khĩ hiểu và khĩ hình dung. Vì vậy, để nắm được giải thuật này thật chắc khơng phải là điều đơn giản với người học.
Thuận lợi: Khi học những giải thuật bằng phương pháp truyền thống, tức là chỉ bằng lý thuyết sẽ làm cho người học cảm thấy rất mơ hồ về giải thuật đĩ. Chính vì lẽ đĩ, nếu ta sử dụng mơ phỏng với một bên là hình vẽ và một bên cho phép hiển thị giả mã của giải thuật thì người dùng cĩ thể vừa theo dõi thuật tốn, vừa cĩ thể ‘nhìn thấy’ cách mà thuật tốn thực hiện trên một hình cụ thể. Từ đĩ người dùng hiểu thuật tốn dễ hơn và sâu sắc hơn.
Kết luận
Thơng qua việc giới thiệu một cách tổng quan nhất về mơ phỏng thuật tốn, ta đã thấy được tác dụng to lớn của mơ phỏng thuật tốn trong giáo dục. Trên cơ sở đĩ, ta cũng đã hiểu được kiến trúc của một hệ thống mơ phỏng thuật tốn. Từ đĩ đưa ra một số cơng cụ cho phép xây dựng một hệ thống mơ phỏng thuật tốn bằng cách lựa chọn một cơng cụ thích hợp nhất. Sau khi đã cĩ cơng cụ lập trình, ta tiến hành xây dựng một quy trình thiết kế hệ thống mơ phỏng thuật tốn nhằm đáp ứng nhu cầu người dùng.
CHƯƠNG 3 : CHƯƠNG TRÌNH ỨNG DỤNG THUẬT TỐN SẮP XẾP
Sắp xếp là một quá trình biến đổi một danh sách các đối tượng thành một danh sách thoả mãn một thứ tự xác định nào đĩ. Sắp xếp đĩng vai trị quan trọng trong tìm kiếm dữ liệu. Chẳng hạn, nếu danh sách đã được sắp xếp theo thứ tự tăng dần (hoặc giảm dần), ta cĩ thể sử dụng kỹ thuật tìm kiếm nhị phân hiệu quả hơn nhiều tìm kiếm tuần tự… Trong thiết kế thuật tốn, ta cũng thường xuyên cần đến sắp xếp, nhiều thuật tốn được thiết kế dựa trên ý tưởng xử lý các đối tượng theo một thứ tự xác định.
Các thuật tốn sắp xếp được chia làm 2 loại: sắp xếp trong và sắp xếp ngồi. Sắp xếp trong được thực hiện khi mà các đối tượng cần sắp xếp được lưu ở bộ nhớ trong của máy tính dưới dạng mảng. Do đĩ sắp xếp trong cịn được gọi là sắp xếp mảng. Khi các đối tượng cần sắp xếp quá lớn cần lưu ở bộ nhớ ngồi dưới dạng file, ta cần sử dụng các phương pháp sắp xếp ngồi, hay cịn gọi là sắp xếp file. Trong chương này, chúng ta trình bày các thuật tốn sắp xếp đơn giản, các thuật tốn này dịi hỏi thời gian O(n2) để sắp xếp mảng n đối tượng. Sau đĩ chúng ta đưa ra các thuật tốn phức tạp và tinh vi hơn, nhưng hiệu quả hơn, chỉ cần thời gian O(nlogn).
Mảng cần được sắp xếp cĩ thể là mảng số nguyên, mảng các số thực, hoặc mảng các xâu ký tự. Trong trường hợp tổng quát, các đối tượng cần được sắp xếp chứa một số thành phần dữ liệu, và ta cần sắp xếp mảng các đối tượng đĩ theo một thành phần dữ liệu nào đĩ. Thành phần dữ liệu đĩ được gọi là khố sắp xếp. Chẳng hạn, ta cĩ một mảng các đối tượng sinh viên, mỗi sinh viên gồm các thành phần dữ liệu: tên, tuổi, chiều cao,…, và ta muốn sắp xếp các sinh viên theo thứ tự chiều cao tăng, khi đĩ chiều cao là khố sắp xếp.
Từ đây về sau, ta giả thiết rằng, mảng cần được sắp xếp là mảng các đối tượng cĩ kiểu Item, trong đĩ Item là cấu trúc sau:
struct Item
{
keyType key; // Khố sắp xếp
// Các trường dữ liệu khác
};
Vấn đề sắp xếp bây giờ được phát biểu chính xác như sau. Cho mảng A[0..n-1] chứa n Item, chúng ta cần sắp xếp lại các thành phần của mảng A sao cho:
A[0].key <= A[1].key <= .. <= A[n-1].key
3.1 CÁC THUẬT TỐN SẮP XẾP ĐƠN GIẢN
Mục này trình bày các thuật tốn sắp xếp đơn giản: sắp xếp lựa chọn (selection sort), sắp xếp xen vào (insertion sort), và sắp xếp nổi bọt (bubble sort). Thời gian chạy của các thuật tốn này là O(n2), trong đĩ n là cỡ của mảng.
3.1.1 Sắp xếp lựa chọn
Ý tưởng của phương pháp sắp xếp lựa chọn là như sau: Ta tìm thành phần cĩ khĩa nhỏ nhất trên tồn mảng, giả sử đĩ là A[k]. Trao đổi A[0] với A[k]. Khi đĩ A[0] là thành phần cĩ khố nhỏ nhất trong mảng. Giả sử đến bước thứ i ta đã cĩ A[0].key <= A[1].key <= … <= A[i-1]. Bây giờ ta tìm thành phần cĩ khĩa nhỏ nhất trong các thành phần từ A[i] tới A[n-1]. Giả thành phần tìm được là A[k], i <= k <= n-1. Lại trao đổi A[i] với A[k], ta cĩ A[0].key <=…<= A[i].key. Lặp lại cho tới khi i = n-1, ta cĩ mảng A được sắp xếp.
Ví dụ. Xét mảng A[0…5] các số nguyên. Kết quả thực hiện các bước đã mơ tả được cho trong bảng sau
A[0]
A[1]
A[2]
A[3]
A[4]
A[5]
I
k
5
9
1
8
3
7
0
2
1
9
5
8
3
7
1
4
1
3
5
8
9
7
2
2
1
3
5
8
9
7
3
5
1
3
5
7
9
8
4
5
1
3
5
7
8
9
Sau đây là hàm sắp xếp lựa chọn:
void SelectionSort(Item A[] , int n)
// Sắp xếp mảng A[0..n-1] với n > 0
{
(1) for (int i = 0 ; i < n-1 ; i++)
{
(2) int k = i;
(3) for (int j = i + 1 ; j < n ; j++)
(4) if (A[j].key < A[k].key)
k = j;
(5) swap(A[i],A[k]);
}
}
Trong hàm trên, swap là hàm thực hiện trao đổi giá trị của hai biến.
Phân tích sắp xếp lựa chọn.
Thân của lệnh lặp (1) là các lệnh (2), (3) và (5). Các lệnh (2) và (5) cĩ thời gian chạy là O(1). Ta đánh giá thời gian chạy của lệnh lặp (3). Số lần lặp là (n-1-i), thời gian thực hiện lệnh (4) là O(1), do đĩ thời gian chạy của lệnh (3) là (n-1-i)O(1). Như vậy, thân của lệnh lặp (1) cĩ thời gian chạy ở lần lặp thứ i là (n-1-i)O(1). Do đĩ lệnh lặp (1) địi hỏi thời gian
(n-1-i)O(1) = O(1)(1 + 2 + …+ n-1)
= O(1)n(n-1)/2 = O(n2)
Vậy thời gian chạy của hàm sắp xếp lựa chọn là O(n2).
3.1.2 Sắp xếp xen vào
Phương pháp sắp xếp xen vào là như sau. Giả sử đoạn đầu của mảng A[0..i-1] (với i >= 1) đã được sắp xếp, tức là ta đã cĩ A[0].key <= … <= A[i-1].key. Ta xen A[i] vào vị trí thích hợp trong đoạn đầu A[0..i-1] để nhận được đoạn A[0..i] được sắp xếp. Với i = 1, đoạn đầu chỉ cĩ một thành phần, đương nhiên là đã được sắp. Lặp lại quá trình đã mơ tả với i = 2,…,n-1 ta cĩ mảng được sắp.
Việc xen A[i] vào vị trí thích hợp trong đoạn đầu A[o..i-1] được tiến hành như sau. Cho chỉ số k chạy từ i, nếu A[k].key < A[k-1].key thì ta trao đổi giá trị của A[k] và A[k-1], rồi giảm k đi 1.
Ví dụ. Giả sử ta ta cĩ mảng số nguyên A[0..5] và đoạn đầu A[0..2] đã được sắp
0
1
2
3
4
5
1
4
5
2
9
7
Lúc này i = 3 và k = 3 vì A[3] < A[2], trao đổi A[3] và A[2], ta cĩ
0
1
2
3
4
5
1
4
2
5
9
7
Đến đây k=2, và A[2] < A[1], lại trao đổi A[2] và A[1], ta cĩ
0
1
2
3
4
5
1
2
4
5
9
7
Lúc này k = 1 và A[1] >= A[0] nên ta dừng lại và cĩ đoạn đầu A[0..3] đã được sắp
Hàm sắp xếp xen vào được viết như sau:
void InsertionSort (Item A[], int n)
{
(1) for ( int i = 1 ; i < n ; i++)
(2) for ( int k = i ; k > 0 ; k--)
(3) if (A[k].key < A[k-1].key)
swap(A[k],A[k-1]);
else break;
}
Phân tích sắp xếp xen vào
Số lần lặp tối đa của lệnh lặp (2) là i, thân của lệnh lặp (2) là lệnh (3) cần thời gian O(1). Do đĩ thời gian chạy của lệnh (2) là O(1)i. Thời gian thực hiện lệnh lặp (1) là
3.1.3 Sắp xếp nổi bọt
Ý tưởng của sắp xếp nổi bọt là như sau. Cho chỉ số k chạy từ 0, 1 , …, n-1, nếu hai thành phần kề nhau khơng đúng trật tự, tức là A[k].key >A[k+1].key thì ta trao đổi hai thành phần A[k] và A[k+1]. Làm như vậy ta đẩy được dữ liệu cĩ khố lớn nhất lên vị trí sau cùng A[n-1].
Ví dụ. Giả sử ta cĩ mảng số nguyên A[0..4]= (6,1,7,3,5).Kết quả thực hiện quá trình trên được cho trong bảng sau:
A[0]
A[1]
A[2]
A[3]
A[4]
6
1
7
3
5
Trao đổi A[0] và A[1]
1
6
7
3
5
Trao đổi A[2] và A[3]
1
6
3
7
5
Trao đổi A[3] và A[4]
1
6
3
5
7
Lặp lại quá trình trên đối với mảng A[0,…, n-2] để đẩy dữ liệu cĩ khố lớn nhất lên vị trí A[n-2]. Khi đĩ ta cĩ A[n-2].key ≤ A[n-1].key. Tiếp tục lặp lại quá trình đã mơ tả trên các đoạn đầu A[0..i], với i = n-3, …,1, ta sẽ thu được mảng được sắp . Ta cĩ hàm sắp xếp nổi bọt như sau:
void BubbleSort( Item A[] , int n)
{
(1) for (int i = n-1 ; i > 0 ; i--)
(2) for (int k = 0 ; k < i ; k++)
(3) if ( A[k].key > A[k+1].key)
Swap(A[k],A[k+1]);
}
Tương tự như hàm sắp xếp xen vào ,ta cĩ thể đánh giá thời gian chạy của hàm sắp xếp nổi bọt là O(n2 ).
Trong hàm BubbleSort khi thực hiện lệnh lặp (1), nếu đến chỉ số i nào đĩ, n-1 ≥ i > 1, mà đoạn đầu A[0..i] đã được sắp, thì ta cĩ thể dừng. Do đĩ ta cĩ thể cải tiến hàm BubbleSort bằng cách đưa vào biến sorted, biến này nhận giá trị true nếu A[0..i] đã được sắp và nhận giá trị false nếu ngược lại. Khi sorted nhận giá trị true thì lệnh lặp (1) sẽ dừng lại.
void BubbleSort (Item A[] , int n)
{
for (int i = n-1 ; i > 0 ; i -- )
{
bool sorted = true;
for( int k = 0 ; k < i ; k++)
if (A[k].key > A[k+1].key)
{
swap (A[k], A[k+1]);
sorted = false;
}
if (sorted) break;
}
}
3.2 SẮP XẾP HỒ NHẬP
Thuật tốn sắp xếp hồ nhập (MergeSort) là một thuật tốn được thết kế bằng kỹ thuật chia - để - trị. Giả sử ta cần sắp xếp mảng A[a..b], trong đĩ a, b là các số nguyên khơng âm, a b, a là chỉ số đầu và b là chỉ số cuối của mảng. Ta chia mảng thành hai mảng con bởi chỉ số c nằm giữa a và b ( c = ( a + b ) / 2). Các mảng con A[a..c] và A[c+1…b] được sắp xếp bằng cách gọi đệ quy thủ tục sắp xếp hồ nhập. Sau đĩ ta hồ nhập hai mảng con A[a…c] và A[c+1…b] đã được sắp thành mảng A[a…b] được sắp. Giả sử Merge(A,a,c,b) là hàm kết hợp hai mảng con đã được sắp A[a..c] và A[c+ 1..b] thành mảng A[a..b] được sắp. Thuật tốn sắp xếp hồ nhập được biểu diễn bởi hàm đệ quy sau.
void MergeSort( Item A[ ], int a, int b)
{
if (a < b)
{
int c = (a + b)/2;
MergeSort ( A, a, c );
MergeSort ( A, c+1, b);
Merge ( A, a, c, b);
}
}
Cơng việc cịn lại của ta là thiết kế hàm hồ nhập Merge ( A, a, c, b), nhiệm vụ của nĩ là kết hợp hai nửa mảng đã được sắp A[a…c] và A[ c+1…b] thành mảng được sắp. Ý tưởng của thuật tốn hồ nhập là ta đọc lần lượt các thành phần của hai nửa mảng và chép vào mảng phụ B[0..b-a] theo đúng thứ tự tăng dần. Giả sử i là chỉ số chạy trên mảng con A[a…c], i được khởi tạo là a ; j là chỉ số chạy trên mảng con A[c+1..b], j được khởi tạo là c + 1. So sánh A[i] và A[j], nếu A[i].key c, nhưng j £ b thì ta cần chép phần cịn lại A[j…b] vào mảng B. Chẳng hạn, xét mảng số nguyên A[ 5…14], trong đĩ A[5…9] và A[10…14] đã được sắp như sau:
c=9
8
7
6
a = 5
A
12
10
20
31
35
j
i
26
21
15
5
3
14
13
12
11
10
Bắt đầu i = 5 , j = 10. Vì A[5] > A[10] nên A[10] = 3 được chép vào mảng B và j = 11. Ta lại cĩ A[5] > A[11], nên A[11] = 5 được chép vào mảng B và j = 12. Đến dây A[5] < A[12], ta chép A[5] = 10 vào mảng B và i = 6. Tiếp tục như thế ta nhận được mảng B như sau:
4
3
2
1
5
3
10
12
15
26
21
20
B
9
8
7
6
5
0
Đến đây j = 15 > b = 14, cịn i = 8 < c = 9, do đĩ ta chép nốt A[8] = 31 và A[9] = 35 sang B để nhận được mảng B được sắp. Bây giờ chỉ cần chép lại mảng B sang mảng A. Hàm Merge được viết như sau:
void Merge( Item A[] , int a , int c , int b)
// a, c, b là các số nguyên khơng âm, a £ c £ b.
// Các mảng con A[a…c] và A[c+1…b] đã được sắp.
{
int i = a;
int j = c + 1;
int k = 0;
int n = b – a + 1;
Item * B = new Item[n];
(1) while (( i < c +1 ) && ( j < b +1 ))
if ( A [i].key < A[j].key)
B[k ++] = A[i ++];
else B[k ++] = A[j ++];
(2) while ( i < c + 1)
B[k ++] = A[i++];
(3) while ( j < b +1)
B[k ++] = A[ j ++];
i = a;
(4) for ( k = 0 ; k < n ; k ++)
A[i ++] = B [k];
delete [ ] B;
}
Phân tích sắp xếp hồ nhập.
Giả sử mảng cần sắp xếp A[a…b] cĩ độ dài n, n = b – a +1, và T(n) là thời gian chạy của hàm MergeSort (A, a, b). Khi đĩ thời gian thực hiện mỗi lời gọi đệ quy MergeSort (A, a, c) và MergeSort (A, c + 1, b) là T(n/2). Chúng ta cần đánh gía thời gian chạy của hàm Merge(A, a, c, b). Xem xét hàm Merge ta thấy rằng, các lệnh lặp (1), (2), (3) cần thực hiện tất cả là n lần lặp, mỗi lần lặp chỉ cần thực hiện một số cố định các phép tốn. Do đĩ tổng thời gian của ba lệnh lặp (1), (2), (3) là O(n). Lệnh lặp (4) cần thời gian O(n). Khi thực hiện hàm MergeSort(A, a, b) với a = b, chỉ một phép so sánh phải thực hiện, do đĩ T(1) = O(1). Từ hàm đệ quy MergeSort và các đánh giá trên, ta cĩ quan hệ đệ quy sau
T(1) = O(1)
T(n) = 2T(n/2) + O(n) với n>1
Giả sử thời gian thực hiện các phép tốn trong mỗi lần lặp ở hàm Merge là hằng số d nào đĩ, ta cĩ :
T(1) £ d
T(n) £ 2T(n/2) + nd
Áp dụng phương pháp thế lặp vào bất đẳng thức trên ta nhận được
T(n) £ 2T(n/2) + n d
£ 22 T(n/22) + 2 (n/2)d + n d
……
£ 2k T(n/2k) + n d + …+ n d (k lần nd)
Giả sử k là số nguyên dương lớn nhất sao cho 1 £ n / 2k. Khi đĩ, ta cĩ
T(n) £ 2k T(1) + n d + … + n d ( k lần n d)
T(n) £ (k + 1) n d
T(n) £ (1 + log n) n d
Vậy T(n) = O (n log n).
3.3 SẮP XẾP NHANH
Trong mục này chúng ta trình bày thuật tốn sắp xếp được đưa ra bởi Hoare, nổi tiếng với tên gọi là sắp xếp nhanh (QuickSort). Thời gian chạy của thuật tốn này trong trường hợp xấu nhất là O(n2). Tuy nhiên thời gian chạy trung bình là O(n logn).
Thuật tốn sắp xếp nhanh được thiết kế bởi kỹ thuật chia-để-trị như thuật tốn sắp xếp hịa nhập. Nhưng trong thuật tốn sắp xếp hịa nhập, mảng A[a…b] cần sắp được chia đơn giản thành hai mảng con A[a..c] và A[c+1..b] bởi điểm chia ở giữa mảng, c = (a+b)/2. Cịn trong thuật tốn sắp xếp nhanh, việc “chia mảng thành hai mảng con” là một quá trình biến đổi phức tạp để từ mảng A[a..b] ta thu được hai mảng con A[a..k-1] và A[k+1..b] thỏa mãn các tính chất sau :
A[i].key ≤ A[k].key với mọi i, a ≤ i ≤ k-1.
A[j].key > A[k].key với mọi j, k+1 ≤ j ≤ b.
Nếu thực hiện được sự phân hoạch mảng A[a..b] thành hai mảng con A[a..k-1] và A[k+1..b] thỏa mãn các tính chất trên, thì nếu sắp xếp được các mảng con đĩ ta sẽ cĩ tồn bộ mảng A[a..b] được sắp xếp. Giả sử Partition(A, a, b, k) là hàm phân hoạch mảng A[a..b] thành hai mảng con A[a..k-1] và A[k+1..b]. Thuật tốn sắp xếp nhanh là thuật tốn đệ quy được biểu diễn bởi hàm đệ quy như sau :
void QuickSort(Item A[] , int a , int b)
//Sắp xếp mảng A[a..b] với a ≤ b.
{
if (a < b)
{
int k;
Partition(A, a, b, k);
if (a <= k – 1)
QuickSort(A, a, k – 1);
if (k + 1 <= b)
QuickSort(A, k + 1, b);
}
}
Hàm phân hoạch Partition là thành phần chính của thuật tốn sắp xếp nhanh. Vấn đề cịn lại là xây dựng hàm phân hoạch. Ý tưởng của thuật tốn phân hoạch là như sau. Đầu tiên ta chọn một thành phần trong mảng A[a..b] làm mốc (pivot). Sau đĩ ta chuyển tất cả các thành phần cĩ khĩa nhỏ hơn hoặc bằng khĩa của mốc sang bên trái mốc, chuyển tất cả các thành phần cĩ khĩa lớn hơn khĩa của mốc sang bên phải mốc. Kết quả là, ta cĩ mốc đứng ở vị trí k, bên trái là mảng con A[a..k – 1], và bên phải là mảng con A[k + 1..b], các mảng con này cĩ tính chất mong muốn, tức là mọi thành phần trong mảng con A[a..k - 1] cĩ khỏa nhỏ hơn hay bằng khĩa của A[k] và mọi thành phần trong mảng con A[k + 1..b] cĩ khĩa lớn hơn khĩa của A[k].
Chọn mốc phân hoạch như thế nào? Đương nhiên là, ta mong muốn chọn được phần tử làm mốc sao cho kết quả phân hoạch cho ta hai mảng con bằng nhau. Điều này là cĩ thể làm được, tuy nhiên nĩ địi hỏi nhiều thời gian hơn sự cần thiết. Vì vậy, ta sẽ chọn ngay thành phần đầu tiên của mảng làm mốc, tức là pivot = A[a].key. Sau đĩ ta sử dụng hai chỉ số, chỉ số left chạy từ trái sang phải, ban đầu left = a + 1, chỉ số right chạy từ phải sang trái, ban đầu right = b. Biến left sẽ tăng và dừng tại vị trí mà A[left].key > pivot, cịn biến right sẽ giảm và dừng lại tại vị trí mà A[right].key ≤ pivot. Khi đĩ nếu left right. Lúc này ta dễ thấy rằng, mọi thành phần trong mảng A[a..right] cĩ khĩa nhỏ hơn hay bằng mốc, cịn mọi thành phần trong mảng A[left..b] cĩ khĩa lớn hơn mốc. Cuối cùng ta trao đổi A[a] và A[right] để đặt mốc vào vị trí k = right. Hàm phân hoạch được viết như sau :
void Partition( Item A[] , int a , int b , int & k)
{
keyType pivot = A[a].key;
int left = a + 1;
int right = b;
do {
while (( left <= right ) & (A[left].key <= pivot ))
left ++;
while (( left pivot ))
right --;
if (left < right)
{
swap(A[left], A[right]);
left ++;
right --;
}
}
while (left <= right);
swap (A[a], A[right]) ;
k = right ;
}
Để thấy được hàm phân hoạch làm việc như thế nào, ta hãy xét ví dụ sau. Giả sử ta cần phân hoạch mảng số nguyên A[0..9] như sau :
8
3
17
12
6
14
7
5
13
15
left right
Lấy mốc pivot = A[0] = 8, ban đầu left = 1, right = 9. Chỉ số left tăng và dừng lại tại vị trí left = 2, vì A[2] = 17 > 8, chỉ số right giảm và dừng lại tại vị trí right = 7, vì A[7] = 5 < 8. Trao đổi A[2] với A[7], đồng thời tăng left lên 1, giảm right đi 1, ta cĩ :
8
3
5
12
6
14
7
17
13
15
left right
Đến đây A[left] = 12 > 8 và A[right] = 7 < 8. Lại trao đổi A[left] với A[right], và tăng left lên 1, giảm right đi 1, ta cĩ :
8
3
5
7
6
14
12
17
13
15
left right
Tiếp tục, A[left] = 6 8. A[right] = 14 > 8 nên right được giảm đi và dừng lại tại right = 4, vì A[4] < 8. Ta cĩ hồn cảnh sau :
8
3
5
7
6
14
12
17
13
15
right left
Đến đây right < left, ta dừng lại, trao đổi A[0] với A[4] ta thu được phân hoạch với k = right = 4.
6
3
5
7
8
14
12
17
13
15
k
Phân tích sắp xếp nhanh
Chúng ta cần đánh giá thời gian chạy T(n) của thuật tốn sắp xếp nhanh trên mảng A[a..b] cĩ n phần tử, n = b – a + 1. Trước hết ta cần đánh giá thời gian thực hiện hàm phân hoạch. Thời gian phân hoạch là thời gian đi qua mảng (hai biến left và right chạy từ hai đầu mảng cho tới khi chúng gặp nhau), tại mỗi vị trí mà left và right chạy qua ta cần so sánh thành phần ở vị trí đĩ với mốc và các trao đổi khi cần thiết. Do đĩ khi phân hoạch một mảng n phần tử ta chỉ cần thời gian O(n).
Thời gian trong trường hợp tốt nhất. Trường hợp tốt nhất xảy ra khi mà sau mỗi lần phân hoạch ta nhận được hai mảng con bằng nhau. Trong trường hợp này, từ hàm đệ quy QuickSort, ta suy ra quan hệ đệ quy sau :
T(1) = O(1)
T(n) = 2 T(n/2) + O(n) với n > 1.
Đây là quan hệ đệ quy mà ta đã gặp khi phân tích sắp xếp hịa nhập. Như vậy trong trường hợp tốt nhất thời gian chạy của QuickSort là O(n logn).
Thời gian trong trường hợp xấu nhất. Trường hợp xấu nhất là trường hợp mà sau mỗi lần phân hoạch mảng n phần tử ta nhận được mảng con n – 1 phần tử ở một phía của mốc, cịn phía kia khơng cĩ phần tử nào. (Dễ thấy rằng trường hợp này xẩy ra khi ta phân hoạch một mảng đã được sắp). Khi đĩ ta cĩ quan hệ đệ quy sau :
T(1) = O(1)
T(n) = T(n – 1) + O(n) với n > 1
Ta cĩ :
T(1) = C
T(n) = T(n – 1) + nC với n > 1
Trong đĩ C là hằng số nào đĩ. Bằng cách thế lặp ta cĩ :
T(n) = T(1) + 2C + 3C + … + nC
= C = Cn(n+1)/2
Do đĩ trong trường hợp xấu nhất, thời gian chạy của sắp xếp nhanh là O(n2).
Thời gian trung bình. Bây giờ ta đánh giá thời gian trung bình Ttb(n) mà QuickSort địi hịi để sắp xếp một mảng cĩ n phần tử. Giả sử mảng A[a..b] chứa n phần tử được đưa vào mảng một cách ngẫu nhiên. Khi đĩ hàm phân hoạch Partition(A, a, b, k) sẽ cho ra hai mảng con A[a..k – 1] và A[k + 1..b] với k là một trong các chỉ số từ a đến b với xác suất như nhau và bằng 1/n. Vì thời gian thực hiện hàm phân hoạch là O(n), từ hàm QuickSort ta suy ra quan hệ đệ quy sau :
Ttb(n) = [ Ttb(k - 1) + Ttb(n - k)] + O(n)
Hay
Ttb(n) = [ Ttb(k - 1) + Ttb(n - k)] + nC (1)
Trong đĩ C là hằng số nào đĩ. Chú ý rằng
Ttb(k - 1) = Ttb(n - k)
Do đĩ cĩ thể viết lại (1) như sau :
Ttb(n) = Ttb(k - 1) + nC (2)
Trong (2) thay n bới n – 1 ta cĩ :
Ttb(n - 1) = Ttb(k - 1) + (n – 1)C (3)
Nhân (2) với n, nhân (3) với n – 1 và trừ cho nhau ta nhận được
n Ttb(n) = (n + 1) Ttb(n - 1) + (2n – 1)C
Chia đẳng thức trên cho n(n + 1) ta nhận được quan hệ đệ quy sau :
= + C (4)
Sử dụng phép thế lặp, từ (4) ta cĩ
= + C
= + + C
. . .
= + c (5)
Ta cĩ đánh giá
≤ ≤ 2 ≤ 2logn
Do đĩ từ (5) ta suy ra
= O(logn)
hay Ttb(n) = O(n logn).
Trong trường hợp xấu nhất, QuickSort địi hỏi thời gian O(n2), nhưng trường hợp này rất ít khi xảy ra. Thời gian trung bình của QuickSort là O(n logn), và thời gian trong trường hợp xấu nhất của MergeSort cũng là O(n logn). Tuy nhiên thực tiễn cho thấy rằng, trong phần lớn các trường hợp QuickSort chạy nhanh hơn các thuật tốn sắp xếp khác.
3.4 SẮP XẾP SỬ DỤNG CÂY THỨ TỰ BỘ PHẬN
Trong mục này chúng ta trình bày phương pháp sắp xếp sử dụng cây thứ tự bộ phận (heapsort). Trong mục 10.3, chúng ta biết rằng một cây thứ tự bộ phận n đỉnh cĩ thể biểu diễn bởi mảng A[0..n-1], trong đĩ gốc cây được lưu trong A[0], và nếu một đỉnh được lưu trong A[i], thì đỉnh con trái (nếu cĩ) của nĩ được lưu trong A[2*i + 1], cịn đỉnh con phải nếu cĩ của nĩ được lưu trong A[2*i + 2]. Mảng A thoả mãn tính chất sau (ta sẽ gọi là tính chất heap):
A[i].key <= A[2*i+1].key và
A[i].key <= A[2*i+2].key
với mọi chỉ số i, 0 <= i <= n/2-1.
Với mảng thoả mãn tính chất heap thì A[0] là phần tử cĩ khố nhỏ nhất. Do đĩ ta cĩ thể đưa ra thuật tốn sắp xếp mảng như sau.
Giả sử mảng cần được sắp là mảng A[0..n-1]. Đầu tiên ta biến đổi mảng A thành mảng thoả mãn tính chất heap. Sau đĩ ta trao đổi A[0] và A[n-1]. Mảng A[0..n-2] bây giờ thoả mãn tính chất heap với mọi i >= 1, trừ i = 0. Biến đổi mảng A[0..n-2] để nĩ thoả mãn tính chất heap. Lại trao đổi A[0] và A[n-2]. Rồi lại biến đổi mảng A[0..n-3] trở thành mảng thoả mãn tính chất heap. Lặp lại quá trình trên, cuối cùng ta sẽ nhận được mảng A[0..n-1] được sắp theo thứ tự giảm dần:
A[0].key >= A[1].key >= … >= A[n-1].key
Trong quá trình trên, sau mỗi lần trao đổi A[0] với A[m] (với m=n-1,…,1), ta sẽ nhận được mảng A[0…m-1] thoả mãn tính chất heap với mọi i >= 1, trừ i = 0. Điều này cĩ nghĩa là cây nhị phân được biểu diễn bởi mảng A[0..m-1] đã thoả mãn tính chất thứ tự bộ phận, chỉ trừ gốc. Để nĩ trở thành cây thứ tự bộ phận, ta chỉ cần đẩy dữ liệu lưu ở gốc xuống vị trí thích hợp trong cây, bằng cách sử dụng hàm ShiftDown (Xem mục 10.3.3).
Cịn một vấn đề cần giải quyết, đĩ là biến đổi mảng cần sắp xếp A[0..n-1] thành mảng thoả mãn tính chất heap. Điều này cĩ nghĩa là ta phải biến đổi cây nhị phân được biểu diễn bởi mảng A[0..n-1] thành cây thứ tự bộ phận. Muốn vậy, với i chạy từ n/2-1 giảm xuống 0, ta chỉ cần sử dụng hàm SiftDown để đẩy dữ liệu lưu ở đỉnh i xuống vị trí thíc hợp trong cây. Đây là cách xây dựng cây thứ tự bộ phận mà chúng ta đã trình bày trong 10.3.2.
Bây giờ ta viết lại hàm ShiftDown cho thích hợp với sự sử dụng nĩ trong thuật tốn. Giả sử mảng A[a..b] (a = a+1. Hàm ShiftDown(a,b) sau đây thực hiện việc đẩy A[a] xuống vị trí thích hợp trong mảng A[a..b] để mảng thoả mãn tính chất heap với mọi i >= a.
void ShiftDown(int a, int b)
{
int i = a;
int j = 2 * i + 1;
while (j <= b)
{
int k = j + 1;
if (k <= b && A[k].key < A[j].key)
j = k;
if (A[i].key > A[j].key)
{
swap(A[i],A[j]);
i = j;
j = 2 * i + 1;
}
else break;
}
}
Sử dụng hàm ShiftDown, ta đưa ra thuật tốn sắp xếp HeapSort sau đây. Cần lưu ý rằng, kết quả của thuật tốn là mảng A[0..n-1] được sắp xếp theo thứ tự giảm dần.
void HeapSort(Item A[] , int n)
//Sắp xếp mảng A[0..n-1] với n > 1
{
for (int i = n / 2 – 1 ; i >= 0 ; i--)
ShiftDown(i,n-1); //Biến đổi mảng A[0..n-1]
// thành mảng thoả mãn tính chất heap
for (int i = n – 1 ; i >= 1 ; i--)
{
swap(A[0],A[i]);
ShiftDown(0,i - 1);
}
}
Phân tích HeapSort.
Thời gian thực hiện lệnh lặp (1) là thời gian xây dựng cây thứ tự bộ phận mà chúng ta đã xét trong mục 10.3.2. Theo chứng minh đã đưa ra trong 10.3.2, lệnh lặp (1) chỉ địi hỏi thời gian O(n). Trong lệnh lặp (2), số lần lặp là n-1. Thân vịng lặp (2), với i = n-1 là
swap(A[0],A[n - 1]);
ShiftDown(0,n - 2);
Đây là các lệnh thực hiện DeleteMin trên cây thứ tự bộ phận được biểu diễn bởi mảng A[0..n-1], và dữ liêụ cĩ khố nhỏ nhất được lưu vào A[n-1]. Trong mục 10.3.1, ta đã chứng tỏ rằng DeleteMin chỉ cần thời gian O(logn). Như vậy thân của lệnh lặp (2) cần thời gian nhiều nhất là O(logn). Do đĩ lệnh (2) cần thời gian O(nlogn). Vì vậy, thời gian thực hiện HeapSort là O(nlogn).
Các file đính kèm theo tài liệu này:
- tim hieu ve thuat toan sap xep.doc