Khóa luận Tổng quan nghiên cứu tính toán lưới và thử nghiệm một số thuật toán lý thuyết đồ thị

Tài liệu Khóa luận Tổng quan nghiên cứu tính toán lưới và thử nghiệm một số thuật toán lý thuyết đồ thị: TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN BỘ MÔN CÔNG NGHỆ PHẦN MỀM HUỲNH BÁ THANH TÙNG - 0112079 TRẦN VIỆT CƯỜNG - 0112339 NGHIÊN CỨU TÍNH TOÁN LƯỚI VÀ THỬ NGHIỆM MỘT SỐ THUẬT TOÁN LÝ THUYẾT ĐỒ THỊ KHÓA LUẬN CỬ NHÂN TIN HỌC GIÁO VIÊN HƯỚNG DẪN TS. TRẦN ĐAN THƯ Th.S NGUYỄN THANH SƠN NIÊN KHÓA 2001-2005 NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... ..........................................................

pdf138 trang | Chia sẻ: hunglv | Lượt xem: 1128 | Lượt tải: 0download
Bạn đang xem trước 20 trang mẫu tài liệu Khóa luận Tổng quan nghiên cứu tính toán lưới và thử nghiệm một số thuật toán lý thuyết đồ thị, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN BỘ MÔN CÔNG NGHỆ PHẦN MỀM HUỲNH BÁ THANH TÙNG - 0112079 TRẦN VIỆT CƯỜNG - 0112339 NGHIÊN CỨU TÍNH TOÁN LƯỚI VÀ THỬ NGHIỆM MỘT SỐ THUẬT TOÁN LÝ THUYẾT ĐỒ THỊ KHÓA LUẬN CỬ NHÂN TIN HỌC GIÁO VIÊN HƯỚNG DẪN TS. TRẦN ĐAN THƯ Th.S NGUYỄN THANH SƠN NIÊN KHÓA 2001-2005 NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... .......................................................................................................................................... LỜI CẢM ƠN Chúng em xin bày tỏ lòng biết ơn chân thành nhất đến thầy Trần Đan Thư và thầy Nguyễn Thanh Sơn, hai thầy đã tận tâm hướng dẫn, giúp đỡ chúng em trong suốt thời gian thực hiện luận văn này. Chúng con xin gửi tất cả lòng biết ơn sâu sắc và sự kính trọng đến ông bà, cha mẹ, cùng toàn thể gia đình, những người đã nuôi dạy chúng con trưởng thành đến ngày hôm nay. Chúng em cũng xin chân thành cám ơn quý Thầy cô trong Khoa Công nghệ thông tin, trường Đại học Khoa học Tự nhiên Tp.Hồ Chí Minh đã tận tình giảng dạy, hướng dẫn, giúp đỡ và tạo điều kiện cho chúng em thực hiện tốt luận văn này. Xin chân thành cám ơn sự giúp đỡ, động viên và chỉ bảo rất nhiệt tình của các anh chị và tất cả các bạn, những người đã giúp chúng tôi có đủ nghị lực và ý chí để hoàn thành luận văn này. Mặc dù đã cố gắng hết sức, song chắc chắn luận văn không khỏi những thiếu sót. Chúng em rất mong nhận được sự thông cảm và chỉ bảo tận tình của quý Thầy Cô và các bạn. TP.HCM, 7/2005 Nhóm sinh viên thực hiện Huỳnh Bá Thanh Tùng - Trần Việt Cường LỜI NÓI ĐẦU Nhân lọai ngày nay đang chứng kiến sự phát triển mạnh mẽ của ngành Công nghệ Thông tin, một trong những ngành mũi nhọn của nhiều quốc gia trên thế giới. Sự phát triển vượt bậc của nó là kết quả tất yếu của sự phát triển kèm theo các thiết bị phần cứng cũng như phần mềm tiện ích. Sự phát triển đó đã kéo theo rất nhiều các ngành khác phát triền theo, trong đó có lĩnh vực nghiên cứu khoa học. Tuy công nghệ ngày càng phát triển, tốc độ xử lý của các thiết bị cũng không ngừng tăng cao, nhưng nhu cầu tính toán của con người vẫn còn rất lớn. Cho đến hiện nay vẫn còn rất nhiều vấn đề mà các nhà khoa học cùng với khả năng tính toán của các máy tính hiện nay vẫn chưa giải quyết được hay giải quyết được nhưng với thời gian rất lớn. Các vấn đề đó có thể là : • Mô hình hóa và giả lập • Xử lý thao tác trên các dữ liệu rất lớn • Các vấn đề “grand challenge” (là các vấn đề không thể giải quyết trong thời gian hợp lý) Lời giải cho những vấn đề này đã dẫn đến sự ra đời của các thế hệ siêu máy tính. Tuy nhiên việc đầu tư phát triển cho các thiết bị này gần như là điều quá khó khăn đối với nhiều người, tổ chức, trường học…. Chính vì lẽ đó mà ngày nay người ta đang tập trung nghiên cứu cách cách sử dụng các tài nguyên phân bố một cách hợp lý để tận dụng được khả năng tính toán của các máy tính đơn. Những giải pháp này được biết đến với nhiều tên gọi khác nhau như meta- computing, salable-computing, global- computing, internet computing và gần nhất hiện nay là peer to peer computing hay Grid computing. Đây là phương pháp nhằm tận dụng khả năng của các máy tính trên toàn mạng thành một máy tính “ảo” duy nhất, nhằm hợp nhất tài nguyên tính toán ở nhiều nơi trên thế giới để tạo ra một khả năng tính toán khổng lồ, góp phần giải quyết các vấn đề khó khăn trong khoa học và công nghệ. Ngày nay nó đang càng được sự hỗ trợ mạnh hơn của các thiết bị phần cứng, băng thông… Grid Computing có khả năng chia sẻ, chọn lựa, và thu gom một số lượng lớn những tài nguyên khác nhau bao gồm những siêu máy tính, các hệ thống lưu trữ, cùng với những nguồn dữ liệu, các thiết bị đặt biệt… Những tài nguyên này được phân bố ở các vùng địa lý khác nhau và thuộc về các tổ chức khác nhau. Nhận thấy được nhu cầu phát triển ấy, nhóm chúng em đã quyết định chọn thực hiện đề tài “Nghiên cứu tính toán lưới và thực nghiệm trên một số thuật toán lý thuyết đồ thị” Mục tiêu của đề tài đề ra là tìm hiểu về tính toán lưới, và qua đó tận dụng các kiến thức có được để có thể cài đặt một số thuật toán lý thuyết đồ thị, nhằm có thể giải quyết các vấn đề tìm đường đi khi số đỉnh tương đối lớn… Các nội dung chính: • Nghiên cứu tính toán lưới • Tìm hiểu các môi trường hỗ trợ • Tìm hiểu lập trinh song song và phân tán • Cài đặt một số thuật toán với kiến thức có được Nội dung của luận văn được chia làm 6 chương : Chương 1. Giới thiệu : Giới thiệu tổng quan về tính toán lưới, khái niệm lịch sử phát triển. Chương 2. Tính toán song song và phân bố : Trình bày về các kiến trúc, mô hình xử lý song song và phân bố, cách thức xây dựng chương trình, thiết kế thuật toán… Chương 3. Các môi trường hỗ trợ tính toán lưới : Tìm hiểu về các môi trường đang được sử dụng và nghiên cứu hiện nay trên thế giới. Chương 4. Mô hình lập trình truyền thông điệp - MPI : Mô hình cụ thể được dùng để phát triển ứng dụng MPI. Chương 5. Thử nghiệm các thuật toán lý thuyết đồ thị : Cách thức xây dựng chương trình , các khái niệm lý thuyết, thực nghiệm thực tế … Chương 6. Tổng kết : Nêu các kết quả đã đạt được, một số vấn đề còn tồn tại, định hướng mục tiêu mở rộng phát triển đề tài trong tương lai. Mục lục Danh sách hình..................................................................................................... 11 Chương 1. Giới thiệu ........................................................................................... 13 1.1. Các khái niệm.......................................................................................... 13 1.2. Những thách thức đối với tính toán lưới ................................................. 16 Chương 2. Tính toán song song và phân bố ...................................................... 17 2.1. Khái niệm ................................................................................................ 17 2.2. Nền tảng tính toán song song và phân bố ............................................... 18 2.2.1. Kiến trúc xử lý song song và phân bố ..............................................18 2.2.2. Tổ chức vật lý của các nền tảng song song và phân bố ....................25 2.3. Một số mô hình lập trình song song thông dụng..................................... 26 2.3.1. Mô hình chia sẽ không gian bộ nhớ..................................................26 2.3.2. Mô hình truyền thông điệp ...............................................................27 2.4. Cách thức xây dựng một chương trình song song và phân bố ................ 29 2.4.1. Các thuật ngữ căn bản.......................................................................29 2.4.2. Thiết kế thuật toán song song ...........................................................31 2.4.3. Một số phương pháp tối ưu...............................................................43 2.4.4. Các mô hình thuật toán song song....................................................48 Chương 3. Các môi trường hỗ trợ tính toán lưới ............................................. 52 3.1. Giới thiệu................................................................................................. 52 3.2. Các vấn đề khi lập trình luới ................................................................... 53 3.2.1. Tính mang chuyển, tính khả thi và khả năng thích ứng....................53 3.2.2. Khả năng phát hiện tài nguyên .........................................................54 3.2.3. Hiệu năng..........................................................................................54 3.2.4. Dung lỗi ............................................................................................55 3.2.5. Bảo mật .............................................................................................55 3.2.6. Các siêu mô hình...............................................................................55 3.3. Tổng quát về các môi trường hỗ trợ........................................................ 56 3.3.1. Một số môi trường Grid....................................................................56 3.3.2. Những mô hình lập trình và công cụ hỗ trợ......................................59 3.3.3. Môi trường cài đặt ............................................................................64 3.4. Những kỹ thuật nâng cao hỗ trợ lập trình ............................................... 75 3.4.1. Các kỹ thuật truyền thống.................................................................76 3.4.2. Các kỹ thuật hướng dữ liệu...............................................................76 3.4.3. Các kỹ thuật suy đoán và tối ưu........................................................77 3.4.4. Các kỹ thuật phân tán........................................................................77 3.4.5. Nhập xuất hướng Grid ......................................................................78 3.4.6. Các dịch vụ giao tiếp cấp cao ...........................................................78 3.4.7. Bảo mật .............................................................................................80 3.4.8. Dung lỗi ............................................................................................80 3.4.9. Các siêu mô hình và hệ thống thời gian thực hướng Grid................82 3.5. Tóm tắt .................................................................................................... 83 Chương 4. Mô hình lập trình truyền thông điệp - MPI................................... 85 4.1. Các khái niệm cơ bản .............................................................................. 86 4.2. Cấu trúc chương trình MPI ..................................................................... 89 4.3. Trao đổi thông tin điểm-điểm ................................................................. 90 4.3.1. Các thông tin của thông điệp ............................................................90 4.3.2. Các hình thức truyền thông...............................................................91 4.3.3. Giao tiếp blocking.............................................................................92 4.3.4. Giao tiếp non-blocking .....................................................................96 4.4. Trao đổi thông tin tập hợp..................................................................... 101 4.4.1. Đồng bộ hóa....................................................................................101 4.4.2. Di dời dữ liệu trong nhóm ..............................................................101 4.4.3. Tính toán gộp ..................................................................................105 4.5. Các kiểu dữ liệu..................................................................................... 109 4.5.1. Những kiểu dữ liệu đã được định nghĩa .........................................109 4.5.2. Các kiểu dữ liệu bổ sung.................................................................110 4.5.3. Pack và UnPack ..............................................................................113 Chương 5. Thử nghiệm các thuật toán lý thuyết đồ thị ................................. 114 5.1. Các khái niệm cơ bản ............................................................................ 114 5.2. Dijkstra .................................................................................................. 115 5.2.1. Tuần tự ............................................................................................115 5.2.2. Song song........................................................................................119 5.2.3. Thực nghiệm chương trình .............................................................120 5.3. Prim ....................................................................................................... 122 5.3.1. Tuần tự ............................................................................................122 5.3.2. Song song........................................................................................124 5.3.3. Thực nghiệm chương trình .............................................................126 5.4. Bellman – Ford...................................................................................... 128 5.4.1. Tuần tự ............................................................................................128 5.4.2. Song song........................................................................................130 5.4.3. Thực nghiệm chương trình .............................................................132 5.5. Đánh giá chung...................................................................................... 134 Chương 6. Tổng kết ........................................................................................... 136 6.1. Kết luận ................................................................................................. 136 6.2. Hướng phát triển ................................................................................... 136 Tài liệu tham khảo ............................................................................................. 138 Danh sách hình Hình 1-1 : 3 tầng của Grid ................................................................................ 15 Hình 2-1 : Phân lọai hệ thống máy tính theo Flynn-Johnson ........................... 19 Hình 2-2 : Kiến trúc SISD ................................................................................ 19 Hình 2-3 : Kiến trúc SIMD ............................................................................... 20 Hình 2-4 : Kiến trúc MISD ............................................................................... 22 Hình 2-5 : Kiến trúc MIMD.............................................................................. 23 Hình 2-6 : Mô hình chía sẽ không gian bộ nhớ ................................................ 27 Hình 2-7 : Mô hình truyền thông điệp .............................................................. 28 Hình 3-1 : Mô hình NetSolve............................................................................ 56 Hình 3-2 : Các thành phần của Globus ............................................................. 59 Hình 4-1 : Các tiến trình tạo lập trên mô hình lập trình MPI ........................... 86 Hình 4-2 : Cách thức truyền thông của các process.......................................... 87 Hình 4-3 : Blocking và non-blocking ............................................................... 88 Hình 4-4 : Group, communicator và rank......................................................... 88 Hình 4-5 : Cấu trúc của chương trình MPI ....................................................... 89 Hình 4-6 : Giao tiếp blocking ........................................................................... 92 Hình 4-7 : Thứ tự các xử lý............................................................................... 95 Hình 4-8 : Cách thức xử lý tiến trình ................................................................ 95 Hình 4-9 : Giao tiếp non-blocking .................................................................... 96 Hình 4-10 : Broadcast dữ liệu ......................................................................... 102 Hình 4-11 : Ví dụ hàm Scatter ........................................................................ 103 Hình 4-12 : Hàm MPI_Gather ........................................................................ 103 Hình 4-13 : Hàm MPI_Allgather .................................................................... 104 Hình 4-14 : Hàm MPI_Alltoall ....................................................................... 104 Hình 4-15 : Hàm MPI_Reduce ....................................................................... 105 Hình 4-16 : Sử dụng 8 xử lý để tính giá trị tuyệt đối...................................... 107 Hình 4-17 Hàm Mpi-Allreduce....................................................................... 108 Hình 4-18 : Hàm MPI_Reduce_scatter........................................................... 108 Hình 4-19 : Hàm MPI_Scan ........................................................................... 109 Hình 4-20 : MPI_Type_contiguous ................................................................ 110 Trang 12 Hình 4-21 : MPI_Type_vetor.......................................................................... 111 Hình 4-22 : MPI_Type_indexed ..................................................................... 112 Hình 4-23 : MPI_Type_struct ......................................................................... 112 Hình 5-1. Thuật toán Dijkstra tuần tự ............................................................. 118 Hình 5-2 : Thuật toán Dijkstra song song....................................................... 119 Hình 5-3. Thuật toán Prim tuần tự .................................................................. 124 Hình 5-3 : Thuật toán Prim song song ............................................................ 125 Hình 5-4: Thuật toán Bellman-Ford tuần tự ................................................... 130 Hình 5-5 : Thuật toán Bellman-Ford song song ............................................. 132 Trang 13 Chương 1. Giới thiệu 1.1. Các khái niệm Trong những năm đầu thập niên 90, nhiều nhóm nghiên cứu đã bắt đầu khai thác các nguồn tài nguyên tính toán phân tán trên Internet. Các nhà khoa học đã tập trung và sử dụng hàng trăm các máy trạm để thực hiện các chương trình song song như thiết kế phân tử và hiển thị đồ họa máy tính. Trong khi đó các nhóm nghiên cứu khác đã kết hợp các siêu máy tính lớn lại với nhau thành một siêu máy tính ảo duy nhất, rồi phân phối các phần của một ứng dụng rất lớn cho các máy tính trên một mạng diện rộng, ví dụ như máy tính giả lập các ứng dụng tương tác giữa chất lỏng và cánh quạt của chân vịt tàu…Thêm vào đó phạm vi của các dự án nghiên cứu này đã nêu ra tiềm năng thực sự của mạng máy tính, cùng với cơ sở phần mềm và tin học để phát triển nó xa hơn. Hệ thống đa bộ xử lý (Multiprocessor Systems - MPs), Cluster, Grids là các ví dụ của kiến trúc tính toán phân tán. Trong MPs, các bộ xử lý được kết hơp chặt chẽ với nhau, thông qua bộ nhớ chia sẽ chung và đường truyền kết nối rất cao. Ví dụ như là PVPs (Parallel Vector Processors), chúng hầu như rất thích hợp cho tính toán hiệu năng cao, như là các ứng dụng song song dựa vào trao đổi thông điệp tốc độ cao giữa các tiến trình song song. Trang 14 Trong khi đó Cluster lại là các máy tính đơn hay đa bộ xử lý được kết hợp tương đối với nhau thông qua đường mạng, vì thế nó chậm hơn từ 1 đến 2 lần so với kết nối MP. Ví dụ như cluster Beowulf chạy Linux, hay TCF (Technical Compute Farm) của Sun chạy hệ điều hành Solaris/TM, chúng được sử dụng cho các tính toán số lượng lớn, phân phối các tác vụ tính toán (thường là không song song) cho các bộ xử lý, rồi thu thập lại các kết quả tính toán vào kết quả toàn cục. Các tính toán này có thể là việc hiển thị hàng ngàn khung hình để làm phim hay là giả lập việc kiểm tra và thiết kế để xây dựng thế hệ tiếp theo của chip VLSI, hay như trong công nghệ sinh học, đó là việc cắt lớp hàng trăm ngàn chuỗi gen. Trong khi MPs và Cluster chỉ là các hệ thống đơn, thường là trong một domain đơn. Grid điện toán bao gồm các cluster của mạng các MPs hay/và cluster, nằm trên nhiều domain khác nhau, phân bố ở nhiều phòng ban, xí nghiệp hay thậm chí là trên mạng Internet. Về bản chất, những grid có một độ phức tạp cao hơn, đặc biệt là ở tầng trung gian, trong việc thực thi, quản lý, và sử dụng các tài nguyên tính toán phân tán, và ở tầng ứng dụng là việc thiết kế, phát triển, chạy các phần mềm để triển khai grid một cách hiệu quả. Tóm lại Grid là một kiến trúc tính toán phân tán cho phép chuyển giao các tài nguyên lưu trữ và tính toán như thể là một dịch vụ trên Internet. Đây là bước phát triển tiếp theo về cơ sở hạ tầng kỹ thuật, cho phép kết nối các máy tính phân tán, các thiết bị lưu trữ, các thiết bị di động, các công cụ, cơ sở dữ liệu, và các ứng dụng phần mềm, và cung cấp cách thức truy cập duy nhất đến cộng đồng người dùng để cho phép tính toán, trao đổi thông tin và cộng tác. Một số hệ thống grid hiện tại như là NASA Information Power Grid (IPG); DoD Distance Computing và NetSolve cho chia sẽ và khai thác phần mềm toán học; Nimrod cho chia sẽ tài nguyên trên phạm vi trường học; SETI@Home cho tìm kiếm trí thông minh ngòai trái đất; hay là APGrid để kết nối các trung tâm máy tính ở vành đai Châu Á Thái Bình Dương trong tương lai gần. Trang 15 Hình 1-1 : 3 tầng của Grid Grid là một cơ sở hạ tầng về phần cứng lẫn phần mềm cung cấp truy cập phụ thuộc, thích hợp, rộng khắp và chi phí thấp vào các khả năng tính toán. Trong một tương lai không xa, những grid này sẽ được các kỹ sư, nhà khoa học, khoa học thực nghiệm, công ty, tổ chức, môi trường, giáo dục và đào tạo, khách hàng, … sử dụng rộng rãi. Chúng sẽ được dành riêng cho tính toán theo yêu cầu, tính toán trên thông tin nhạy cảm, tính toán cộng tác, và siêu tính toán, dựa trên cơ sở của khách hàng/nhà cung cấp. Ngày nay chúng ta đang thấy những nỗ lực đầu tiên nhằm khai thác một cách có hệ thống các nguồn tài nguyên tính toán lưới trên mạng Internet. Những dự án này được gọi là peer-to-peer computing, như SETI@home, Distributed.Net và Folderol, cho phép người dùng Internet tải về các dữ liệu khoa học, chạy trên các máy cá nhân theo chu trình xử lý chia sẽ, và gửi lại kết quả cho cơ sở dữ liệu trung tâm. Gần đây có một dự án ở một trường đại học, được gọi là Compute Power Market, được xây dựng nên nhằm phát triển các kỹ thuật phần mềm cho phép tạo lập những Grid, mà ở đó bất cứ ai cũng có thể mua hay bán khả năng khả năng tính toán giống như cách mà người ta sử dụng điện hiện nay. Trang 16 1.2. Những thách thức đối với tính toán lưới Hầu hết các kỹ thuật phức tạp bên dưới dành cho Grid hiện nay đang được tiếp tục phát triển. Các môi trường Grid mẫu tồn tại giống như các dự án Globus và Legion. Đồ án EcoGrid thì đang nghiên cứu cách thức quản lý tài nguyên, và các khối xây dựng như vậy đang tồn tại trong trình quản lý tài nguyên mang tính thương mại của phần mềm Sun Grid Engine. Diễn đàn Grid (GGF – Global Grid Forum), được thành lập vào năm 1998, đã tập hợp được hàng trăm các nhà khoa học để cùng nhau nghiên cứu và thảo luận về một kiến trúc Grid chung. Trong đó vẫn còn tồn tại một số thách thức sau: • Phát triền phần mềm ứng dụng cho Grid • Chỉ ra và truy cập các nguồn tài nguyên tính toán thích hợp trên môi trường phân tán • Định nghĩa những giao tiếp chuẩn cho phép giao tiếp giữa các khối Grid với nhau, nhằm đáp ứng nhu cầu phát triển ứng dụng. • Bảo đảm các truy cập được xác nhận và truyền dữ liệu an toàn. • Cung cấp các dịch vụ cho phép theo dõi, quảng cáo và kết xuất báo cáo. • Thiết kế các nghi thức mạng cho việc trao đổi và định dạng thông điệp. Trang 17 Chương 2. Tính toán song song và phân bố 2.1. Khái niệm Ngày nay trong khi công nghệ ngày một phát triển thì nhu cầu về tốc độ tính toán của các hệ thống máy tính cũng ngày một tăng cao. Các lĩnh vực đòi hỏi tính tóan hiệu năng cao như là mô hình số và giả lập các vấn đề của khoa học và công nghệ. Ngoài ra nó còn nhằm giải quyết các lọai vấn đề cần tốc độ xử lý cao như: • Mô hình hóa và giả lập Mô hình các mẫu DNA Mô hình hóa chuyển động của các phi hành gia … • Xử lý/Thao tác trên các dữ liệu rất lớn Xử lý ảnh và tín hiệu Khai thác dữ liệu và cơ sở dữ liệu Xác định địa chấn … • Các vấn đề “grand challenge” (là những vấn đề không thể giải quyết trong thời gian “hợp lý”, như cần 100, 1000,…năm để có đáp án) Mô hình khí hậu Sự chuyển động của chất lỏng Bộ gene con người Mô hình chất bán dẫn … Xuất phát từ nhu cầu đó đã dẫn đến sự cần thiết phải có những hệ thống song song và phân bố nhằm tận dụng tối đa khả năng thực thi của các bộ xử lý, và để giải quyết các vấn đề nan giải trên. Trang 18 2.2. Nền tảng tính toán song song và phân bố Trong phần này chúng ta sẽ xem xét cách tổ chức logic và vật lý của các nền tảng song song và phân tán. Cách tổ chức logic liên quan đến quan điểm của người lập trình (kiến trúc xử lý song song và phân bố) trong khi cách tổ chức vật lý liên quan đến cách cơ cấu thực sự của các phần cứng bên dưới. Trong tính toán song song thì từ quan điểm của người lập trình gồm 2 thành phần chính quan trọng đó là cách thức thể hiện các tác vụ song song (cấu trúc điều khiển) và những phương pháp xác định tương tác giữa các tác vụ này (mô hình giao tiếp). 2.2.1. Kiến trúc xử lý song song và phân bố Máy tính song song có thể được chia theo 2 lọai chính là : dòng điều khiển (control flow) và dòng dữ liệu (data flow). Máy tính song song dòng điều khiển dựa chủ yếu theo các nguyên tắc của máy tính Von Neumann, ngọai trừ nhiều dòng điều khiển có thể thực hiện vào bất cứ thời gian nào. Máy tính song song dòng dữ liệu , đôi khi được biết đến là “phi Von Neumann”, thì hoàn toàn khác biệt ở chỗ nó không có con trỏ trỏ tới các chỉ thị hiện hành hay trung tâm điều khiển. Ở đây chúng ta chỉ tập trung vào các máy tính song song dòng điều khiển. Năm 1966, M.J.Flynn đã phân chia các hệ thống máy tính dựa trên dòng chỉ thị và dòng điều khiển thành 4 loại sau: • SISD (Single Instruction stream, a Single Data stream) • SIMD (Single Instruction stream, Multiple Data streams) • MISD (Multiple Instruction streams, a Single Data stream) • MIMD (Multiple Instruction streams, Multiple Data streams) Phân theo mức độ hay được sử dụng: MIMD > SIMD > MISD Trang 19 In st ru ct io n S tre am (s ) SISD (Uniprocessors) SIMD (Array Processors) MISD GMSV GMMP DMSV Data Stream(s) Single Multiple M ul tip le S in gl e Shared Variables Message Passing G lo ba l D is tri bu te d M em or y Communication DMMP MIMD Hình 2-1 : Phân lọai hệ thống máy tính theo Flynn-Johnson 2.2.1.1. SISD Hình 2-2 : Kiến trúc SISD Kiến trúc này tương tự với kiến trúc Von Neumann. Một đơn vị điều khiển tiếp nhận một chỉ thị đơn từ bộ nhớ, sau đó đưa vào cho bộ xử lý thực thi trên một đơn vị dữ liệu được chỉ ra trong chỉ thị nhận được, và cuối cùng là đưa kết quả nhận được vào bộ nhớ. 2.2.1.2. SIMD Hầu hết các máy tính song song ban đầu đều được thiết kế theo kiến trúc SIMD. Trong kiến trúc này, một đơn vị xử lý trung tâm sẽ thông dịch và quảng bá các tín hiệu điều khiển thích hợp cho các bộ xử lý theo chiều kim đồng hồ. Từng bộ xử lý sẽ thực thi các chỉ thị một cách đồng thời, và chúng cũng có quyền không tiếp nhận trên các chỉ thị nào đó. Sự phổ biến của kiến trúc SIMD là do tính năng của các ứng dụng song song ban đầu và từ yêu cầu của nền kinh Trang 20 tế. Theo quan điểm của người dùng thì các ứng dụng sử dụng kiến trúc SIMD thì dễ dàng được lập trình hơn và tận dụng hiệu quả hơn các thiết bị phần cứng. Hình 2-3 : Kiến trúc SIMD Bên trong SIMD, tồn tại hai lựa chọn thiết kế cơ bản sau: 1. SIMD đồng bộ và bất đồng bộ. Trong một máy SIMD, từng bộ xử lý có thể thực thi hay bỏ qua các chỉ thị được quảng bá dựa vào trạng thái cục bộ của nó hay những điều kiện phụ thuộc vào dữ liệu. Tuy nhiên điều này có thể dẫn đến xử lý một vài tính toán điều kiện không hiệu quả. Một cách giải quyết khả thi là sử dụng phiên bản bất đồng bộ của S1IMD, được biết đến là SPMD (Single Program Multiple Data), trong đó từng bộ xử lý sẽ chạy một bản sao của Trang 21 chương trình chung. Điểm thuận lợi của SPMD là trong lúc tính toán biểu thức điều kiện “if-then-else”, từng bộ xử lý sẽ chỉ thực hiện ở nhánh thích hợp mà không mất thời gian cho các chi phí tính toán khác. 2. Chip SIMD tùy chọn hay thống nhất (commodity). Một máy SIMD có thể được thiết kế dựa trên những thành phần thống nhất hay là từ những con chip tùy chọn. Trong cách tiếp cận thứ nhất thì các thành phần có xu hướng rẻ hơn do sản xuất hàng loạt. Tuy nhiên những thành phần mang mục đích chung như vậy có thể chứa các yếu tố không cần thiết cho một thiết kế cụ thể nào đó. Những thành phần thêm vào có thể làm phức tạp việc thiết kế, sản xuất và kiểm thử các máy SIMD và cũng có thể đem lại khiếm khuyết về tốc độ xử lý. Còn các thành phần tùy chọn thì nhìn chung hỗ trợ tốt hơn cho thực thi tuy nhiên nó cũng dẫn đến chi phí cao hơn cho việc phát triển. Khi việc tích hợp nhiều bộ xử lý cùng với bộ nhớ dư dật trên một con chip VLSI đơn trở nên khả thi, thì việc kết hợp ưu điểm của 2 cách tiếp cận trên là hoàn toàn có thể. 2.2.1.3. MISD Mô hình này hầu như không thấy nhiều trong các ứng dụng. Một trong những lý do là bởi vì hầu hết các ứng dụng không thế áp dụng một cách dễ dàng vào kiến trúc MISD, điều này dẫn đến việc thiết kế ra một kiến trúc để thỏa mãn cho một mục đích chung là điều không thể. Tuy nhiên có thể áp dụng các bộ xử lý song song kiểu MISD vào trong một ứng dụng cụ thể nào đó. Trang 22 Hình 2-4 : Kiến trúc MISD Trong hình trên là ví dụ về một bộ xử lý song song với kiến trúc MISD. Một dòng dữ liệu đơn đi vào một máy tính gồm 5 bộ xử lý. Nhiều phép biến đổi được thực hiện trên từng đơn vị dữ liệu trước khi nó được chuyển sang một (hay nhiều) bộ xử lý khác. Các đơn vị dữ liệu kế tiếp có thể đi qua các phép biến đổi khác do điều kiện độc lập dữ liệu của các dòng chỉ thị hay do các thẻ điều khiển đặc biệt được truyền cùng với dữ liệu. Chính vì vậy mà cách tổ chức theo kiến trúc MISD có thể được xem như là một hệ thống ống lệnh cấp độ cao và phức tạp với nhiều đường dẫn và trong đó từng giai đọan có thể được lập trình riêng biệt. 2.2.1.4. MIMD Được tiên đoán bởi các doanh nghiệp vào thập niên 90, mô hình MIMD gần đây đã trở nên khá phổ biến. Lý do cho sự thay đổi này là vì tính uyển chuyển cao của kiến trúc MIMD và bởi khả năng tận dụng được những ưu điểm của các bộ vi xử lý được sản xuất hàng lọat (commodity microprocessors), vì thế tránh được những vòng phát triển dài dòng và qua đó có thể được phát triển cùng với sự cải thiện của các bộ xử lý. Các máy tính MIMD được áp dụng rất hiệu quả cho các ứng dụng song song mà vấn đề của nó được phân rã từ trung bình cho đến tốt (medium- to coarse-grain parallel applications).Ưu điểm của các máy tính MIMD bao gồm khả năng uyển Trang 23 chuyển cao trong việc khai thác nhiều dạng thức song song khác nhau, dễ phân chia nhỏ hơn cho các bộ xử lý độc lập trong môi trường đa người dùng (tính chất này là ngụ ý quan trọng cho tính dung lỗi), ít khó khăn trong việc mở rộng (scalability). Nhưng bên cạnh đó kiến trúc này cũng có khuyết điểm là sự quá tải do giao tiếp giữa các bộ xử lý và việc lập trình gặp nhiều khó khăn. Hình 2-5 : Kiến trúc MIMD Bên trong kiến trúc MIMD, tồn tại 3 loại vấn đề cơ bản hay còn được gọi là cách lựa chọn thiết kế hiện vẫn là chủ đề đang được tranh cãi trong cộng đồng các nhà nghiên cứu. 1. MPP – massively or moderately parallel processor. Việc xây dựng một bộ xử lý song song từ một số lượng nhỏ các bộ xử lý Trang 24 mạnh mẽ hay từ một số lượng rất lớn các bộ xử lý bình thường (một “bầy voi” hay là một “đàn kiến”) thì cách nào sẽ hiệu quả hơn ?. Theo luật của Amdahl thì cách đầu tiên thích hợp hơn cho những phần tuần tự của một tính toán, trong khi cách tiếp cận thứ hai sẽ làm tăng tốc hơn nữa những phần mang tính song song. Không thể đưa ra một câu trả lời chung cho câu hỏi này, sự lựa chọn tốt nhất tùy thuộc vào loại công nghệ và ứng dụng đang được sử dụng. 2. MIMD “chặt chẽ” hay “lỏng lẻo”. Cách tiếp cận nào tốt hơn cho việc tính toán hiệu năng cao, bằng cách sử dụng đa bộ xử lý được thiết kế đặc biệt trên nhiều máy tính hay là tập hợp của những máy trạm bình thường được kết nối với nhau bởi các hệ thống mạng “tiện nghi” (như là Ethernet hay ATM) và những tương tác nào sẽ được kết nối với nhau bằng hệ thống phần mềm đặc biệt và các hệ thống tập tin phân tán? Cách tiếp cận thứ hai đôi khi được biết đến là mạng của các máy trạm (network of workstations hay là NOW) hay là tính toán cluster, đã được sử dụng rộng rãi trong những năm gần đây. Tuy nhiên vẫn còn nhiều vấn đề mở còn tồn tại nhằm phát huy tối đa khả năng của những kiến trúc có nền tảng là mạng. Thiết bị phần cứng, hệ thống phần mềm, và những khía cạnh ứng dụng của NOW đang được đầu tư tìm hiểu bởi một số lượng lớn các nhóm ngiên cứu. Một cách tiếp cận trung gian là kết hợp các cluster những bộ xử lý thông qua môi trường mạng. Điều này về cơ bản là một phương pháp phân nhánh, đặc biệt thích hợp khi có một sự truy cập rất lớn đến dữ liệu cục bộ. 3. Truyền thông điệp tường minh hay chia sẽ bộ nhớ ảo. Lọai nào sẽ tốt hơn, cho phép người dùng chỉ ra tất cả các loại thông điệp sẽ được truyền giữa các bộ xử lý hay là cho phép họ lập trình ở một cấp độ trừu tượng cao hơn, cùng với các thông điệp cần thiết tự động được phát sinh bởi hệ thống phần mềm? Câu hỏi này về cơ bản là tương tự với câu được hỏi trong những ngày đầu của những ngôn Trang 25 ngữ lập trình cấp cao và bộ nhớ ảo. Tại một vài thời điểm trong quá khứ, việc lập trình bằng hợp ngữ và thực hiện trao đổi giữa bộ nhớ chính và bộ nhớ phụ có thể đem lại hiệu quả cao hơn. Tuy nhiên, do ngày nay các phầm mềm đã đạt đến mức quá phức tạp, các trình biên dịch cùng với hệ điều hành cũng đã quá cấp cao đến nỗi việc tối ưu các chương trình bằng tay không còn là điều gì quá khó. Tuy nhiên chúng ta vẫn chưa ở thời điểm xử lý song song đáng kể, và việc che giấu cấu trúc giao tiếp tường minh giữa các máy tính song song ra khỏi người lập trình sẽ đem lại hiệu năng thực thi rất đáng kể. 2.2.2. Tổ chức vật lý của các nền tảng song song và phân bố Trong phần này chúng ta sẽ chỉ mô tả một máy tính song song lý tưởng là PRAM. Đây là một cách mở rộng tự nhiên của mô hình tính toán tuần tự (Random Access Machine hay là RAM) bao gồm p bộ xử lý và một vùng nhớ toàn cục có kích thước không giới hạn và được truy cập từ tất cá các bộ xử lý. Tất cả chúng đều có sử dụng cùng chung một không gian địa chỉ. Các bộ xử lý có thể cùng chia sẽ một đồng hồ chung nhưng cũng có thể thực thi các chỉ thị khác nhau trên cùng một chu kỳ. Mô hình này được biết đến là parallel random access machine (PRAM). Tùy thuộc vào cách thức truy cập bộ nhớ, PRAM được phân thành 4 loại sau. 1. Toàn quyền đọc - Toàn quyền ghi (exclusive-read, exclusive write) EREW. Trong loại này, truy cập vào vùng nhớ là toàn quyền. Không có thao tác đọc ghi nào được cho phép. Đây là mô hình PRAM không chắc chắn nhất, chỉ hỗ trợ truy cập đồng thời vào bộ nhớ một cách tối thiểu. 2. Đồng thời đọc – Toàn quyền ghi (concurrent read, exclusive write) CREW. Cho phép nhiều thao tác đọc cùng lúc trên cùng một vùng nhớ, tuy nhiên nhiều thao tác ghi chỉ thực hiện theo tuần tự. 3. Toàn quyền đọc – Đồng thời ghi (exclusive read, concurrent write) ERCW. Cho phép nhiều thao tác ghi cùng lúc trên cùng một vùng nhớ, tuy nhiên nhiều thao tác đọc chỉ thực hiện theo tuần tự. Trang 26 4. Đồng thời đọc – Đồng thời ghi (concurrent read, concurrent write) CRCW. Trong loại này, cho phép nhiều thao tác đọc ghi đồng thời trên cùng vùng nhớ chung. Đây là mô hình PRAM có nhiều ưu điểm nhất. Việc có nhiều thao tác đọc cùng một lúc không làm ảnh hưởng đến tính nhất quán của chương trình. Tuy nhiên khi có nhiều thao tác ghi đồng thời thì lại có ảnh hưởng lớn, vì thế có nhiều cách thức được đặt ra để giải quyết vấn đề đó: • Chung (common), thao tác ghi cùng lúc chỉ được thực hiện nếu tất cả các bộ xử lý đều muốn ghi một giá trị như nhau. • Tùy ý (arbitrary), chỉ cho phép một bộ xử lý bất kỳ được ghi. • Ưu tiên (priority), tất cả các bộ xử lý được tổ chức theo một danh sách ưu tiên được xác định trước, và bộ xử lý có quyền cao nhất sẽ có quyền ghi. • Tổng hợp (sum), trong đó giá trị tổng của các giá trị cần ghi sẽ được ghi. 2.3. Một số mô hình lập trình song song thông dụng 2.3.1. Mô hình chia sẽ không gian bộ nhớ Lập trình song song tường minh thường yêu cầu chỉ ra cụ thể các tác vụ song song cùng với các tương tác giữa chúng. Những tương tác này có thể ở trong dạng đồng bộ giữa các tiến trình đồng thời hay là sự giao tiếp giữa các kết quả trung gian. Trong kiến trúc chia sẽ không gian bộ nhớ, giao tiếp giữa các tiến trình được chỉ ra là ngụ ý vì tất cả các bộ xử lý đều có quyền truy cập vào một vài (hay tất cả) các bộ nhớ. Do đó, mô hình lập trình cho các máy tính chia sẽ không gian địa chỉ tập trung chủ yếu vào các cách thức để thực thi đồng thời, đồng bộ hóa và những cách để làm giảm sự quá tải do tương tác. Các mô hình lập trình chia sẽ không gian địa có thể khác nhau về cách thức chia sẽ dữ liệu, mô hình đồng thời, và hỗ trợ đồng bộ hóa. Các mô hình giả sử rằng tất cả các dữ liệu của tiến trình đều mặc định là không được truy cập, trừ khi nó cho phép làm điều đó (sử dụng các hàm gọi của hệ thống UNIX Trang 27 như shmat và shmget). Mặc dù đây là một yếu tố quan trọng nhằm bảo mật trong các hệ thống đa người dùng, tuy nhiên khí chúng cùng nhau hợp tác để giải quyết cùng một vấn đề thì điều này là không còn cần thiết. Các chi phí do bảo vệ dữ liệu gia tăng chỉ làm cho các tiến trình ít thích hợp hơn cho lập trình song song. Ngược lại, các tiến trình và tiểu trình giả sử toàn bộ bộ nhớ là toàn cục, và chúng sẽ thực hiện trao đổi thông tin với nhau một cách tường minh thông qua đọc và ghi lên biến chia sẽ. Hình 2-6 : Mô hình chía sẽ không gian bộ nhớ Vì các tiến trình đều có quyền đọc và ghi lên vùng nhớ chung vào cùng một thời điểm nên ta cần phải có một cơ chế đồng bộ hóa để bảo đảm tính đúng đắn khi thao tác trên dữ liệu. 2.3.2. Mô hình truyền thông điệp Có rất nhiều ngôn ngữ lập trình và các thư viện được xây dựng nên để dành cho lập trình song song. Những điều này khác nhau ở cách nhìn của chúng về không gian địa chỉ dành cho người lập trình, mức đồng bộ trong các chỉ thị song song và sự đa dạng của các chương trình. Mô hình lập trình truyền thông điệp là một trong các mô hình cổ nhất và được sử dụng rộng rãi nhất trong các mô hình dùng cho lập trình trên các máy tính song song. Lý do chính cho việc này là vì nó yêu cầu tối thiểu về phần cứng bên dưới. Trong phần này chúng ta sẽ đề cập một vài khái niệm căn bản về mô hình truyền thông điệp và các kỹ thuật dùng với thư viện MPI (sẽ mô tả kỹ trong chương sau). Trang 28 Hình 2-7 : Mô hình truyền thông điệp Có 2 tính chất quan trọng tạo nên bản chất của mô hình truyền thông điệp là: thứ nhất là nó giả sử không gian địa chỉ được phân chia và thứ hai là nó chỉ hỗ trợ song song hóa tường minh. Cấu trúc của những chương trình truyền thông điệp Các chương trình truyền thông điệp thường được viết bằng cách sử dụng mô hình bất đồng bộ hay ít đồng bộ. Trong mô hình bất đồng bộ, tất cả các tác vụ song song được thực thi một cách bất đồng bộ. Điều này cho phép ta có thể triển khai bất cứ thuật toán song song nào. Tuy nhiên những chương trình như vậy thường gặp khó khăn hơn để suy ra và bên cạnh đó cách thể hiện của nó cũng khó mà đoán trước do những điều kiện về thực thi. Ngược lại những chương trình ít đồng bộ có thể kết hợp tốt cả hai thái cực này. Trong những chương trình như vậy, các tác vụ và những tập hợp con các tác vụ được đồng bộ hóa để thực hiện những tương tác. Tuy nhiên giữa những tương tác này, các tác vụ được thực thi hoàn toàn bất đồng bộ. Bởi vì những tương tác xảy ra một cách đồng bộ, nên việc suy ra chương trình như vậy cũng khá dễ dàng. Nhiều thuật toán song song phổ biến cũng được thực hiện một cách tự nhiên bằng cách sử dụng những chương trình ít đồng bộ hơn. Trong dạng phổ biến nhất của mình, mô hình truyền thông điệp hỗ trợ thực thi cho các chương trình khác nhau trên từng bộ xử lý. Điều này cung cấp tính mềm dẻo tối đa trong lập trình song song, nhưng điều này cũng làm cho công việc viết các chương trình song song không thể mở rộng một cách hiệu quả. Vì nguyên nhân này mà hầu hết các chương trình truyền thông điệp được Trang 29 viết bằng cách sử dụng phương pháp single program multiple data (SPMD). Trong những chương trình SPMD, các tiến trình khác nhau thực thi đoạn code tương tự nhau ngọai trừ một số nhỏ các tiến trình (là những tiến trình “gốc”). Điều này không có nghĩa là những tiến trình làm việc theo lock-step. Các chương trình SPMD có thể là ít đồng bộ hay là hoàn toàn bất đồng bộ. 2.4. Cách thức xây dựng một chương trình song song và phân bố Phát triển thuật toán là một phần quan trọng trong việc giải quyết vấn đề khi sử dụng máy tính. Một thuật toán tuần tự về cơ bản là một phương pháp thực hiện hay là một chuỗi tuần tự những bước cơ bản để giải quyết một vấn đề được đặt ra bằng cách sử dụng máy tính tuần tự. Tương tự, một thuật tóan song song là một phương pháp giải quyết vấn đề dựa trên việc sử dụng nhiều bộ xử lý. Tuy nhiên, để chỉ ra được một thuật tóan song song không đơn giản như là chỉ ra từng bước cụ thể. Mà là ở một mức độ nào đó, một thuật tóan song song phải được thêm vào tính đồng thời và người thiết kế ra thuật toán cũng phải chỉ ra tập hơp những bước có thể xử lý đồng thời. Điều này nhằm tận dụng được khả năng tính toán của các máy tính song song. Trong thực tế việc thiết kế ra một thuật tóan song song là khá phức tạp, nó có thể bao gồm một vài hay tất cả những điều sau: • Chỉ ra những phần của công việc có thể được thực thi đồng thời. • Ánh xạ các phần của công việc vào nhiều bộ xử lý chạy song song. • Phân tán dữ liệu nhập, xuất và trung gian cùng với chương trình. • Quản lý truy cập vào dữ liệu chung giữa các bộ xử lý. • Đồng bộ hóa các bộ xử lý khi thực thi các chương trình song song 2.4.1. Các thuật ngữ căn bản ™ Phân họach : là quá trình phân chia một vấn đề cần tính toán thành các phần nhỏ hơn, một vài hay tất cả các phần đó có thể xử lý song song. ™ Tác vụ : là đơn vị do người lập trình định nghĩa để chỉ ra các phần tính toán sau khi phân họach. Xử lý đồng thời nhiều tác vụ là điều Trang 30 kiện tiên quyết để rút ngắn thời gian giải quyết toàn bộ vấn đề. Các tác vụ có thể không cùng kích thước. ™ Đồ thị phụ thuộc : là một thể hiện sự phụ thuộc giữa các tác vụ và trật tự thực hiện giữa chúng. Một đồ thị phụ thuộc là một đồ thị có hướng trong đó mỗi nút của cây là một tác vụ và cạnh có hướng thể hiện sự phụ thuộc giữa chúng. Một tác vụ chỉ được thực hiện khi các tác vụ trước nó (có cạnh nối) được thực hiện. Trong đồ thị phụ thuộc tập hợp cạnh có thể rỗng. Hình 2-8 : Đồ thị phụ thuộc tác vụ ™ Granularity : số lượng và kích thước của các tác vụ sau bước phân họach được gọi là granularity của bước phân họach. Bước phân họach một vấn đề lớn thành một số lượng lớn các vấn đề nhỏ được gọi là fine-grained và thành một số lượng nhỏ các vấn đề lớn đựơc gọi là coarse-grained. ™ Đồ thị tương tác : là mô hình thể hiện sự tương tác giữa các tác vụ. Các nút trong đồ thị tương tác thế hiện các tác vụ còn các cạnh nối thể hiện tưong tác giữa chúng. Các cung trong đồ thị tương tác thường là cung vô hướng. Tập hợp cạnh thuờng là tập hợp cha của tập hợp cạnh của đồ thị phụ thuộc Trang 31 Hình 2-9 :Đồ thi tương tác trong bài toán nhân ma trận với vector 2.4.2. Thiết kế thuật toán song song Phân chia một công việc tính toán thành các phần nhỏ hơn và ánh xạ chúng vào các bộ xử lý khác nhau để thực hiện song song là 2 bước cơ bản trong vịêc thiết kế một thuật tóan song song. 2.4.2.1. Một số phương pháp phân hoạch Một trong những bước cơ bản mà chúng ta cần làm để giải quyết một vấn đề theo hướng song song là phân chia những phép tính toán muốn thực hiện thành môt tập hợp các tác vụ nhỏ hơn để xử lý đồng thời như trong đồ thị phụ thuộc tác vụ. Trong phần này chúng ta sẽ mô tả một vài kỹ thuật phân họach phổ biến cho xử lý đồng hành. Các kỹ thuật này không phải là tất cả các kỹ thuật phân họach có thể có. Thêm vào đó, những phương pháp phân họach ở đây không bảo đảm sẽ dẫn tới những thuật toán song song tốt nhất cho một vấn đề nào đó. Mặc dù còn một vài thiếu sót, nhưng các kỹ thuật phân họach được đề cập trong phần này là điểm bắt đầu tốt cho nhiều vấn đề và một hay nhiều sự kết hơp của các kỹ thuật này có thể được dùng để đạt được các phân họach hiệu quả cho rất nhiều lọai vấn đề. Các kỹ thuật phân họach phân họach ở đây có thể phân thành các lọai sau phân họach đệ quy, phân họach dữ liệu, phân họach thăm dò và phân họach suy đóan. Trong đó phân họach đệ quy và phân họach dữ liệu được dùng cho nhiều lọai vấn đề còn các phương pháp phân họach khác chỉ được sử dụng cho một lọai vấn đề cụ thể nào đó. Phân họach đệ quy Trang 32 Phân họach đệ quy là một phương pháp dùng để tạo ra sự đồng hành trong những vấn đề có thể được giải quyết bằng phương pháp chia-và-trị. Trong kỹ thuật này trước tiên một vấn đề được giải quyết bằng cách phân chia nó thành tập hợp các vấn đề con độc lập với nhau. Đến phiên các vấn đề con lại tiếp tục áp dụng cách thức phân họach đệ quy thành các vấn đề con khác nhỏ hơn. Cuối cùng là chúng ta sẽ thực thi đồng hành các vấn đề con độc lập này, kết quả của vấn đề lớn là sự kết hợp kết quả của các vấn đề con nhỏ hơn. Phân hoạch dữ liệu Phân họach theo dữ liệu là một phương pháp phân hoạch hiệu quả và được sử dụng nhiều nhất trong việc xác định tính đồng hành trong các thuật toán để có thể thao tác trên các cấu trúc dữ liệu lớn. Phương pháp này bao gồm 2 bước. Trong bước 1, dữ liệu trong bước tính tóan sẽ được phân ra thành từng phần, và trong bước 2, phần dữ liệu này sẽ được chuyển thành các tác vụ. Những thao tác mà các tác vụ thực hiện trên các phần dữ liệu khác nhau thường là tương tự nhau hay được chọn từ tập hợp các thao tác nhỏ hơn. Chúng ta sẽ xem xét cụ thể các cách phân chia dữ liệu có thể ở phần bên dưới. Nhìn chung, thì người thiết kế phải tự tìm ra và đánh giá các cách phân chia dữ liệu để quyết định xem cách nào phân họach “tự nhiên” và hiệu quả nhất. ™ Phân chia dữ liệu xuất Trong nhiều phần tính toán, từng phần xuất có thể được xử lý độc lập với các phần khác. Trong nhiều phần tính toán như vậy, việc phân chia dữ liệu xuất tự động dẫn đến việc phân họach những vấn đề thành các tác vụ, với mỗi tác vụ được kết gán cho công việc tính toán một phần của kết quả xuất. vd: nhân ma trận Hãy xem vấn đề nhân 2 ma trận nxn A và B, kết quả trả về là ma trận C. Trước tiên ta phân từng ma trận thành 4 khối hay ma trận con, bằng cách chia các chiều của ma trận theo 1 nửa. 4 ma trận con của ma trận kết quả C, mỗi phần có kích thước n/2 x n/2, có thể được tính tóan độc lập với nhau bởi 4 tác vụ. Trang 33 Hình 2-10 : (a) Phân các ma trận nhập và xuất thành các ma trận con (b) Phân hoạch phép nhân ma trận thành 4 tác vụ Hầu hết các thuật toán ma trận, bao gồm nhận ma trận với vector và nhân ma trận với ma trận, có thể được công thức hóa thành các thao tác trên khối ma trận. Trong các công thức này, từng ma trận được xem như bao gồm các khối hay các ma trận con, các phép tính toán được thực hiện trên từng phần tử và được thay thế tương ứng bởi các phép tóan trên các khối ma trận con. Kết quả có được trên từng phần tử hay trên các khối là tương tự nhau. Thuật toán ma trận khối thường được dùng để hỗ trợ cho việc phân họach. Chúng ta phải chú ý là phân họach theo dữ liệu khác với phân họach các phép tính thành các tác vụ. Mặc dù 2 khái niệm này thường có liên hệ với nhau, và cái đầu thường hỗ trợ cho cái sau, một kết quả phân họach dữ liệu đã cho không chỉ có một cách để phân chúng thành các tác vụ. ™ Phân chia dữ liệu nhập Phân chia theo dữ liệu xuất chỉ có thể được thực hiện nếu từng kết quả xuất có thể được tính toán một cách tự nhiên theo chức năng nhập. Trong nhiều thuật toán, việc phân chia theo dữ liệu xuất là điều không thể. Ví dụ như khi tìm giá trị lớn nhất, nhỏ nhất hay tổng của các số đã cho, kết quả xuất là điều không thể biết trước. Trong các thuật toán sắp xếp, từng phần tử riêng biệt của kết quả không thế được xác định một cách hiệu quả. Trong những trường hợp Trang 34 như vậy, việc phân chia theo dữ liệu nhập là hoàn toàn có thể, và sau đó dùng kết quả này để thực hiện đồng thời việc tính toán. Từng tác vụ được tạo ra cho từng phần dữ liệu nhập và tác vụ này sẽ sử dụng tối đa các phép tính có thể thực hiện trên các dữ liệu cục bộ này. Lưu ý là những giải pháp cho các tác vụ được đúc kết từ dữ liệu nhập có thể không giải quyết được một cách trực tiếp vấn đề gốc. Trong những trường hợp như vậy, thì kết quả tính toán có thể được thực hiện bằng cách “nổi bọt” lên phía trên.Ví dụ như khi tìm tổng của một chuỗi gồm N số dùng p tiến trình (p < N), chúng ta có thể phân chia phần dữ liệu nhập thành p phần con (có kích thước gần bằng nhau). Từng tác vụ thực hiện cộng các số trong từng phần con. Kết quả cuối cùng là cộng của p phần con vừa được tính. ™ Phân chia cả dữ liệu xuất và nhập Trong nhiều trường hợp việc phân chia theo cả kết quả xuất và dữ liệu nhập có thể làm tăng khả năng xử lý đồng thời. ™ Phân chia dữ liệu trung gian Các thuật toán thường có dạng xử lý gồm nhiều giai đọan khác nhau, trong đó kết quả xuất của giai đọan này là kết quả nhập của giai đọan theo sau nó. Quá trình phân họach cho những thuật toán như vậy có thể được thực hiện bằng cách phân chia theo dữ liệu nhập hay theo dữ liệu xuất của một giai đọan trung gian. Phân chia theo dữ liệu trung gian đôi khi dẫn tới khả năng xử lý đồng thời cao hơn so với khi thực hiện trên dữ liệu nhập hay xuất. Thông thường trong giải quyết một vấn đề nào đó thì dữ liệu trung gian không được phát sinh một cách tường minh và trong khi cấu trúc lại các thuật tóan ban đầu người ta có thể cần đến dữ liệu trung gian để tạo ra sự phân họach. vd: như trong ví dụ nhân ma trận bên trên, ta có thể gia tăng khả năng tính tóan song song bằng cách đưa ra một bước trung gian mà trong đó có 8 tác vụ thực hiện tính toán các ma trận con tương ứng của chúng rồi lưu kết quả trong một ma trận 3 chiều D. Ma trận con Dk,i,j là kết quả của việc nhân Ai,k và Bk,j. Trang 35 Hình 2-11 : Nhân hai ma trận A và B với phần trung gian là ma trận D Việc phân chia thành ma trận trung gian D dẫn đến phân hoạch thành 8 tác vụ. Sau bước nhân, ta thực hiện cộng các ma trận kết quả con (chi phí không cao) thành ma trận C. Tất cả các ma trận con D*,i,j được cộng lại với nhau để tạo thành Ci,j. 8 tác vụ (đánh số từ 1-8) thực hiện việc nhân các ma trận con của A và B có kích thước n/2 x n/2 với chi phí là O(n3/8). Sau đó 4 tác vụ (đánh số từ 9-12) thực hiện cộng các ma trận con trung gian D thành ma trận kết quả C với chi phí là (n2/8). Trang 36 Hình 2-12 : Phân họach bài toán nhân ma trận theo ma trận trung gian 3-chiều Phân hoạch thăm dò Phân họach thăm dò được dùng để phân họach những vấn đề mà có nội dung tính toán tương ứng với một không gian tìm kiếm của những giải pháp. Trong phân họach thăm dò, chúng ta phân chia không gian tìm kiếm thành nhiều phần nhỏ hơn, và thực hiện tìm kiếm trên từng phần đồng thời với nhau, cho đến khi tìm ra giải pháp cần tìm. Trang 37 Lưu ý là mặc dù phân hoạch thăm dò trông có vẻ tương tự như phân hoạch dữ liệu (không gian tìm kiếm có thể được xem như là dữ liệu được phân chia), về cơ bản chúng khác nhau ở những điểm sau đây. Những tác vụ có được sau khi phân hoạch dữ liệu được thực hiện hoàn toàn và từng tác vụ đều thực hiện các phép tính hữu dụng để tìm ra giải pháp cho vấn đề. Mặt khác, trong phân hoạch thăm dò, những tác vụ mặc dù chưa thực hiện xong nhưng vẫn bị kết thúc nếu đã có một giải pháp được tìm ra từ một tác vụ khác. Vì thế từng phần của không gian tìm kiếm khi được thực hiện bởi công thức song song có thể khác rất nhiều so với khi được tìm kiếm bởi thuật toán tuần tự. Cho nên số lượng công việc mà công thức song song thực hiện có thể nhiều hơn hay ít hơn so với khi thực hiện bằng thuật toán tuần tự. Trang 38 Hình 2-13 : Các bước phát sinh theo phân hoạch thăm dò Phân hoạch suy đoán Trang 39 Phân hoạch suy đoán được dùng khi một chương trình có thể lấy một trong các nhánh tính toán có thể, tùy thuộc vào kết quả xuất của những phép tính toán trước đó. Trong trường hợp này, trong khi một tác vụ đang thực hiện các phép tính mà kết quả xuất sẽ quyết định bước tính toán tiếp theo, trong khi các tác vụ khác có thể bắt đầu đồng thời các công việc tính toán của giai đoạn tiếp theo. Ngữ cảnh này trông giống với ước lượng song song một hay nhiều nhánh của câu lệnh switch trong ngôn ngữ C trước khi tồn tại giá trị vào của câu lệnh. Trong khi một tác vụ thực hiện tính toán để giải quyết switch, các tác vụ khác thực hiện song song trên các nhánh khác của switch. Khi giá trị đầu vào cuối cùng của switch được tính ra, thì nhánh có các phép tính tương ứng sẽ được thực hiện trong khi bỏ qua các nhánh còn lại. Thời gian cho việc chạy song song sẽ nhỏ hơn khi chạy tuần tự vì thời gian được sử dụng tối ưu để thực hiện song song các phép tính toán hợp lý cho giai đoạn tiếp theo. Tuy nhiên dạng song song của switch cũng bảo đảm sẽ có ít nhất một vài phép tính toán lãng phí. Nhằm làm giảm các phép tính toán này, một dạng khác nhỏ của phân họach suy đoán có thể đuợc sử dụng, đặc biệt trong những trường hợp mà một trong các kết quả xuất của switch có khả năng xảy ra hơn so với các trường hợp còn lại. Trong trường hợp này, chỉ có nhánh ‘khả thi” nhất được một tác vụ thực thi song song cùng với các phép tính toán trước đó. Nhưng nếu kết quả xuất của switch khác với những gì được mong đợi thì ta sẽ “roll back” lại việc tính toán và thực thi chính xác nhánh switch cần thực hiện. Phân hoạch suy đoán và phân hoạch thăm dò khác nhau ở một vài điểm sau. Trong phân hoạch suy đoán đầu vào là không biết, còn trong phân hoạch thăm dò kết quả đầu ra là không biết. Trong phân hoạch suy đoán, thuật toán tuần tự sẽ chỉ thực hiện nghiêm ngặt một trong các tác vụ ở giai đọan suy đoán, bởi vì khi mà nó bắt đầu thực hiện một giai đoạn nào đó, nó đã biết chính xác phải thực hiện theo nhánh nào. Một chương trình song song khi thực hiện theo phân hoạch suy đoán sẽ phải làm nhiều công việc hơn so với chương trình đó khi viết theo tuần tự. Mặt khác trong phân hoạch thăm dò, thuật toán tuần tự tìm ra nhiều hướng đi, do mỗi nhánh đều dẫn tới một giải pháp mà chưa được biết trước. Vì thế, một chương trình song song có thể thực hiện ít hơn, nhiều Trang 40 hơn hay bằng với số lượng công việc của thuật toán tuần tự tùy thuộc vào vị trí của giải pháp trong không gian tìm kiếm. Kết hợp các phép phân hoạch Cho đến bây giờ chúng ta đã xem xét một số phương pháp phân hoạch có thể được dùng để tạo ra một số mô hình song song cho các thuật toán. Những kỹ thuật này không phải là hoàn toàn tuyệt đối mà nguợc lại chúng có thể được sử dụng kết hợp với nhau. Thông thường một phép tính được phân thành nhiều bước và đội khi ta phải áp dụng nhiều cách phân hoạch cho các buớc khác nhau. Ví dụ như khi tìm giá trị nhỏ nhất của một tập hợp số n rất lớn, phương pháp phân hoạch đệ quy thuần túy có thể làm phát sinh ra nhiều tác vụ hơn là số bộ xử lý đang có. Một cách phân hoạch hiệu quả là chia dữ liệu ban đầu thành P phần bằng nhau và gán vào cho P bộ xử lý. Kết quả cuối cùng có được bằng cách tìm giá trị nhỏ nhất của các kết quả trung gian bằng cách áp dụng phân hoạch đệ quy. Hình 2-14 : Phân hoạch lai để tìm giá trị nhỏ nhất của mảng 2.4.2.2. Ánh xạ Một khi bài toán đã được phân rã thành các tác vụ, thì các tác vụ này sẽ được ánh xạ vào trong các tiến trình xử lý với mục tiêu là hoàn thành tất cả trong thời gian ngắn nhất. Để đạt được thời gian xử lý nhỏ thì chi phí cho thực thi song song các tác vụ phải được giảm đến mức tối thiểu. Với một phân họach đã cho thì có hai yếu tố chính dẫn đến chi phí là : thời gian cho giao tiếp giữa các tiến trình và thời gian khi chúng nhàn rỗi. Một tiến trình có thể nhàn rỗi vì nhiều lý do trước khi toàn bộ các phép tính được hoàn tất. Sự phân bố không đều có thể làm cho một vài tiến trình hoàn thành công việc trước những tiến trình khác. Hoặc cũng có thể do các tác vụ chưa thực hiện được ánh xạ vào Trang 41 các tiến trình đang bận thực hiện một tác vụ khác gây ra thời gian chờ. Vì thế một cách ánh xạ các tác vụ được đánh giá là tốt khi nó đạt được hai mục tiêu sau : • Giảm thiểu thời gian các tiến trình trao đổi với nhau. • Giảm thiểu tổng thời gian khi các tiến trình này nhàn rỗi trong khi các tiến trình khác phải thực thi nhiều tác vụ. Hai mục tiêu đó thường mâu thuẫn với nhau. Ví dụ, khi bạn muốn giảm đến mức tối thiểu tương tác giữa các tiến trình bằng cách kết gán một tập hợp các tác vụ vào cùng một tiến trình. Trong nhiều trường hợp như vậy, phép kết gán như vậy sẽ đem lại sự mất cân bằng tải giữa các tiến trình, gây ra thời gian nhàn rỗi cho các tiến trình khác. Trong phần này chúng ta sẽ xem xét nhiều cách thức để ánh xạ các tác vụ vào trong các tiến trình với mục tiêu chính là cân bằng tải và giới hạn đến nhỏ nhất thời gian tương tác giữa chúng. vd: trong ví dụ sau cho ta thấy cách ánh xạ 12 tác vụ vào trong 4 tiến trình, mà trong đó 4 tác vụ cuối cùng chỉ có thể được thực hiện khi 8 tác vụ trước đó đã được hoàn tất. Trong hình bên dưới thể hiện hai cách ánh xạ khác nhau, mỗi các sẽ đem lại thời gian hoàn tất khác nhau Hình 2-15 : Hai cách phân hoạch với đồng bộ hóa Các kỹ thuật ánh xạ đại khái có thể phân thành hai loại chính là ánh xạ tĩnh và ánh xạ động. Mô hình lập trình song song, tính chất của các tác vụ và sự tương tác giữa chúng sẽ quyết định nên chọn cách ánh xạ nào cho thích hợp. Trang 42 • Ánh xạ tĩnh (static): kỹ thuật ánh xạ tĩnh phân phối tác vụ giữa các tiến trình tùy thuộc tính ưu tiên trong việc thực thi các thuật toán. Đối với những tác vụ được phát sinh tĩnh thì áp dụng một trong hai kỹ thuật đều khả thi. Việc chọn ra được một cách ánh xạ tốt thì còn phụ thuộc vào nhiều yếu tố, bao gồm kích thước của tác vụ, kích thước của dữ liệu đi kèm với chúng, tính chất tương tác giữa các tác vụ, và thậm chí là mô hình lập trình song song được sử dụng. Tuy nhiên trong nhiều trường hợp thực tế phương pháp heuristic cũng đem lại giải pháp gần đúng chấp nhận được cho việc tối ưu vấn đề ánh xạ tĩnh. Các thuật toán mà sử dụng ánh xạ tĩnh thì nhìn chung dễ dàng hơn cho việc hiết kế và lập trình. • Ánh xạ động (dynamic): kỹ thuật ánh xạ động phân phối công việc giữa các tiến trình trong suốt quá trình thực thi thuật toán. Nếu các tác vụ được phát sinh động thì nó cũng sẽ được ánh xạ động. Nếu kích thước của tác vụ là chưa biết thì nếu sử dụng ánh xạ tĩnh sẽ dẫn đến sự mất cân bằng tải nghiêm trọng và trong trường này sử dụng ánh xạ động sẽ hiệu quả hơn. Nếu số lượng dữ liệu đi kèm các tác vụ là khá lớn cho việc tính toán thì khi dùng phương pháp này sẽ đưa đến việc chia sẽ dữ liệu giữa các tiến trình. Chi phí cho việc di chuyển này có thể ảnh hưởng hơn so với những ưu điểm của ánh xạ động và dẫn đến việc sử dụng ánh xạ tĩnh sẽ hiệu quả hơn. Tuy nhiên, trong mô hình chia sẽ không gian địa chỉ thì phương pháp này cũng hữu hiệu hơn thậm chí đối với các dữ liệu lớn. Các thuật toán đòi hỏi ánh xạ động thì thường là phức tạp hơn, đặc biệt là trong mô hình truyền thông điệp. Vd cách ánh xạ trong bài toán nhân ma trận Trang 43 Hình 2-16 : phân chia theo (a) 1 chiều và (b) hai chiều của ma trận xuất. Những phần màu xám là dữ liệu mà tiến trình cần để tính toán. 2.4.3. Một số phương pháp tối ưu Như đã lưu ý ở trên, làm giảm tương tác quá mức giữa các tiến trình là một điều quan trọng cho một chương trình song song hiệu quả. Nguyên nhân xảy ra điều này có thể do nhiều yếu tố, như kích thước của dữ liệu dùng trong quá trình tương tác, tần số tương tác… Trong phần này chúng ta sẽ xem xét một vài phương pháp tổng quát để làm hạn chế quá tải do tương tác xảy ra trong các chương trình song song. Tất cả các kỹ thuật này có thể không thích hợp cho mô hình lập trình song song và một vài trong số đó cần sự hỗ trợ của phần cứng bên dưới. 2.4.3.1. Tối đa hóa dữ liệu cục bộ Trong hầu hết các chương trình song song, các tác vụ được thực thi bởi các tiến trình khác nhau đòi hỏi phải được truy cập đến dữ liệu chung. Ví dụ như trong bài toán nhân ma trận và vector y=Ab , trong đó Trang 44 từng tác vụ thực hiện tính toán từng phần tử của vector y và cần phải truy cập đến các phần tử của vector nhập b. Các kỹ thuật nhằm gia tăng sử dụng dữ liệu cục bộ bao gồm một pham vi rộng lớn các cách thức nhằm giảm thiểu tối đa kích thước của các dữ liệu truyền tải, tối đa hóa việc sử dụng lại các dữ liệu vừa được truy cập, và cực tiểu số lần truy cập. • Cực tiểu dữ liệu trao đổi Một phương pháp cơ bản nhằm làm giảm sự tương tác quá mức là làm giảm đến mức tối đa dữ liệu chia sẽ cần để truy cập bởi nhiều tiến trình cùng một lúc. Điều này tương tự với việc tối đa hóa sử dụng dữ liệu cục bộ một cách tạm thời, nghĩa là thực hiện tham chiếu liên tục đến càng nhiều dữ liệu càng tốt. Rõ ràng càng nhiều bước tính toán trên dữ liệu cục bộ có sẵn sẽ góp phần xóa đi yêu cầu chuyển dữ liệu vào vùng đệm cho các tiến trình xử lý. Như đã nói ở trên để đạt được điều này cần áp dụng các phương pháp phân hoạch và ánh xạ thích hợp. Ví dụ như trong bài toán nhân ma trận nếu ta áp dụng ánh xạ 2 chiều thì kích thước dữ liệu chia sẽ cần được truy cập chỉ là p n22 , còn nếu áp dụng ánh xạ 1 chiều thì kích thước sẽ lên tới 2 2 n p n + . Nói tóm lại, phân bố với số chiều càng cao thì càng làm giảm khối lượng của dữ liệu cần chia sẽ. Một cách khác để làm giảm sự truy cập của các tiến trình đến dữ liệu chia sẽ là sử dụng dữ liệu cục bộ để lưu kết quả trung gian, và chỉ thực hiện truy cập đến dữ liệu chia sẽ tại nơi sẽ tính toán kết quả cuối cùng. • Cực tiểu tần số tương tác Đây là một phương pháp quan trọng trong việc làm giảm sự quá tải tương tác trong các chương trình song song bởi vì trong nhiều kiến trúc thì chi phí kích hoạt cho từng tương tác là khá lớn. Ta có thể làm giảm tần số tương tác bằng cách tái cấu trúc lại các thuật toán sao cho các dữ liệu chia sẽ được truy cập và sử dụng thành các phần lớn. 2.4.3.2. Giảm thiểu tối đa các điểm xung đột, tranh chấp Trang 45 Phần bàn luận của chúng ta cho đến bây giờ chỉ là tập trung làm giảm tương tác quá mức chủ yếu bằng cách trực tiếp hay gián tiếp làm giảm tần số và dụng lượng dữ liệu trao đổi. Tuy nhiên mô hình tương tác giữa các tác vụ thường dẫn đến tranh chấp làm gia tăng sự tương tác. Nói chung, tranh chấp xảy ra khi nhiều tác vụ cùng truy cập đồng thời vào tài nguyên. Nhiều luồng trao đổi dữ liệu trên cùng một đường liên kết, nhiều sự truy cập cùng lúc vào cùng một khối nhớ, hay nhiều tiến trình thực hiện gửi những thông điệp đến cùng một tiến trình vào cùng một thời điểm, tất cả có thể dẫn đến sự xung đột. Điều này bởi vì chỉ một trong nhiều thao tác có thể được thực thi tại một thời điểm còn những thao tác còn lại phải được sắp xếp và thực hiện tuần tự. Xem lại bài toán nhân hai ma trận C = AB, sử dung phương pháp phân hoạch theo 2 chiều như hình bên trên (Hình 2.16). Gọi p là số lượng các tác vụ được ánh xạ 1-1 vào trong các tiến trình. Mỗi tác vụ sẽ chịu trách nhiệm tính toán một phần tử Ci,j của ma trận kết quả C, với pji <≤ ,0 . Phần tử Ci,j được tính theo công thức (viết theo ký hiệu ma trận khối): ∑− = = 1 0 ,,, * p k jkkiji BAC Xem cách truy cập vào bộ nhớ của công thức trên, chúng ta thấy rằng bất cứ tại bước p nào, thì p các tác vụ cũng sẽ truy cập vào cùng một khối của ma trận A và B. Trong trường hợp đặc biệt, tất cả các tác vụ làm việc trên cùng một dòng của C cũng sẽ truy cập lên cùng một khối của A. Ví dụ như tất cả p tiến trình tính C0,0, C0,1, …, C0, 1−p cũng sẽ cùng đọc A0,0 cùng một lúc. Tương tự như vậy tất cả các tác vụ làm việc trên cùng một cột của C cũng sẽ truy cập lên cùng một khối của B. Nhu cầu truy cập đồng thời lên cùng các khối nhớ này của ma trận A và B sẽ tạo ra xung đột trên cả kiến trúc chia sẽ không gian bộ nhớ NUMA và kiến trúc truyền thông điệp. Trang 46 Một cách để làm giảm tranh chấp này là thiết kế lại thuật toán song song để nó truy cập vào dữ liệu theo các mẩu không xung đột. Ví dụ như thuật toán nhân ma trận, chúng ta có thể hiệu chỉnh thứ tự các khối ma trận được nhân với nhau bằng cách sử dụng công thức: ∑− = ++++ = 1 0 ,)%()%(,, * p k jpkjipkjiiji BAC Bằng cách sử dụng công thức này tất cả các tác vụ P*,j làm việc trên cùng một dòng của C sẽ truy cập vào khối nhớ A*, (*+j+k)% p , khác nhau cho từng tác vụ. Vì vậy chỉ bằng cách sắp xếp lại thứ tự nhân các khối với nhau, ta có thể loại bỏ tranh chấp. Ví dụ như trong các tiến trình tính toán khối dòng của C, thì tiến trình tính toán C0,j sẽ truy cập A0,j từ khối dòng đầu tiên của ma trận A thay vì A0,0. Việc sử dụng ánh xạ động thường là nguồn gốc của những tranh chấp trên cấu trúc dữ liệu chia sẽ hay là từ các kênh giao tiếp dẫn đến tiến trình chính. 2.4.3.3. Đan xen các phép tính và tương tác Thời gian mà các tiến trình chờ các dữ liệu chia sẽ đến hay nhận thêm một công việc sau khi tương tác có thể được làm giảm xuống, thông thường là theo từng phần, bằng cách thực hiện một số phép tính tiện ích trong suốt thời gian chờ đợi. Một cách đơn giản để đan xen là khởi gán tương tác đủ sớm để nó hoàn tất trước khi cần cho tính toán. Đề đạt được điều này, chúng ta phải có thể nhận ra các phép tính có thể trước khi thực hiện tương tác. Sau đó trong chương trình song song phải được cấu trúc sao cho thực hiện khởi gán tương tác trước thời điểm mà nó thực hiện trong thuật toán gốc. Về cơ bản, điều này là có thể nếu có nhiều tác vụ sẵn sàng thực thi có sẵn trên cùng một tiến trình sao cho nếu có một khối chờ cho việc tương tác hoàn tất thì tiến trình vẫn có thể thực thi các tác vụ khác. Trong nhiều trường hợp, đan xen các phép tính và sự tương tác đòi hỏi phải có sự hỗ trợ từ mô hình lập trình , hệ điều hành, và thiết bị Trang 47 phần cứng. Mô hình lập trình phải cung cấp một cách thức cho phép tương tác và tính toán được tiến hành đồng thời. Cách thức này phải được hỗ trợ bởi phần cứng bên dưới. Mô hình và kiến trúc không gian địa chỉ không liên kết thường cung cấp sự hỗ trợ này thông qua truyền thông điệp ưu tiên dạng non-blocking. Mô hình lập trình cung cấp các hàm cho việc gửi và nhận thông điệp cho phép trả quyền điều khiển cho chương trình người dùng trước khi nó thực sự hoàn tất. Vì thế chương trình có thể sử dụng các hàm ưu tiên này để khởi tạo những tương tác và sau đó thực hiện các phép tính toán. Nếu phần cứng cho phép tính toán được thực hiện song song với trao đổi thông điệp, thì sự tương tác có thể giảm đáng kể. 2.4.3.4. Tạo bản sao dữ liệu hay các phép tính toán Trong một vài thuật toán song song, nhiều tiến trình có thể đòi hỏi truy cập chỉ đọc thường xuyên vào một cấu trúc dữ liệu chia sẽ, như là bảng băm. Ví thế trừ khi không được phép yêu cầu thêm bộ nhớ, còn không thì nên tạo một bản sao cấu trúc dữ liệu chia sẽ cho mỗi tiến trình để sau khi khởi gán tương tác, tất cả các những truy cập tiếp theo vào cấu trúc dữ liệu này sẽ không gây quá tải do tương tác. Trong mô hình chia sẽ không gian bộ nhớ, việc tạo bản sao của các dữ liệu chỉ đọc, được truy cập thường xuyên thì thường bị chịu tác động bởi những cache mà không phải do sự can thiệp tường minh của lập trình viên. Nhân bản dữ liệu một cách tường minh thường thích hợp cho các kiến trúc và mô hình lập trình mà gặp phải những chi phí đáng kể khi truy cập vào dữ liệu chia sẽ. Vì thế mô hình truyền thông điệp là được lợi nhất khi ta thực hiện tạo bản sao dữ liệu ở các tiến trình, điều này có thể làm giảm đáng kể sự quá tải do tương tác và cũng làm đơn giản hơn khi viết các chương trình song song. Tuy nhiên tạo bản sao dữ liệu không phải là không tốn chi phí. Nó làm gia tăng bộ nhớ của chương trình song song. Dung lượng bộ nhớ yêu cầu gia tăng lũy tiến cùng với số lượng tiến trình chạy đồng thời. Điều này có thể làm giới hạn lại kích thước vấn đề có thể được giải quyết trên Trang 48 một máy tính song song đã cho. Vì lý do này mà sao lưu dữ liệu phải được sử dụng một cách lựa chọn cho số lượng dữ liệu tương đối nhỏ. Bên cạnh dữ liệu nhập, các tiến trình trong một chương trình song song cũng thường chia sẽ kết quả trung gian. Trong những trường hợp như vậy, để cho các tiến trình tự tính toán kết quả trung gian sẽ hiệu quả hơn so với lấy chúng từ những tiến trình khác. 2.4.4. Các mô hình thuật toán song song Sau khi tìm hiểu về các kỹ thuật phân hoạch, ánh xạ và giảm thiểu tối đa tần số tương tác, bây giờ chúng ta sẽ giới thiệu một vài mô hình thuật toán song song hay được sử dụng. Một mô hình thuật toán là một cách thức tiêu biểu nhằm cấu trúc hóa lại một thuật toán song song bằng cách lựa chọn ra một kỹ thuật phân hoạch và ánh xạ và áp dụng kế hoạch thích hợp để tối ưu việc tương tác. 2.4.4.1. Mô hình dữ liệu song song Đây là một trong những mô hình thuật toán đơn giản nhất, các tác vụ được ánh xạ tĩnh hay bán tĩnh vào trong các tiến trình và từng tác vụ sẽ thực hiện cùng một thao tác trên các dữ liệu khác nhau. Loại song song mà có các chỉ thị tương tự nhau được áp dụng đồng thời lên các dữ liệu khác loại nhau được gọi là loại song song dữ liệu (data parallelism). Công việc có thể được thực hiện từng bước và dữ liệu thao tác trên các bước khác nhau có thể khác nhau. Bởi vì tất cả các tác vụ đều cùng thực thi các chỉ thị giống nhau, nên phương pháp phân hoạch được sử dụng ở đây là phân hoạch theo dữ liệu do một phương pháp phân hoạch thống nhất theo sau là cách thức ánh xạ tĩnh là đủ khả năng để đảm bảo cân bằng tải. Những thuật toán song song về dữ liệu có thể được áp dụng cho cả mô hình chia sẽ không gian bộ nhớ và truyền thông điệp. Tương tác trong mô hình này có thể làm giảm thiểu tối đa bằng cách áp dụng các cách thức phân họach riêng biệt cục bộ, và nếu có thể thì bằng cách chồng lấp các phép tính và các tương tác hoặc cũng có thể bằng cách sử dụng các thủ tục tối ưu các tương tác tập thể. Tính chất cốt lõi của Trang 49 các vấn đề song song dữ liệu là trong hầu hết các vấn đề, mức độ song song của dữ liệu sẽ gia tăng cùng với kích thước của vấn đề, điều này làm tăng khả năng giải quyết các vấn đề lớn hơn bằng cách gia tăng số lượng bộ xử lý được sử dụng. 2.4.4.2. Mô hình đồ thị tác vụ Như đã nói ở trên, các phép tính toán trong bất kỳ thuật toán song song nào cũng có thể được biểu diễn theo đồ thị phụ thuộc tác vụ. Nó có thể đơn giản như trong bài toán nhân ma trận hay có thể rất phức tạp. Tuy nhiên, trong những thuật toán song song cụ thể nào đó, đồ thị phụ thuộc tác vụ cũng thể hiện cách ánh xạ vào trong các tiến trình. Trong mô hình đồ thị tác vụ, mối tương giao giữa các tác vụ được sử dụng để gia tăng tính cục bộ hay làm giảm đi chi phí tương tác. Mô hình này về cơ bản được sử dụng để giải quyết những vấn đề mà trong đó dữ liệu đi theo các tác vụ là khá lớn so với nội dung tính toán. Thông thường thì các tác vụ được ánh xạ tĩnh nhằm giúp tối ưu chi phí cho việc di chuyển giữa chúng. Các kỹ thuật làm giảm tương tác có thể áp dụng cho mô hình này là giảm kích thước dữ liệu và tần số tương tác bằng cách gia tăng sử dụng dữ liệu cục bộ, và sử dụng các phương pháp tương tác bất đồng bộ để thay tương tác bằng các phép tính có lợi. 2.4.4.3. Mô hình Work Pool Cách thức ánh xạ tĩnh các tác vụ vào trong các tiến trình nhằm cân bằng tải là một tính chất tiêu biểu của mô hình work pool hay task pool, mà trong đó nó có thể được thực hiện bởi bất kỳ tiến trình nào. Trong mô hình truyền thông điệp, mô hình work pool về cơ bản thường được sử dụng khi khối lượng dữ liệu đi theo các tác vụ là khá nhỏ so với nội dung tính toán của chúng. 2.4.4.4. Mô hình Master-Slave Trong mô hình master-slave hay manager-worker, một hay nhiều tiến trình master sẽ phát sinh công việc và phân phối nó cho các tiến trình con. Các tác vụ có thể đuợc xác định một thứ tự ưu tiên nếu tiến trình chính Trang 50 có thể ước tính được kích thước của các tác vụ đó hay nếu phương pháp ánh xạ ngẫu nhiên có thể thực hiện công việc cân bằng tải. Trong ngữ cảnh khác các tác vụ có thể được gán những phần nhỏ hơn của công việc tại các thời điểm khác nhau. Thông thường người ta sử dụng cách thứ hai nếu tiến trình chính không mất quá nhiều thời gian để phát sinh công việc khiến các tiến trình con phải chờ đợi. Trong nhiều trường hợp các công việc có thể theo nhiều bước, và công việc trong mỗi bước phải được thực hiện xong trước khi công việc của bước tiếp theo được phát sinh. Đối với những trường hợp như vậy, thì tiến trình chính yêu cầu các tiến trình con phải thực hiện đồng bộ sau mỗi bước. Mô hình manager-worker có thể được thể hiện theo cấu trúc phân nhánh hay mô hình manager-worker nhiều tầng mà trong đó manager ở cấp cao hơn sẽ truyền xuống các công việc cho manager ở cấp dưới, cứ thế tiếp tục phân chia cho các worker thực hiện công việc của mình. Mô hình này nhìn chung thích hợp cho mô hình lập trình chia sẽ không gian bộ nhớ và truyền thông điệp vì thường các tương tác là theo 2 chiều, nghĩa là tiến trình chính biết mình phải phân phối công việc còn tiến trình con thì biết mình phải lấy gì từ tiến trình chủ. Trong khi sử dụng mô hình master-slave, cần phải cẩn thận để bảo đảm sao cho tại tiến trình chủ không xảy ra hiện tượng “cổ chai“, điều này có thể xảy ra nếu các tác vụ được thực thi là quá nhỏ (hay các tiến trình con làm việc quá nhanh). 2.4.4.5. Mô hình dây chuyền (pipeline) hay Producer- Consumer Trong mô hình dây chuyền, một dòng tin được truyền qua một dãy liên tiếp các tiến trình, từng tiến trình sẽ thực hiện một vài tác vụ trên đó. Quá trình thực thi đồng thời các chương trình khác nhau trên một dòng tin được gọi là song song theo dòng (stream parallelism). Ngoại trừ tiến trình khởi tạo đường ống, các dữ liệu mới tới sẽ kích hoạt một tiến trình thực thi một tác vụ trên đường ống. Các tiến trình có thể tạo những đường Trang 51 ống như vậy theo dạng tuyến tính hay mảng nhiều hướng, cây, hay các đồ thị thông thường có hay không có vòng. Một đường ống (pipeline) là một chuỗi của các producer và consumer. Từng tiến trình trong đường ống có thể được xem như là người tiêu thụ cho một dãy các phần tử dữ liệu của tiến trình trước đó và cũng là người sản xuất dữ liệu cho tiến trình tiếp theo trong đường ống. Đường ống không nhất thiết là một chuỗi tuyến tính, mà nó có thể là một đồ thị có hướng. Mô hình đường ống thường sử dụng ánh xạ tĩnh các tác vụ vào trong các tiến trình. 2.4.4.6. Mô hình lai Trong một vài trường hơp, có thể áp dụng nhiều hơn một mô hình cho một vấn đề, dẫn đến tạo ra mô hình thuật toán lai. Một mô hình lai có thể được kết hợp từ nhiều mô hình áp dụng theo dạng phân nhánh hay từ nhiều mô hình áp dụng tuần tự cho các bước khác nhau của một thuật toán song song. Trong nhiều trường hợp, một dạng biểu diễn của thuật toán có thể có nhiều tính chất của nhiều hơn một mô hình thuật toán. Ví dụ như là một phép tính chính có thể được thể hiện thành một đồ thị tác vụ, nhưng mỗi nút của đổ thị có thể là một tác vụ cha được kết hợp từ nhiều tác vụ con thích hợp cho mô hình song song dữ liệu hay dây chuyền. Thuật toán Quicksort song song là một trong những áp dụng của mô hình lai. Trang 52 Chương 3. Các môi trường hỗ trợ tính toán lưới 3.1. Giới thiệu Mục tiêu chính của lập trình Grid là nghiên cứu về các mô hình lập trình, các công cụ và các phương pháp nhằm hỗ trợ cho việc phát triển hiệu quả các thuật toán và các chương trình hiệu năng cao trên môi trường lưới. Lập trình lưới yêu cầu các kỹ năng và tính chất cao hơn so với lập trình tuần tự, và thậm chí là lập trình song song và phân tán. Bên cạnh việc sắp xếp các thao tác đơn giản trên những cấu trúc dữ liệu riêng, hay sắp xếp các thao tác phức tạp trên những cấu trúc dữ liệu chia sẽ hay phân tán, một lập trình viên tính toán lưới cần phải đảm nhiệm luôn việc quản lý tính toán trên môi trường. Bên cạnh việc chỉ thực hiện các thao tác đơn giản, người lập trình lưới cũng phải thiết kế tương tác giữa những dịch vụ từ xa, nguồn dữ liệu và tài nguyên phần cứng. Mặc dù người ta có thể xây dựng các ứng dụng Grid với các công cụ lập trình hiện tại, nhưng người ta vẫn đang đồng lòng nhất trí với nhau rằng hiện nay chúng vẫn không đáp ứng hiệu quả để hỗ trợ cho việc xây dựng mã nguồn Grid. Các ứng dụng lưới thường có xu hướng động và không đồng nhất, bởi vì chúng sẽ chạy trên các loại nguồn tài nguyên khác nhau với cấu hình thay đổi khi thực thi. Những cấu hình động này có thể được thúc đẩy bởi sự thay đổi của môi trường, ví dụ như thay đổi hiệu năng hay lỗi của phần cứng, v.v…Bất kể nguyên nhân gì thì liệu một mô hình hay một công cụ lập trình nào đó có thể làm cho các nguồn tài nguyên “hỗn tạp” ấy trở nên “gần gũi” với những người lập trình hay không? che dấu các khác biệt đó trong khi vẫn cho phép người lập trình quyền điều khiển trên các loại tài nguyên nếu có thể? Nhưng nếu có một sự trừu tượng thích hợp được sử dụng thì liệu nó có được hỗ trợ, cung cấp bởi các hệ thống thời gian thực? Grid thường được sử dụng cho tính toán hiệu năng cao với quy mô lớn. Để đạt được hiệu năng cao thì yêu cầu cần phải có một sự cân bằng giữa tính toán và thông tin giữa các nguồn tài nguyên liên quan. Hiện tại thì chúng ta có Trang 53 thể thực hiện điều này bằng cách quản lý tính toán, thông tin, và dữ liệu cục bộ sử dụng truyền thông điệp (message passing) hay gọi yêu cầu các phương thức từ xa (remote method invocation - RMI). Để giải quyết các vấn đề này, chúng ta phải biết được rằng các mô hình lập trình hiện nay đang thiếu những gì, cần thêm những khả năng mới gì, và nó sẽ được thực thi ở mức ngôn ngữ, mức công cụ hay ở hệ thống thời gian thực nào. Thuật ngữ mô hình lập trình ở đây được sử dụng không chỉ liên quan đến ngôn ngữ lập trình. Một mô hình lập trình có thể được thể hiện theo nhiều dạng khác nhau, ví dụ như một ngôn ngữ, một thư viện API, hay đơn thuần chỉ là một công cụ có các chức năng mở rộng. Một mô hình lập trình thành công nhất là mô hình có hiệu năng cao, sự kết hợp và quản lý linh hoạt các nguồn tài nguyên. Các mô hình lập trình cũng phải ảnh hưởng đến toàn bộ chu trình phát triển phần mềm : thiết kế, cài đặt, kiểm lỗi, vận hành, duy trì, v.v…Vì thế những mô hình thành công cũng phải đáp ứng việc sử dụng hiệu quả tất cả các loại công cụ phát triển, ví dụ như là trình biên dịch, trình sửa lỗi, trình theo dõi hiệu năng… Trước tiên ta sẽ tìm hiểu các vấn đề chính khi lập trình lưới, sau đó chúng ta sẽ tìm hiểu một vài mô hình lập trình phổ biến đang được sử dụng và đề xuất trên môi trường Grid. Tiếp theo chúng ta sẽ thảo luận các phương pháp và kỹ thuật lập trình nhằm giải quyết các vấn đề phức tạp bằng cách sử dụng các công cụ đang có hiện nay. 3.2. Các vấn đề khi lập trình luới 3.2.1. Tính mang chuyển, tính khả thi và khả năng thích ứng Các ngôn ngữ lập trình cấp cao hiện nay cho phép người dùng viết mã nguồn hoàn toàn độc lập với bộ xử lý. Các mô hình lập trình lưới cũng nên có khả năng như vậy. Điều này đối với các máy ảo thông dịch nghĩa là độc lập về kiến trúc, nhưng nó cũng có nghĩa là khả năng sử dụng các đoạn mã nguồn hay dịch vụ ở nhiều nơi khác nhau để cung cấp thành một chức năng tương tự. Tính Trang 54 khả chuyển như vậy là một điều kiện tiên quyết cho việc sao chép các cấu hình động và không đồng nhất. Việc sử dụng những đoạn mã nguồn và dịch vụ khác nhau nhưng có chức năng tương tự nhau thể hiện tính cộng tác trong việc thi hành các mô hình lập trình. Khái niệm về một kiến trúc Grid mở và có tính mở rộng ngụ ý là một môi trường phân tán có thể hỗ trợ cho các giao thức, dịch vụ, giao diện lập trình ứng dụng và các công cụ phát triển phần mềm. Cuối cùng tính mang chuyển và tính cộng tác sẽ dẫn đến khả năng thích ứng. Một chương trình Grid phải có khả năng thích ứng với các cấu hình khác nhau dựa trên nguồn tài nguyên sẵn có. Điều này có thể xảy ra vào thời điểm bắt đầu, hay tại thời điểm thực thi nguyên do sự thay đổi các yêu cầu của ứng dụng hay do khả năng phục hồi lỗi. Khả năng thích ứng như vậy có thể liên quan đến một bước khởi động lại đơn giản ở đâu đó hay là một sự tích hợp thật sự giữa tiến trình và dữ liệu. 3.2.2. Khả năng phát hiện tài nguyên Tìm ra các tài nguyên hiện có trên mạng là một phần quan trọng của tính toán lưới. Mã nguồn của chương trình lưới sẽ chỉ ra rõ ràng những máy (host) thích hợp nào để chạy chương trình. Tuy nhiên bởi vì Grid chứa đựng nhiều dịch vụ cố định, nên chúng cũng vẫn phải có khả năng tìm ra các dịch vụ này và các giao diện mà chúng hỗ trợ. Cách sử dụng các dịch vụ này phải có khả năng tái lập trình và kết hợp lại theo một cách thống nhất. Vì thế môi trường và công cụ lập trình phải chú ý tìm ra các dịch vụ hiện có và cung cấp cho người dùng các cách thức tường minh hay ngầm ẩn để khai thác chúng trong quá trình xây dựng và triển khai các ứng dụng Grid. 3.2.3. Hiệu năng Rõ ràng đối với nhiều ứng dụng Grid, vấn đề hiệu năng là điều rất đáng quan tâm. Bởi vì Grid sử dụng băng thông hỗn tạp và các hệ thống phân cấp ẩn cho nên điều này gây khó khăn cho việc đạt được hiệu năng tốt nhất và cách sử dụng hiệu quả các nguồn tài nguyên. Trang 55 Tuy nhiên đối với nhiều ứng dụng, để đạt hiệu năng đáng tin cậy cũng là một vấn đề khá quan trọng. Một môi trường động và không đồng nhất có thể tạo ra nhiều khả năng thực thi khác nhau mà có thể sẽ không được chấp nhận trong nhiều tình huống. Vì thế trong môi trường chia sẽ, chất lượng dịch vụ sẽ trở nên càng cần thiết nhằm đạt được hiệu năng đáng tin cậy trên một cấu hình tài nguyên đã cho. Trong khi người dùng có thể yêu cầu mô hình theo một hiệu năng nào đó, tuy nhiên sẽ hợp lý hơn nếu hiệu năng cung cấp nằm bên trong một khoảng giới hạn nào đó. 3.2.4. Dung lỗi Việc cần có nhiều cấp độ dung lỗi trong môi trường Grid là hoàn toàn cần thiết. Điều này đặc biệt đúng khi các ứng dụng khởi tạo hàng ngàn các công việc độc lập tương tự với nhau trên hàng ngàn máy trạm (host). Rõ ràng khi số lượng các tài nguyên tham gia tính toán ngày càng tăng thì cũng làm gia tăng xác suất bị hỏng. Các chương trình Grid phải có khả năng kiểm tra các lỗi khi đang thực thi, và bên cạnh đó cũng phải cung cấp khả năng phục hồi và phản ứng khi có lỗi xảy ra ở cấp độ chương trình. Tại thời điểm đó các công cụ cũng phải bảo đảm cho các phép tính cũng được thực thi ở cấp độ tối thiểu khi có lỗi xảy ra. 3.2.5. Bảo mật Chúng ta sẽ còn tiếp tục chứng kiến sự phát triển của tính toán lưới trên nhiều domain chia sẽ, như là các mạng. Trong khi việc cung cấp một chức năng chứng thực mạnh giữa hai site là cực kỳ quan trọng, thì bên cạnh đó việc quản lý chương trình trên nhiều site cũng là điều không đơn giản. Vì thế, một phương pháp bảo mật có cấp khả năng xác thực người dùng phải được tích hợp vào trong các mô hình lập trình lưới. 3.2.6. Các siêu mô hình Phương pháp lập trình truyền thống với các ngôn ngữ lập trình cổ điển dựa vào trình biên dịch để thực hiện việc chuyển đổi giữa 2 mô hình lập trình, như là giữa ngôn ngữ cấp cao C hay Fortran, với tập các chỉ thị phần cứng thể Trang 56 hiện bởi việc thực thi tuần tự các hàm trên dữ liệu trong bộ nhớ. Quá trình chuyển đổi này có thể là sự xây dựng của một số các mô hình liên quan đến ngữ nghĩa của mã nguồn và sự áp dụng một số tính năng cải tiến như tối ưu, dọn dẹp bộ nhớ, và kiểm tra phạm vi. Sự kết hợp các siêu mô hình tương tự sẽ góp phần xây dựng chương trình Grid. 3.3. Tổng quát về các môi trường hỗ trợ 3.3.1. Một số môi trường Grid 3.3.1.1. NetSolve NetSole là một ứng dụng client/server đuợc thiết kế để giải quyết những vấn đề tính toán khoa học trong môi trường phân phối. Agent Agent Network of servers Client Client MPP servers Scalar serverrequest choice reply Hình 3-1 : Mô hình NetSolve Hệ thống Netsolve dựa trên những hệ thống phân phối, được kết nối thông qua mạng LAN hay WAN. Những chương trình từ máy khách Netsolve có thể được viết bằng C hay FORTRAN, và sử dụng Web để giao tiếp với Server. Một server Netsolve có thể sử dụng một số gói phần mềm liên quan đến khoa học để cung cấp cho những phần mềm tính toán. Những giao tiếp truyền thông bên trong Netsolve thông qua những socket. Netsolve đáp ứng những khả năng cho việc tìm kiếm những tài nguyên máy tính trên một mạng máy Trang 57 tính, chọn những tài nguyên sẵn dùng tốt nhất, giải quyết một vấn đề, và trả kết quả cho người sử dụng. 3.3.1.2. Legion Là một hệ thống trên cơ sở đối tượng được phát triển ở đại học Virginia (Hoa Kỳ). Legion cung cấp kiến trúc phần mềm để hệ thống những máy tính phân phối khắp nơi, với số lượng khổng lồ có thể giao tiếp với nhau một cách dễ dàng. Trong hệ thống Legion, có những đặc điểm sau sau: - Mọi thứ là một đối tượng. Những đối tượng đặc trưng cho tất cả các phần cứng và phần mềm. Mỗi đối tượng là một xử lý hoạt động, đáp ứng những yêu cầu giải pháp cho những đối tượng khác bên trong hệ thống. Legion định nghĩa một tập API cho việc giao tiếp đối tượng. Nhưng không phải là ngôn ngữ lập trình hay giao thức truyền thông. - Những lớp quản lý những trường hợp. Mọi đối tượng Legion được định nghĩa và quản lý bởi chính đối tượng hoạt động .Những lớp đối tượng có những khả năng như sau: tự tạo một trường hợp thể hiện (instance), lập biểu cho việc thực thi, làm cho một đối tượng khác hoạt động, hay không hoạt động, và cung cấp thông tin về trạng thái cho những đối tượng thuộc về các máy tính khác. Những người dùng có thể định nghĩa thêm các lớp mới. Giống ngôn ngữ lập trình hướng đối tượng, người dùng có thể định nghĩa lại hay viết lại những chức năng của một lớp. Đặc điểm này cho phép những chức năng này có thể thêm, hay xoá tùy theo nhu cầu của người dùng. Hệ thống Legion hỗ trợ một tập các dạng đối tượng cốt lõi : • Những lớp và lớp tự định nghĩa • Những đối tượng chủ : Những đối tượng chủ là sự trừu tượng hóa của việc xử lý những tài nguyên, chúng có thể thể hiện một bộ xử lý đơn hay nhiều máy tính hay mhiều bộ xử lý. 3.3.1.3. Globus Trang 58 Globus cung cấp một cơ sở hạ tầng phần mềm, làm cho những ứng dụng có thể quản lý phân phối những tài nguyên tính toán khổng lồ như một máy tính đơn ảo. Một Grid, là một cở sở hạ tầng phần cứng và phần mềm, cung cấp truy xuất các tài nguyên khắp nơi dùng cho tính toán cấp cao, dù cho sự phân phối thuộc về địa lý của tài nguyên và người sử dụng có sự cản trở. Globus cung cấp những dịch vụ cơ bản và những khả năng được yêu cầu để cấu trúc một mạng tính toán lưới. Bộ công cụ bao gồm một tập hợp các thành phần bổ sung cho những dịch vụ cơ bản, chẳng hạn như bảo mật, định vị tài nguyên, quản lý tài nguyên, và dịch vụ truyền thông. Mạng tính toán lưới được hỗ trợ một số lượng lớn những ứng dụng và mô hình lập trình, đó là một điều thiết yếu.Vì thế, việc cung cấp hơn một mô hình lập trình chuẩn, chẳng hạn như mô hình lập trình hướng đối tượng là điều thiết yếu. Globus cung cấp một số dịch vụ cho phép những nhà phát triển công cụ đặc biệt hay những ứng dụng có thể sử dụng để tạo ra những yêu cầu cụ thể cho chính họ. Phương pháp này chỉ khả thi khi những dịch vụ có sự khác biệt và được định nghĩa tốt thông qua những tập API của nó, Globus được kiến tạo như một tầng kiến trúc với những dịch vụ cấp cao được xây dựng trên những dịch vụ cốt lõi ở tầng thấp hơn. Bộ công cụ Globus được phân thành những mô đun, và một ứng dụng có thể khai thác những đặc điểm này của từng mô đun của Globus, chẳng hạn như sự quản lý tài nguyên hay hạ tầng thông tin, mà không sử dụng những thư viện truyền thông của Globus. Bộ công cụ Globus hỗ trợ những dịch vụ sau : • GSI (Grid Security Infrastructure): kiến trúc bảo mật • GridFTP: giao thức truyền tập tin • GRAM (Globus Resource Allocation Manager): quản lý các tài nguyên trên môi trường Grid. • Metacomputing Directory Service • Globus Access to Secondary Storage • Data catalogue và replica management Trang 59 • Advanced Resource Reservation và Allocatoin(GARA) Hình 3-2 : Các thành phần của Globus Globus có thể được nhìn nhận như một hệ thống cơ bản cho tính toán lưới, ngoài việc cung cấp cho nhà phát triển ứng dụng một tập thư viện API đặc trưng cho các dịch vụ Globus mà cung cấp. Globus còn cung cấp cho những nhà phát triển ứng dụng một phương tiện hiện thực cho việc bổ sung các dịch vụ để cung ứng cho môi trường thực thi ứng dụng trên một vùng rộng lớn. 3.3.2. Những mô hình lập trình và công cụ hỗ trợ Cho đến lúc này, gần 20 năm nghiên cứu và phát triển trong ngành lập trình song song và phân bố. Việc thiết kế hệ thống phân bố đã hướng nền phát tiển kỹ thuật phần cứng lên một tầm cao mới và ước hẹn có thể xây dựng được hệ thống tốt, cải thiện được trạng thái hiện thời và sử dụng lại hệ thống. Sự phát triển Grid computing cũng lấy gốc từ việc tính toán song song và phân bố này, bởi vì chúng đã xác lập được những phương pháp lập trình nền tảng cho sự phân bố và song song hoá .Chúng em sẽ đưa ra một số mô hình lập trình và công cụ mà ngày nay đã được thực nghiệm trên thế giới 3.3.2.1. Mô hình chia sẽ trạng thái Trang 60 Mô hình lập trình Shared-state đặc trưng cho sự liên kết chặt chẽ ,những ngôn ngữ đồng bộ và những mô hình thực thi cho những máy tính chia sẻ bộ nhớ và hệ thống mạng chia sẻ vùng nhớ giữa các máy tình, với băng tầng truyền thông cao và độ trễ trong việc truyền thông thấp. Việc này quyết định môi trường Grid và sẽ làm tác động đến các công cụ lập trình khác trở nên không hiệu quả, vì thế cần có một số mô hình lập trình thiết yếu dựa trên hình thức chia sẻ trạng thái, và như thế trình sản xuất và tiêu thụ dữ liệu giữa các tiến trình được phân chia rõ ràng hơn trên môi trường Grid. • JavaSpaces Javaspaces là một sự bổ sung dựa trên Java với khái niệm không gian biến (tuplespace) Linda, điều này được minh hoạ bằng một tập biến được thể hiện bởi một tập các đối tượng. Sử dụng Java có đặc điểm là nhiều client và server tương tác với nhau mà không liên quan đến những kiến trúc của bộ xử lý và hệ điều hành. Sử dụng JavaSpaces nhìn nhận một ứng dụng như một tập những xử lý giao tiếp với nhau bằng cách nhận và đưa những đối tượng vào một hay nhiều vùng không gian (space). Một không gian (space) là một kho chứa đối tượng cụ thể và được chia sẻ và được truy xuất thông qua mạng máy tí

Các file đính kèm theo tài liệu này:

  • pdfUnlock-01120790112339.pdf