Tài liệu Đề tài Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách trong cơ sở dữ liệu không gian: Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
1
LỜI CẢM ƠN
Trong thời gian thực hiện đề tài khóa luận tốt nghiệp, dưới sự hướng dẫn tận
tình của giáo viên hướng dẫn và được phía nhà trường tạo điều kiện thuận lợi, tôi
đã có một quá trình nghiên cứu, tìm hiểu và học tập nghiêm túc để hoàn thành đề
tài. Kết quả thu được không chỉ do nỗ lực của cá nhân tôi mà còn có sự giúp đỡ
của quý thầy cô, gia đình và các bạn.
Tôi xin chân thành cảm ơn
Bán giám hiệu nhà trường, Ban chủ nhiệm khoa Công Nghệ Thông Tin –
Trường Đại học Công Nghệ đã quan tâm, tạo điều kiện giúp tôi hoàn
thành hoàn thành khóa luận tốt nghiệp.
Thầy Nguyễn Hải Châu: Thầy đã hướng dẫn, hỗ trợ tôi hoàn thành tốt đề
tài về phương pháp, lý luận và nội dung trong suốt thời gian thực hiện
khóa luận tốt nghiệp.
Gia đình đã tạo điều kiện học tập tốt nhất.
Các bạn đã giúp đỡ, trao đổi thông tin về đề tài trong quá trình thực ...
95 trang |
Chia sẻ: hunglv | Lượt xem: 1361 | Lượt tải: 0
Bạn đang xem trước 20 trang mẫu tài liệu Đề tài Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách trong cơ sở dữ liệu không gian, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
1
LỜI CẢM ƠN
Trong thời gian thực hiện đề tài khóa luận tốt nghiệp, dưới sự hướng dẫn tận
tình của giáo viên hướng dẫn và được phía nhà trường tạo điều kiện thuận lợi, tôi
đã có một quá trình nghiên cứu, tìm hiểu và học tập nghiêm túc để hoàn thành đề
tài. Kết quả thu được không chỉ do nỗ lực của cá nhân tôi mà còn có sự giúp đỡ
của quý thầy cô, gia đình và các bạn.
Tôi xin chân thành cảm ơn
Bán giám hiệu nhà trường, Ban chủ nhiệm khoa Công Nghệ Thông Tin –
Trường Đại học Công Nghệ đã quan tâm, tạo điều kiện giúp tôi hoàn
thành hoàn thành khóa luận tốt nghiệp.
Thầy Nguyễn Hải Châu: Thầy đã hướng dẫn, hỗ trợ tôi hoàn thành tốt đề
tài về phương pháp, lý luận và nội dung trong suốt thời gian thực hiện
khóa luận tốt nghiệp.
Gia đình đã tạo điều kiện học tập tốt nhất.
Các bạn đã giúp đỡ, trao đổi thông tin về đề tài trong quá trình thực hiện
khóa luận.
Trong quá trình thực hiện và trình bày khóa luận không thể tránh khỏi những
sai sót và hạn chế, do vậy tôi rất mong nhận được sự góp ý, nhận xét phê bình
của quý thầy cô và các bạn.
Kính chúc quý thầy cô và các bạn sức khỏe!
Người thực hiện đề tài
Hoàng Thị Hồng Trang
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
2
MỤC LỤC
MỤC LỤC........................................................................................................................ 2
MỤC LỤC BẢNG BIỂU ................................................................................................ 5
A. PHẦN MỞ ĐẦU...................................................................................................... 7
1. Giới thiệu .............................................................................................................. 7
2. Ý nghĩa khoa học và thực tiễn .............................................................................. 8
3. Mục đích nghiên cứu ............................................................................................ 9
4. Đối tượng nghiên cứu ......................................................................................... 10
5. Phạm vi nghiên cứu ............................................................................................ 10
B. NỘI DUNG ............................................................................................................ 11
CHƯƠNG 1: TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU KHÔNG GIAN....................... 11
1. Khái niệm........................................................................................................... 11
1.1 Hệ thống cơ sở dữ liệu không gian............................................................... 11
1.2. Cơ sở dữ liệu không gian (Spatial Database) .............................................. 12
2. Mô hình cơ sở dữ liệu không gian ................................................................... 16
2.1 Xây dựng mô hình CSDL không gian ............................................................ 17
2.2 Cơ sở hình học trong tổ chức các đối tượng không gian cơ bản.................. 25
3. Truy vấn thực hiện trong CSDL không gian.................................................. 30
CHƯƠNG 2: BÀI TOÁN TÍNH TOÁN XẤP XỈ VỚI CÁC TRUY VẤN LIÊN
QUAN ĐẾN KHOẢNG CÁCH TRONG CƠ SỞ DỮ LIỆU KHÔNG GIAN........ 34
1. Các truy vấn liên quan đến khoảng cách........................................................ 34
1.1 Truy vấn khu vực theo khoảng cách δ ........................................................... 37
1.2 Truy vấn K vùng lân cận gần nhất................................................................. 38
1.3 Truy vấn nối các khu vực theo khoảng cách δ (truy vấn đệm).................... 39
1.4 Phép nối khoảng cách Iceberg...................................................................... 39
1.5 Truy vấn K cặp đối tượng gần nhất .............................................................. 39
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
3
1.6 Nối K vùng lân cận gần nhất ........................................................................ 40
1.7 Truy vấn K- nối khoảng cách ......................................................................... 40
2 R – Tree.............................................................................................................. 42
2.1 Khái niệm.......................................................................................................... 43
2.2 Cấu trúc của một R-tree.................................................................................. 45
2.3 Thuật toán R-Tree ........................................................................................... 47
3 Các kỹ thuật tính toán xấp xỉ khoảng cách .................................................... 56
3.1 Thu nhỏ không gian tìm kiếm ...................................................................... 56
3.2 Kỹ thuật tìm kiếm theo kinh nghiệm........................................................... 59
3.2.1 Tìm kiếm khu vực.......................................................................................... 59
3.2.2 Simulated Annealing ..................................................................................... 60
3.2.3 Thuật toán phát sinh ..................................................................................... 61
CHƯƠNG 3 MỘT SỐ ỨNG DỤNG CỦA BÀI TOÁN TÍNH TOÁN XẤP XỈ
KHOẢNG CÁCH TRONG THỰC TẾ....................................................................... 63
1. Ứng dụng trong việc xây dựng một hệ thống khung (framework) xử lý hiệu
quả các truy vấn không gian cơ bản. ...................................................................... 64
2. Tăng tốc quá trình phân tích, thực thi và hiển thị dữ liệu địa lý trong các
truy vấn liên quan đến khoảng cách (DBQs) ......................................................... 66
3. Xây dựng thuật toán xấp xỉ như một công cụ hạn chế những khó khăn phát
sinh đối với kích thước địa lý của đối tượng .......................................................... 68
4. Tính toán độ chính xác về vị trí trên bản đồ và chênh lệch về khoảng cách
giữa các đối tượng trong truy vấn ........................................................................... 70
CHƯƠNG 4 MỘT SỐ THUẬT TOÁN TÍNH KHOẢNG CÁCH TRONG KHÔNG
GIAN ĐỊA LÝ & ĐÁNH GIÁ HIỆU NĂNG.............................................................. 74
1. Tính toán khoảng cách giữa các đối tượng địa lý theo công thức Haversine
74
1.1 Công thức Haversine..................................................................................... 74
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
4
1.2 Công thức Haversine trong truy vấn tìm khoảng cách ngắn nhất............ 77
1.3 Đánh giá thuật toán Haversine ....................................................................... 81
2. Tính toán khoảng cách trong hệ tọa độ địa lý theo khoảng cách Vincenty. 82
2.1 Khái niệm.......................................................................................................... 82
2.2 Thuật toán Vincenty ........................................................................................ 85
3. Đánh giá thuật toán Haversine và Vincenty....................................................... 89
C. KẾT LUẬN............................................................................................................ 91
1. Những kết quả đạt được...................................................................................... 91
2. Đánh giá .............................................................................................................. 92
3. Hướng phát triển ................................................................................................. 92
TÀI LIỆU THAM KHẢO............................................................................................ 93
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
5
MỤC LỤC BẢNG BIỂU
Hình 1: Trang WebGis www.bando.com.vn ........................................................15
Hình 2: (a) Một region mẫu, (b) Biểu diễn dạng mảng nhị phân của region, (c)
Các khối cực đại và các khối phổ thông được chia sẻ trong region - (d) quadtree
tương ứng. .............................................................................................................20
Hình 3: Ví dụ một PR quadtree.............................................................................22
Hình 4: Biểu diễn dạng đường..............................................................................24
Hình 5: Biểu diễn dạng khu vực ...........................................................................24
Hình 6: Biểu diễn tập đối tượng trong khu vực ....................................................24
Hình 7: Biểu diễn đối tượng dạng mạng lưới .......................................................25
Hình 8: Mô hình d-simplex..................................................................................26
Hình 9: Phép toán hợp trong không gian địa lý ....................................................28
Hình 10: Phép toán trừ trong không gian địa lý....................................................28
Hình 11: Phép toán giao trong không gian địa lý .................................................28
Hình 12: Phép toán bao phủ trong không gian địa lý ...........................................29
Hình 13 Các hàm toán tử trong không gian địa lý................................................30
Hình 14: Mô hình dữ liệu quan hệ xây dựng dựa trên Benchmark database........36
Hình 15: R-Tree và MBRs trong truy vấn ............................................................42
Hình 16: R-Tree và truy vấn trong hai cấu trúc MBR khác nhau.........................42
Hình 17: Ví dụ về R-Tree .....................................................................................44
Hình 18: Cây biểu diễn R-Tree.............................................................................47
Hình 19: Biểu diễn hai chiều của một R-Tree ......................................................47
Hình 20: Cấu trúc một R-Tree ..............................................................................48
Hình 21: Các quan hệ có thể có giữa các MBR (chứa trong, chồng lấn…) .........49
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
6
Hình 22: Trường hợp phân chia node ...................................................................53
Hình 23: Phân chia entry thành các nhóm node mới ............................................54
Hình 24: Minh họa cấu trúc sản phẩm ArcGIS của ESRI ....................................66
Hình 25: Kiến trúc CSDL trên nền tảng Microsoft...............................................68
Hình 26: Trang web bản đồ trực tuyến diadiem.com ...........................................72
Hình 27: Trang web bản đồ trực tuyến basao.com ...............................................73
Hình 28: Hình dạng Elip của trái đất ....................................................................76
Hình 29: Khoảng cách AB tính theo công thức Haversine trên bản đồ địa lý......79
Hình 30: Mô hình dữ liệu quan hệ ........................................................................80
Hình 31: Thông số các hệ tọa độ elip tròn xoay ...................................................84
Hình 32: Khoảng cách tính theo thuật toán Haversine và Vincenty.....................89
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
7
A. PHẦN MỞ ĐẦU
1. Giới thiệu
Trong vài năm trở lại đây, cùng với sự phát triển không ngừng của các kỹ
thuật công nghệ hiện đại, “kỷ nguyên số” đã được bắt đầu và ứng dụng trong
mọi lĩnh vực khoa học cũng như phục vụ nhu cầu sử dụng của con người. Nếu
như cách đây vài thập kỷ, câu chuyện con người có thể quan sát toàn cảnh trái
đất từ trên cao xuống thông qua các thiết bị kỹ thuật như máy tính, tivi… tại
bất kỳ đâu và bất kỳ lúc nào vẫn là một viễn cảnh xa vời thì ngày nay điều này
đã trở nên quá đơn giản. Để có thể quan sát Trái đất từ mọi góc độ, một cá
nhân chỉ cần trang bị cho mình một máy tính nối mạng, và một phần mềm
hiển thị hình ảnh 3D như Google Earth hay truy cập vào các trang web bản đồ
trực tuyến sẵn có trên mạng Internet…
Như vậy, trong bối cảnh hiện tại, sự hiện thực hóa bản đồ số và đưa các kỹ
thuật lập bản đồ cũng như phân tích địa lý vào sử dụng rộng rãi với mục đích
dân sự cho tất cả các tổ chức, cá nhân có nhu cầu đang trở thành một ngành
kinh doanh nhiều lợi nhuận. Trong đó phải kể đến GIS – Hệ thống thông tin
địa lý – với rất nhiều công cụ ứng dụng trợ giúp đắc lực cho quá trình xây
dựng hệ thống hạ tầng cơ sở dữ liệu không gian và quản lý dữ liệu địa lý.
Cùng với đó là hàng loạt các sản phẩm toàn diện và chuyên biệt sử dụng trong
ngành khoa học bản đồ và xử lý dữ liệu không gian địa lý được các hãng sản
xuất tung ra. Công nghệ GIS cùng với các sản phẩm phần mềm hỗ trợ có rất
nhiều ứng dụng trong khoa học nghiên cứu, phục vụ trong đời sống, dịch vụ
công ích, quản lý tài nguyên…. và nhiều lĩnh vực khác. Trong cuộc cạnh tranh
ngôi vị nhà cung cấp hàng đầu các sản phẩm ứng dụng GIS và xử lý dữ liệu
địa lý thì yếu tố giá thành cũng như hiệu năng của chương trình là quan trọng
nhất.
Trong cuộc cạnh tranh về công nghệ này, nhiều nghiên cứu đã được đưa ra
như: Tối ưu hóa khả năng quản lý dữ liệu địa lý bằng phương pháp đánh chỉ
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
8
mục động với cấu trúc dạng cây (tree-like structure) phục vụ tăng tốc quá
trình tìm kiếm dữ liệu – đây là vấn đề đặc biệt quan trọng với một khối lượng
dữ liệu khổng lồ và phức tạp như thông tin địa lý. Tăng tốc quá trình thực thi
với các truy vấn đến Cơ sở dữ liệu không gian, tối thiểu hóa thời gian thực thi
của hệ thống, đơn giản hóa độ phức tạp tính toán trong giải thuật nhằm tiết
kiềm thời gian thực hiện và tăng hiệu năng tính toán. Trong vấn đề về giải
thuật, phương pháp ưu việt chính là tìm ra và áp dụng các thuật toán tính toán
khoảng cách tốt nhất, đảm bảo yêu cầu dung hòa giữa độ phức tạp tính toán,
tốc độ thực thi và độ chính xác càng cao càng tốt.
Nhận thấy sự cần thiết trong ngành khoa học nghiên cứu lý thuyết về các
thuật toán tính toán khoảng cách giữa các đối tượng địa lý trong thực tế và vai
trò to lớn của các bài toán tính toán gần đúng này, đề tài khóa luận tốt nghiệp
“Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách trong cơ sở
dữ liệu không gian” đã được xây dựng dựa trên quá trình nghiên cứu các
thành tựu khoa học trong lĩnh vực này và hệ thống lại một cách bài bản và chi
tiết.
Bố cục khóa luận
Khóa luận tốt nghiệp được trình bày với phần nội dung gồm 04 chương:
Chương 1: Tổng quan về cơ sở dữ liệu không gian.
Chương 2: Bài toán tính toán xấp xỉ với các truy vấn liên quan đến
khoảng cách trong cơ sở dữ liệu không gian.
Chương 3: Một số ứng dụng của bài toán tính toán xấp xỉ khoảng cách
trong thực tế.
Chương 4: Một số thuật toán tính toán khoảng cách trong không gian
địa lý và đánh giá hiệu năng.
2. Ý nghĩa khoa học và thực tiễn
Về khía cạnh nghiên cứu khoa học, các tập đoàn công nghệ trong lĩnh vực
GIS vẫn không ngừng nghiên cứu các phương pháp tối ưu hóa các sản phẩm
sử dụng thông tin địa lý trong các thiết bị hỗ trợ bản đồ, tìm đường và xác
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
9
định vị trí địa lý của đối tượng. Trong đó, giải pháp đặt ra không chỉ dừng ở
việc xây dựng một hệ quản trị cơ sở dữ liệu chuyên biệt quản lý dữ liệu không
gian và các thuộc tính đặc biệt của nó với dung lượng khổng lồ và phức tạp,
quan trọng hơn là giải pháp nào để tối ưu hóa hiệu năng truy xuất dữ liệu, các
giải thuật đề xuất giúp hệ thống thực thi các phép toán (đặc biệt là các phép
tính khoảng cách quy mô hàng chục ngàn km) phải thật nhanh chóng nhưng
vẫn đảm bảo độ chính xác cần thiết. Trong không gian địa lý với đặc thù bề
mặt Trái đất không ổn định, việc dùng các phương pháp tính toán gần đúng là
không thể tránh khỏi, tuy nhiên sai số đặt ra cần nằm trong khoảng chấp nhận
được, sự cân bằng giữa độ chính xác và thời gian xử lý, trả lời truy vấn và giá
thành chính là chìa khóa thành công cho bất kỳ sản phẩm có sử dụng thuật
toán dò đường và tính khoảng cách nào.
Khóa luận trình bày cụ thể về các giải pháp sử dụng trong bài toán tính
toán xấp xỉ khoảng cách, hệ thống một cách khoa học các kỹ thuật sử dụng
trong tìm kiếm đối tượng cũng như tính khoảng cách giữa các đối tượng trong
truy vấn. Đây hầu hết là những kỹ thuật quan trọng và hiệu quả đang được sử
dụng rộng rãi trong các ứng dụng khai thác thông tin về đường đi, địa điểm và
quảng cáo trên nền tảng bản đồ số. Do đó các vấn đề về lý thuyết trong lĩnh
vực này luôn là đề tài khoa học có tính chất thời sự trên các diễn đàn công
nghệ GIS cũng như trong đội ngũ các nhà phân tích, thiết kế sản phẩm. Từ các
thuật toán có sẵn, nhà sản xuất hoàn toàn có thể cài đặt và “nhúng” vào trong
nhiều ứng dụng như: Bản đồ kỹ thuật số, phần mềm định vị và chỉ đường trên
các thiết bị cầm tay, các thiết bị di động đi kèm các phương tiện giao thông,
thiết bị tìm vết và đường đi ngắn nhất tích hợp GPS (Hệ thống định vị toàn
cầu), ….
3. Mục đích nghiên cứu
Đề tài được thực hiện với mục đích
Tìm hiểu khái niệm Cơ sở dữ liệu không gian, các công nghệ GIS đương
đại.
Nghiên cứu các kỹ thuật tính toán gần đúng về khoảng cách và các thuật
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
10
toán liên quan sử dụng trong các truy vấn trên CSDL không gian.
Các ứng dụng thiết thực của bài toán tính toán xấp xỉ trong công nghệ
thông tin địa lý.
Thử nghiệm một số truy vấn sử dụng kỹ thuật tính toán xấp xỉ trong một
số truy vấn tiêu biểu.
4. Đối tượng nghiên cứu
Mô hình, cấu trúc dữ liệu và cách xây dựng dữ liệu không gian và hệ
quản trị CSDL không gian, các phép toán thực thi.
Các kỹ thuật tính toán xấp xỉ khoảng cách trong không gian tìm kiếm và
các thuật toán.
Sản phẩm ứng dụng các kỹ thuật tính toán xấp xỉ đang được sử dụng
trong thực tế.
Thuật toán tính toán khoảng cách trên bề mặt cầu ứng dụng trong truy
vấn về khoảng cách trong không gian địa lý: Haversine, Vincenty.
5. Phạm vi nghiên cứu
Do hạn chế về thời gian và giới hạn trong khuôn khổ một đề tài khóa
luận tốt nghiệp, đề tài tập trung trình bày các thuật toán và giải pháp sử
dụng trong các truy vấn liên quan đến khoảng cách trong CSDL không
gian, phục vụ trong quá trình xử lý, phân tích và hiển thị dữ liệu địa lý
của một ứng dụng GIS bất kỳ trong thực tế. Qua đó đưa ra đánh giá hiệu
năng của từng giải pháp và đề xuất các hướng phát triển cho thuật tính
toán gần đúng trong tương lai.
Qua đó, độc giả có được cái nhìn tổng quan về các kỹ thuật cũng như
thuật toán tính toán gần đúng đang được sử dụng trong các ứng dụng xây
dựng, quản lý và thiết kế dữ liệu thông tin địa lý, cơ sở dữ liệu không
gian và hướng phát triển của chúng trong công cuộc nghiên cứu nhằm
hoàn thiện tốc độ xử lý, tính toán, truy xuất dữ liệu của hệ thống với sự
trợ giúp của các thuật toán tích hợp hiệu quả và chính xác.
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
11
B. NỘI DUNG
CHƯƠNG 1: TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU KHÔNG GIAN
1. Khái niệm
1.1 Hệ thống cơ sở dữ liệu không gian
Hệ thống cơ sở dữ liệu không gian – Spatial Database System – là hệ thống
quản lý dữ liệu liên quan đến các đối tượng không gian (không gian địa lý), ra
đời trước yêu cầu đặt ra trong thực tế là cần một hệ thống để lưu trữ các dữ
liệu trong không gian địa lý. Như vậy việc quản lý hệ CSDL không gian phụ
thuộc vào hai công nghệ: Một là phương tiện lưu trữ cố định và một là CSDL
không gian.
Các không gian:
Không gian hai chiều (2D): Các không gian hình học (Các bề mặt trên mặt
đất ở tỉ lệ co giãn lớn hoặc nhỏ)
Hệ thống thông tin địa lý (GIS – Geographic Information System)
Cơ sở dữ liệu đặt tại Luxembourg (LIS - Luxembourg Income Study)
lưu trữ dữ liệu về các quốc gia.
Urban planning – quy hoạch sử dụng không gian địa lý (sử dụng đất,
quy hoạch xây dựng đô thị….)
Không gian ba chiều (3D): Nghiên cứu vũ trụ, thiên văn học, nghiên cứu
bộ não con người trong y học, nghiên cứu cấu trúc phân tử trong ngành
sinh học.
Yêu cầu đặt ra với hệ thống này là khả năng quản lý và xử lý một khối
lượng thông tin khổng lồ của tập hợp các đối tượng địa lý đặt trong mối quan
hệ chặt chẽ với nhau.
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
12
Theo G.H.Guting[]:
Hệ quản trị cơ sở dữ liệu không gian (Spatial Database Management
System): Là một hệ CSDL sử dụng kiểu dữ liệu không gian trong mô hình dữ
liệu và ngôn ngữ truy vấn, hệ thống hỗ trợ việc thực thi với kiểu dữ liệu không
gian bằng việc cung cấp cách đánh chỉ mục và các thuật toán hiệu quả trong
trường hợp liên kết các không gian với nhau.
Kiểu dữ liệu không gian (Spatial Data type): Kiểu dữ liệu biểu diễn các đối
tượng trong không gian
Dữ liệu không gian là những mô tả số của hình ảnh bản đồ, chúng bao gồm
toạ độ, quy luật và các ký hiệu dùng để xác định một hình ảnh bản đồ cụ thể
trên từng bản đồ. Hệ thống thông tin địa lý dùng các số liệu không gian để tạo
ra một bản đồ hay hình ảnh bản đồ trên màn hình hoặc trên giấy thông qua
thiết bị ngoại vi, … Dữ liệu không gian thường được biểu diễn bằng điểm,
đường và vùng.
Với hệ thống thông tin địa lý (GIS) có 2 kiểu dữ liệu cơ bản đó là vectơ và
raster.
1.2. Cơ sở dữ liệu không gian (Spatial Database)
Cơ sở dữ liệu không gian là một mô hình hướng đối tượng cho phép tích
hợp thông tin địa lý và thông tin thuộc tính trong cùng một cơ sở dữ liệu theo
mô hình dữ liệu quan hệ. Như vậy đây là cơ sở dữ liệu lưu trữ vị trí, hình dạng
của các đối tượng không gian cùng với đặc điểm thuộc tính của chúng.
Một số hãng phát triển GIS trên thế giới đã có những sản phẩm theo hướng
CSDL không gian như: ERSI, Oracle, Intergraph, MapInfo…
Cơ sở hạ tầng dữ liệu không gian (Spatial Data Infrastructure - SDI) là nền
tảng để dữ liệu không gian và lý lịch dữ liệu cùng với người sử dụng và các
công cụ có thể kết nối trong mối quan hệ tương tác lẫn nhau với mục đích sử
dụng được các thông tin dữ liệu không gian một cách hiệu quả và linh hoạt.
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
13
1.2.1 Hạ tầng CSDL không gian
Công nghệ (technology)
Chính sách (policies)
Chuẩn (standards)
Nguồn nhân lực (human resources)
Qui trình (procedures)
Được xây dựng để đáp ứng yêu cầu thu nhận, xử lý, lưu trữ, phân phối và
nâng cao tính hữu dụng của dữ liệu địa lý, làm cơ sở cho việc sản xuất và chia
sẻ dữ liệu địa lý giữa các cơ quan, đơn vị,…
VD: Cơ sở hạ tầng dữ liệu không gian của một thành phố là một thành phần
trong Cơ sở hạ tầng thông tin quốc gia (siêu xa lộ thông tin) nhằm cung cấp
những thông tin thiết thực cho mọi người.
Các chức năng của quản lý cơ sở dữ liệu
Cho phép giảm thiểu sự trùng lặp dữ liệu nhằm tiết kiệm chi phí, sẵn
sàng trợ giúp ra quyết định trên một vùng địa lý dựa trên dữ liệu chính
xác và hiện thời (cập nhập dữ liệu), người sử dụng dễ dàng biết được tỉ
lệ bản đồ gốc (mức độ chi tiết), nguồn gốc dữ liệu, quy trình nhập dữ
liệu, kết quả kiểm tra độ chính xác dữ liệu, cấu trúc dữ liệu,… được mô
tả bởi lý lịch dữ liệu (metadata).
Với một hệ quản trị cơ sở dữ liệu thông thường kiểu dữ liệu bảng hiện
nay được sử dụng rất phổ biến. Tuy nhiên, tiến trình tham chiếu với dữ
liệu địa lý được thực hiện phức tạp vì chỉ một sự thay đổi nhỏ của dữ
liệu địa lý cũng làm cho các dữ liệu bảng khó tham chiếu. Cấu trúc cơ
sở dữ liệu định hướng đối tượng không thích hợp cho việc lưu trữ
những dữ liệu đặc trưng cũng như phân tích không gian phức tạp. Nhờ
tính mở cao, cơ sở dữ liệu quan hệ ngày càng được sử dụng phổ biến
trong các hệ thống thông tin địa lý. Mô hình hệ quản trị cơ sở dữ liệu 3
tầng (3-tier) sẽ được sử dụng phổ biến để tăng khả năng cung cấp và
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
14
tích hợp dữ liệu của nhiều ngành theo thời gian thực.
Hiện nay, hầu hết các quốc gia đều hướng đến xây dựng cơ sở hạ tầng dữ
liệu không gian theo kiến trúc hướng đến dịch vụ (Service Oriented
Architecture - SOA) sử dụng các chuẩn mở quốc tế như OpenGIS (OGC)
hoặc ISO/TC 211. Tư tưởng chính là coi việc xây dựng cơ sở hạ tầng dữ liệu
không gian tương tự như cơ sở hạ tầng trong các lĩnh vực khác: bưu điện, điện
thọai, đường giao thông,…như vậy người dùng khi có nhu cầu sẽ tham gia kết
nối vào cơ sở hạ tầng để sử dụng và đóng góp các dữ liệu, thông tin về GIS.
Đây là một dự án lớn có nền tảng lý luận và cơ sở thực tiễn cao, được phát
triển theo cách thức: “Phát triển trước, xây dựng đặc tả sau”. Có nghĩa là: Để
giải quyết 1 vấn đề, các tổ chức nghiên cứu hướng tới nhiều giải pháp, sau
nhiều năm thử nghiệm sẽ đúc kết thành đặc tả (hay chuẩn mở) công bố cho
cộng đồng. Đối với Việt Nam và các nước đang phát triển thì thời điểm hiện
nay là cơ hội lớn để chúng ta tiếp cận những tinh hoa từ các tổ chức này để
xây dựng những hệ thống GIS tương tự (đa mục tiêu, đa thành viên).
Trên cơ sở đó, Việt Nam cần tiến hành xây dựng cơ sở hạ tầng dữ liệu
không gian cho mình với các tầm nhìn đều hướng đến một nền tảng để đưa dữ
liệu không gian địa lý đến tay người sử dụng một cách đơn giản, dễ dàng và
minh bạch.
Khảo sát có một số tổ chức đã ứng dụng WebGis để xây dựng bản đồ trực
tuyến
Trang web của Nhà xuất bản bản đồ - Bộ Tài nguyên và môi trường
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
15
Hình 1: Trang WebGis www.bando.com.vn
1.2.2 Các bước thiết kế CSDL không gian
Thiết kế CSDL không gian cần tiến hành qua những bước cơ bản sau
Xác định nội dung CSDL
Chọn cấu trúc CSDL
Thiết kế chi tiết CSDL
Phân phối dữ liệu đến người sử dụng
Duy trì, cập nhật dữ liệu và vận hành hàng ngày
Các thành phần của cơ sở dữ liệu không gian
Tập hợp các dữ liệu dạng vector (tập các điểm, đường và vùng)
Tập hợp các dữ liệu dạng raster (dạng mô hình DEM hoặc ảnh)
Tập hợp các dữ liệu dạng mạng lưới (đường giao thông, lưới cấp thoát
nước, lưới điện ...)
Tập hợp các dữ liệu địa hình 3 chiều và bề mặt khác
Dữ liệu đo đạc
Dữ liệu dạng địa chỉ
Các bảng dữ liệu: Là thành phần quan trọng của cơ sở dữ liệu không
gian, được liên kết với các thành phần đồ họa với nhiều kiểu liên kết khác
nhau.
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
16
2. Mô hình cơ sở dữ liệu không gian
Trong những năm gần đây, đã có rất nhiều nghiên cứu đang được triển
khai về vấn đề quản lý dữ liệu không gian. Cách phương pháp tiếp cận ban
đầu trong lĩnh vực GIS đã gần như làm cạn kiệt những nỗ lực của các nhà
khoa học trong việc tìm kiếm hình thức biểu diễn hình học chính xác của dữ
liệu không gian và việc bổ sung những phép toán mới giữa các đối tượng
không gian. Sau đó, chỉ có một cải tiến thô sơ là việc kết hợp dữ liệu không
gian với dữ liệu thông thường. Và kết quả là việc quản lý dữ liệu địa lý phải
chia thành 2 quá trình xử lý riêng biệt nhau: một là cho dữ liệu không gian và
một là để xây dựng các thuộc tính cho dữ liệu thông thường và sự kết hợp của
chúng với dữ liệu không gian. Nỗ lực để định nghĩa một ngôn ngữ thông dụng
và khả dụng để đơn giản thao tác xử lý các truy vấn hầu như không mang lại
kết quả, và do đó quá nhiều chương trình bắt buộc phải sử dụng đến. Kết quả
là việc xử lý dữ liệu không gian thiếu đi những giải pháp hình thức cơ bản.
Theo một khía cạnh khác, năng lực xử lý của dữ liệu thông thường chỉ có thể
được lưu trữ thông qua Hệ quản trị CSDL. Bên cạnh đó, do tính chất phức tạp
của kiểu dữ liệu không gian dẫn đến việc quản lý dữ liệu loại này không thể
sử dụng Hệ quản trị cơ sở dữ liệu truyền thống.
Vì những lí do trên mà nhiều công trình nghiên cứu liên quan đến dữ liệu
không gian đã được tiến hành bao gồm nhiều lĩnh vực như: Thiết kế cấu trúc
dữ liệu vật lý tối ưu và các phương pháp truy cập, nghiên cứu việc xử lý truy
vấn và tối ưu hóa các kỹ thuật, giao diện tương tác ảo… Tất cả các cách tiếp
cận này chắc chắn sẽ đưa ra một mô hình dữ liệu không gian theo cách gián
tiếp trong đó mô hình này sẽ không đóng vai trò là đối tượng chính.
Về khía cạnh công nghệ, hình thể, vị trí không gian của các đối tượng cần
quản lý, được miêu tả bằng các dữ liệu đồ hoạ. Trong khi đó, tính chất các đối
tượng này được miêu tả bằng các dữ liệu thuộc tính.
Mô hình cơ sở dữ liệu không gian không những quy định mô hình dữ liệu
với các đối tượng đồ hoạ, đối tượng thuộc tính mà còn quy định liên kết giữa
chúng thông qua mô hình quan hệ và định nghĩa hướng đối tượng bao gồm
các tính chất như thừa kế (inherit), đóng gói (encapsulation) và đa hình
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
17
(polymorphism).
Ngoài ra, cơ sở dữ liệu không gian hiện đại còn bao gồm các ràng buộc
các đối tượng đồ hoạ ngay trong cơ sở dữ liệu, được gọi là topology (tương
quan không gian) - Phương thức thể hiện các ràng buộc đối với các đối tượng
đồ hoạ ngay trong cơ sở dữ liệu.
Đặc điểm chung của một số mô hình CSDL không gian:
Hỗ trợ tập hợp các kiểu dữ liệu đã định dạng sẵn: Tập các điểm, tập các
bề mặt…
Có thể sử dụng một hoặc hai kiểu cấu trúc dữ liệu phức tạp để lưu lại
các dữ liệu không gian, với việc sử dụng hai kiểu cấu trúc cùng một lúc
tức là một để ghi nhận dữ liệu không gian và một để ghi nhận dữ liệu
thông thường.
Định nghĩa được các phép toán áp dụng với một kiểu dữ liệu không
gian riêng biệt bất kỳ.
2.1 Xây dựng mô hình CSDL không gian
Xây dựng mô hình các đối tượng riêng lẻ.
Xây dựng mô hình cho một tập hợp các đối tượng có liên quan đến nhau
trong không gian địa lý.
Việc vận dụng dữ liệu mật độ cao hoặc dữ liệu không gian để lưu trữ và
phục hồi trong cơ sở dữ liệu đa phương tiện là một điều rất quan trọng.
Dữ liệu không gian bao gồm các điểm, đường, hình chữ nhật, đa giác, bề
mặt hay các đối tượng mật độ cao bao gồm cả thời gian. Các phương thức
đánh chỉ mục cung cấp đường dẫn đến dữ liệu hướng không gian được gọi là
các phương thức truy nhập không gian (Spatial Access Methods – SAM). Đến
nay đã có rất nhều SAM được giới thiệu bao gồm các grid file[1], K-D-B-tree
[2], R-trees [3], R*-trees [4] , Filter Trees [5] , TV-tree[6], X-trees[7] và SS-tree[8].
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
18
Trong các cơ sở dữ liệu không gian, các đối tượng không gian thông
thường được ánh xạ thành các véc-tơ đặc trưng trong không gian mật độ cao
và các truy vấn được xử lý trên cơ sở dữ liệu của các véc-tơ đặc trưng này.
Các véc-tơ đặc trưng thường thấy đó là biểu đồ màu, mô tả hình thức, các biểu
diễn văn bản,…mà mỗi một loại có những đặc tính khác nhau. Tuy nhiên điều
quan trọng là phải tìm ra được một cách biểu diễn thích hợp cho các véc-tơ
đặc trưng và nhằm xác định chính xác việc đo lường tính đồng dạng hoặc
khoảng cách giữa chúng. Bởi vậy một hệ thống đa phương tiện cần phải có
nhiều phương thức truy cập không gian để xử lý một truy vấn.
Trong quá khứ đã có một số nhà nghiên cứu đề xuất các phép toán ghép
nối không gian cho các tập dữ liệu không gian khác nhau. Tất cả các phương
pháp này đề đòi hỏi các cặp SAM có cùng một kiểu cấu trúc.
Các đặc tính cơ bản của phép truy nhập không gian.
Cấu trúc dữ liệu không gian
CSDL không gian bao gồm các đối tượng không gian như điểm, đường,
vùng, hình chữ nhật, bề mặt, hình khối và thậm chí là các dữ liệu mật độ cao
trong đó gồm cả thời gian. Một ví dụ của CSDL không gian là các thành
phố, những con sông, đường xá, quốc gia, bang, các dãy núi, các thành phần
trong một hệ thống CAD[9] (Thiết kế sử dụng sự trợ giúp của máy tính),…Ví
dụ về các thuộc tính của dữ liệu không gian có thể có là lưu vực của một con
sông, hay biên giới của một quốc gia…Thông thường các thuộc tính còn có
thể gắn thêm các các thuộc tính thông tin dạng phi không gian (non-spatial)
như độ cao, tên thành phố,…với CSDL không gian. Các cơ sở dữ liệu không
gian thuận tiện cho việc lưu trữ và đạt hiệu quả tốt cho quá trình xử lý các
thông tin dạng spatial[10] và non-spatial[11] một cách lý tưởng mà không cần
thiết phải quan tâm đến các mối liên hệ khác. Vì thế các sơ sở dữ liệu sẽ
nâng cao khả năng đáp ứng của các ứng dụng kiểm soát môi trường, khoảng
không, phát triển đô thị, quản lý nguồn lực, và trong các hệ thống GIS
[Buchmann et al. 1990; Günther and Schek 1991] [].
Phương pháp lưu trữ, quản lý và biểu diễn dữ liệu không gian
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
19
Mọi hệ thống quản trị cơ sở dữ liệu đều thực hiện việc sắp xếp dữ liệu
theo khóa riêng của mình. Trong trường hợp với CSDL không gian, việc sắp
xếp dựa trên tất cả các khóa spatial, điều đó có nghĩa rằng không giống như
trong các hệ thống quản trị cơ sở dữ liệu truyền thống, việc sắp xếp dựa trên
tất cả các dữ liệu đang sử dụng. Vì vậy các kỹ thuật này được biết với tên
gọi các phương pháp spatial indexing[12] – đánh chỉ mục không gian.
Một hướng tiếp cận trong việc biểu diễn spatial data là phân chia một
cách có cấu trúc từ những dữ liệu non-spatial đồng thời quản lý một cách
thích hợp các mối liên kết giữa chúng [Aref and Samet 1991a]. Đây được
xem như là một trong những nguyên nhân gây nên tình trạng phải mất nhiều
băng thông hơn cho việc thu thập dữ liệu không gian. Trong trường hợp như
vậy, các phép toán không gian (spatial operation) được thực hiện trực tiếp
trên các cấu trúc spatial data. Điều này cung cấp tính linh hoạt hơn nữa cho
việc chọn lựa cấu trúc spatial thích hợp thay vì phụ thuộc vào các cấu trúc
non-spatial (ví dụ như với một cơ sở dữ liệu quan hệ).
Một ví dụ về kiểu truy vấn được đặt ra cho một hệ thống cơ sở dữ liệu
không gian là “Hãy tìm các tên đường đi ngang qua trường đại học của
vùng RiverSide”. Yêu cầu này đòi hỏi phải trích xuất các bản ghi có trường
“region name” mang giá trị là “trường đại học vùng RiverSide” và xây dựng
một bản đồ A. Kế tiếp, thực hiện phép giao giữa A với bản đồ đường đi B
tạo được bản đồ mới C có các con đường được chọn lựa. Bây giờ tạo một
mối liên kết mới chỉ gồm một thuộc tính là các tên đường hợp lệ từ các
đường trong bản đồ C. Tất nhiên là còn có các hướng tiếp cận khác trả lời
câu truy vấn trên. Hiệu quả của chúng phụ thuộc vào tính tự nhiên và các
tính chất của dữ liệu.
Khái quát các khái niệm dữ liệu cơ sở trong CSDL không gian
Trong phần dưới đây, đề tài sẽ trình bày một cách khái quát các khái niệm
dữ liệu cơ sở trong CSDL không gian như vùng, điểm, chữ nhật, và đường.
Để biết thêm các thông tin chi tiết về các thành phần này, xin tham khảo thêm
trong [Samet 1990a; Samet 1990b].
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
20
Dữ liệu vùng - Region Data
Một region có thể được biểu diễn bằng đường biên hoặc nội dung bên
trong của chính nó. Trong phần này, region được hiểu theo cách biểu diễn
nội tại của nó. Một cách biểu diễn thông dụng nhất của region là mảng hình
ảnh. Trong trường hợp này, ta có một tập các phần tử ảnh (gọi là các pixel).
Khi số lượng các phần tử trong mảng quá lớn, phải tiến hành động thái là
giảm bớt kích thước mảng bằng cách kết hợp các pixel tương tự (đồng nhất
hay có cùng giá trị). Ở đây có hai hướng tiếp cận cơ bản. Hướng tiếp cận
đầu tiên là của [Rutovitz 1968]: phân chia mảng thành 1*m khối. Đây là
cách biểu diễn theo hàng và nó được biết với tên runlength code. Một hướng
tiếp cận khác xem region như là một tập các khối vuông cực đại (hoặc các
khối có hình dạng bất kỳ). Thông thường các khối được xác định bởi tâm và
radii của chúng. Sự biểu diễn này được gọi là medial axis transformation
(MAT).
Hình 2: (a) Một region mẫu, (b) Biểu diễn dạng mảng nhị phân của region, (c)
Các khối cực đại và các khối phổ thông được chia sẻ trong region - (d)
quadtree tương ứng.
Thuật ngữ quadtree (cây tứ phân) là chỉ số không gian được dùng để
phân chia đệ quy một tập hợp dữ liệu (chẳng hạn, một ảnh) thành các ô
vuông cho đến khi mỗi ô vuông có một giá trị thuần nhất. Cây tứ phân
thường được dùng để lưu trữ dữ liệu raster. Ở đây quadtree được sử dụng để
mô tả rất nhiều phần tử của các cấu trúc dữ liệu có thứ bậc (dựa trên nguyên
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
21
tắc đệ quy hay còn gọi là các phương pháp chia để trị).
Dữ liệu điểm - Point Data
Dữ liệu điểm đa chiều có thể được biểu diễn dưới rất nhiều hình thức
khác nhau. Sự lựa chọn sau cùng cho một tác vụ cụ thể sẽ bị ảnh hưởng bởi
kiểu operation sẽ được thực hiện trên dữ liệu. Phần này đề cập chủ yếu đến
kiểu biểu diễn PR quadtree (P: Point và R: Region) là phương thức phân ly
chủ đạo. Đây là sự lắp ghép giữa region quadtree và point data, và PR
quadtree được tổ chức tương tự như region quadtree. Chỉ có một sự khác
biệt đó là các nút lá hoặc là rỗng (ở đây biểu diễn bằng màu TRẮNG), hoặc
chứa dữ liệu điểm (màu ĐEN) và các giá trị tương ứng của chúng.
Hình vẽ sau là một PR quadtree tương ứng với một số lượng nhất định
point data:
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
22
Hình 3: Ví dụ một PR quadtree
Điểm bất lợi của PR quadtree là mức phân chia tối đa phụ thuộc vào sự phân
ly tối thiểu giữa hai point. Trong những trường hợp đặc biệt, nếu hai point là
rất gần nhau thì sự phân chia là rất nhỏ.
Dữ liệu kiểu chữ nhật - Rectangle Data
Kiểu dữ liệu rectangle nằm đâu đó giữa kiểu dữ liệu point và region.
Rectangle thường được sử dụng để làm xấp xỉ với các đối tượng khác trong
một bức ảnh. Ví dụ các rectangle biên thường được sử dụng trong các ứng
dụng bản đồ để làm xấp xỉ các đối tượng như hồ nước, rừng, đồi,…
[Hinrichs and Nieverglt 1983] đã suy giảm mỗi rectangle thành một điểm
trong không gian đa chiều lớn, và họ đối xử với các vấn đề phát sinh như
một tập các điểm chứ không phải hình. Mỗi rectangle trong một sản phẩm
Cartesian (Hệ toạ độ Đề-các) có hai interval (khoảng không gian) một chiều
trong đó mỗi interval được biểu diễn bởi trọng tâm và quy mô của chúng.
Mỗi một tập interval trong một chiều cụ thể được biểu diễn bởi một grid file.
Dữ liệu đường - Line Data
Line data là một hình thức biểu diễn xác định các biên của các region.
Cách biểu diễn đơn giản nhất là đa giác gồm có các véc-tơ xác định khuôn
dạng của các liệt kê các cặp giá trị x và y tương xứng với điểm bắt đầu và
kết thúc của chúng. Các véc-tơ thường được sắp xếp theo liên kết của chúng.
Một trong những cách biểu diễn thông dụng nhất là chain code[13] [Freeman
1974].
Dữ liệu không gian - Spatial (High-dimentional) Data
Rất nhiều các cấu trúc SAM (Spatial Access methods) thành công dựa
trên nguồn gốc của sự phân ly không gian có thứ bậc. Ý tưởng ở đây là đánh
chỉ mục một cách liên tục các vùng không gian, như vậy việc tìm kiếm có
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
23
thể được xuất phát ở mức cao hướng về những vùng không gian thích hợp.
Một cách thức phổ biến và khả quan để tổ chức và truy cập các đối tượng đa
chiều là sử dụng R-tree hoặc các biến thể của nó bởi vì trong R-tree, không
gian dữ liệu được phân ly liên tiếp nhau thành các rectangle, còn gọi là
hyper-rectangle.
Với hệ thống thông tin địa lý - GIS
Hệ thống thông tin địa lý làm việc với hai dạng mô hình dữ liệu địa lý
khác nhau về cơ bản - mô hình vector và mô hình raster.
9 Trong mô hình vector, thông tin về điểm, đường và vùng được mã hoá và
lưu dưới dạng tập hợp các toạ độ x,y. Vị trí của đối tượng điểm, như lỗ
khoan, có thể được biểu diễn bởi một toạ độ đơn x,y. Đối tượng dạng đường,
như đường giao thông, sông suối, có thể được lưu dưới dạng tập hợp các toạ
độ điểm. Đối tượng dạng vùng, như khu vực buôn bán hay vùng lưu vực
sông, được lưu như một vòng khép kín của các điểm toạ độ.
9 Mô hình vector rất hữu ích đối với việc mô tả các đối tượng riêng biệt,
nhưng kém hiệu quả hơn trong miêu tả các đối tượng có sự chuyển đổi liên
tục như kiểu đất hoặc chi phí ước tính cho các bệnh viện. Mô hình raster
được phát triển cho mô phỏng các đối tượng liên tục như vậy. Một ảnh raster
là một tập hợp các ô lưới. Cả mô hình vector và raster đều được dùng để lưu
dữ liệu địa lý với nhưng ưu điểm, nhược điểm riêng, Các hệ GIS hiện đại có
khả năng quản lý cả hai mô hình này.
2.1.1 Xây dựng mô hình của các đối tượng riêng lẻ
Sử dụng phương pháp trừu tượng hóa cơ bản để mô phỏng các đối tượng
riêng lẻ trong không gian, thông qua việc sử dụng các kí hiệu hình học có tính
chất tượng trưng:
Các kí hiệu hình học thường gặp trong bản đồ địa lý thông thường và
những đối tượng cần được biểu diễn trong CSDL không gian tương ứng:
Điểm: y Kí hiệu thành phố
Mô phỏng hình học của một đối tượng trong trường hợp này chỉ xác định
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
24
vị trí của nó trên không gian bản đồ chứ không thể hiện phạm vi hay tỉ lệ kích
thước tương ứng của đối tượng.
Đường thẳng, đoạn thẳng:
Dòng sông
Đường dây
Đường giao thông
Hình 4: Biểu diễn dạng đường
Kí hiệu hình học của đối tượng kéo dài trong không gian hoặc kết nối các
không gian địa lý.
Vùng miền, lãnh thổ: Diễn tả phạm vi và khu vực của đối tượng
Rừng
Hồ ao
Thành phố
Hình 5: Biểu diễn dạng khu vực
2.1.2 Xây dựng mô hình cho một tập hợp các đối tượng có liên quan trong
không gian địa lý
Ranh giới phân chia giữa các đối tượng
Qui hoạch đất
Phân chia quận huyện
Sở hữu đất
Không gian các điểm
Hình 6: Biểu diễn tập đối tượng trong khu vực
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
25
Xây dựng mô phỏng mạng lưới các đối tượng
Hệ thống giao thông
Mạng lưới viễn thông
Hệ thống đường thủy
Đường điện, điện thoại
Hình 7: Biểu diễn đối tượng dạng mạng lưới
2.2 Cơ sở hình học trong tổ chức các đối tượng không gian cơ bản
Câu hỏi đặt ra là liệu hệ quy chiếu hình học cổ điển có thích hợp để xây
dựng mô hình CSDL không gian? Vấn đề đặt ra là không gian địa lý trong
thực tế có tính chất liên tục và liền mạch trong khi máy tính chỉ có thể xử lý
và lưu trữ những số liệu dưới dạng số học rời rạc.
Với hệ quy chiếu 2 chiều Euclidean điểm P được biểu diễn bởi cặp tọa độ (x,
y): P = (x, y) € R2 (real * real)
Dễ dàng nhận thấy với hình học Euclidean các đối tượng được quy về mặt
phẳng với 2 thông số tọa độ x, y. Dẫn đến khó có thể xác định một điểm bất
kỳ có thuộc một đường thẳng nối 2 điểm khác trong không gian hay không?
Mục đích xây dựng cơ sở hình học để tổ chức hợp lý các đối tượng không
gian: Tránh phải sử dụng phép tính toán thêm các giao điểm mới trong giới
hạn các phép toán hình học.
Có 2 cách tiếp cận:
Simplicial Complexes – Tổ hợp đơn giản (từ combinatorial topology –
tổ hợp tương quan không gian)
Realms
2.2.1 Simplicial Complexes
Định nghĩa: Simplicial Complexes – Tổ hợp đơn giản là một tập hữu hạn các
đỉnh (simplices) để giao điểm các đoạn thẳng nối giữa chúng tạo thành các bề
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
26
mặt.
d-simplex (d hình): Số lượng đối tượng nhỏ nhất trong không gian d chiều
y 0 - simplex
Hình 8: Mô hình d-simplex
d-simplex bao gồm (d + 1) đỉnh trong không gian d-1 chiều
Các thành phần tạo nên một hình (simplex) được gọi là các bề mặt (faces)
2.2.2 Realms
Định nghĩa khái niệm Realms
Theo cách trực quan: Realms là toàn bộ sự mô tả hình học (tất cả các điểm,
các đường) của ứng dụng.
Định nghĩa chính thức: Realms là tập hợp các điểm và đoạn thẳng định
nghĩa một mạng lưới thỏa mãn các tính chất sau:
Mỗi một điểm hoặc điểm kết thúc của một đoạn phải là một điểm của
mạng lưới.
Mỗi điểm kết thúc của đoạn cũng phải thuộc Realms
Không có điểm nào thuộc Realms lại nằm trong một đoạn thẳng (không
tính hai đầu mút)
Hai đoạn bất kỳ riêng biệt không giao nhau hoặc nằm trùng lên nhau
Như vậy Realms (vùng, khu vực) là nền tảng hình học rời rạc cơ bản làm
cơ sở trong việc xây dựng một hay nhiều kiểu dữ liệu không gian. Một Realm
là một tập hữu hạn các điểm và các đoạn thẳng không giao nhau nằm trong
một khung lưới các điểm rời rạc và mô tả một cách tổng quát cơ sở hình học
1- simplex
2- simplex
3- simplex
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
27
hoàn chỉnh của không gian ứng dụng liên quan trong không gian 2 chiều.
Ý tưởng là xây dựng kiến trúc hình học của các đối tượng địa lý bằng cách
dựng chúng dựa vào các điểm và đoạn trong một Realm đã xác định trước. Cơ
sở toán học sử dụng trong việc thiết kế các kiểu dữ liệu không gian mặc định
là không gian Euclidean. Một điểm theo đó sẽ được biểu diễn bởi một cặp số
thực. Tuy nhiên, trong thực tế không tồn tại một cặp số thực như vậy trên máy
tính mà chỉ có các tập hợp xấp xỉ. Điều này dẫn đến rất nhiều vấn đề nảy sinh
trong tính toán hình học. Khái niệm khu vực – Realm góp phần giải quyết các
vấn đề của dữ liệu số học thô và sự chính xác theo hình học topo bằng các lớp
khu vực – Realm layer. Mặt khác nó cũng khắc phục vấn đề xảy ra khi có
đoạn thẳng cắt qua mạng lưới các điểm rời rạc ban đầu và đảm bảo tính chính
xác hình học của các đối tượng địa lý. Hơn thế nữa, nó cho phép việc định
nghĩa chính thức các kiểu dữ liệu không gian chung hoặc các phép toán đại số,
như vậy các đặc tính đóng hữu dụng sẽ không chỉ được đặt ra trên lý thuyết
mà còn được ứng dụng trong thực tế ngành công nghệ thông tin.
Ví dụ với dữ liệu ứng dụng là một tập hợp các điểm và các đoạn thẳng
giao nhau. Cần đặt một đoạn thẳng cắt các đoạn thẳng khác: Ý tưởng cơ bản
là làm thay đổi không đáng kể vị trí các đường thẳng.
2.2.3 Minh họa một số phép toán thực hiện trên dữ liệu không gian
Phép toán thực hiện trên hai đối tượng không giain gA & gB trong không
gian địa lý với các trường hợp (i), (ii), (iii) và (iv) dựa vào vị trí tương đối
giữa các đối tượng ban đầu.
Giả thiết với các đối tượng trong không gian địa lý với mô phỏng hình học
là 3 kiểu dữ liệu không gian phổ biến: Điểm, đường và vùng/miền. Các phép
toán tương tự như các phép toán với tập hợp trong đại số học.
2.2.3.1 Phép toán hợp
Hợp hai đối tượng: gA & gB. Kết quả trả về là một hoặc nhiều đối tượng
với thuộc tính tương đương.
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
28
Hình 9: Phép toán hợp trong không gian địa lý
2.2.3.2 Phép toán trừ (cắt bởi một đối tượng)
Đối tượng gA bị cắt bởi gB, cho kết quả là một hoặc hai đối tượng mới
Hình 10: Phép toán trừ trong không gian địa lý
2.2.3.3 Phép toán giao
Kết quả trả về phần giao nhau giữa hai đối tượng
Hình 11: Phép toán giao trong không gian địa lý
2.2.3.4 Phép toán bao phủ
Với hai đối tượng SA và SB bao gồm các thuộc tính tương ứng (A, G) = (a,
gA) và (B, G) = (b, gB) (Hình 12)
Kí hiệu miền giao nhau của hai thuộc tính dạng vùng – region là: g2
gA ∩ gB = g2
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
29
gA = g1 hợp g2
gB = g2 hợp g3
Kết quả của các phép bao phủ theo vị trí tương đối: SA – Left, SB – Right
là tập các thuộc tính của cả hai đối tượng ban đầu (A, B, G)
Inner Overlay (bao phủ bên trong)
Left Overlay (bao phủ bên trái – theo SA)
Right Overlay (bao phủ bên phải – theo SB)
Full Overlay (Bao phủ hoàn toàn)
Hình 12: Phép toán bao phủ trong không gian địa lý
e. Minh họa các hàm toán tử đặc trưng trong CSDL không gian
Đối tượng ban đầu - g qua các phép toán định dạng cho kết quả tương ứng
như hình dưới đây (áp dụng với các đối tượng hình học trong không gian)
(Hình 14)
Spatial complemenation (Phép tính phần bù): Kết quả trả về gC1 và gC2
Spatial Boundary (Phép lấy đường biên): Kết quả trả về gB1 và gB2 -
đường biên phân chia ranh giới giữa các đối tượng.
Spatial Envelope (Phép bao): Kết quả trả về gE – Vùng bao trùm ngoài
cùng lên các đối tượng, không hiển thị các phần cắt hoặc các đường giao
nhau. gE ở đây đóng vai trò như một phong bì bên ngoài (envelope) chứa
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
30
toàn bộ đối tượng g ban đầu.
Spatial Buffer (Phép vùng đệm): Kết quả trả về gB – Vùng đệm chỉ chứa
các đối tượng.
Hình 13 Các hàm toán tử trong không gian địa lý
3. Truy vấn thực hiện trong CSDL không gian
Một đặc điểm nổi bật giúp cho CSDL không gian trở thành một công cụ
mạnh mẽ là khả năng xử lý dữ liệu không gian, không chỉ với mục đích đơn
giản là lưu trữ và biểu diễn dữ liệu đó. Một trong những mục đích chính của
loại CSDL đặc trưng này là trả lời các truy vấn liên quan đến các thuộc tính
không gian của dữ liệu. Một số kiểu truy vấn không gian tiêu biểu:
Truy vấn xác định vị trí điểm – Point location Query: Tìm kiếm đối
tượng rơi vào vị trí điểm đưa ra (ví dụ tìm kiếm thành phố, quốc gia mà một
quận, huyện hay địa danh cho trước nằm trong đó).
Truy vấn giới hạn – Range Query: Tìm kiếm đối tượng nằm trong vùng
khu vực được đưa ra, thường biểu diễn đối tượng trả về bằng một hình chữ
nhật hoặc vòng kín khoanh vùng khu vực đã xác định thỏa mãn truy vấn (ví
dụ như xác định vùng hoạt động của các loại xe du lịch trong khu di tích
quốc gia). .
Truy vấn ghép nối – Join Query: Có rất nhiều dạng cho phép truy vấn
nối. Nó bao gồm hai hay nhiều tập các dữ liệu không gian và các cặp đối
tượng thỏa mãn những thuộc tính đã cho trước, tất cả các cặp chữ nhật gối
lên nhau sẽ được truy xuất trong kết quả truy vấn.
Truy vấn lân cận gần nhất – Nearest neighbor Query: Tìm kiếm đối
tượng dữ liệu cố định gần nhất đối với đối tượng ban đầu sẽ được tìm thấy
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
31
tùy thuộc và khoảng cách hoặc thỏa mãn tính đồng nhất.
Khi thực hiện việc mở rộng các truy vấn không gian cơ bản nêu trên, các
dạng truy vấn mới đã được xây dựng. Ví dụ như khi nghiên cứu những đặc
điểm tương đồng hoặc khác nhau của một tập hợp lớn các đối tượng phức tạp,
những vector đặc trưng thứ nguyên bậc cao được lấy ra từ đó và được tổ chức
trong các bảng chỉ mục đa hướng. Đặc điểm quan trọng nhất trong phép biến
đổi đặc trưng này là vector đặc trưng tương ứng với các điểm trong không
gian Euclidean đa chiều (một kiểu dữ liệu không gian đã được tổng quát hóa).
Sau đó, các truy vấn về khoảng cách được áp dụng trên các điểm đa chiều.
Các phương pháp truy cập đa chiều nằm trong R-Tree – Khái niệm R*-
Tree [Beckmann, Kriegel, Schneider, & Seeger, 1990] và X-Tree đặc biệt
[Berchtold, Kiem, & Kriegel, 1996] được coi là sự lựa chọn tốt cho việc đánh
chỉ mục tập dữ liệu điểm thứ nguyên bậc cao với mục đích thực thi các truy
vấn liên quan đến khoảng cách (DBQs). Và quá trình này được thực hiện bằng
thuật toán phân nhánh và giới hạn trong các hàm khoảng cách và rút gọn theo
phương pháp đánh giá kinh nghiệm dựa trên Khung giới hạn nhỏ nhất
(Minimum Bounding Rectangles – MBRs [14]) – nhằm giảm bớt không gian
tìm kiếm. Việc thực thi các thuật toán trên góp phần làm giảm sự gia tăng về
số lượng các bậc thứ nguyên. Tuy nhiên nó có thể được cải tiến nếu không
gian tìm kiếm được giới hạn theo cách thức nào đó. Với mục đích thực hành,
các phương pháp giới hạn không gian tìm kiếm tỏ ra thực sự có giá trị do
chúng có khả năng đưa ra các kết quả xấp xỉ trạng thái nhanh hơn rất nhiều so
với các phương pháp trước đó. Một hướng nghiên cứu khác cũng với mục
đích làm giảm chi phí cho việc xây dựng các truy vấn khoảng cách trong
không gian, thỏa mãn các giới hạn về độ chính xác, là sử dụng kỹ thuật tìm
kiếm theo kinh nghiệm trên R-Tree như tìm kiếm khu vực – Local search,
Simulated Annealing và Thuật toán phát sinh - Genetic Algorithms.
Sau đây, ta sẽ xem xét những kỹ thuật xấp xỉ trong các truy vấn liên quan
đến khoảng cách trong CSDL không gian quan trọng nhất, các kỹ thuật này có
thể được áp dụng trên cấu trúc cây như R-tree (có khả năng chấp nhận rộng rãi
đối với các phương pháp truy cập không gian). Chú trọng vào các lựa chọn
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
32
thiết kế của các thuật toán xấp xỉ có hiệu quả trong các truy vấn khoảng cách,
với mục đích giảm tối thiểu thời gian đáp ứng của hệ thống và số lượng các
phép toán vào ra trong khi vẫn đưa ra được kết quả khả quan với hiệu suất
cao.
Chú thích
[1] Grid file: Là một kiểu dữ liệu dạng mảng đa chiều (multidimensinal array),
thường được lưu trữ trên ổ cứng, và được sử dụng như một dạng chỉ mục trong
cơ sở dữ liệu.
[2] K-D-B-tree: Một kiểu cấu trúc dữ liệu, là sự kết hợp các đặc tính của hai kiểu
cấu trúc dữ liệu khác là K-D-tree và B-tree. K-D-B-tree được biết đến như một
cấu trúc tìm kiếm hiệu quả trong các chỉ mục động đa chiều lớn.
[3] R-tree: Thuật toán được phát minh bởi Antonin Gutman - Trường đại học
Berkely California. Ý tưởng của phương pháp này là xây dựng một cách truy
xuất nhanh các vùng không gian, bằng cách chia nhỏ không gian thành cách
vùng nhỏ và tạo index-chỉ mục cho các vùng không gian nhỏ này, sau đó áp
dụng lý thuyết cây trong đồ thị để quản lý, lưu trữ và truy xuất các vùng không
gian này.
[4] R*-trees: Thuật toán xây dựng dựa trên thuật toán R-tree theo hình thức cải
tiến hơn và hạn chế các hạn chế trong thuật toán R-tree.
[5] Filter Trees: Một cách tổ chức file để lưu trữ và sử dụng dữ liệu không gian
(đa chiều) ứng dụng trong việc thực thi các phép toán nối trong CSDL không
gian một cách hiệu quả. Cấu trúc thông tin trong Filter Trees là cách tổ chức
phân cấp với mục đích tách rời các thực thể không gian theo kích cỡ, đặt các
thực thể lớn hơn ở mức cao hơn trên Filter Trees, và ngược lại.
[6] TV-tree: Một dạng cấu trúc chỉ mục sử dụng trong không gian đa chiều
[7] X-tree: Cấu trúc chỉ mục trong không gian đa chiều, được xây dựng với ý
tưởng tránh hiện tượng chồng chéo các bounding box (khung giới hạn – cách viết
khác của MBR) trong thư mục bằng cách sử dụng cách tổ chức thư mục mới tối
ưu hơn cho không gian đa chiều bậc cao.
[8] SS-tree: Cấu trúc chỉ mục xây dựng dựa trên nền tảng của R-Tree. SS-Tree sử
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
33
dụng vùng giới hạn dạng elip (ellipsoid bounding region) trong không gian thứ
nguyên bậc thấp và ứng dụng cách biến đổi khác nhau cho mỗi node trong thư
mục.
[9] CAD – Computer-Aided design: Thiết kế dựa trên sự trợ giúp của máy tính.
[10] Spatial hoặc Spatial data: Dữ liệu không gian – bao gồm các thông tin thực
thể về đối tượng trong không gian khi đã được mô hình hóa trên bản đồ và biểu
diễn dưới dạng đối tượng của thông tin địa lý.
[11] Non-spatial (data): Dữ liệu phi không gian – dữ liệu của đối tượng địa lý,
bao gồm các thông tin về thuộc tính và các đặc điểm đi kèm của đối tượng mà
không thể lưu trữ dưới dạng dữ liệu địa lý trong CSDL.
[12] Spatial indexing: Phương pháp đánh chỉ mục không gian tương tự như trong
CSDL thông thường, đây là phương pháp dùng trong quản lý CSDL sử dụng
trong việc sắp xếp, tổ chức và truy xuất các dữ liệu đặc biệt trong CSDL thông
tin địa lý.
[13] chain code [Freeman 1974].
[14] Minimum bounding Rectangle (tên khác là bounding box hoặc envelop):
Khung giới hạn nhỏ nhất là biểu diễn phạm vi lớn nhất của hai đối tượng trong
không gian hai chiều (như điểm, đường hoặc vùng) với chỉ số (x, y) trong hệ
thống tọa độ với tọa độ tương ứng là min(x), min(y), max(x), max(y). MBR
thường được sử dụng như một minh họa biểu diễn vị trí tổng quát của của một
đặc trưng hình học bất kỳ hoặc sử dụng trong biểu diễn các truy vấn không gian
có tính chất gần đúng và đánh chỉ mục không gian.
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
34
CHƯƠNG 2:
BÀI TOÁN TÍNH TOÁN XẤP XỈ
VỚI CÁC TRUY VẤN LIÊN QUAN ĐẾN KHOẢNG CÁCH
TRONG CƠ SỞ DỮ LIỆU KHÔNG GIAN
1. Các truy vấn liên quan đến khoảng cách
Các chức năng liên quan đến khoảng cách tiêu biểu đều dựa trên khoảng
cách tính theo hệ mét ( thỏa mãn các thuộc tính về tính chất không phủ định,
tính đồng nhất, tính đối xứng và bất đẳng thức tam giác) đã xác định trên các
điểm trong không gian.
Hệ đo theo khoảng cách chung được gọi là Lt – khoảng cách Lt, hệ đo Lt
hoặc khoảng cách Minkowski[1] giữa hai điểm: P = (p1, p2, …, pd) và q = (q1,
q2, …, qd) trong không gian thứ nguyên, Rd và được định nghĩa dưới đây:
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
35
Với t = 1, ta thu được hệ khoảng cách Manhattan.
Với t = 2, ta có được hệ khoảng cách Euclidean.
Đây là hai hệ khoảng cách được biết đến nhiều nhất của hệ đo Lt trong nội
dung CSDL không gian. Khoảng cách Euclidean thường được sử dụng như
chức năng riêng biệt trong tính toán khoảng cách tuy nhiên phụ thuộc vào ứng
dụng thực tế mà các hệ khoảng cách khác có thể hiệu quả hơn.
Trong các ứng dụng về CSDL không gian, hệ đo khoảng cách được sử
dụng trong rất nhiều dạng của các truy vấn CSDL.
Ví dụ minh họa các truy vấn liên quan đến khoảng cách
Để minh họa các truy vấn liên quan đến khoảng cách trong CSDL không
gian, dưới đây đề tài nghiên cứu và tham khảo xây dựng vắn tắt CSDL
Benchmark[2]: CSDL xây dựng phục vụ cho việc quản lý dữ liệu và truy
xuất, xử lý các truy vấn trong dịch vụ liên quan đến định vị vị trí địa lý của
đối tượng (Location-based Queries) ứng dụng trong các phương tiện trợ
giúp cá nhân – PDA với chức năng tìm đường và xác định vị trí của người
sử dụng dựa trên thiết bị định vị và các dữ liệu thông tin địa lý.
Mô tả các thực thể, thuộc tính và mối quan hệ giữa các thuộc tính thông
qua mô hình dữ liệu quan niệm:
Giả sử với người dùng sử dụng thiết bị di động cài đặt chương trình quản
lý và tìm đường trong một khu vực nhất định thông qua bản đồ và tín hiệu
định vị ví trí hiện tại của họ.
Ta có mô hình dữ liệu quan hệ
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
36
Hình 14: Mô hình dữ liệu quan hệ xây dựng dựa trên Benchmark database
Các thực thể
Human – người sử dụng
Thuộc tính Tính chất Ghi chú
Id Khóa chính
Route Lộ trình đường đi đã định sẵn của
người dùng
Interests Thuộc tính đa trị
Request Thuộc tính đa trị
Lưu trữ thông tin về sở thích của
người dùng hoặc các yêu cầu gần
nhất.
Road
Thuộc tính Tính chất Ghi chú
Id Khóa chính
Shape Lưu trữ hình dạng (đa giác) và thời
gian đã đi qua-Pass các tuyến đường
hoặc thăm-Visit các tòa nhà.
Building: Bao gồm hai thực thể con là Shop và Other
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
37
Thuộc tính Tính chất Ghi chú
Id Khóa chính
Location Lưu trữ vị trí các tòa nhà, các shop và
thời gian di chuyển
Shop
Thuộc tính Tính chất
Id Khóa chính
Location
Offer Thuộc tính đa trị
Other
Thuộc tính tập hợp nhiều giá trị bao gồm các thông tin như tên sản phẩm,
thông tin về thời gian đáp ứng yêu cầu hợp lệ.
Thuộc tính Tính chất
Id Khóa chính
Location
Type
Một số truy vấn liên quan đến khoảng cách tiêu biểu được sử dụng khá
phổ biến trong hệ thống CSDL không gian. Với mỗi loại truy vấn sẽ đưa ra ví
dụ ứng dụng một truy vấn cụ thể dựa trên CSDL Benchmark đã trình bày ở
trên. Giả sử với người sử dụng có Id = 20 (Human.id = 20)
1.1 Truy vấn khu vực theo khoảng cách δ
Truy vấn khu vực theo khoảng cách δ - δ-distance range query: Truy vấn
dạng này bao gồm một tập dữ liệu không gian, điểm truy vấn và giới hạn
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
38
khoảng cách δ. Kết quả đưa ra là một tập các đối tượng không gian từ tập dữ
liệu đầu vào nằm trong vùng giới hạn một khoảng cách là δ tính từ điểm truy
vấn (query point).
Truy vấn 1: Tìm các shop nằm trong khoảng bán kính 500m tính từ vị trí tôi
đang đứng có bán quần áo thể thao.
Sử dụng hàm giới hạn khoảng cách tìm kiếm trong khoảng 500m với vị trí
hiện thời làm tâm là Circle (curr_space(), δ)
SELECT Shop.id, Offer.id, Offer.info
FROM Human, Shop, Offer
WHERE Offer.infor = `sportwear`
AND Offer.shop_id = Shop.id AND Human.id = 20
AND Shop.Location INSIDE Circle (curr_space(Human.route), 500) ;
Với δ = 500 (m).
Hàm Circle(point reference, number K): Đường tròn được định nghĩa bởi tâm
là điểm tham chiếu cho trước và bán kính bằng K.
Hàm Curr_space (point reference): Hàm toán tử trả về giá trị khả dụng trong
thời điểm hiện tại như giá trị lần cập nhật cuối cùng, thông tin gần nhất về
điểm truy vấn, ở đây hàm Curr_space() sử dụng như hàm trả về thông tin vị trí
tại thời điểm truy cập của người dùng.
1.2 Truy vấn K vùng lân cận gần nhất
Truy vấn K vùng lân cận gần nhất - K nearest neighbour query (K-
NNQs): K-NNQs bao gồm một tập dữ liệu không gian và một điểm truy vấn.
Nó tìm ra K đối tượng riêng biệt từ tập dữ liệu đầu vào và lần lượt có các
khoảng cách nhỏ nhất tính từ điểm truy vấn.
Ví dụ một truy vấn dạng K-NNQ trong CSDL Benchmark:
Truy vấn 2: Tìm hai nhà hàng gần nhất (giả thiết với Other.type = 1) tính từ
khu vực hiện tại tôi đang đứng ( với giá trị Human.Id = 20)
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
39
SELECT Other.id
FROM Human, Other
WHERE Other.type = 1 AND Human.Id = 20
ORDER BY Spatial_Neighbour (Other.Location, curr_space
(Human.Route) ) ASC = 2;
Trong trường hợp này K = 2.
Chú ý
Với câu lệnh SQL: ORDER BY Spatial_Neighbour (Other.Location,
curr_space (Human.Route) ) ASC = 2;
Hàm Spatial_Neighbour (attribute, reference) được sử dụng để biểu diễn
truy vấn dạng K-NN giữa các thuộc tính. Kết quả trả về được sắp xếp theo
quy tắc tăng dần (ở đây là khoảng cách giữa người dùng và nhà hàng).
1.3 Truy vấn nối các khu vực theo khoảng cách δ (truy vấn đệm)
Truy vấn nối các khu vực theo khoảng cách δ (truy vấn đệm) - δ–
distance range join query: Truy vấn trên bao gồm hai tập dữ liệu không gian và
giới hạn khoảng cách δ. Kết quả trả về là một tập các cặp đối tượng không
gian từ hai tập dữ liệu đầu vào, nằm trong giới hạn khoảng cách δ tính từ mỗi
đối tượng.
1.4 Phép nối khoảng cách Iceberg
Phép nối khoảng cách Iceberg - Iceberg distance join: Bao gồm hai tập dữ
liệu không gian, giới hạn khoảng cách δ và số yếu tố ngưỡng K. Kết quả trả về
là một tập các cặp đối tượng từ hai tập dữ liệu đầu vào, nằm trong phạm vi
khoảng cách δ từ mỗi đối tượng, quy định rằng đối tượng đầu tiên xuất hiện ít
nhất K lần trong kết quả của phép nối.
1.5 Truy vấn K cặp đối tượng gần nhất
Truy vấn K cặp đối tượng gần nhất - K closet pair query (K-CPQ): Bao
gồm hai tập dữ liệu không gian và số yếu tố ngưỡng K. Nó tìm kiếm K cặp
đối tượng riêng biệt từ hai tập dữ liệu đầu vào và có khoảng cách nhỏ nhất
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
40
giữa chúng là K.
Truy vấn 3: Tìm năm shop gần nhất tính từ khu vực tôi đang đứng có bán giày
dép đã được lưu trong mục Interest của người sử dụng.
SELECT Human.id, Shop.id, Offer.id
FROM Human, Shop, Offer
WHERE `shoes` in Human.Interests AND Offer.Info = `shoes`
AND Offer.Shop_id = Shop.id
ORDER BY All_Spatial_Neighbour_Pairs
(Shop.Location, curr_space (Human.route)) ASC 5;
Với K = 5.
Chú ý:
Tương tự như với câu truy vấn dạng K-NN, câu lệnh SQL:
ORDER BY All_Spatial_Neighbour_Pairs(Shop.Location, curr_space
(Human.route)) ASC 5;
Cũng được sử dụng để biểu diễn các truy vấn dạng K-CP
1.6 Nối K vùng lân cận gần nhất
Nối K vùng lân cận gần nhất - K nearest neighbour join: Bao gồm hai
tập dữ liệu không gian và số yếu tố ngưỡng K. Kết quả trả về là tập các cặp
đối tượng từ hai tập dữ liệu đầu vào thỏa mãn, với mỗi đối tượng của tập dữ
liệu đầu tiên, một cặp được tạo thành với mỗi K vùng lân cận gần nhất của nó
trong tập dữ liệu thứ hai.
1.7 Truy vấn K- nối khoảng cách
Truy vấn K- nối khoảng cách - K-Multi-way distance join query: Một truy
vấn theo dạng này bao gồm n tập dữ liệu không gian, một đồ thị truy vấn (là
một đồ thị định hướng có trọng số định nghĩa hành trình có hướng giữa n tập
dữ liệu đầu vào) và số yếu tố ngưỡng K. Kết quả trả về là một tập bao gồm K
bộ dữ liệu riêng biệt, mỗi bộ có n đối tượng – n-tuples ( bộ dữ liệu chứa n đối
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
41
tượng từ n tập dữ liệu thỏa mãn biểu đồ truy vấn). với K giá trị Ddistance nhỏ
nhất (Hàm Ddistance là một hàm bậc nhất về khoảng cách với n đối tượng tạo
nên n-bộ dữ liệu, chiếu theo các cạnh của đồ thị truy vấn ban đầu).
Kết luận
Các truy vấn liên quan đến khoảng cách trong CSDL không gian rất hữu
ích trong nhiều ứng dụng sử dụng dữ liệu không gian cho việc lập quyết định
và nhiều phép toán yêu cầu xừ lý dữ liệu khác. Ví dụ trong trường hợp sử
dụng truy vấn cặp gần nhất – K-CPQ, tập dữ liệu đầu tiên có thể biểu diễn các
ranh giới về văn hóa của Mỹ, trong khi tập dữ liệu thứ hai có thể bao gồm
những địa danh nổi tiếng nhất tại Bắc Mỹ. Kết quả trả về cho loại truy vấn này
sẽ bao gồm K cặp gần nhất các thành phố và vùng văn hóa, nó cung cấp một
trình tự cho các nhà tổ chức để sắp xếp được lịch trình du lịch hợp lý trong
các chuyến tham quan của du khách... Giá trị K ở đây có thể phụ thuộc vào
ngân sách mà nhà tổ chức dự định chi trả cho mục đích sử dụng này.
Trong giới hạn nghiên cứ của đề tài, chúng ta sẽ chú trọng tìm hiểu hai loại
truy vấn là K-NNQ và K-CPQ, qua đó nắm được cách thiết kế các thuật toán
xấp xỉ trong các truy vấn liên quan đến khoảng cách.
Hình dưới minh họa một tập các điểm trong không gian hai chiều được tổ
chức theo cấu trúc R-tree (MBR-based index – Minimum bounding Rectangle-
based index -phương pháp đánh chỉ mục dựa trên khung giới hạn nhỏ nhất),
mục đích là tìm ba vùng lân cận gần nhất (K = 3 Ù 3-NNQ) với điểm truy
vấn q. Dễ thấy kết quả của phép truy vấn 3-NNQ là (p11, p8, p4)
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
42
Hình 15: R-Tree và MBRs trong truy vấn
Với ví dụ minh họa dưới đây, ta xét với hai tập điểm 2 chiều khác nhau (tổ
chức theo cấu trúc R-Tree, một tập dữ liệu được thể hiện với MBR không tô
màu, tập còn lại được thể hiện theo cấu trúc MBR chia sẻ). Nếu ta muốn bao
gồm 3 cặp điểm gần nhất (3-CPs) từ hai tập dữ liệu trên thì thu được kết quả
là ((p8, q8), (p11, q10), (p4, q6))
Hình 16: R-Tree và truy vấn trong hai cấu trúc MBR khác nhau
2 R – Tree
Kỹ thuật Phân nhánh-và-giới hạn (branch-and-bound) đang là một kỹ
thuật thành công nhất sử dụng trong việc thiết kế các thuật toán giải quyết các
câu hỏi của ngôn ngữ truy vấn trên cấu trúc dạng cây. Hàm chức năng giới
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
43
hạn thấp hơn và giới hạn cao hơn là nền tảng cơ bản của hiệu năng tính toán
trong thuật toán phân nhánh-và-giới hạn. Kỹ thuật giả định cơ bản sử dụng
trong các thuật toán truy vấn khoảng cách là các tập dữ liệu không gian được
đánh chỉ mục bởi cấu trúc của họ R-Tree. R-Tree và các biến thể của nó được
đánh giá là sự lựa chọn hoàn hảo trong việc đánh chỉ mục cho rất nhiều loại
dữ liệu không gian (điểm, đoạn thẳng, hình chữ nhật, đa giác…) và vẫn đang
được tiếp tục phát triển trong các hệ thống thương mại như Informix và
Oracle.
2.1 Khái niệm
R-Tree là các cấu trúc cây dữ liệu sử dụng cho dữ liệu không gian đa
chiều, có tính chất cân bằng độ cao và có thứ tự, được thiết kế cho thiết bị lưu
trữ thứ cấp, và là sự tổng quát hóa của B-tree[3] cho các không gian dữ liệu đa
chiều. Chúng được sử dụng để tổ chức động các đối tượng trong không gian d
chiều được biểu diễn bởi Đường biên d-chiều tối thiểu (Minimum Bounding
d-dimentional hyper-Rectangle – MBR – hoặc khung giới hạn d-chiều nhỏ
nhất). Một MBR được xác định bởi hai điểm trong không gian d chiều thuộc
bề mặt của nó, một điểm là tọa độ d nhỏ nhất và một điểm là tọa độ d lớn nhất
(chúng là các điểm kết thúc của các đường chéo thuộc MBR). Một nút trong
cây R-Tree tương ứng với MBR bao gồm cả các nút con của nó. Các lá của
cây bao gồm nhiều con trỏ trỏ đến các đối tượng của CSDL thay vì các con trỏ
trỏ đến các nút con. Các nút được xử lý giống như các trang nhớ trên đĩa.
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
44
Hình 17: Ví dụ về R-Tree
Hình trên mô tả một số hình chữ nhật ở bên trái và cây R-Tree tương ứng
ở phía bên phải. Các đường ba chấm biểu thị khung giới hạn của cây con đã
được phát sinh từ nút bên trong. Với các kiểu cấu trúc cây khác như cấu trúc
chỉ mục, một chỉ mục của cây R-Tree phân chia không gian đa chiều bằng
cách nhóm các đối tượng trong từng loại thứ tự. Một không gian con chứa bởi
một nút thuộc cây R-Tree luôn phải nằm trong không gian con của nút cha của
nó, đó là đặc tính bao đóng MBR. Theo đặc tính này, một MBR của một nút
R-tree (ở bất cứ tầng nào ngoại trừ phía bên trái cây) luôn bao trọn MBR của
nút R-tree con cháu của nó. Đặc điểm này của kỹ thuật giới hạn không gian
giữa các MBR của các nút trong cây R-tree thường được sử dụng trong thuật
toán nối không gian và thuật toán truy vấn liên quan đến khoảng cách. Chú ý
rằng MBR – Đường biên tối thiểu - và thuộc tính đi kèm MBR chính là các
kỹ thuật xấp xỉ cơ bản. Ở tầng bên trái, một khu vực xấp xỉ MBR được bao
phủ bởi các đối tượng nó đi kèm, trong khi tại các tầng bên trong một khu vực
xấp xỉ MBR lại được bao phủ bởi các cây con của các nút tương ứng. Một
thuộc tính quan trọng khác của R-tree là MBR face property (tạm dịch: thuộc
tính bề mặt MBR) – mỗi bề mặt của bất kỳ MBR của mỗi nút R-tree (tại bất kỳ
tầng nào) liền kề ít nhất một điểm của một số đối tượng không gian trong
CSDL không gian. Đặc điểm này được sử dụng trong các thuật toán truy vấn
liên quan đến khoảng cách. Một trong những phiên bản phổ biến và có hiệu
năng cao nhất là R* -tree (Beckmann et al.,1990). R* đã bổ sung hai cải tiến
lớn vào cấu trúc R-Tree ban đầu trong trường hợp xảy ra việc quá tải các nút
trong cây. Đầu tiên, hơn cả việc chỉ tính toán đến các khu vực , thuật toán
phân tách nút trong R*-tree còn tối thiểu hóa chu vi và các phần mở rộng nằm
gối lên nhau của MBRs. Thứ hai, việc tràn nút không được phân tách ngay lập
tức, nhưng các phần chia các mục trong nút được chèn lại từ đầu của cây R*-
tree (việc chèn bắt buộc)
Corall et al (2000) đã đưa ra một sự tổng quát hóa của các chức năng dùng
trong việc tính toán khoảng cách tối thiểu giữa điểm và MBRs
(MINMINDIST).
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
45
Giả sử có (A, B) biểu diễn một MBR trong không gian d-chiều, với A =
(a1, a2, …, ad) và B = (b1, b2, …, bd) sao cho ai ≤ bi, với 1 ≤ i ≤ d là các điểm
kết thúc của một trong những đường chéo chính của nó. Ta có hai MBRs là
M1 (A, B) và M2 (C, D), MINMINDIST (M1, M2) được định nghĩa như sau:
Chúng ta có thể áp dụng chức năng về khoảng cách này cho một cặp các
loại phần tử bất kỳ (MBRs hoặc điểm) lưu trữ trong cấu trúc R-tree trong quá
trình tính toán của thuật toán rẽ nhánh và cận nhằm thu nhỏ không gian tìm
kiếm.
Những đặc tính quan trọng nhất của MINMINDIST:
Nếu bất kỳ một hoặc một cặp MBR (dạng chữ nhật) nào suy biến thành
một hoặc một cặp điểm, ta phải thu được khoảng cách nhỏ nhất giữa
điểm đó và MBR hoặc giữa hai điểm này.
Đặc điểm của đường biên cấp thấp hơn: Với mỗi cặp điểm trong không
gian đa chiều (p ; q) đi cùng với một cặp MBR tương ứng (Mp; Mq),
chứng minh được rằng MINMINDIST (Mp; Mq) ≤ MINMINDIST(p,
q).
MINMINDIST là một dãy đơn điệu không giảm với các bậc của R-Tree.
2.2 Cấu trúc của một R-tree
Một cách tổng quát, R-tree là một cấu trúc chỉ mục cho các đối tượng
không gian n-chiều và nó tương tự như B-tree. Cấu trúc chỉ mục này là thực
sự linh động, thao tác chèn và xóa có thể kết hợp với phép tìm kiếm và phải
tái tổ chức theo chu kỳ.
Các nút lá trong cây chứa chỉ mục dẫn đến chúng theo khuôn dạng:
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
46
(MBR, object_ptr) - Trong đó object_ptr tham chiếu đến một bộ dữ liệu
trong cơ sở dữ liệu và MBR là một rectangle n-chiều chứa các đối tượng
không gian nó biểu diễn.
Các nút không phải lá có khuôn dạng sau:
(MBR, chirld_ptr) - Với chirld_ptr là địa chỉ một nút khác trong cây và
MBR bao gồm các rectangle trong các nút thấp hơn.
Nói cách khác, không gian MBR chứa mọi đối tượng được đánh chỉ mục
trong các cây con có gốc là đầu vào của MBR.
Cho M là số lượng tối đa đầu vào có thể vừa đủ với một nút và cho tham
số m xác định số lượng tối thiểu đầu vào tại một nút.
Một R-tree thỏa mãn các thuộc tính sau:
Mỗi một nút chứa số lượng nút con trong khoảng m và M ngoại trừ nút
gốc.
Đối với mỗi đầu vào dạng (MBR, object_ptr) tại nút lá, MBR là một
rectangle nhỏ nhất có chứa đối tượng dữ liệu n-chiều được biểu diễn bởi
object_ptr.
Mỗi nút không phải nút lá có số lượng nút con trong khoảng m và M
ngoại trừ nút gốc.
Đối với mỗi đầu vào dạng (MBR, chirld_ptr) tại nút không phải nút lá,
MBR là một rectangle nhỏ nhất có chứa rectangle trong chirld node.
Nút gốc có ít nhất là 2 nút con ngoại trừ đó là nút lá.
Đây là một loại cây cân bằng.
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
47
Hình 18: Cây biểu diễn R-Tree
Hình 19: Biểu diễn hai chiều của một R-Tree
2.3 Thuật toán R-Tree
R-tree là một cây cân bằng tương tự như B-tree. Ý tưởng như sau: Các
index sẽ nằm tại các nút lá chứa các điểm dữ liệu, khi đó việc tìm kiếm không
gian sẽ thực hiện trên một số lượng nhỏ các nút. Một cơ sở dữ liệu không gian
bao gồm tập hợp của các bộ đại diện cho các đối tượng trong không gian, mỗi
bộ có một nhận biết duy nhất ,ta cóthể dùng nhận biết này để truy xuất nó. Các
node lá trong R-Tree chứa các đầu vào mẫu tin chỉ mục (index record entries) (I,
tuple-identifier [4]) với tuple- identifier (nhận dạng bộ dữ liệu) tham khảo đến
một bộ trong cơ sở dữ liệu và I là hình chữ nhật n chiều, hình này là khung
giới hạn nhỏ nhất - MBR của các index đối tượng không gian.
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
48
I = (I0, I1,… In).
n - số chiều không gian
Ii - một khoảng biên khép kín [a,b], mô tả phạm vi của đối tượng cùng với
chiều i.
Một node không phải là node lá chứa các entry như sau (I, child-pointer),
child-point là địa chỉ của node thấp hơn trong R-Tree và I bao phủ tất cả các
hình chữ nhật trong các entry của các node thấp hơn.
Hình 20: Cấu trúc một R-Tree
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
49
Hình 21: Các quan hệ có thể có giữa các MBR (chứa trong, chồng lấn…)
2.3.1 Tìm kiếm trong cấu trúc dữ liệu tổ chức dưới dạng R-Tree
Tìm kiếm
Thuật toán tìm kiếm duyệt cây từ gốc (root) đi xuống theo cách tương tự
như B-tree. Tuy nhiên khi thăm một node sẽ có nhiều hơn một cây con dưới
node đó cần được tìm kiếm, vì lý do đó thuật toán không thể bảo đảm thực
hiện tốt trong các trường hợp xấu nhất. Tuy nhiên với nhiều kiểu của dữ liệu
thuật toán cập nhật sẽ duy trì hình dạng của cây cho phép thuật toán tìm kiếm
loại đi các vùng không liên quan của không gian được đánh chỉ mục, và kiểm
tra duy nhất dữ liệu gần vùng tìm kiếm. Chúng ta sẽ biểu diễn phần hình chữ
nhật của một chỉ mục E là EI, và phần nhận dạng dữ liệu hay child-pointer là
Ep.
Thuật toán tìm kiếm:
Cho R-tree có root là T, tìm tất cả các mẫu tin chỉ mục mà có các hình chữ
nhật chồng lên một hình chữ nhật cần tìm S.
S1 [Tìm kiếm trên cây con] Nếu T là một node lá, kiểm tra mỗi mục E
để xác định xem Ei có trùng lên S hay không. Với tất cả các mục trùng
nhau, thực hiện tìm kiếm trên cây mà node root của nó được chỉ bởi
Ep.
S2 [Tìm kiếm trên node lá] NếuT là một lá, kiểm tra tất cả các mục E
để xác định EI có trùng lên S hay không. Nếu trùng E là một record đủ
tiêu chuấn.
2.3.1.1 Chèn (Insertion)
Việc thêm các index cho các bộ dữ liệu mới giống như thêm trong B-tree
là các index mới được thêm vào cho các lá, các node chứa quá số lượng sẽ bị
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
50
tách ra và quá trình tách này sẽ lan truyền lên phía trên cây.
Thuật toán Chèn (Insert):
Thêm một mục nhập chỉmục mới E vào trong R-tree
I1: [Tìm vị trí cho dữ liệu mới] dùng thuật toán chọn lá (ChooseLeaf)
để chọn một node lá L để thêm E.
I2: [Thêm dữ liệu cho node lá] nếu L có chỗ cho một entry khác, thêm
E nếu không thì dùng thuật toán chia node (SplitNode) đểcó được L và
LL chứa E và tất cả các mục nhập của L.
I3: [Lan truyền các thay đổi lên phía trên] Dùng thuật toán điều chỉnh
cây (AdjustTree) trên L, đồng thời bỏ qua LL nếu việc phân chia đã
được thực hiện.
I4: [Tăng trưởng cây] Nếu việc phân chia node lan truyền làm cho root
phân chia, tạo ra một root mới, mà con của root mới này là 2 node kết
quả.
2.3.1.2 Thuật toán Chọn lá (ChooseLeaf):
Chọn một node lá mà node lá này đặt một chỉ mục mới E.
CL1: [Khởi tạo] cho tập N là node root.
CL2: [Kiểm tra lá] Nếu N là một lá, trả về N.
CL3: [Chọn cây con] Nếu N không phải là một lá, cho F là entry trong
N mà các hình chữ nhật của nó FI cần mở rộng lá để tính EI. Giải quyết
các hạn chế bằng cách chọn entry với hình chữ nhật có diện tích nhỏ
nhất.
CL4: [Đi xuống cho đến khi một node lá được tìm thấy] tập N là node
con được chỉ đến bởi Fp và lặp lại từ CL2.
2.3.1.3 Thuật toán điều chỉnh cây (AdjustTree):
Đi lên từ một node lá L đến root, điều chỉnh hình chữ nhật bao phủ và lan
truyền phân chia các node chia khi cần thiết.
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
51
AT1: [Khởi tạo] cho tập N=L, nếu L đã được phân chia trước đó, tập NN
là kết quả của node thứ hai .
AT2: [Kiểm tra nếu thực hiện] Nếu N là root, ngưng.
AT3: [Điều chỉnh vùng phủ hình chữ nhật trong mục nhập cha] Cho P là
node cha của N và cho EN là các entry của N trong P. Điều chỉnh EN I để
cho nó bao sát xung quanh tất cả các hình chữ nhật entry trong N.
AT4: [Lan truyền node bị tách lên phía trên] Nếu N có NN (partner) kết
quả từ một phân chia mới nhất, tạo một entry mới ENN P trỏ đến NN và
ENN I bao quanh tất cả các hình chữ nhật trong NN, thêm ENN vào P nếu
có chỗ. Nếu không dùng SplitNode đểtạo ra P và PP chứa ENN và tất cả
các entry của P.
AT5: [Di chuyển đến mức kết tiếp]. Cho tập N=P và tập NN=PP nếu có
sự phân chia xảy ra. Lặp lại bước AT2.
2.3.2 Xóa (Deletion)
Thuật toán xóa
Thay đổi vị trí index của record E từ R-tree
D1: [Tìm node chứa record] thực hiện thuật toán FindLeaf để xác định vị
trí node lá L chứa E. Ngưng nếu record được tìm thấy.
D2: [Xóa record] Xóa E từ L.
D3: [Lan truyền thay đổi] dùng thuật toán CondenseTree bỏ qua L.
D4: [Rút ngắn cây] Nếu root có duy nhất một con sau khi cây đã được
điều chỉnh, tạo con cho root mới.
2.3.2.1 Thuật toán tìm lá (FindLeaf):
Cho R-tree có root là T, tìm node lá chứa đầu vài chỉ mục E.
FL1: [Tìm cây con] nếu T không phải là node lá, kiểm tra mỗi entry F
trong T để xác định, nếu FI chồng lấp với EI. Với mỗi entry thực hiện
thuật toán FindLeaf trên cây mà root của nó được trỏ đến bởi Fp cho đến
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
52
khi E được tìm thấy hay tất cả các entry đã được kiểm tra.
FL2: [Tìm node lá cho mục cho record] Nếu T là lá, kiểm tra mỗi entry
để xem nếu nó phù hợp với E, nếu E được tìm thấy trả về T.
2.3.2.2 Thuật toán Gom cây (CondenseTree):
Cho một node lá L, mộtentry được xóa từ node lá này, loại ra node này nếu
nó có quá ít các chỉ mục và xây dựng lại các entry của nó. Lan truyền việc loại
node này lên trên khi cần thiết. Điều chỉnh các hình chữ nhậtbao phủ trên
đường dẫn đến root, làm cho các hình chữ nhật này nhỏ hơn nếu có thể.
CT1: [khởi tạo] cho tập N=L, tập Q là tập của các node bịloạibỏ, Q là tập
rổng.
CT2: [Tìm entry cha] nếu N và root, nhảy tới bước CT6. Nếu không thì
cho P là cha của N, và cho EN là các entry của N trong P.
CT3: [Loạinode không đủ(Eliminate under-full node)] Nếu N có ít
hơn m entry, xóa EN khỏi P và thêm N vào tập Q.
CT4: [Điều chỉnh hình chữ nhật bao phủ] Nếu N không bị loại bỏ, điều
chỉnh EN I để chứa sát lại các entry trong N.
CT5: [Di chuyển lên trên mộtmức trong cây] Cho tập N=P và lặp lại từ
CT2.
CT6: [Chèn lại các entry bị mồi côi (Re-insert orphaned entries)]
Chèn lại vào tất cà các entry của các node trong tập Q. Các entry từ các
node lá bị loại bỏ được chèn lại vào trong các lá của cây như đã được mô tả
trong thuật toán Insert, nhưng các entry từ các node có mức cao hơn phải được
đặt cao hơn trong cây, vì vậy các lá của các cây con phụ thuộc vào chúng sẽ
nằm trên cùng mức như các lá của cây mẹ.
2.3.3 Cập nhật
Nếu một bộ dữ liệu được cập nhật để cho hình chữ nhật bao phủ nó bị thay
đổi, bản ghi chỉ mục của nó phải bị xóa, cập nhật và chèn lại, vì vậy nó sẽ phải
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
53
tìm cách để đặt đúng vị trí trong cây.
Một cách tìm kiếm khác so với cách được mô tả ở trên có thể hữu ích hơn,
ví dụ để tìm tất cả các đối tượng dữ liệu được chứa hoàn toàn trong một vùng
tìm kiếm, hoặc tất cả các đối tượng chứa vùng tìm kiếm.
Các bước thực hiện có thể được thực hiện bằng các biến đổi dễ hiểu trên
thuật toán đã cho. Tìm một entry cụ thể mà nhận dạng của nó đã được biết
trước cần đến thuật toán xóa và được thực hiện bằng thuật toán FindLeaf. Các
biến đổi của phạm vi xóa, trong phạm vi này, tất cả các đối tượng dữliệu trên
diện tích liên quan được xóa đi, cũng được R-tree cung cấp khá tốt.
2.3.3.1 Thuật toán tách node (Node Splitting)
Để thêm một một entry mới để một node đầy chứa M các chỉ mục, cần
phải phân chia tập hợp của M+1 các entry thành hai node. Sự phân chia nên
được thực hiện theo cách làm cho nó không chắc có thể thực hiện được việc
phân chia cả hai node mới sẽ cần được kiểm tra trên việc tìm kiếm thứ tự. Khi
đó sự quyết định thăm một node phụ thuộc vào hình chữ nhật bao phủ nó có
chồng lên diện tích tìm kiếm. Tổng số diện tích của hai hình chữ nhật bao phủ
sau khi tách có thể được giảm đến mức tối thiểu. Hình dưới đây minh họa điều
này. Diện tích của các hình chữ nhật trong trường hợp “bad split”lớn hơn
nhiều so với trường hợp “good split”.
Hình 22: Trường hợp phân chia node
Cùng tiêu chuẩn đã được dùng trong thủ tục ChooseLeaf để quyết định
xem nơi nào có thể chèn một chỉ mục mới vào tại mỗi mức trong cây, cây con
được chọn là một cây mà hình chữ nhật bao phủ của nó phải được mở rộng ít
Good Bad split
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
54
nhất khi chèn chỉ mục mới vào.
Chúng ta quay lại thuật toán phân chia tập M+1 entry thành hai nhóm cho mỗi
node mới.
Hình 23: Phân chia entry thành các nhóm node mới
Thuật toán A Quadractic-Cost
Thuật toán này cố gắng tìm một vùng được tách ra có diện tích nhỏ, nhưng
không bảo đảm là có thể tìm được một vùng có thể có diện tích nhỏ nhất. Chi
phí là bậc hai theo M và tuyến tính theo số lượng của các chiều.
Thuật toán chọn hai trong M+1 entry làm phần tử đầu tiên của hai nhóm
mới bằng cách chọn hai entry này, hai entry này có thể làm lãng phí diện tích
lớn nhất nếu cả hai được đặt trong cùng một nhóm. Như vậy diện tích hình
chữ nhật bao phủ cả hai entry, trừ đi diện tích của chính các entry, sẽ là lớn
nhất. Các entry còn lại được gán vào các nhóm cùng lúc. Tại mỗi bước, việc
mở rộng diện tích đòi hỏi phải thêm mỗi entry còn lạicho mỗi nhóm được tính
toán, và entry được gán thì sẽ xuất hiện một sự khác biệt lớn nhất giữa hai
nhóm.
Thuật toán Quadratic Split
Phân chia một tập M+1 các chỉ mục thành hai nhóm.
QS1: [chọn entry đầu tiên cho mỗi nhóm] Áp dụng thuật toán
PickSeeds để chọn hai entry làm các phần tử đầu tiên của các nhóm.
Gán mỗi entry cho một nhóm.
QS2: [Kiểm tra nếu đã thực hiện] Nếu tất cả các entry đã được gán,
ngưng. Nếu một nhóm có một vài entry mà tất cả những entry còn lại
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
55
phải được gán vào nó theo thứ tự để cho nhóm này có m nhỏ nhất, gán
các entry và ngưng.
QS3: [Chọn entry để gán] Thực hiện thuật toán PickNext để chọn entry
kế tiếp để gán. Thêm entry này vào nhóm mà hình chử nhật bao phủcủa
nó sẽ phải mở rộng ít nhất để chứa entry này. Giải quyết các hạn chế
bằng cách thêm entry vào nhóm có diện tích nhỏ nhất, khi đó nhóm này
có các entry ít hơn nhóm khác. Lặp lại QS2.
Thuật toán PickSeeds
Chọn hai entry làm phần tử đầu tiên của các nhóm.
PS1: [Tính toán sự thiếu hiệu quảcủa việc nhóm các entry với nhau]
Cho mỗi cặp các entry E1 và E2 , tạo một hình chữ nhật J bao gồm E1I
và E2I Tính d = area(J) – area (E1I) - area(E2I).
PS2: [Chọn cặp gây lãng phí nhất] Chọn cặp có d lớn nhất.
Thuật toán PickNext
Chọn một mục còn lại để phân loại vào một nhóm.
PN1: [Xác định giá trị của việc đặt mỗi entry trong mỗi nhóm] Cho
mỗi entry E chưa được phân nhóm, tính d1 = diện tích được yêu cầu
tăng trong hình chữ nhật bao phủ của nhóm 1 để bao gồm EI, tính toán
d2 tương tự như trên cho nhóm 2.
PN2: [Tìm entry thích hợp nhất cho một nhóm] Chọn bất kỳ entry nào
có sự khác biệt lớn nhất giữa d1 và d2.
Thuật toán LinearPickSeeds
Chọn hai entry làm các phần tử đầu tiên của các nhóm.
LPS1: [Tìm các hình chữ nhật xa nhất theo tất cả các chiều] Theo mỗi
chiều, tìm các entry mà hình chữ nhật của nó có cạnh dưới cao nhất và
có cạnh trên thấp nhất. Ghi lại việc phân chia.
LPS2: [Điều chỉnh hình dạng của cụm hình chữ nhật] Chuẩn hóa việc
phân chia bằng cách chia chiều rộng của toàn bộ các tập theo chiều
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
56
tương ứng.
LPS3: [Chọn cặp cách xa nhất] Chọn cặp có sự phân chia được chuẩn
hóa lớn nhất theo bất kỳ chiều nào.
Trên đây đề tài đã trình bày thuật toán R-tree, chúng ta có thể áp dụng
phương pháp này để tạo index cho cụm. Ta xem các cụm như là các không
gian mà chúng ta cần truy xuất, các vùng dữ liệu của cụm sẽ được phân chia
để nằm trong các hình chữ nhật nhỏ (không gian 2 chiều), ta sẽ có các hình
chữ nhật lớn hơn bao ngoài các hình chữ nhật nhỏ chứa dữ liệu này áp dụng
R-tree để tạo cây, khi đó nếu cần truy xuất một vùng dữ liệu nào đó trong
cụm ta sẽ dùng thuật toán tìm để xác định địa chỉ vùng dữ liệu này đang nằm
ở lá nào trong cây hay nói cách khác là lá nào đang chứa thông tin về vị trí của
vùng dữ liệu mà ta đang cần, khi biết các thông tin vềvịtrí trong không gian
của vùng dữ liệu đang tìm ta sẽ truy xuất đến rất nhanh cụm dữ liệu này. Như
vậy từ nếu tạo được index cho cụm thì việc tìm kiếm tương tự sẽ được
giảiquyết nhanh chóng. Ta chỉ cần tìm xem vị trí không gian của đối tượng
cần tìm tương tự nằm trong vùng địa chỉ không gian tại lá nào, truy xuất tất cả
các dữ liệu nằm trong vùng không gian đó ra để xét tương tự. Nếu không có
index cụm ta sẽ phải vét cạn các điểm trong cụm mới xác định được vị các vị
trí không gian cần tìm. Index cụm cũng cho phép xây dựng thuật toán tăng
trưởng cho gom cụm, từ index ta có thể xác định rất nhanh các vùng dữ liệu bị
ảnh hưởng khi thêm hay xóa dữ liệu mà không phải xác định lại tất cả các
cụm từ đầu.
Tuy nhiên R-tree vẩn còn hạn chế về hiệu xuất và nó chưa tối ưu các vùng
không gian của hình chữ nhật thư mục như: Diện tích bao phủ, vùng chồng
lấn, lề. Thuật toán R*-tree đã đưa ra các phương pháp cải tiến các khuyết
điểm này của R-tree.
3 Các kỹ thuật tính toán xấp xỉ khoảng cách
3.1 Thu nhỏ không gian tìm kiếm
Thu nhỏ không gian tìm kiếm - Search space reduction - bằng những kỹ thuật
xấp xỉ không gian tìm kiếm tiêu biểu nhất
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
57
Phương pháp xấp xỉ ε
Cho một số thực dương e (ε ≥ 0) xác định sai số lớn nhất về khoảng cách
có thể chấp nhận được, kết quả trả về của một truy vấn liên quan đến khoảng
cách – DBQ (như K-NNQ hoặc K-CPQ) là đại lượng xấp xỉ (ε + 1) nếu
khoảng cách của yếu tố i-th nằm trong khoảng sai số e (hoặc thừa số (ε + 1))
về khoảng cách của yếu tố đó (điểm cho K-NNQ hoặc cặp điểm đối với K-
CPQ) của kết quả chính xác trong truy vấn tương tự (1 ≤ i ≤ K). Ví dụ: Đại
lượng xấp xỉ (ε + 1) trả lời cho truy vấn theo K-CPQ là một chuỗi có thứ tự
(kết quả được sắp xếp theo chiều tăng dần của khoảng cách) của K cặp điểm
riêng biệt ((p1’,q1’), (p2’,q2’), …, (pk’,qk’)) € (P * Q)K với (pi’,qi’) là cặp điểm
gần nhất với đại lượng xấp xỉ (ε + 1) trong tập các cặp điểm gần nhất (pi, qi)
trong tập kết quả chính xác ((p1, q1), (p2, q2), …, (pk, qk)) € (P * Q)K với giá trị
(dist(pi’,qi’) – dist (pi, qi)))/ dist (pi, qi) ≤ ε, 1 ≤ i ≤ K.
Khi phương pháp lược bỏ theo kinh nghiệm được áp dụng trong thuật toán rẽ
nhánh và cận, một thành phần X ( cặp MBR hoặc điểm) sẽ bị loại bỏ nếu:
MINMINDIST (X) > z/ (ε + 1)
Ù (MINMINDIST (X) + MINMINDIST (X) * ε) > z
Ù MINMINDIST (X) > z – (MINMINDIST (X) * ε)
Việc giảm giá trị của z (giá trị khoảng cách của k-th cặp điểm gần nhất có
thể được truy xuất nhanh chóng trong quá trình xử lý của thuật toán) phụ
thuộc vào giá trị của MINMINDIST (X) nhân với ε (một số thực dương bất kỳ
và độc lập). Chú ý rằng với ε = 0, thuật toán xấp xỉ hoạt động như một phiên
bản thuật toán tính toán chính xác và trả về kết quả là những đáp án chính xác.
Phương pháp dung sai α (Corall et al, 2000a)
Khi phương pháp lược bớt theo kinh nghiệm được áp dụng, thành phần X
sẽ được loại bỏ nếu MINMINDIST (X) + α(z) > z, với z (z ≥ 0) là giá trị
khoảng cách hiện thời đang được lược bớt (ví dụ, khoảng cách của K-th vùng
lân cận gần nhất đã được truy xuất với K-NNQ) và α(z) là một hàm dung sai
cho phép. Để áp dụng hiệu quả phương pháp xấp xỉ này, hàm α(z) phải thỏa
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
58
mãn điều kiện α(z) ≥ 0 với mọi z và z1 ≤ z2 chỉ ra rằng z1 - α(z1) ≤ z2 - α(z2).
Dạng cơ bản của α(z) là : α(z) = β (β là một hằng số không âm) và α(z) = z * γ
(γ là một hằng số với 0 ≤ γ ≤ 1). Trong trường hợp thứ hai, MINMINDIST(X)
+ (z * γ) > z Ù MINMINDIST(X) > z – (z*γ) Ù MINMINDIST(X) > z * (1-
γ). Trong trường hợp này, việc tăng giá trị của z phụ thuộc vào γ (số thực
dương nằm trong khoảng [0. 1]), với γ = 0 ta cũng có thuật toán tính toán
chính xác.
Phương pháp N-consider (Corall et al, 2000a)
Trong trường hợp này, thuật toán rẽ nhánh và cận chỉ được sử dụng như
một phần tử đã được xác định, hoặc tỷ lệ phần trăm N (0 ≤ N ≤ 1) của tổng số
lượng các thành phần được khảo sát bởi thuật toán tính toán chính xác tương
ứng, khi xem xét đến thành phần bên trong N1 hoặc nút lá NL trong K-NNQ,
hoặc một cặp điểm N1 hoặc nút lá NL với K-CPQ. Với kỹ thuật xấp xỉ này ta
cố gắng giảm thiểu được việc mất thời gian trong quá trình tính toán khoảng
cách và làm giảm hiệu suất của chương trình một cách đáng kể. Thuật toán là
tính toán chính xác trong trường hợp N = 1 (N1 = NL = 1)
Phương pháp tính toán theo thời gian
Phương pháp tính toán theo thời gian - Time-consider method: Với kỹ
thuật này, thuật toán sẽ đưa ra một kết quả tốt nhât có thể (chính xác hoặc xấp
xỉ) nằm trong khoảng giới hạn của thời gian xử lý truy vấn cho phép (tổng
thời gian), và báo cáo kết quả tìm được một cách nhanh chóng. Ta sẽ có thuật
toán tính toán chính xác khi tổng thời gian này là không giới hạn (vô hạn).
Khi khảo sát kỹ thuật xấp xỉ này, với thời gian trả lời là một tham số quan
trọng được điều khiển trong các truy vấn liên quan đến khoảng cách. Chú ý
rằng phương pháp này không phải là phương pháp thu nhỏ không gian tìm
kiếm tự nhiên nhưng nó sử dụng việc giảm bớt không gian một cách hiệu quả:
Khi việc tính toán chưa hoàn tất, không gian cũng sẽ không được tìm kiếm
triệt để.
Các hàm khoảng cách dựa trên MBR trên đây cùng kỹ thuật lược bớt theo
kinh nghiệm và các kỹ thuật xấp xỉ (tính toán gần đúng) dựa trên việc thu nhỏ
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
59
không gian tìm kiếm, có thể được “nhúng” vào thuật toán rẽ nhánh và cận gần
đúng (approximate branch-and-bound algorithms) trong các truy vấn liên quan
đến khoảng cách và ứng dụng vào việc đánh chỉ mục trong các họ R-tree và
đáp ứng hiệu quả bài toán đặt ra bằng các kết quả gần đúng một cách nhanh
chóng. Với mục đích thiết kế thuật tóan rẽ nhánh và cận gần đúng ứng dụng
trong xử lý các truy vấn dạng K-NNQ và K-CPQ theo cách thức “non-
incremental” - không gia số (K phải được hiểu theo nghĩa nâng cao), do vậy
việc xây dựng một cấu trúc dữ liệu mở rộng để lưu trữ K lân cận gần nhất
hoặc các cặp gần nhất theo thứ tự đã định sẵn là cần thiết. Cấu trúc dữ liệu này
được gọi là K-heap – được tổ chức như một heap nhị phân lớn nhất. Nó có thể
áp dụng được cả bốn kỹ thuật xấp xỉ vào các thuật tóan rẽ nhánh và cận có gia
số và không có gia số (lặp và đệ quy) trong các truy vấn liên quan đến khoảng
cách (bao gồm K-NNQ và K-CPQ) sử dụng cấu trúc dạng cây thuộc họ R-
tree, mặc dù ta sẽ chỉ sử dụng chúng trong các kỹ thuật không gia số. P.156
3.2 Kỹ thuật tìm kiếm theo kinh nghiệm
Dưới đây là một số kỹ thuật tìm kiếm dựa trên kinh nghiệm - Heuristic
space techniques - (Tìm kiếm khu vực, simulated annealing – tạm dịch: mô
phỏng sự xử lý nhiệt và các thuật toán phát sinh), các phương pháp này có thể
kết hợp với kỹ thuật đánh chỉ mục không gian dạng cây (R-Tree) nhằm đạt
được kết quả tốt nhất, nhưng không cần thiết phải tối ưu hóa, đây là một giải
pháp tăng hiệu năng trong việc xử lý các truy vấn liên quan đến khoảng cách,
và đưa ra câu trả lời truy vấn một cách nhanh chóng.
3.2.1 Tìm kiếm khu vực
Tìm kiếm khu vực – Local search - hoặc phương pháp gia tăng lặp bắt đầu
với một giá trị thỏa mãn ngẫu nhiên gọi là Seed, và sau đó nó cố gắng nắm bắt
được một tối ưu mang tính khu vực bằng quá trình thực thi kỹ thuật di chuyển
leo đồi (là phương pháp khảo sát các lân cận thỏa mãn ở mức cao hơn). Khi
tìm kiếm được một câu trả lời tối ưu trong khu vực (trong trường hợp không
thể thực hiện tiếp việc tìm kiếm lân cận ở mức cao hơn), chương trình khởi
tạo lại quá trình tìm kiếm trên tại một Seed khác cho đến khi đạt đến giới hạn
thời gian xử lý cho phép của hệ thống. Thuật toán dựa trên khái niệm phổ biến
Đề tài: Tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách
trong cơ sở dữ liệu không gian
2008
60
này đang rất thành công trong việc giải quyết một số vấn đề phức tạp hiện
nay.
Trong ngữ cảnh của kỹ thuật tính toán gần đúng, tìm kiếm khu vực được
áp dụng với mục đích cải thiện chất lượng của các giải pháp tìm kiếm xấp xỉ
ban đầu đang được sử dụng trong nhiều ứng dụng. Quá trình sắp xếp tổng quát
một cách có hệ thống nhằm lặp lại việc tìm kiếm một đáp án chính xác hơn
trong vùng lân cận N(x) với x là nghiệm gần đúng được đưa ra. Có rất nhiều
giải thuật có thể được thiết kế dựa trên việc vùng lân cận N(x) được định
nghĩa như thế nào, và N(x) có thể được định nghĩa một cách rõ ràng hoặc toàn
diện (có nghĩa tương ứng với một thuật toán để tính toán các thành phần trong
N(x)). Lược đồ tổng quát được mô tả như những bước dưới đây:
Input: Một nghiệm gần đúng - x
Output: Một nghiệm gần đúng x với độ chính xác cao hơn giả thiết.
LS1: Giả thiết có x. Kiểm tra sự tồn tại một giá trị nghiệm tốt hơn của
hàm tính toán trong N(x)
LS2: Nếu có, thiết lập x là giá trị biểu diễn cho nghiệm chính xác hơn ở
trên và quay trở lại bước LS1. Ngược lại, chương trình sẽ trả về giá trị
x là nghiệm gần đúng tối ưu và dừng.
3.2.2 Simulated Annealing
Simulated Annealing là phương pháp tìm kiếm theo kinh nghiệm dựa trên
ý tưởng từ nghành vật lý học (xuất phát từ sự tương tự với quá trình xử lý
nhiệt các vật liệu thủy tinh). Ý tưởng thiết yếu này không phải là ý tưởng
nhằm giới hạn thuật toán tìm kiếm để chuyển đến không gian tìm kiếm, điều
này có thể làm giảm hàm giá trị (trong khi với hàm giá trị, ta cần cố gắng tối
thiểu hóa), nhưng việc cho phép dịch chuyển một phần (các thành phần có
thể) có thể làm tăng việc phải tính toán các hàm giá trị. Về cơ bản, nó cho
phép thuật toán tìm kiếm bỏ qua các tối thiểu k
Các file đính kèm theo tài liệu này:
- TrangHTH_DH.pdf