Tài liệu Xử lý dữ liệu thiếu trong nghiên cứu phụ tải bằng Support Vector Regression (SVR): 28 Nguyễn Tuấn Dũng, Nguyễn Thanh Phương
XỬ LÝ DỮ LIỆU THIẾU TRONG NGHIÊN CỨU PHỤ TẢI BẰNG SUPPORT
VECTOR REGRESSION (SVR)
DEALING WITH MISSING DATA FOR THE POWER LOAD STUDIES USING SUPPORT
VECTOR REGRESSION (SVR)
Nguyễn Tuấn Dũng1, Nguyễn Thanh Phương2
1Tổng Cơng ty Điện lực TP. Hồ Chí Minh; dungnt@hcmpc.com.vn
2Trường Đại học Cơng nghệ TP. Hồ Chí Minh; nt.phuong@hutech.edu.vn
Tĩm tắt - Trong những năm gần đây, việc nghiên cứu và ứng dụng
các kỹ thuật khai thác dữ liệu gặp phải nhiều khĩ khăn, thách thức
lớn, trong đĩ cĩ vấn đề giá trị thiếu, tức là cĩ những giá trị thuộc tính
của dữ liệu bị thiếu. Cĩ nhiều nguyên nhân khác nhau dẫn tới hiện
tượng này: thiết bị thu thập dữ liệu bị hỏng, sự thay đổi thiết kế thí
nghiệm, sự từ chối cung cấp dữ liệu nhằm bảo vệ tính riêng tư, sự
sơ suất khi nhập dữ liệu, các sự cố xảy ra trong quá trình truyền dữ
liệu,... [1]. Trong đĩ, việc thiếu dữ liệu phục vụ cơng tác nghiên cứu,
dự báo phụ tải điện là một trong những vấn đề n...
6 trang |
Chia sẻ: quangot475 | Lượt xem: 351 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Xử lý dữ liệu thiếu trong nghiên cứu phụ tải bằng Support Vector Regression (SVR), để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
28 Nguyễn Tuấn Dũng, Nguyễn Thanh Phương
XỬ LÝ DỮ LIỆU THIẾU TRONG NGHIÊN CỨU PHỤ TẢI BẰNG SUPPORT
VECTOR REGRESSION (SVR)
DEALING WITH MISSING DATA FOR THE POWER LOAD STUDIES USING SUPPORT
VECTOR REGRESSION (SVR)
Nguyễn Tuấn Dũng1, Nguyễn Thanh Phương2
1Tổng Cơng ty Điện lực TP. Hồ Chí Minh; dungnt@hcmpc.com.vn
2Trường Đại học Cơng nghệ TP. Hồ Chí Minh; nt.phuong@hutech.edu.vn
Tĩm tắt - Trong những năm gần đây, việc nghiên cứu và ứng dụng
các kỹ thuật khai thác dữ liệu gặp phải nhiều khĩ khăn, thách thức
lớn, trong đĩ cĩ vấn đề giá trị thiếu, tức là cĩ những giá trị thuộc tính
của dữ liệu bị thiếu. Cĩ nhiều nguyên nhân khác nhau dẫn tới hiện
tượng này: thiết bị thu thập dữ liệu bị hỏng, sự thay đổi thiết kế thí
nghiệm, sự từ chối cung cấp dữ liệu nhằm bảo vệ tính riêng tư, sự
sơ suất khi nhập dữ liệu, các sự cố xảy ra trong quá trình truyền dữ
liệu,... [1]. Trong đĩ, việc thiếu dữ liệu phục vụ cơng tác nghiên cứu,
dự báo phụ tải điện là một trong những vấn đề nan giải đối với ngành
điện. Hiện các cơng ty điện lực đang thực hiện việc này bằng cách
nội suy từ các giá trị đo đếm của các ngày trước, giờ trước một cách
thủ cơng, khơng chuẩn xác làm ảnh hưởng khơng nhỏ đến kết quả
phân tích, xử lý dữ liệu trong quá trình nghiên cứu phụ tải. Bài báo
đề xuất một phương pháp xử lý dữ liệu thiếu bằng cách xây dựng
các mơ hình hồi quy tối ưu hĩa các thơng số tự động thơng qua quá
trình huấn luyện học máy Support Vector Regression (SVR), từ đĩ
ước lượng lại các dữ liệu đã mất hoặc khơng ghi nhận được trong
quá trình đo đếm.
Abstract - In recent years, the research and the application of data
mining techniques have encountered many difficulties and
challenges, including the missing value problem i.e. the attribute
values of the data are missing . There are many different causes
of this phenomenon: damaged data collection equipment, the
change of design of experiments, the refusal to provide the data in
order to protect privacy, the mistake when importing data, the
incident occurrence during the data transmission... [1]. In
particular, the lack of data is one of the problems for the power
sector. The power companies are doing this manually, causing
influence on results analysis. This paper proposes a method of
handling missing data by building the regression model to optimize
parameters automatically through Support Vector Regression
(SVR), machine learning training which estimates the lost data or
unrecorded data during the measurement.
Từ khĩa - thiếu dữ liệu; ước lượng; số liệu đo đếm; phụ tải điện;
SVM; SVR
Key words - missing data; estimation; measurement data; power
load; SVM; SVR
1. Đặt vấn đề
1.1. Dữ liệu thiếu trong quá trình khai thác cơ sở dữ liệu
(CSDL)
Tất cả các nhà nghiên cứu đều đã phải đối mặt với các
vấn đề về dữ liệu định lượng bị mất (thiếu giá trị) tại một
số điểm trong cơng việc của họ, làm thế nào để xử lý các
các giá trị thuộc tính thiếu là một nhiệm vụ quan trọng hàng
đầu của quá trình khái thác từ các CSDL. Việc loại bỏ tất
cả các bộ dữ liệu cĩ chứa giá trị thuộc tính thiếu sẽ làm mất
thơng tin, đánh mất các đặc trưng ban đầu của CSDL.
Phương pháp xem xét tình trạng nguyên thủy (dữ liệu gốc),
sử dụng dữ liệu sẵn cĩ để cĩ thể gán các giá trị thiếu sẽ là
cách làm tốt nhất. Tuy nhiên, để xác định giá trị thực của
dữ liệu thiếu là cơng việc rất khĩ khăn.
Cho đến nay, cĩ nhiều phương pháp xử lý giá trị thiếu
đã được đề xuất và áp dụng [1, 2]. Các phương pháp này
cho phép xử lý trực tiếp các giá trị thiếu, tuy nhiên chúng
cũng cĩ thể mang những thơng tin nhiễu vào tập dữ liệu
đang xét. Việc xử lý các giá trị thiếu cần phải được cân
nhắc và thực hiện một cách thận trọng, nếu các nhà nghiên
cứu sử dụng phương pháp xử lý dữ liệu bị mất mà khơng
cẩn thận xem xét các giả định cần thiết của phương pháp
đĩ, họ cĩ nguy cơ cĩ kết quả sai lệch và gây hiểu nhầm [2].
Cho đến nay, việc xử lý giá trị thiếu trong các CSDL vẫn
là đề tài thu hút sự quan tâm của nhiều nhà nghiên cứu và
ứng dụng.
Một nhiệm vụ vơ cùng quan trọng khi xây dựng một
phương pháp xử lý giá trị thiếu là phải hiểu được cơ chế
sinh ra các giá trị thiếu trong CSDL cần khai phá. Nắm bắt
được cơ chế sinh ra giá trị thiếu trong một tình huống cụ
thể sẽ giúp xây dựng được một phương pháp xử lý thích
hợp và hiệu quả. Theo các nhà thống kê tốn học, sự xuất
hiện các giá trị thiếu trong một CSDL cĩ thể phân thành ba
trường hợp theo tính ngẫu nhiên như [1, 2]:
- Trường hợp 1: Thiếu hồn tồn ngẫu nhiên (Missing
Completely At Random – MCAR). Đây là mức độ ngẫu
nhiên cao nhất. Trường hợp này xảy ra khi xác suất một
giá trị của thuộc tính bị thiếu khơng phụ thuộc vào các
giá trị đã biết cũng như bản thân giá trị bị thiếu.
- Trường hợp 2: Thiếu ngẫu nhiên (Missing At
Random – MAR). Đĩ là khi xác suất xuất hiện một giá
trị thiếu tại một thuộc tính cĩ thể phụ thuộc vào các giá
trị đã biết, nhưng khơng phụ thuộc vào bản thân giá trị
bị thiếu.
- Trường hợp 3: Thiếu khơng ngẫu nhiên (Not
Missing At Random – NMAR): khi xác suất xuất hiện
một giá trị thiếu tại một thuộc tính phụ thuộc vào giá trị
của thuộc tính đĩ.
1.2. Dữ liệu thiếu trong nghiên cứu phụ tải điện
Nghiên cứu phụ tải là hoạt động phân tích biểu đồ phụ
tải hệ thống điện nhằm chia thành biểu đồ của các thành
phần phụ tải, phân nhĩm phụ tải, các khách hàng sử dụng
điện cuối cùng và các cơng nghệ sử dụng điện, để đưa ra
các thơng tin quan trọng như: Cơng suất và thời gian xuất
hiện phụ tải đỉnh; Xu hướng tăng trưởng của phụ tải đỉnh
ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 3(112).2017-Quyển 1 29
và hệ số phụ tải; Chênh lệch phụ tải cao/thấp điểm của hệ
thống; Lập kế hoạch, thiết kế và triển khai các chương trình
DSM; Nâng cao độ chính xác của dự báo phụ tải ngắn
hạn;....
Đây là một hoạt động chuyên sâu về phân tích số liệu,
trong đĩ dữ liệu được thu thập thường là rất lớn, thơng qua
các hình thức thu thập tự động hoặc thủ cơng. Do đĩ dữ
liệu bị lỗi là rất khĩ tránh khỏi, bởi cĩ rất nhiều nguyên
nhân như: sự cố đường truyền, sự cố thiết bị đo đếm, sự cố
thiết bị lưu trữ hay do việc xử lý dữ liệu thủ cơng khơng
đúng phương pháp,...
Dữ liệu đo đếm của phụ tải là số liệu cơng suất, điện năng
tiêu thụ của phụ tải theo chu kỳ đo quy định (30 phút hoặc
60 phút), thơng số vận hành, biểu đồ phụ tải (load profile).
Các Tổng cơng ty điện lực cĩ trách nhiệm thực hiện cài đặt
cơng tơ để truyền dữ liệu tự động về kho dữ liệu.
Trong quá trình vận hành, thu thập dữ liệu đã xuất hiện
nhiều sự cố làm gián đoạn việc ghi nhận các dữ liệu đo đếm
như: sự cố truyền dẫn tín hiệu từ cơng tơ đo đếm về kho dữ
liệu làm mất gĩi dữ liệu truyền về; lỗi tại thiết bị đo đếm;
lỗi do mất nguồn điện; lỗi do cài đặt thiết bị đo đếm khơng
đúng; lỗi do xử lý dữ liệu bằng phương pháp thủ cơng; hoặc
do việc thu thập dữ liệu bằng thủ cơng,... dẫn đến dữ liệu
ghi nhận được khơng phù hợp như: dữ liệu cĩ cĩ giá trị
bằng 0 (Fasse Zero); trùng lặp dữ liệu
(Inconsistent/Duplicate); thiếu chuỗi dữ liệu (Missing
Data); dữ liệu thiếu chính xác, khơng logic cao quá hoặc
thấp bất thường (Too High/Too Low).
Hình 1. Các lỗi thường gặp trong ghi nhận dữ liệu
2. Các phương pháp nghiên cứu xử lý dữ liệu thiếu
Cho đến nay vẫn chưa cĩ một phương pháp nào chuyên
dụng được khuyên sử dụng riêng cho việc xử lý dữ liệu
thiếu trong các ứng dụng khai thác dữ liệu. Đặc biệt, là làm
thế nào để cĩ thể xử lý giá trị thiếu trong một CSDL dữ liệu
khổng lồ. Một số phương pháp xử lý dữ liệu thiếu đã được
nghiên cứu [3, 4, 5].
2.1. Phương pháp loại bỏ: nếu xảy ra trường hợp thiếu dữ
liệu cho một biến bất kỳ nào đĩ, giải pháp đơn giản là loại
bỏ thuộc tính bị thiếu của dữ liệu ra khỏi qua quá trình phân
tích đánh giá của chuỗi dữ liệu. Phương pháp này chỉ được
áp dụng khi dữ liệu bị mất là hồn tồn ngẫu nhiên
(MCAR), vốn rất hiếm khi xảy ra trong thực tế.
Phương pháp loại bỏ các bộ dữ liệu cĩ chứa giá trị thiếu
cĩ ưu điểm là đơn giản, ít tốn thời gian hơn bất kỳ phương
pháp nào khác. Nhưng nĩ lại cĩ cĩ hai điểm hạn chế quan
trọng: i) thứ nhất là nếu chúng ta áp dụng vào trong thực tế
cĩ thể gây mất mát nhiều dữ liệu; ii) thứ hai là nếu phân bố
dữ liệu thiếu trong tập dữ liệu khơng thuộc trường hợp
(MCAR) thì việc loại bỏ tất cả các bộ dữ liệu cĩ giá trị thiếu
sẽ làm sai lệch nghiêm trọng kết quả.
2.2. Phương pháp gán ghép: Phương pháp này thay thế
các giá trị bị thiếu bằng một giá trị dự đốn được xem là
hợp lý, và sau đĩ thực hiện các phân tích cho chuỗi dữ liệu
đã được bổ sung.
- Gán ghép trung bình: Tính giá trị trung bình dữ liệu
của X bằng cách sử dụng các giá trị khơng bị mất và sử
dụng nĩ để gán ghép cho giá trị thiếu của X.
2.3. Phương pháp hồi qui tuyến tính
Khi hai thuộc tính định lượng nào đĩ cĩ mối quan hệ
tuyến tính với nhau, chúng ta cĩ thể xây dựng một phương
trình hồi quy tuyến tính, trong đĩ thuộc tính cĩ giá trị thiếu
là biến phụ thuộc, biến cịn lại là biến độc lập, và sử dụng
phương trình hồi quy cho việc dự đốn các giá trị thiếu của
biến phụ thuộc thơng qua các giá trị đã biết của biến độc
lập.
Phương pháp hồi quy tuyến tính thường gặp phải hai
vấn đề: i) thứ nhất, mơ hình quan hệ giữa các thuộc tính cĩ
phải tuyến tính khơng. Nếu mối quan hệ này là khơng tuyến
tính, các giá trị thiếu ước lượng được cĩ thể bị sai lệch lớn
so với các giá trị thực; ii) thứ hai, thường thì trong cùng
một bộ dữ liệu, các thuộc tính cĩ quan hệ chặt với thuộc
tính cĩ giá trị thiếu cũng cĩ giá trị thiếu.
2.4. Phương pháp xử lý dữ liệu thiếu trong nghiên cứu
phụ tải điện
Một số phương pháp ước lượng số liệu đo đếm của các
phụ tải điện bị lỗi trong quá trình thu thập dữ liệu của các
Cơng ty điện lực thường được sử dụng như [12]:
- Nội suy tuyến tính: nội suy từ đường đặc tính xu thế
tiêu thụ điện;
- Ngày tương đồng: sử dụng dữ liệu ngày tương đồng
của tuần hiện tại hoặc tuần trước;
- Tự động ước lượng: sử dụng trong trường hợp dữ
liệu bị thiếu khơng quá bảy (07) ngày;
- Kiểm tra trực quan đồ thị: để biết được dữ liệu bị
sai và quyết định về dữ liệu được ước lượng;
- Hiệu chỉnh ước lượng số liệu thủ cơng: được sử
dụng khi dữ liệu bị thiếu nhiều hơn bảy (07) ngày;
- Hiệu chỉnh ước lượng giá trị trung bình các tuần của
ngày tham chiếu: dựa vào dữ liệu của bốn (04) tuần gần
nhất;
Tuy nhiên, các cách làm này đều thực hiện một cách
thủ cơng và phụ thuộc rất nhiều vào năng lực kinh nghiệm
của chuyên gia thực hiện ước lượng.
Dữ liệu đo đếm của phụ tải gồm: số liệu cơng suất
(Pmax), điện năng tiêu thụ (Atổng) và nhiệt độ (t0) cĩ mối
quan hệ ràng buộc với nhau. Qua quan sát các dữ liệu
thống kê chúng ta thấy được mối quan hệ tuyến tính giữa
chúng, chẳng hạn như: những ngày nhiệt độ tăng cao thì
điện năng sẽ được tiêu thụ nhiều hơn do người dân sử
dụng nhiều thiết bị làm mát như máy điều hịa, quạt
máy,... dẫn đến cơng suất Pmax sẽ tăng cao đột biến và
sản lượng điện thương phẩm Atổng cũng vì thế tăng lên
theo. Ngược lại, những ngày thời tiết cĩ nhiệt thấp (trời
mát hay cĩ mưa) thì cơng suất Pmax và sản lượng điện
thương phẩm Atổng sẽ khơng tăng cao mà hạ xuống thấp,
đĩ là do nhu cầu sử dụng điện để giải nhiệt của người dân
30 Nguyễn Tuấn Dũng, Nguyễn Thanh Phương
khơng cịn nữa. Với phân tích trên, ta thấy mối quan hệ
ràng buộc của ba thành phần số liệu cơng suất (Pmax),
điện năng tiêu thụ (Atổng) và nhiệt độ (t0). Như vậy, việc
sử dụng phương trình hồi quy cho việc dự đốn các giá trị
thiếu trong quá trình nghiên cứu phụ tải điện là hồn tồn
phù hợp.
Bài báo đã đề xuất một phương pháp xử lý dữ liệu thiếu
bằng cách xây dựng các mơ hình hồi quy tối ưu hĩa các
thơng số tự động thơng qua quá trình huấn luyện học máy
Support Vector Regression (SVR), từ đĩ ước lượng lại các
dữ liệu đã mất hoặc khơng ghi nhận được trong quá trình
đo đếm.
2.4.1. Phương pháp học máy Support Vector Machine
(SVM)
Support Vector Machine (SVM) là phương pháp mạnh
và chính xác nhất trong số các thuật tốn nổi bật ở lĩnh vực
khai thác dữ liệu. SVM bao gồm hai nội dung chính là:
support vector classifier (SVC), bộ phân lớp dựa theo
vector hỗ trợ, và support vector regression (SVR), bộ hồi
quy dựa theo vector hỗ trợ. Được phát triển đầu tiên bởi
Vapnik vào những năm 1990 [6], SVM cĩ nền tảng lý
thuyết được xây dựng trên nền mĩng lý thuyết xác suất
thống kê. Trong những thập niên qua, SVM đã phát triển
nhanh chĩng cả về lý thuyết lẫn thực nghiệm.
2.4.2. Bộ hồi quy dựa theo vector hỗ trợ – Support vector
regression (SVR)
Ý tưởng cơ bản của SVR là ánh xạ khơng gian đầu vào
sang một khơng gian đặc trưng nhiều chiều mà ở đĩ, ta cĩ
thể áp dụng được hồi quy tuyến tính (mà nếu ta áp dụng
trực tiếp hồi quy tuyến tính thì khơng hiệu quả).
Đặc điểm của SVR là cho ta một giải pháp thưa (sparse
solution); nghĩa là để xây dựng được hàm hồi quy, ta khơng
cần phải sử dụng hết tất cả các điểm dữ liệu trong bộ huấn
luyện. Những điểm cĩ đĩng gĩp vào việc xây dựng hàm
hồi quy được gọi là những Support Vector. Việc phân lớp
cho một điểm dữ liệu mới sẽ chỉ phụ thuộc vào các support
vector.
Hình 2. Biến đổi khơng gian dữ liệu sang khơng gian đặc trưng
(thủ thuật Kernel)
Hàm hồi quy cần tìm cĩ dạng:
b)x(w)x(fy T +Φ==
Trong đĩ: mRw ∈ là véc-tơ trọng số; T là kí hiệu
chuyển vị; Rb∈ là hằng số; nRx∈ là véc-tơ đầu vào;
mR)x( ∈Φ là véc-tơ đặc trưng; Φ làm hàm ánh xạ từ
khơng gian đầu vào sang khơng gian đặc trưng [6, 7, 8].
Như vậy, mục tiêu của việc huấn luyện SVR là tìm
được w và b.
Cho tập huấn luyện {(x1, t1), (x2, t2), , (xN, tN)}
RR n ×⊂ . Với bài tốn hồi quy đơn giản, để tìm w và b
ta phải tối thiểu hĩa hàm lỗi chuẩn hĩa:
2
N
1n
2
nn w2
}ty{
2
1 λ+−∑
=
với λ là hằng số chuẩn hĩa
Để cĩ được một giải pháp thưa, ta sẽ thay hàm lỗi trên
bằng hàm lỗi ε-insensitive. Đặc điểm của hàm lỗi này là
nếu trị tuyệt đối của sự sai khác giữa giá trị dự đốn y(x)
và giá trị đích nhỏ hơn ε (với ε> 0) thì nĩ coi như độ lỗi
bằng 0.
Như vậy bây giờ, ta phải tối thiểu hĩa hàm lỗi chuẩn
hĩa sau:
2
N
1n
2
nn w2
1)t)x(y(EC +−∑
=
ε
Với b)x(w)x(y nTn +Φ= , C là hằng số chuẩn hĩa
giống như λ nhưng được nhân với hàm lỗi thay vì 2w .
Để cho phép một số điểm nằm ngồi ống ε, ta sẽ đưa
thêm các biến lỏng (slack variable) vào. Đối với mỗi điểm
dữ liệu nx , ta cần hai biến lỏng 0n ≥ξ và 0ˆn ≥ξ , trong
đĩ 0n >ξ ứng với điểm mà ε+> )x(yt nn (nằm ngồi và
phía trên ống) và 0ˆn ≥ξ ứng với điểm mà ε−< )x(yt nn
(nằm ngồi và phía dưới ống).
Hình 3. Minh họa cho các biến lỏng nξ
Điều kiện để một điểm đích nằm trong ống là:
ε+≤≤ε− nnn yty với yn = y(xn). Với việc sử dụng các
biến lỏng, ta cho phép các các điểm đích nằm ngồi ống
(ứng với các biến lỏng > 0) và như thế thì điều kiện bây giờ
sẽ là:
nnn
nnn
ˆyt
yt
ξ−ε−≥
ξ+ε+≤
Như vậy, ta cĩ hàm lỗi cho SVR:
)w
2
1ˆ(C 2
N
1n
nn +ξ+ξ∑
=
Mục tiêu của ta là tối thiểu hĩa hàm lỗi này với các ràng
buộc:
nnn
nnn
nn
ˆyt
yt
0ˆ,0
ξ−ε−≥•
ξ+ε+≤•
≥ξ≥ξ•
Dùng hàm Lagrange và điều kiện Karush-Kuhn-
Tucker, ta cĩ bài tốn tối ưu hĩa tương đương:
∑∑∑∑
=== =
−+−ε−−−−
N
1n
nnn
N
1n
nnmn
N
1n
N
1m
mmnn t)aˆa()aˆa()x,x(k)aˆa)(aˆa(2
1
ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 3(112).2017-Quyển 1 31
Với k là hàm nhân: )'x()x()'x,x(k T ΦΦ= . Bất kỳ một
hàm nào thỏa điều kiện Mercer thì đều cĩ thể được dùng
làm hàm nhân. Hàm nhân được sử dụng phổ biến nhất là
hàm Gaussian: )xxexp()x,x(k
2
jiji −γ−=
Cực đại hĩa với các ràng buộc:
0)aˆa(
Caˆ0
Ca0
N
1n
nn
n
n
=−•
≤≤•
≤≤•
∑
=
Từ đây, ta cĩ hàm hồi quy của SVR:
b)x,x(k)aˆa()x(y n
N
1n
nn +−=∑
=
Như vậy, với SVR sử dụng hàm lỗi ε-insensitive và
hàm nhân Gaussian ta cĩ ba tham số cần tìm: hệ số chuẩn
hĩa C, tham số γ của hàm nhân Gaussian và độ rộng của
ống ε [9]. Cả ba tham số này đều ảnh hưởng đến độ chính
xác dự đốn của mơ hình và cần phải chọn lựa kỹ càng.
Nếu C quá lớn thì sẽ ưu tiên vào phần độ lỗi huấn luyện,
dẫn đến mơ hình phức tạp, dễ bị quá khớp. Cịn nếu C quá
nhỏ thì lại ưu tiên vào phần độ phức tạp mơ hình, dẫn đến
mơ hình quá đơn giản, giảm độ chính xác dự đốn. Ý nghĩa
của ε cũng tương tự C. Nếu ε quá lớn thì cĩ ít vectơ hỗ trợ,
làm cho mơ hình quá đơn giản. Ngược lại, nếu ε quá nhỏ
thì cĩ nhiều vectơ hỗ trợ, dẫn đến mơ hình phức tạp, dễ bị
quá khớp. Tham số γ phản ánh mối tương quan giữa các
vectơ hỗ trợ nên cũng ảnh hưởng đến độ chính xác dự đốn
của mơ hình.
3. Kết quả nghiên cứu
3.1. Dữ liệu đầu vào
Dữ liệu đo đếm của phụ tải sử dụng trong việc xây dựng
thuật tốn gồm: số liệu cơng suất (Pmax), điện năng tiêu
thụ (Atổng) và nhiệt độ (t0) theo từng giờ, từng ngày trong
tháng của các phụ tải tại Tổng cơng ty Điện lực TP.HCM.
Xét một chuỗi dữ liệu đo đếm trong khoảng thời gian từ
ngày 01/01/2014 đến 28/02/2016.
Trong đĩ cĩ một số dữ liệu điện năng tiêu thụ (Atổng) bị thiếu
do gián đoạn đo đếm (ngày 12/02 – 14/02/2015) và lỗi giá trị 0
(ngày 10/01 – 13/01/2015) cần phải hiệu chỉnh.
Hình 4. Chuỗi dữ liệu cơng suất, sản lượng, nhiệt độ bị lỗi
3.2. Xây dựng mơ hình hồi quy cho việc dự đốn các giá
trị thiếu
Đặc điểm của SVR là cho ta một giải pháp thưa (sparse
solution); nghĩa là để xây dựng được hàm hồi quy, ta khơng
cần phải sử dụng hết tất cả các điểm dữ liệu trong bộ huấn
luyện, những điểm cĩ đĩng gĩp vào việc xây dựng hàm
hồi quy được gọi là những Support Vector (việc phân lớp
cho một điểm dữ liệu mới sẽ chỉ phụ thuộc vào các
support vector). Dựa trên mối quan hệ tuyến tính của ba
thành phần số liệu cơng suất (Pmax), điện năng tiêu thụ
(Atổng) và nhiệt độ (t0), bài báo đề xuất giải thuật xây
dựng mơ hình hồi quy dự đốn các giá trị thiếu cho chuỗi
dữ liệu điện năng tiêu thụ (Atổng), trên cơ sở ràng buộc của
bộ dữ liệu huấn luyện là thành phần số liệu cơng suất
(Pmax) và nhiệt độ (t0).
Yêu cầu đặt ra là thực hiện việc xử lý các dữ liệu điện
năng tiêu thụ bị lỗi trong quá trình đo đếm theo từng giờ
trong ngày hoặc tổng điện năng tiêu thụ tổng từng ngày
theo tháng. Trong đĩ, dựa trên mối quan hệ ràng buộc giữa
sản lượng điện năng tiêu thụ với cơng suất và nhiệt độ tại
thời điểm đo để xây dựng đường cong hồi quy bằng giải
thuật huấn luyện SVR (Support Vector Regression), từ đĩ
ước lượng các giá trị dữ liệu đã bị lỗi. Lưu đồ giải thuật
như sau:
Hình 5. Lưu đồ giải thuật xử lý dữ liệu thiếu
3.3. Kết quả xử lý dữ liệu thiếu
3.3.1. Phương pháp thơng thường: sử dụng giá trị trung
bình trong cùng thời gian cho 4 tuần trước đĩ của dữ liệu
đang xét, ta cĩ kết quả:
Ngày Athay thế
10/01/2015 55,70646
11/01/2015 47,10225
12/01/2015 55,8149
13/01/2015 55,89409
12/02/2015 54,20898
13/02/2015 53,90467
14/02/2015 38,22495
Khi sử dụng phương pháp này sẽ xảy ra một vấn đề đĩ
là: sẽ cĩ trường hợp dữ liệu của 4 tuần trước đĩ bị rớt vào
vùng dữ liệu bị thiếu. Chẳng hạn như xét việc tính tốn cho
dữ liệu thay thế ngày 12/02/2016, ta cĩ:
Athay thế (14/02) = (A 31/01 + A 24/01 + A 17/01 + A 10/01) / 4
Tuy nhiên, giá trị A 10/01 lại là dữ liệu bị thiếu mà ta đang
xét, do đĩ kết quả tính tốn chắc chắn sẽ khơng chính xác do
giá trị A 10/01 lúc này bằng 0. Đồng thời, xét ngày tương tự
của năm trước thì A 14/02/2014 cĩ giá trị lớn hơn nhiều so với
giá trị thay thế ta vừa tính tốn (49,698 > 38,22495). Như
vậy, cĩ thể kết luận phương pháp sử dụng giá trị trung bình
trong cùng thời gian cho 4 tuần trước đĩ của dữ liệu đang xét
là chưa thực sự phù hợp trong trường hợp này.
0
10
20
30
40
50
60
-
,500
1,000
1,500
2,000
2,500
3,000
3,500
1/1/15 8/1/15 15/1/15 22/1/15 29/1/15 5/2/15 12/2/15 19/2/15 26/2/15
Pmax(MW) Atổng (triệu kWh) Nhiệt độ (C)
Đầu vào
- Dữ liệu thống kê
điện năng tiêu thụ
theo giờ hoặc theo
ngày từ 01/2011 –
02/2016 (bao gồm
các dữ liệu bị lỗi);
- Dữ liệu ràng buộc
huấn luyện SVR:
cơng suất và nhiệt độ
tại thời điểm đo
tương ứng điện năng
tiêu thụ ở trên (từ
01/2011 – 02/2016).
Huấn luyện
SVR
- Hệ số chuẩn
hĩa C;
- Tham số γ
của hàm nhân
Gaussian;
- Và độ rộng
của ống ε.
Kết quả ước lượng
- Mơ hình hĩa dữ
liệu điện năng tiêu
thụ thơng qua huấn
luyện SVR;
- Kiểm tra sai số
của mơ hình hồi quy
SVR;
- Ước lượng các
giá trị lỗi của dữ liệu
bằng mơ hình hồi
quy đã xây dựng.
32 Nguyễn Tuấn Dũng, Nguyễn Thanh Phương
3.3.2. Phương pháp xây dựng đường cong hồi quy bằng
giải thuật SVR (Support Vector Regression)
Ta xét dữ liệu đo đếm từ tháng 01/2014 đến tháng
02/2016, ta thấy cĩ 04 số liệu điện năng (ngày 10 ÷
13/01/2015) bị lỗi ghi nhận bằng 0 – khơng đo đếm được
và 03 số liệu điện năng (ngày 12 ÷ 14/02/2015) bị lỗi ghi
nhận bằng rỗng – khơng lưu trữ được.
Hình 6. Dữ liệu cơng suất, sản lượng, nhiệt độ bị lỗi
Xây dựng bộ huấn luyện SVR sử dụng hàm lỗi ε-
insensitive và hàm nhân Gaussian ta cĩ ba tham số cần tìm:
hệ số chuẩn hĩa C, tham số γ của hàm nhân Gaussian và độ
rộng của ống ε [9, 10]. Dùng ngơn ngữ lập trình Matlab
version R2015 [11] để xây dựng chương trình ước lượng,
với x1, x2 là 02 vector dữ liệu cơng suất và nhiệt độ ghi
nhận theo ngày từ 01/01/2014 đến ngày 29/02/2016; Y là
vector dữ liệu điện năng tiêu thụ ghi nhận theo ngày từ
01/01/2014 đến ngày 29/02/2016 (cĩ chứa các số liệu bị
lỗi) cần được mơ hình hĩa.
Xét mơ hình RegressionSVM:
PredictorNames: {'x1' 'x2'}
ResponseName: 'Y'
Alpha: [490x1 double]
Bias: 49.3329
KernelParameters: [1x1 struct]
Mu: [2.8438 33.4579]
Sigma: [0.4550 1.7019]
NumObservations: 819
BoxConstraints: [819x1 double]
IsSupportVector: [819x1 logical]
Solver: 'SMO'
• Kiểm tra sai số mơ hình: để đánh giá mơ hình hồi
quy SRV vừa xây dựng, ta cĩ thể đánh giá sai số giữa dữ
liệu cĩ được từ mơ hình với dữ liệu gốc từ ngày 01/02/2016
đến ngày 29/02/2016, cụ thể:
Ngày Atổng ASVR Sai số
01/03/2016 61,32886 61,71895 0,64%
02/03/2016 62,03021 62,48851 0,74%
03/03/2016 62,96553 62,84238 -0,20%
04/03/2016 63,33033 63,32996 0,00%
05/03/2016 60,54942 60,80431 0,42%
06/03/2016 51,51996 51,34442 -0,34%
07/03/2016 61,3009 64,28201 4,86%
08/03/2016 62,66953 65,29363 4,19%
09/03/2016 62,32063 64,2593 3,11%
10/03/2016 63,39735 64,16269 1,21%
11/03/2016 63,12125 64,07474 1,51%
12/03/2016 62,35666 62,39124 0,06%
13/03/2016 53,77441 51,49986 -4,23%
14/03/2016 61,7763 65,688 6,33%
15/03/2016 64,74031 65,17506 0,67%
16/03/2016 63,42579 64,12583 1,10%
17/03/2016 64,34212 62,28785 -3,19%
18/03/2016 64,15241 63,88593 -0,42%
19/03/2016 61,46202 61,64864 0,30%
20/03/2016 53,37634 51,17158 -4,13%
21/03/2016 64,27811 65,7975 2,36%
22/03/2016 66,06186 65,64465 -0,63%
23/03/2016 66,52639 66,61304 0,13%
24/03/2016 65,63116 64,15241 -2,25%
25/03/2016 65,06465 66,22301 1,78%
26/03/2016 63,36537 62,74231 -0,98%
27/03/2016 53,32942 52,63901 -1,29%
28/03/2016 62,88254 66,04152 5,02%
29/03/2016 64,24489 65,20307 1,49%
Sai số phần trăm tuyệt đối trung bình (MAPE)
%8,1
A
AA
n
1*100MAPE
t
SVR
tt =−= ∑
Như vậy, cho thấy độ tin cậy của mơ hình hồi quy là rất
cao, mơ hình cĩ thể được sử dụng để ước lượng các số liệu
bị lỗi nêu trên.
Kết quả ước lượng số liệu bị lỗi:
Ngày Aước lượng
10/01/2015 53,49000
11/01/2015 44,31028
12/01/2015 54,99426
13/01/2015 55,34134
12/02/2015 49,28852
13/02/2015 51,21877
14/02/2015 45,88848
Hình 7. Kết quả ước lượng các số liệu bị lỗi
0
10
20
30
40
50
60
.0
500.0
1000.0
1500.0
2000.0
2500.0
3000.0
3500.0
1/1/15 8/1/15 15/1/15 22/1/15 29/1/15 5/2/15 12/2/15 19/2/15 26/2/15
Pmax(MW) Atổng (triệu kWh) Nhiệt độ (C)
0
20
40
60
Aước lượng Atổng
ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 3(112).2017-Quyển 1 33
4. Kết luận
Mơ hình bộ huấn luyện SVR sử dụng hàm lỗi ε-
insensitive và hàm nhân Gaussian đã giải quyết tốt yêu cầu
xử lý các dữ liệu điện năng tiêu thụ bị lỗi trong quá trình đo
đếm, dựa trên mối quan hệ ràng buộc của các dữ liệu thống
kê cơng suất và nhiệt độ ghi nhận theo ngày tương ứng với
lượng điện năng tiêu thụ. Qua đĩ, chúng ta đã xây dựng được
cơng cụ tự động ước lượng các dữ liệu bị lỗi mà trước đây
phải thực hiện thực một cách thủ cơng, nâng cao độ tin cậy
trong việc phân tích, xử lý dữ liệu trong quá trình nghiên cứu
phụ tải. Hướng phát triển sắp tới là sử dụng mơ hình bộ huấn
luyện SVR kết hợp mơ hình Box-Jenkin, Neural Networks
để triển khai cơng tác dự báo phụ tải điện ngắn hạn theo
giờ, ngày cĩ xét đến các ràng buộc về nhiệt độ.
TÀI LIỆU THAM KHẢO
[1] J. W. Grzymala-Busse and M. Hu, “A comparison of several
approaches to missing attribute values in data mining”, Proceedings
of the Second International Conference on Rough Sets and Current
Trends in Computing RSCTC'2000, October 16-19, 2000, Canada,
page 340-347.
[2] Jochen Hardt, Max Herke, Tamara Brian, Wilfried Laubach, “Multiple
Imputation of Missing Data: A Simulation Study on a Binary
Response”, Open Journal of Statistics, 2013, 3, page 370-378.
[3] SAS Institute, Multiple Imputation for Missing Data: Concepts and
New Approaches, 2005.
[4] Yuan Yang C., Multiple imputation for Missing Data: Concepts and
New Development (SAS Version 9.0), SAS Institute Inc., Rockville,
MA) , 2011.
[5] Nakai M and Weiming Ke., “Review of Methods for Handling
Missing Data in Longitudinal Data Analysis”, Int. Journal of Math.
Analysis, Vol. 5, no.1, 2011, page 1-13.
[6] V.Vapnik, “The nature of statistical learning theory,” Springer, NY,
1995.
[7] S.R. Gunn, Support Vector Machines for Classification and
Regression, Technical Report, Image Speech and Intelligent
Systems Research Group, University of Southampton, 1998.
[8] V. Cherkassky, Y. Ma, 2002, Selection of Meta-parameters for
Support Vector Regression, International Conference on Artificial
Neural Networks, Madrid, Spain, Aug, page 687 – 693.
[9] D. Basak, S. Pal, D.C. Patranabis, Oct. 2007, Support Vector
Regression, Neural Information Processing – Letters and Reviews,
Vol. 11, No. 10, page 203 – 224.
[10] A.J. Smola, B. Schưlkopf, Aug. 2004, A Tutorial on Support
Vector Regression, Statistics and Computing, Vol. 14, No. 3,
page 199 – 222.
[11] Understanding Support Vector Machine Regression and Support
Vector Machine Regression,
[12] Thơng tư số 33/2011/TT-BCT ngày 06/09/2011 của Bộ Cơng
Thương về Quy định nội dung, phương pháp, trình tự và thủ tục
nghiên cứu phụ tải điện.
(BBT nhận bài: 06/02/2017, hồn tất thủ tục phản biện: 07/03/2017)
Các file đính kèm theo tài liệu này:
- 6_3538_2118442.pdf