Tài liệu Khai thác dữ liệu giao dịch để biên soạn chỉ số giá tiêu dùng kinh nghiệm của cơ quan thống kê quốc gia Úc - Nguyễn Văn Thụy: THỐNG KÊ QUỐC TẾ VÀ HỘI NHẬP
SỐ 03 – 2017 31
KHAI THÁC DỮ LIỆU GIAO DỊCH ĐỂ BIÊN SOẠN CHỈ SỐ GIÁ TIÊU DÙNG
KINH NGHIỆM CỦA CƠ QUAN THỐNG KÊ QUỐC GIA ÚC
ThS. Nguyễn Văn Thụy*
Tóm tắt:
Dữ liệu lớn (Big data) đã và đang đem lại nhiều tiềm năng to lớn đối với thống kê nhà nước. Thực
tế cho thấy, việc ứng dụng khai thác nguồn dữ liệu Big data để sản xuất số liệu thống kê sẽ kịp thời hơn
và giải quyết được nhiều vấn đề liên quan hơn so với nguồn dữ liệu truyền thống, như: giảm thiểu gánh
nặng về thu thập thông tin, đặc biệt là gánh nặng điều tra thu thập thông tin đối với người trả lời, khả
năng đáp ứng nhu cầu thông tin của người sử dụng. Cơ quan Thống kê quốc gia Úc (ABS) đã sử dụng
nguồn dữ liệu giao dịch để tính toán một số chỉ tiêu thống kê, trong đó có Chỉ số giá tiêu dùng (CPI). Bài
viết này giới thiệu một số kinh nghiệm của ABS về khai thác dữ liệu giao dịch để biên soạn CPI.
1. Lời giới thiệu
Big data có nhiều loại và hình thức khác
nhau như dữ liệu vệ ...
9 trang |
Chia sẻ: quangot475 | Lượt xem: 477 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Khai thác dữ liệu giao dịch để biên soạn chỉ số giá tiêu dùng kinh nghiệm của cơ quan thống kê quốc gia Úc - Nguyễn Văn Thụy, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
THỐNG KÊ QUỐC TẾ VÀ HỘI NHẬP
SỐ 03 – 2017 31
KHAI THÁC DỮ LIỆU GIAO DỊCH ĐỂ BIÊN SOẠN CHỈ SỐ GIÁ TIÊU DÙNG
KINH NGHIỆM CỦA CƠ QUAN THỐNG KÊ QUỐC GIA ÚC
ThS. Nguyễn Văn Thụy*
Tóm tắt:
Dữ liệu lớn (Big data) đã và đang đem lại nhiều tiềm năng to lớn đối với thống kê nhà nước. Thực
tế cho thấy, việc ứng dụng khai thác nguồn dữ liệu Big data để sản xuất số liệu thống kê sẽ kịp thời hơn
và giải quyết được nhiều vấn đề liên quan hơn so với nguồn dữ liệu truyền thống, như: giảm thiểu gánh
nặng về thu thập thông tin, đặc biệt là gánh nặng điều tra thu thập thông tin đối với người trả lời, khả
năng đáp ứng nhu cầu thông tin của người sử dụng. Cơ quan Thống kê quốc gia Úc (ABS) đã sử dụng
nguồn dữ liệu giao dịch để tính toán một số chỉ tiêu thống kê, trong đó có Chỉ số giá tiêu dùng (CPI). Bài
viết này giới thiệu một số kinh nghiệm của ABS về khai thác dữ liệu giao dịch để biên soạn CPI.
1. Lời giới thiệu
Big data có nhiều loại và hình thức khác
nhau như dữ liệu vệ tinh, dữ liệu di động, dữ liệu
truyền thông xã hội, dữ liệu giao dịch,... Dữ liệu
giao dịch được khai thác để biên soạn các thông
tin thống kê kinh tế, trong đó có chỉ số giá tiêu
dùng. Thông tin của dữ liệu giao dịch thu thập
được từ các nhà bán lẻ chủ yếu thông qua các
giao dịch điện tử về mua bán hàng hóa tại thời
điểm giao dịch (mua bán). Dữ liệu giao dịch bao
gồm các thông tin chi tiết về doanh nghiệp như:
Tên doanh nghiệp, địa điểm giao dịch, ngày tháng,
số lượng, giá cả và doanh thu của hàng hóa được
giao dịch... Dữ liệu này được dùng để ước lượng
giá trị đơn vị (giá đơn vị) và sự biến động về giá
của từng sản phẩm hàng hóa, đồng thời ước lượng
mức độ chi tiêu dùng đối với từng mặt hàng của
* Phó Viện trưởng Viện Khoa học Thống kê
doanh nghiệp. Vì vậy dữ liệu giao dịch là một
nguồn thông tin rất đa dạng và phong phú đối với
công tác thống kê, đặc biệt là thống kê nhà nước.
Tiếp cận và truy cập được các files (tập tin) dữ liệu
điện tử sẽ giúp các cơ quan thống kê giảm thiểu
được chi phí thu thập thông tin cũng như giảm bớt
được gánh nặng cho người cung cấp thông tin
trong quá trình thu thập thông tin thống kê.
Điều này đặc biệt có ý nghĩa trong việc
nâng cao tính đại diện của mẫu trong rổ hàng hóa
tính CPI. Dữ liệu giao dịch sẽ cho phép khắc phục
được những nhược điểm về khái niệm cũng như sự
thay đổi về giá trong quá trình xác định giá của
hàng hóa được giao dịch. Về mặt lý thuyết, để xây
dựng và tính toán được chỉ số giá tiêu dùng một
cách chính xác và hiệu quả, các nhà thống kê giá
phải ghi chép tất cả các mức giá của từng loại
Thống kê Quốc tế và Hội nhập
32
hàng hóa và dịch vụ tại thời điểm mà ngườ
dùng mua. Do đó, việc sử dụng dữ liệu giao d
sẽ thu thập được thông tin của nhiều hàng hóa c
nhiều nhà bán lẻ hơn so với dữ liệu thu thập đư
từ phương pháp truyền thống điều tra tại địa bàn.
Hơn nữa, dữ liệu giao dịch chứa nhiều thông tin v
số lượng và doanh thu của hàng hóa được giao
dịch, nên có thể được sử dụng để tính toán m
chỉ tiêu thống kê khác như: Chỉ số giá bán lẻ, m
lưu chuyển hàng hóa bán lẻ,...
ABS bắt đầu thu thập các dữ liệu giao d
của các nhà cung cấp từ tháng 12 năm 2011 và
thực hiện nhiều công việc liên quan để tính ch
giá thông qua việc sử dụng các thông tin về giá và
mức chi tiêu của hàng hóa. ABS đã sử
phương pháp lấy mẫu trực tiếp từ dữ liệu giao d
để thay thế cho việc lấy mẫu điều tra tại địa bàn.
Từ ngày 1 tháng 1 năm 2014, ABS lấy mẫu đ
thập thông tin về giá của khoảng 20.000 mặt hàng
hóa thay thế cho các mặt hàng trong rổ hàng hóa
của CPI. Đồng thời, ABS đã phân tích và ch
minh được các thông tin về giá thu thập được t
liệu giao dịch hoàn toàn phù hợp với việc thông tin
phân tích thu thập được từ điều tra tại địa bàn.
dụ, Hình 1 cho thấy chỉ số giá của nhóm hàng
thuốc lá và đồ uống có cồn được thu thập và tính
toán từ tháng 9/2012 đến tháng 3/2016.
Phân tích số liệu trong giai đoạn từ
9/2012 đến tháng 3/2016 cho thấy, hai phương
pháp thu thập dữ liệu (truyền thống và dữ liệu giao
dịch) cho kết quả tương đối giống nhau: Chỉ s
của nhóm hàng thuốc lá và đồ uống có cồn tăng
của 2 phương pháp này tăng lần lượt là 23,6% và
23,9% (chênh lệch không đáng kể 0,3% trong giai
đoạn 3 năm). Đồng thời, xu hướng chỉ số giá c
nhóm hàng này cũng tăng cùng với xu hướng c
chỉ số giá chung CPI (22,5%).
Khai thác dữ liệu giao dịch
SỐ 03 – 201
i tiêu
ịch
ủa
ợc
ề
ột số
ức
ịch
ỉ số
dụng
ịch
ể thu
ứng
ừ dữ
Ví
tháng
ố giá
ủa
ủa
Hình 1: Chỉ số giá của nhóm hàng thuốc lá và
đồ uống có cồn1
Ghi chú:
Chỉ số giá chung (CPI)
Chỉ số giá của nhóm thuốc lá và đồ uống có
cồn thu thập từ phương pháp truyền thố
Chỉ số giá của nhóm thuốc lá và đồ uống có
cồn thu thập từ dữ liệu giao dịch
2. Những thách thức trong quá trình khai
thác và ứng dụng dữ liệu giao dịch để biên so
chỉ số giá tiêu dùng
Như đã trình bày ở trên, sử dụng dữ
giao dịch để tổng hợp và biên soạn chỉ số giá tiêu
dùng đã nhận được sự quan tâm đáng kể của các
cơ quan thống kê quốc gia trên thế giới. Tuy nhiên,
do đặc điểm của dữ liệu giao dịch có khối lư
rất lớn, tốc độ cập nhật thông tin cao, vì vậy vi
chọn lọc thông tin để tính toán CPI gặp nhiều khó
khăn và thách thức. Các phương pháp nghiên c
ứng dụng để tính CPI cần nghiên cứu kỹ và đư
quốc tế công nhận. Dưới đây là một số khó khăn
và thách thức, cũng như kinh nghiệm xử lý c
ABS trong quá trình biên soạn CPI.
1 Nguồn: Australia report 2016, Making greater use
of transactions data to compile the Consumer price
Index, Australia.
7
ng
ạn
liệu
ợng
ệc
ứu
ợc
ủa
Thống kê Quốc tế và Hội nhập Khai thác dữ liệu giao dịch
SỐ 03 – 2017 33
(1) Đảm bảo tính an toàn của dữ liệu
Một trong những thách thức lớn nhất của
ứng dụng dữ liệu giao dịch để biên soạn CPI là dữ
liệu giao dịch phải được liên tục và kịp thời. Để
giải quyết vấn đề này, nhiều cơ quan thống kê
quốc gia phải mua dữ liệu từ các công ty nghiên
cứu thị trường. Ở một số nước, pháp luật cho
phép các cơ quan thống kê quốc gia có quyền
thu thập các thông tin từ các doanh nghiệp để
phục vụ cho mục đích thống kê. Ở Australia, theo
quy định của pháp luật, ABS là cơ quan thống kê
quốc gia có quyền truy cập vào các dữ liệu giao
dịch để thu thập và khai thác thông tin từ các
doanh nghiệp. Tuy nhiên, để đảm bảo an toàn,
ABS luôn phải chứng minh mục đích khai thác dữ
liệu phục vụ công tác thống kê và đàm phán với
nhà cung cấp về các điều khoản, nguyên tắc khai
thác và cung cấp dữ liệu.
Việc đảm bảo an toàn của dữ liệu bao gồm:
Dữ liệu không bị phá hủy hay bị truy cập trái phép;
dữ liệu phải được bảo mật; dữ liệu luôn được kiểm
soát trong cả quá trình sử dụng. Để đảm bảo quá
trình quản lý dữ liệu được an toàn, tùy từng đặc
tính của dữ liệu, ABS chia dữ liệu thành các nhóm:
- Dữ liệu được cất giữ trong các thiết bị lưu
trữ chuyên dụng (DAR: Data At-Rest), nhưng có
thể được trích xuất ra bộ nhớ tạm thời bất cứ khi
nào có yêu cầu.
- Dữ liệu đang được xử lý (DIM: Data In-
Motion).
- Dữ liệu đang được sử dụng (DIU: Data In-
Use);
Bất cứ người sử dụng nào muốn truy cập
vào dữ liệu, đặc biệt là dữ liệu đang sử dụng DIU,
đều phải được cấp quyền truy cập. Đồng thời, ABS
đã xây dựng các quy định về chính sách đảm bảo
an toàn dữ liệu, trong đó quy định quyền cho phép
truy cập và quyền bảo vệ dữ liệu; quyền cập nhật,
hiệu đính và sửa chữa dữ liệu,...
(2) Quản lý và phân loại dữ liệu
Quá trình tiếp nhận và quản lý các dữ liệu
giao dịch yêu cầu phải có các cơ sở lưu trữ kỹ
thuật. ABS đã nhìn thấy được các cơ hội để xây
dựng và phát triển các cơ sở lưu trữ dữ liệu để có
thể dễ dàng sử dụng và quản lý nhiều nguồn dữ
liệu Big data với quan điểm “một lần thu thập, sử
dụng nhiều lần”. Tuy nhiên, việc này đồng nghĩa
với việc chi phí đầu tư ban đầu lớn, chi phí cho
quá trình vận hành để lưu trữ và duy trì và đảm
bảo sự an toàn của các files dữ liệu cũng tương
đối cao.
Mã hóa và phân loại dữ liệu: Thông thường,
để quản lý các sản phẩm, doanh nghiệp thường
sử dụng mã vạch để nhận dạng và phân biệt các
loại sản phẩm phục vụ công tác quản lý của
doanh nghiệp. Tuy nhiên, mã vạch lại quá chi tiết
đối với mục đích thống kê. Một thay đổi rất nhỏ
của một số bản ghi hoặc một số thông tin mặc dù
không ảnh hưởng đến lợi ích của người tiêu dùng,
nhưng cũng dẫn đến làm thay đổi mã vạch. Ví dụ,
nếu một nguồn cung cấp dữ liệu của một cơ sở
nào đó có sự thay đổi từ nước này sang nước
khác sẽ dẫn đến việc thay đổi mã vạch của hàng
hóa. Hay một số nhà bán lẻ cung cấp các sản
phẩm có cùng các thông số kỹ thuật từ các nhà
sản xuất khác nhau, cũng có thể dẫn đến các mã
vạch khác nhau. Do đó, ABS không sử dụng mã
vạch của sản phẩm để phân loại thông tin đối với
dữ liệu giao dịch. Thay vào đó, ABS sử dụng mã
quản lý nội bộ riêng, gọi là mã SKUs (Stock
Keeping Units). Các mã SKUs nhóm các sản
phẩm giống nhau lại thành một nhóm, mặc dù
chúng có các mã vạch (barcode) khác nhau.
Thống kê Quốc tế và Hội nhập Khai thác dữ liệu giao dịch
34 SỐ 03 – 2017
Một trở ngại chính đối với mã hóa dữ liệu là
sắp xếp các nhóm sản phẩm theo mã SKUs để
phù hợp với các danh mục hàng hóa đã được
phân loại trong rổ hàng hóa CPI. Mã SKUs không
phù hợp với các phân ngành thống kê. Đây là một
quy trình đặc biệt, cần có chuyên môn sâu rộng
để sắp xếp và duy trì dữ liệu do khối lượng các mã
SKUs rất lớn và thường xuyên thay đổi. Ví dụ: Dữ
liệu giao dịch được cung cấp cho ABS từ các nhà
bán lẻ lớn bao gồm trên 750.00 mã SKUs, so với
250 mục hàng hóa cơ sở trong rổ hàng hóa CPI.
Hiệu chỉnh và làm sạch dữ liệu, việc xác
định các dữ liệu sai để giải quyết và làm sạch dữ
liệu là rất khó, ngay cả khi đã phát hiện ra và trao
đổi với nhà cung cấp. Đây là một trong những hạn
chế lớn của dữ liệu giao dịch. ABS nhận thấy cần
phải giảm thiểu các rủi ro về sai sót của dữ liệu
thông qua các phương pháp hiệu đính hệ thống và
các thủ tục đảm bảo chất lượng dữ liệu. Các files
dữ liệu phải được kiểm tra tự động và thủ công
một cách chặt chẽ trước khi bắt đầu quy trình sản
xuất số liệu thống kê. Chẳng hạn, kiểm tra kích
thước các files dữ liệu và sự thay đổi định dạng
của dữ liệu để phát hiện những bất thường ở từng
file khi nhận được.
(3) Đầu tư ban đầu cho quá trình vận hành
và quản lý dữ liệu giao dịch
Việc sử dụng dữ liệu giao dịch trong quá
trình biên soạn và tính toán CPI đã được cơ quan
thống kê quốc gia lựa chọn vì tiết kiệm được chi
phí do không phải tiến hành điều tra thu thập số
liệu tại địa bàn. Tuy nhiên, việc đầu tư ban đầu và
các chi phí liên quan đến quá trình vận hành và
quản lý dữ liệu cần phải cân nhắc. Để thực hiện
được việc này cần phải nỗ lực rất lớn từ nhiều yếu
tố, trong đó có vấn đề đầu tư chi phí ban đầu để
xây dựng các cơ sở lưu trữ dữ liệu, cũng như quá
trình xử lý và vận hành, khai thác dữ liệu. ABS
không chỉ đầu tư đơn thuần về hạ tầng công nghệ
thông tin để đáp ứng yêu cầu khai thác và sử dụng
dữ liệu lớn phục vụ công tác thống kê, mà còn đầu
tư các chi phí liên quan đến cơ sở hạ tầng thống
kê nhằm xây dựng và phát triển hệ thống để tính
toán các chỉ tiêu thống kê từ dữ liệu lớn và kiểm
soát hệ thống đáp ứng được yêu cầu của các kết
quả đầu ra một cách kịp thời hơn, chất lượng cao
hơn và đặc biệt là dữ liệu an toàn hơn. Dự kiến,
trong giai đoạn 2016-2020, Chính phủ Úc sẽ đầu
tư khoảng 250 triệu USD để chuyển đổi cơ sở hạ
tầng, hệ thống và quy trình sản xuất số liệu thống
kê của ABS2.
Việc sử dụng dữ liệu giao dịch để tính toán
CPI có thể sẽ tiết kiệm chi phí hơn so với các
nguồn dữ liệu truyền thống, do giảm thiểu được
các chi phí cho hoạt động thu thập thông tin tại địa
bàn và có thể bù đắp được các chi phí quản lý và
đảm bảo chất lượng thông tin dữ liệu giao dịch.
ABS cũng hy vọng chi phí tiết kiệm được do sử
dụng dữ liệu giao dịch sẽ bù đắp được cả các
khoản chi phí đầu tư ban đầu, tuy nhiên cũng chưa
xác định được chính xác.
(4) Phương pháp tính toán
Kết hợp giữa dữ liệu giao dịch với điều tra
thu thập thông tin tại địa bàn, nghiên cứu năm
2010 của ABS chỉ ra rằng thông tin dữ liệu giao
dịch có thể được sử dụng đến 50% trong rổ hàng
hóa tính CPI của nước này. Tuy nhiên, đối với các
dữ liệu giao dịch đã thu thập được, hiện có sẵn
không thể sử dụng được hoàn toàn 100%. Vì vậy
2 Nguồn:
/Home/government+investment+in+the+ABS
Thống kê Quốc tế và Hội nhập Khai thác dữ liệu giao dịch
SỐ 03 – 2017 35
cần phải tiến hành và kết hợp với điều tra thu thập
số liệu tại địa bàn để biên soạn CPI.
Vấn đề đặt ra là làm sao kết hợp giữa dữ
liệu giao dịch với dữ liệu thu thập được thông qua
điều tra tại địa bàn. Thông tin từ dữ liệu giao dịch
bao gồm cả thông tin về số lượng và doanh thu
của từng loại mặt hàng, thông tin này cho phép
tính toán được các chỉ số cao nhất. Số liệu thông
tin từ điều tra tại địa bàn không bao gồm những
thông tin về số lượng và doanh thu của các mặt
hàng, do đó yêu cầu phải sử dụng công thức tính
truyền thống để tính toán sự thay đổi, biến động về
giá. Nếu những dữ liệu này kết hợp tại thời điểm
quan sát hoặc thu thập thông tin thì việc cần làm
chỉ đơn giản là loại bỏ thông tin về số lượng của
các mặt hàng thu thập được trong dữ liệu giao dịch
và áp dụng các công thức truyền thống.
Xử lý vấn đề mẫu thu thập tại địa bàn, việc
thu thập các thông tin để tính toán và biên soạn
CPI theo phương pháp điều tra tại điện bàn tương
đối tốn kém về kinh phí và nhân lực. Việc khai thác
dữ liệu giao dịch vào tính toán CPI sẽ giúp giảm
thiểu được các chi phí trên. Trong một số trường
hợp, dữ liệu giao dịch có thể cung cấp thông tin tin
cậy và phù hợp với một số nhóm sản phẩm thì
chúng ta có thể giảm bớt hoặc thậm chí loại bỏ
những phương pháp thu thập số liệu thủ công đối
với các mặt hàng này. Tuy nhiên, cần phải có một
phương pháp để đánh giá xem các thông tin về giá
và chi tiêu dùng cho các mặt hàng từ hai nguồn dữ
liệu này tương đồng với nhau hay không. Từ đó
mới có thể quyết định được duy trì hay giảm bớt
các mẫu điều trong dàn mẫu của CPI để giảm
thiểu công tác thu thập thông tin tại địa bàn.
Khắc phục sự thay đổi về chất lượng hàng
hóa và hàng hóa thay thế, trên thị trường hàng tiêu
dùng, hàng hóa luôn luôn thay đổi về chất lượng,
hình dáng, kích thước và chủng loại. Việc điều tra
thu thập thông tin về giá tại địa bàn thường không
phản ánh hết và không theo kịp những thay đổi
của hàng hóa. Do đó, những loại hàng hóa có giá
mới, vẫn bị tính vào nhóm hàng hóa cũ. Ngược lại,
có rất nhiều hàng hóa cũ bị loại ra khỏi thị trường
nhưng vẫn chưa bị loại ra khỏi danh sách hoặc rổ
hàng hóa trong CPI. Việc sử dụng dữ liệu giao dịch
để tính toán và biên soạn CPI cho thấy khắc phục
rất tốt những nhược điểm này của phương pháp
thu thập dữ liệu giá truyền thống do tính liên tục
cập nhật thông tin của dữ liệu giao dịch.
(5) Đối với cộng đồng người sử dụng
CPI được sử dụng cho nhiều mục đích, như:
Phân tích và xây dựng các chính sách kinh tế, làm
cơ sở để tính và điều chỉnh tiền lương, lương hưu
và căn cứ để xây dựng các hợp đồng cá nhân,...
Do đó, người sử dụng CPI luôn quan tâm đến các
phương pháp tính toán và biên soạn CPI, đặc biệt
những thay đổi trong phương pháp tính. Việc áp
dụng các phương pháp tính toán CPI phải có kế
hoạch kỹ lưỡng và được thông báo rộng rãi. Các
cơ quan thống kê quốc gia phải có đủ thời gian để
chuẩn bị, thử nghiệm và kiểm tra các phương
pháp mới và thông báo cho cộng đồng người sử
dụng CPI về những thay đổi trong phương pháp
tính. Các cơ quan thống kê phải thông báo rộng
rãi và giải thích cho người sử dụng và các bên liên
quan hiểu rõ phương pháp tính toán CPI để người
sử dụng hiểu được giá trị và ý nghĩa thống kê đối
với phương pháp mới; có được phản hồi của người
sử dụng về phương pháp xây dựng chỉ số giá. Qua
đó, cộng đồng người sử dụng số liệu sẽ hiểu, hỗ
trợ và ủng hộ việc ứng dụng khai thác dữ liệu giao
dịch vào biên soạn CPI.
Thống kê Quốc tế và Hội nhập Khai thác dữ liệu giao dịch
36 SỐ 03 – 2017
3. Phương pháp tính toán chỉ số giá tiêu dùng
Tổng quan về phương pháp tính toán CPI
của ABS
Dữ liệu giao dịch thu thập được từ các nhà
bán lẻ chủ yếu, được ABS sử dụng để tính toán
CPI theo quý bắt đầu từ tháng 1 năm 2014. ABS
sử dụng phương pháp lấy mẫu trực tiếp thu được
từ dữ liệu giao dịch để thay thế cho phương pháp
lấy mẫu thu thập dữ liệu từ địa bàn. Khoảng
20.000 mặt hàng được lấy giá từ dữ liệu giao dịch
và thay thế cho các nhóm trong rổ hàng hóa để
tính toán CPI.
Giá của mỗi mặt hàng từ dữ liệu giao dịch
được tính bằng cách lấy tổng doanh thu của từng
mặt hàng chia cho tổng số lượng mặt hàng đó đã
được bán. Giá này được gọi là giá trị đơn vị (giá
đơn vị) của hàng hóa/sản phẩm và đại diện cho
giá thanh toán (giao dịch) của người mua trong 1
tuần hoặc 1 tháng. Như vậy, giá đơn vị của hàng
hóa/sản phẩm là giá bình quân của hàng hóa
hoặc sản phẩm đó được người mua thanh toán
cho một thời kỳ (thường là tuần, tháng), không
phải là giá tại thời điểm mua. Giá đơn vị hàng hóa
được thu thập từ một lượng lớn các cửa hàng kinh
doanh ở từng tỉnh, thành phố. Giá đơn vị hàng hóa
thu được từ dữ liệu giao dịch được sử dụng để tính
toán và biên soạn chỉ số CPI theo danh mục chi
tiêu hàng hóa.
Chọn và duy trì mẫu đại diện từ dữ liệu
giao dịch
Dữ liệu thu thập được từ bộ dữ liệu giao dịch
có chất lượng rất đa dạng và khác nhau tùy thuộc
vào các nhà cung cấp dữ liệu. Các files dữ liệu có
chất lượng kém (đặc biệt là danh sách các sản
phẩm) rất khó xác định được chính xác các sản
phẩm phù hợp hoặc giống với các sản phẩm có
sẵn trong danh mục hàng hóa để tính CPI. Ví dụ,
các hàng hóa bị trùng nhau do khác mã SKUs
hoặc do mã SKUs của hàng bị loại không được
loại ra mà vẫn tính vào danh mục hàng hóa để tính
CPI. Nhìn chung, ABS xác định được chính xác
80% các mặt hàng trong mẫu hàng hóa để tính
toán CPI.
Thành phần của rổ hàng hóa trong CPI
phản ánh sự ưa thích tiêu dùng của hộ gia đình.
Dữ liệu giao dịch cung cấp số lượng hàng hóa đã
được bán của doanh nghiệp theo thời gian thực.
Thông tin về số lượng hàng đã bán của doanh
nghiệp trước đây không được ABS thu thập trong
quá trình tính toán CPI. Tiếp cận được các thông
tin này, cho phép ABS nâng cao được tính phù
hợp/phổ biến của các sản phẩm để tính CPI. Mỗi
sản phẩm hoặc hàng hóa được lựa chọn trong
mẫu để tính CPI đều được kiểm tra và đánh giá rất
chặt chẽ theo từng quý về doanh thu và tính nhất
quán. Với những hàng hóa này, nếu quá trình kiểm
tra phát hiện không đạt thì sẽ bị thay thế bằng các
sản phẩm khác phù hợp từ một nhóm các hàng
tương tự.
Tính giá đơn vị
Một trong những ưu điểm của việc sử dụng
dữ liệu giao dịch là có nhiều lựa chọn về giá linh
hoạt hơn so với phương pháp truyền thống điều tra
tại địa bàn. Lý tưởng nhất là lấy tối đa số lượng dữ
liệu giao dịch để tính giá đơn vị. Tuy nhiên, trong
thực tế phương pháp này có nhược điểm là cần
phải có thời gian để tính toán.
Đối với các sản phẩm trước đây được xác
định giá theo quý. Giá đơn vị có thể được tính theo
5 cách sau:
Thống kê Quốc tế và Hội nhập Khai thác dữ liệu giao dịch
SỐ 03 – 2017 37
(1) Xác định giá đơn vị dựa trên tháng giữa
của quý (thời gian này giống như phương pháp thu
thập số liệu tại địa bàn);
(2) Xác định giá đơn vị dựa trên 2 tháng đầu
tiên của quý;
(3) Xác định giá đơn vị dựa trên 2 tháng đầu
tiên của quý cộng với 2 tuần đầu của tháng thứ ba;
(4) Xác định giá đơn vị dựa trên 3 tháng
của quý;
(5) Xác định giá đơn vị dựa trên mức di
chuyển giá trung bình của 3 tháng (tính giá trung
bình từ giá của tháng cuối cùng của quý trước và
giá của 2 tháng đầu tiên của quý hiện tại).
Để đánh giá sự khác nhau giữa các phương
pháp tính giá, ABS quan sát mức độ chênh lệch
tuyệt đối của giá đơn vị của 5 phương pháp trên.
Độ lệch của phần lớn các sản phẩm là rất nhỏ và
những thay đổi tương đối về giá của hàng hóa có
thể giải thích do chiết khấu sản phẩm. Cách thứ ba
được lựa chọn vì điều này cho phép sử dụng tối đa
thời gian thu thập dữ liệu mà không làm ảnh hưởng
đến thời gian biên soạn số liệu.
Xử lý vấn đề thay đổi về chất lượng hàng
hóa và sản phẩm mới xuất hiện
Đối với phương pháp điều tra truyền thống,
thu thập dữ liệu tại địa bàn, các điều tra viên có thể
dễ dàng phát hiện được sự thay đổi của hàng hóa
do mẫu điều tra nhỏ. Tuy nhiên, đối với hình thức
thu thập thông tin sử dụng dữ liệu giao dịch, việc
phát hiện ra những thay đổi của từng loại hàng
hóa trong quá trình tính toán và biên soạn CPI là
không khả thi, do dữ liệu rất lớn. Sự thay đổi về
hàng hóa chủ yếu là do: (1) Hàng hóa mới được
đưa vào mẫu tính giá (xuất hiện hàng hóa mới
thay thế cho hàng hóa cũ); (2) Hàng hóa có sự
thay đổi về lượng (như thay đổi về kích thước) và
thay đổi về mã hàng hóa; (3) Hàng hóa có sự thay
đổi về lượng, nhưng không thay đổi mã hàng hóa.
Trường hợp thứ nhất là đơn giản nhất, chỉ
cần tính giá hàng hóa của kỳ trước. Trường hợp
thứ hai và ba, do có yếu tố điều chỉnh về chất
lượng hàng hóa dẫn đến sự thay đổi về số lượng
hàng hóa. ABS đã nghiên cứu phương pháp kết
nối giữa những sản phẩm mới với sản phẩm bị
biến mất trên thị trường. Ví dụ, có một lô hàng
thay đổi về kích thước thường sẽ dẫn đến thay đổi
về mã SKUs. Quy trình kết nối sẽ sử dụng các
thông tin về mô tả sản phẩm như: Giá, doanh thu,
thời gian (xuất hiện và biến mất trên thị trường) và
số lượng hàng bán ra trên thị trường. Quy trình này
sẽ giúp tìm được sản phẩm mới giống hoặc gần
giống với sản phẩm cũ (nhưng khác về mã sản
phẩm) và điều chỉnh sự thay đổi về số lượng.
Hàng hóa theo mùa vụ sẽ có sự biến động
về số lượng hàng hóa trên thị trường tùy theo từng
mùa, vụ của hàng hóa đó trong năm. Những thay
đổi theo mùa vụ sẽ dẫn đến thay đổi về sản lượng
và giá cả hàng hóa, do đó dẫn đến sự thay đổi về
nhu cầu của người tiêu dùng trên thị thường. Đối
với các loại hàng hóa này, ABS quyết định lấy
doanh thu lớn nhất (hoặc thời điểm bán tốt nhất)
của hàng hóa của mỗi thời kỳ. Phương pháp này
sẽ lựa chọn những hàng hóa đại diện nhất cho
mỗi chu kỳ tính giá, đồng thời tránh được việc
chọn hàng thanh lý (hàng loại) hoặc hàng không
phù hợp, tùy theo ngưỡng doanh thu tối thiểu
hàng tháng.
Chọn giá cơ sở
Khi chuyển phương pháp tính CPI từ thu
thập thông tin tại địa bàn sang phương pháp tính
giá từ dữ liệu giao dịch sẽ có sự thay đổi về cơ sở
Thống kê Quốc tế và Hội nhập Khai thác dữ liệu giao dịch
38 SỐ 03 – 2017
tính giá và sẽ ảnh hưởng tới mức giá của mẫu
điều tra. Sự biến động về giá trong tháng 3 năm
2014 của hàng hóa trong dàn mẫu để tính CPI sẽ
được sử dụng để tính giá cơ sở khi áp dụng dữ
liệu giao dịch vào tính CPI. Việc thay đổi cách tính
giá từ phương pháp lấy giá tại thời điểm điều tra
theo phương pháp truyền thống sang phương
pháp tính giá đơn vị sản phẩm không ảnh hưởng
đến sự thay đổi kết quả tính toán giá hàng hóa.
Những cơ hội khác khi sử dụng dữ liệu
giao dịch
Việc sử dụng dữ liệu giao dịch cho phép
ABS kiểm tra và tính toán CPI thường xuyên và kịp
thời hơn trong tương lai. Những người sử dụng CPI
có thể yêu cầu tính toán và cung cấp CPI hàng
tháng ở các vùng trong cả nước. Dữ liệu giao dịch
sẵn có và cập nhật ở tần suất cao sẽ cho phép
các cơ quan thống kê dễ dàng thực hiện được các
mục tiêu tính toán CPI. Dữ liệu giao dịch cũng có
thể giúp việc so sánh sự thay đổi về giá giữa các
khu vực thành thị và nông thôn, từ đó có thể cung
cấp thông tin quan trọng về việc CPI có cần thiết
phải tính toán trên phạm vi tất cả các khu vực trên
cả nước hay không? Hay chỉ cần tính cho các khu
vực thành thị?
ABS đã tiến hành các công việc để tiến
hành ứng dụng rộng rãi dữ liệu giao dịch đối với
thống kê nhà nước. Các thông tin về doanh thu, số
lượng, giá cả hàng hóa là nguồn thông tin rất tiềm
năng phục vụ cho các mục đích thống kê kinh tế,
như: Điều tra bán lẻ hàng hóa, đo lường và xác
định các yêu tố chi tiêu dùng cuối cùng của hộ gia
đình trong tài khoản quốc gia, giúp hiệu chỉnh cơ
sở dữ liệu điều tra chi tiêu hộ gia đình.
4. Kết luận và khuyến nghị
Tiềm năng của dữ liệu giao dịch là nguồn
dữ liệu đầu vào quan trọng không thể bỏ qua đối
với các cơ quan thống kê quốc gia, trong đó có
Việt Nam. Nguồn dữ liệu này có thể thay thế cho
các nguồn dữ liệu truyền thống và có ảnh hưởng
rất lớn đến phương thức sản xuất số liệu thống kê
nhà nước trong tương lai. Vì vậy, cần khuyến khích
và tiếp tục nghiên cứu, triển khai các biện pháp để
tăng cường khả năng tiếp cận, truy cập, sử dụng
và khai thác dữ liệu từ nguồn dữ liệu lớn nói chung
và dữ liệu giao dịch nói riêng vào công tác sản
xuất số liệu thống kê một cách hiệu quả.
Để thực hiện được vấn đề này, trước hết, cơ
quan thống kê cần thí điểm sử dụng dữ liệu giao
dịch để tính toán và biên soạn CPI. Tuy nhiên, để
khai thác được hết tính phong phú và đa dạng của
cơ sở dữ liệu này đòi hỏi phải có sự thống nhất về
phương pháp luận thống kê. Mặc dù việc nghiên
cứu phương pháp luận là rất quan trọng, nhưng đó
mới là những thách thức ban đầu trong quá trình
sử dụng và khai thác dữ liệu này. Việc trích xuất dữ
liệu và thông tin từ dữ liệu giao dịch phục vụ cho
sản xuất số liệu thống kê là việc làm không hề đơn
giản. Bài viết này đã đưa ra một số những khó
khăn trong quá trình sử dụng dữ liệu giao dịch để
biên soạn CPI, tuy nhiên, còn nhiều vấn đề khác
vẫn chưa được giải quyết một cách thỏa đáng cần
tiếp tục nghiên cứu thêm.
Đối với Thống kê Việt Nam, một trong
những nhiệm vụ trọng tâm của Tổng cục Thống kê
trong giai đoạn 2016-2021 là: Ứng dụng phương
pháp thống kê tiên tiến, công nghệ thông tin và
truyền thông. Cụ thể là nghiên cứu, triển khai thí
điểm sử dụng dữ liệu hành chính, dữ liệu lớn trong
sản xuất số liệu thống kê chính thức ở một số lĩnh
Thống kê Quốc tế và Hội nhập Khai thác dữ liệu giao dịch
SỐ 03 – 2017 39
vực khả thi. Nghiên cứu, khai thác và sử dụng dữ
liệu lớn nói chung, dữ liệu giao dịch nói riêng phục
vụ sản xuất số liệu thống kê nhà nước một cách có
hiệu quả, Tổng cục Thống kê cần thực hiện một số
nhiệm vụ sau:
Thứ nhất, Tiến hành nghiên cứu một cách
hệ thống về Big data, trong đó có dữ liệu giao dịch.
Trước hết, thí điểm khai thác nguồn dữ liệu giao
dịch phục vụ sản xuất số liệu thống kê nhà nước
trong các lĩnh vực như: Thống kê giá, thống kê
thương mại,...
Thứ hai, Nghiên cứu kinh nghiệm quốc tế về
phương pháp khai thác nguồn dữ liệu giao dịch
phục vụ thống kê nhà nước;
Thứ ba, Rà soát, đánh giá thực trạng các
văn bản pháp lý về sản xuất số liệu thống kê nhà
nước hiện nay; các văn bản pháp lý về ứng dụng,
khai thác dữ liệu giao dịch phục vụ sản xuất số liệu
thống kê nhà nước;
Thứ tư, Xây dựng và trình cấp có thẩm
quyền phê duyệt các văn bản pháp lý về khai thác
nguồn dữ liệu giao dịch phục vụ sản xuất số liệu
thống kê nhà nước;
Thứ năm, Khảo sát, đánh giá hạ tầng công
nghệ thông tin và đào tạo nguồn nhân lực về
phương pháp thống kê mới, về ứng dụng công
nghệ thông tin trong khai thác dữ liệu giao dịch để
sản xuất chỉ số giá tiêu dùng.
Tài liệu tham khảo:
1. Khanh Moore (2014), Dữ liệu giao dịch:
Từ lý thuyết đến thực tế, Cơ quan Thống kê quốc
gia Úc;
2. Tổng cục Thống kê (2017), Báo cáo
những nhiệm vụ trọng tâm của Tổng cục Thống kê
và đề xuất ưu tiên hỗ trợ giai đoạn 2017-2021;
3. Tổ chức Lao động quốc tế, Quỹ Tiền tệ
quốc tế, Tổ chức Hợp tác và Phát triển Kinh tế, Cơ
quan Thống kê châu Âu, Tổ chức Liên hợp quốc và
Ngân hàng Thế giới (2004), Sổ tay chỉ số giá tiêu
dùng: Từ lý thuyết đến thực tế;
4. Van der Grient, H.A. (2010), Phương
pháp phân tích sự thay đổi của chỉ số giá khi áp
dụng công thức tính giá RYGEKS, Cơ quan Thống
kê Hà Lan;
5. Van der Grient, H.A. và de Haan, J.
(2010), Sử dụng dữ liệu scanner từ siêu thị để tính
toán chỉ số giá tiêu dùng, bài trình bày tại hội thảo
về dữ liệu scanner tại Geneva, Thụy Sĩ, ngày 10
tháng 5 năm 2010.
------------------------------------------------------------
Tiếp theo trang 48
Các quy trình lưu trữ quá nhiều, cả những
tài liệu có thành phần thống kê, và những quy tắc
chung, có thể áp dụng cho bất kỳ loại tổ chức nào,
được đề cập trong GSBPM, nhưng không bao gồm
trong Sản xuất liên quan đến các bộ phận khác
của GAMSO.
Xem thêm Phụ lục tại địa chỉ:
https://statswiki.unece.org/pages/viewpage.action
?pageId=129172757
Anh Tuấn (dịch)
Nguồn: https://statswiki.unece.org/pages/viewpage
.action?pageId=129171865, truy cập ngày
20/6/2017.
Các file đính kèm theo tài liệu này:
- khai_thac_du_lieu_giao_dich_de_bien_soan_chi_so_gia_tieu_dung_kinh_nghiem_cua_co_quan_thong_ke_quoc.pdf