Tìm hiểu về thuật ngữ khai thác dữ liệu
VOV.VN - Khai thác dữ liệu là một thuật ngữ khá phổ biến gần đây. Tuy nhiên, nhiều người vẫn đang hiểu nhầm và đánh giá sai về thuật ngữ này.
Theo IBM, nói một cách đơn giản, khai thác dữ liệu là quá trình sử dụng thuật toán và các kỹ thuật phân tích kỹ thuật số khác để phân tích khối lượng dữ liệu khổng lồ.
Trong kinh doanh, khai thác dữ liệu đã trở thành một nguồn tài nguyên quan trọng giúp phân tích hành vi của khách hàng và tâm lý của người tiêu dùng, dự trù kinh phí bảo trì cơ sở hạ tầng và các trang thiết bị quan trọng, là một công cụ để phân tích hoạt động tiếp thị và các hoạt động thực tiễn khác. Bên cạnh đó, khai thác dữ liệu cũng đóng một vai trò quan trọng trong thể chế đầu tư hay kết nối truyền thông xã hội.
Trên thực tế, khai thác dữ liệu ảnh hưởng không nhỏ tới mỗi cá nhân và tập thể. Nó có thể đem lại nhiều lợi ích, song cũng có thể bị lợi dụng để thực hiện các mục đích xấu.
Khai thác dữ liệu dựa trên cơ sở phương pháp khoa học
Theo Science Buddies, khai thác dữ liệu bao gồm một quá trình tích hợp 6 bước, bắt đầu bằng việc quan sát và đặt ra một câu hỏi có liên quan. Tuy nhiên, đôi khi quá trình thu thập và phân tích dữ liệu cũng có thể được thực hiện mà không thông qua một câu hỏi cụ thể nào. Các doanh nghiệp hoặc cá nhân sau đó có thể sử dụng thông tin thu được để giải quyết các vấn đề cụ thể hoặc khám phá các lĩnh vực quan tâm được xác định trước, nhưng thông thường, khai thác dữ liệu được sử dụng để thu thập và phân tích các kho thông tin khổng lồ không được lên kế hoạch định sẵn.
Các dữ liệu được thu thập một khi đáp ứng được trọng tâm nghiên cứu sẽ ngay lập tức được xử lý, do chẳng hạn, khi muốn đánh giá thông tin khách hàng tại một doanh nghiệp, không phải tất cả khách hàng sẽ cung cấp địa chỉ email, số điện thoại hay các thông tin liên quan để phục vụ quy trình phân tích dữ liệu.
Sau khi thông tin được đưa vào phân tích, các nhà nghiên cứu có thể thiết kế và thử nghiệm các thuật toán giúp xác định kiểu hành vi chủ quan cũng như khách quan của mọi người. Ví dụ, các nhà khoa học dữ liệu có thể xem xét xu hướng khách hàng mua và sử dụng một sản phẩm nhất định dựa trên giá thành hay do các yếu tố khách quan liên quan đến thời tiết hoặc tính thời vụ, từ đó đưa ra các chiến lược kinh doanh hiệu quả hơn.
Các nhà đầu tư có thể sử dụng công cụ này để thu lợi nhuận
Theo Goldman Sachs, ở quy mô quản lý đầu tư kinh doanh, các nhà đầu tư chuyên nghiệp chủ yếu dựa vào phân tích dựa trên dữ liệu. Phân tích thị trường dựa trên dữ liệu giúp loại bỏ cảm xúc ra khỏi đầu tư. Theo Money Crashers, đây là một kỹ năng quan trọng đối với mọi nhà đầu tư hay nhà phân tích tài chính ở mọi trình độ kỹ năng nên cố gắng trau dồi về lâu về dài.
Các nhóm sản xuất và bán hàng cũng dựa một phần lớn vào khai thác và phân tích dữ liệu
Nếu như trong kinh doanh, khai thác dữ liệu được sử dụng trong các nỗ lực bao quát về hiệu quả kinh doanh nhằm thu hút khách hàng và tăng doanh số bán hàng, thì lĩnh vực sản xuất dựa vào các quy trình phân tích dữ liệu và khai thác dữ liệu để hiểu rõ hơn về các hoạt động nội bộ và tiến hành các cải tiến trên toàn diện. Các doanh nghiệp sản xuất có thể sử dụng các dữ liệu cụ thể được khai thác để cải thiện hoạt động của họ bằng cách định vị và loại bỏ sự thiếu hiệu quả trong sản xuất, dự báo nhu cầu sản phẩm,...
Khả năng dự báo nhu cầu đối với những sản phẩm mà một doanh nghiệp sản xuất có thể điều chỉnh năng lực sản xuất theo hướng hiệu quả hơn. Theo Expert Systems with Applications, các quyết định được đưa ra phụ thuộc phần lớn vào năng lực sản xuất hiệu quả và việc khai thác dữ liệu khiến việc này trở nên ít khó khăn hơn. Với kiến thức cốt lõi tốt hơn về nhu cầu của khách hàng và hạn ngạch sản xuất, điều kiện làm việc cho nhân viên sẽ trở nên an toàn hơn, quản lý trở nên hiệu quả hơn và ít căng thẳng tổng thể hơn cho tất cả mọi người liên quan.
Khai thác dữ liệu có thể làm lộ quyền riêng tư và thông tin cá nhân của những người được nghiên cứu
Bên cạnh những lợi ích đáng kể mà việc khai thác dữ liệu có thể mang lại cho các cá nhân và công ty, công cụ này cũng ẩn chứa không ít nguy cơ.
Chẳng hạn, sự thiếu chính xác hoặc sai lệch hoàn toàn về dữ liệu có thể dẫn đến một chiến lược đầu tư có khả năng gây hại thay vì tạo ra khả năng sinh lời cho một nhà đầu tư.
Một số thiên vị trong tập dữ liệu đưa vào quy trình khai thác dữ liệu có thể tạo ra những sai lệch lâu dài đối với một số nhóm người tiêu dùng nhất định. Wired báo cáo rằng các thuật toán được thiết kế dựa trên kỹ thuật khai thác dữ liệu nhằm cải thiện phần mềm nhận dạng khuôn mặt đã gặp rất nhiều rắc rối trong việc xác định khuôn mặt của những người da đen một cách chính xác như những người da trắng. Sự thiếu chính xác này có thể dẫn đến tỷ lệ xác định sai cao hơn liên quan đến hoạt động tội phạm, đặc biệt có thể ảnh hưởng sâu sắc đến người vô tội. Sự thiên vị tập dữ liệu tương tự cũng có thể được nhận thấy khi theo dõi thói quen tiêu dùng của các cá nhân hoặc nhóm người nhất định.
Khai thác dữ liệu mở ra cuộc sống tương lai với tiềm năng phát triển nhanh chóng và hiệu quả
Về cơ bản, thay vì dựa vào trí tuệ của một người để giải quyết một vấn đề, khai thác dữ liệu sử dụng các thông tin tư duy tự nhiên từ nhiều người, từ đó nhóm các mẫu chung với nhau và cuối cùng tìm kiếm cách giải quyết các câu hỏi được đặt ra hay hoàn thành các nhiệm vụ tương tự theo cách hiệu quả và nhanh chóng hơn.
Khi con người tiếp tục phát triển các kỹ thuật khai thác dữ liệu hiệu quả hơn, các quy trình này sẽ diễn ra trong tất cả các giai đoạn và khía cạnh của cuộc sống với tốc độ ngày càng tăng. Ngày nay, các nhà đầu tư thu được lợi nhuận từ việc phân tích dữ liệu lớn trực tiếp hoặc thông qua việc sử dụng các quỹ chỉ số; mọi người có thể cập nhật thời gian thực tế về quãng đường đi làm của họ thông qua Google Maps hoặc Waze. Nhưng trong tương lai, con người thậm chí có thể sử dụng các thuật toán khai thác dữ liệu đơn giản hơn nữa để vạch ra những câu hỏi dù là nhỏ nhất./.