Mục lục trang:
khoa học dữ liệu là gì ? bộ môn khoa học dữ liệu sẽ làm những gì ? công việc chính của khoa học dữ liệu ra sao? ở VN mình có khoa học dữ liệu không ? … còn nhiều câu hỏi nữa nhưng khi bạn đọc xong bài post này, thì bạn sẽ dễ dàng hiểu được khoa học dữ liệu là gì ?
KHOA HỌC DỮ LIỆU
khoa học dữ liệu là gì ?
Khoa học dữ liệu là một lĩnh vực đa ngành , sử dụng các phương pháp, quy trình, thuật toán và hệ thống khoa học để trích xuất kiến thức và hiểu biết từ dữ liệu có cấu trúc và không cấu trúc . Khoa học dữ liệu là khái niệm tương tự như khai thác dữ liệu và dữ liệu lớn : “sử dụng phần cứng mạnh nhất, hệ thống lập trình mạnh nhất và thuật toán hiệu quả nhất để giải quyết vấn đề”.
Khoa học dữ liệu là một “khái niệm để thống nhất thống kê, phân tích dữ liệu, học máy và các phương pháp liên quan của chúng” để “hiểu và phân tích các hiện tượng thực tế” với dữ liệu. Nó sử dụng các kỹ thuật và lý thuyết được rút ra từ nhiều lĩnh vực trong bối cảnh toán học , thống kê , khoa học thông tin và khoa học máy tính . Jim Gray, người chiến thắng giải thưởng Turing đã tưởng tượng khoa học dữ liệu là một “mô hình thứ tư” của khoa học ( theo kinh nghiệm , lý thuyết , tính toán và bây giờ dựa trên dữ liệu) và khẳng định rằng “mọi thứ về khoa học đang thay đổi do tác động của công nghệ thông tin”dữ liệu deluge .
Vào năm 2012, khi Harvard Business Review gọi nó là “Công việc quyến rũ nhất thế kỷ 21”, thuật ngữ “khoa học dữ liệu” đã trở thành một từ thông dụng . Bây giờ nó thường được sử dụng thay thế cho nhau với các khái niệm trước đây như phân tích kinh doanh , thông minh kinh doanh , mô hình dự đoán và thống kê . Ngay cả gợi ý rằng khoa học dữ liệu là gợi cảm đã diễn giải Hans Rosling , đặc trưng trong một bộ phim tài liệu năm 2011 của BBC với câu nói: “Thống kê bây giờ là chủ đề gợi cảm nhất xung quanh.” Nate Silver gọi khoa học dữ liệu là thuật ngữ giới tính để thống kê. Trong nhiều trường hợp, các cách tiếp cận và giải pháp trước đây giờ chỉ đơn giản được đặt lại thương hiệu là “khoa học dữ liệu” để hấp dẫn hơn, điều này có thể khiến thuật ngữ này trở nên “loãng [d] ngoài tính hữu dụng”. Mặc dù nhiều chương trình đại học hiện cung cấp bằng khoa học dữ liệu, không tồn tại sự đồng thuận về định nghĩa hoặc nội dung chương trình giảng dạy phù hợp. Tuy nhiên, làm mất uy tín của nó, nhiều dự án khoa học dữ liệu và dữ liệu lớn không mang lại kết quả hữu ích, thường là do quản lý và sử dụng tài nguyên kém.
Lịch sử hình thành khoa học dữ liệu
Thuật ngữ “khoa học dữ liệu” đã xuất hiện trong nhiều bối cảnh khác nhau trong ba mươi năm qua nhưng không trở thành một thuật ngữ được thiết lập cho đến gần đây. Trong một sử dụng sớm, nó được sử dụng như là một thay thế cho khoa học máy tính bằng cách Peter Naur vào năm 1960. Naur sau đó giới thiệu thuật ngữ ” datalogy “. Năm 1974, Naur đã xuất bản Khảo sát ngắn gọn về Phương pháp máy tính , sử dụng thuật ngữ khoa học dữ liệu một cách tự do trong khảo sát các phương pháp xử lý dữ liệu hiện đại được sử dụng trong một loạt các ứng dụng.
Năm 1996, các thành viên của Liên đoàn phân loại quốc tế (IFCS) đã gặp nhau tại Kobe cho hội nghị hai năm một lần của họ. Ở đây, lần đầu tiên, thuật ngữ khoa học dữ liệu được đưa vào tiêu đề của hội nghị (“Khoa học dữ liệu, phân loại và phương pháp liên quan”), sau khi thuật ngữ được giới thiệu trong một cuộc thảo luận bàn tròn của Chikio Hayashi.
Vào tháng 11 năm 1997, CF Jeff Wu đã có bài giảng khai mạc mang tên “Thống kê = Khoa học dữ liệu?” cho việc bổ nhiệm Giáo sư HC Carver tại Đại học Michigan . Trong bài giảng này, ông mô tả công việc thống kê là một bộ ba thu thập dữ liệu, mô hình hóa và phân tích dữ liệu và ra quyết định. Trong kết luận của mình, ông đã khởi xướng khoa học hiện đại, phi máy tính, sử dụng thuật ngữ “khoa học dữ liệu” và ủng hộ rằng các số liệu thống kê được đổi tên thành khoa học dữ liệu và các nhà khoa học dữ liệu thống kê. [18] Sau đó, ông trình bày bài giảng của mình có tên “Thống kê = Khoa học dữ liệu?” là bài giảng đầu tiên trong năm 1998 PC Mahalanobis Tưởng niệm. Những bài giảng danh dựPrasanta Chandra Mahalanobis , một nhà khoa học và thống kê người Ấn Độ và là người sáng lập Viện Thống kê Ấn Độ .
Năm 2001, William S. Cleveland đã giới thiệu khoa học dữ liệu như một ngành học độc lập, mở rộng lĩnh vực thống kê để kết hợp “những tiến bộ trong điện toán với dữ liệu” trong bài viết của mình “Khoa học dữ liệu: Kế hoạch hành động để mở rộng các lĩnh vực kỹ thuật của lĩnh vực thống kê, “Được xuất bản trong Tập 69, Số 1, phiên bản tháng 4 năm 2001 của Tạp chí Thống kê Quốc tế / Revue Internationale de Statistique. Trong báo cáo của mình, Cleveland thiết lập sáu lĩnh vực kỹ thuật mà ông tin là bao gồm lĩnh vực khoa học dữ liệu: điều tra đa ngành, mô hình và phương pháp cho dữ liệu, tính toán với dữ liệu, sư phạm, đánh giá công cụ và lý thuyết.
Vào tháng 4 năm 2002, Hội đồng Khoa học Quốc tế (ICSU): Ủy ban Dữ liệu Khoa học và Công nghệ (CODATA) đã bắt đầu Tạp chí Khoa học Dữ liệu , một ấn phẩm tập trung vào các vấn đề như mô tả hệ thống dữ liệu, ấn phẩm của họ trên internet, các ứng dụng và các vấn đề pháp lý. Ngay sau đó, vào tháng 1 năm 2003, Đại học Columbia bắt đầu xuất bản Tạp chí Khoa học Dữ liệu , trong đó cung cấp một nền tảng cho tất cả các nhân viên dữ liệu để trình bày quan điểm và trao đổi ý tưởng của họ. Tạp chí chủ yếu dành cho việc áp dụng các phương pháp thống kê và nghiên cứu định lượng. Năm 2005, Ủy ban Khoa học Quốc gia đã xuất bản “Bộ sưu tập dữ liệu số tồn tại lâu dài: Cho phép nghiên cứu và giáo dục trong thế kỷ 21” xác định các nhà khoa học dữ liệu là “nhà khoa học thông tin và máy tính, cơ sở dữ liệu và phần mềm và lập trình viên, chuyên gia kỷ luật, người phụ trách và người chú thích thủ thư, nhà lưu trữ và những người khác, những người rất quan trọng đối với việc quản lý thành công bộ sưu tập dữ liệu số “có hoạt động chính là” tiến hành điều tra và phân tích sáng tạo “.
Khoảng năm 2007, [ cần dẫn nguồn ] Người chiến thắng giải thưởng Turing Jim Gray đã hình dung “khoa học dựa trên dữ liệu” là “mô hình thứ tư” của khoa học sử dụng phân tích tính toán dữ liệu lớn làm phương pháp khoa học chính và “để có một thế giới trong đó tất cả các tài liệu khoa học đều trực tuyến, tất cả các dữ liệu khoa học đều trực tuyến và chúng tương tác với nhau. “
Trong bài báo của Harvard Business Review năm 2012 “Nhà khoa học dữ liệu: Công việc quyến rũ nhất thế kỷ 21”, DJ Patil tuyên bố đã đặt ra thuật ngữ này vào năm 2008 với Jeff Hammerbacher để xác định công việc của họ tại LinkedIn và Facebook, tương ứng. Ông khẳng định rằng một nhà khoa học dữ liệu là “một giống mới” và rằng “sự thiếu hụt các nhà khoa học dữ liệu đang trở thành một hạn chế nghiêm trọng trong một số lĩnh vực”, nhưng mô tả vai trò định hướng kinh doanh nhiều hơn.
Vào năm 2013, Lực lượng đặc nhiệm của IEEE về Khoa học dữ liệu và Phân tích nâng cao đã được ra mắt. Vào năm 2013, “Hội nghị phân tích dữ liệu châu Âu (ECDA)” đầu tiên đã được tổ chức tại Luxembourg, thành lập Hiệp hội khoa học dữ liệu châu Âu (EuADS) . Hội nghị quốc tế đầu tiên: Hội thảo quốc tế về Khoa học dữ liệu và Phân tích nâng cao đã được ra mắt vào năm 2014. Năm 2014, Đại hội đồng đã ra mắt bootcamp do sinh viên trả tiền và The Incubator đưa ra một học bổng khoa học dữ liệu miễn phí cạnh tranh. Năm 2014, Hiệp hội thống kê Hoa Kỳphần về Học tập thống kê và khai thác dữ liệu đã đổi tên tạp chí của mình thành “Phân tích thống kê và khai thác dữ liệu: Tạp chí khoa học dữ liệu ASA” và năm 2016 đã đổi tên phần thành “Học thống kê và khoa học dữ liệu”. Năm 2015, Tạp chí quốc tế về khoa học dữ liệu và phân tích đã được Springer ra mắt để xuất bản công trình gốc về khoa học dữ liệu và phân tích dữ liệu lớn. Vào tháng 9 năm 2015, Gesellschaft für Klassifikation (GfKl) đã thêm vào tên của Hội “Khoa học dữ liệu” tại hội nghị ECDA lần thứ ba tại Đại học Essex , Colchester, Vương quốc Anh.
Mối quan hệ giữa thống kê với khoa học dữ liệu
“Khoa học dữ liệu” gần đây đã trở thành một thuật ngữ phổ biến trong các nhà điều hành doanh nghiệp. Tuy nhiên, nhiều học giả và nhà báo quan trọng không thấy sự khác biệt giữa khoa học dữ liệu và thống kê , trong khi những người khác coi đó là một thuật ngữ phổ biến cho “khai thác dữ liệu” và “dữ liệu lớn”. Viết trên Forbes , Gil Press lập luận rằng khoa học dữ liệu là một từ thông dụng mà không có định nghĩa rõ ràng và chỉ đơn giản là thay thế các phân tích kinh doanh của Wap trong các ngữ cảnh như các chương trình cấp bằng sau đại học. Trong phần hỏi và trả lời địa chỉ chính của mình tại Cuộc họp Thống kê chung của Hiệp hội Thống kê Hoa Kỳ, nhà thống kê đã ghi nhậnNate Silver cho biết, tôi nghĩ rằng nhà khoa học dữ liệu là một thuật ngữ có giới tính đối với một nhà thống kê …. Thống kê là một nhánh của khoa học. Theo một cách nào đó, nhà khoa học dữ liệu hơi dư thừa và mọi người không nên sử dụng thuật ngữ thống kê. Tương tự như vậy, trong lĩnh vực kinh doanh, nhiều nhà nghiên cứu và nhà phân tích nói rằng một mình các nhà khoa học dữ liệu không đủ khả năng cung cấp cho các công ty một lợi thế cạnh tranh thực sự và coi các nhà khoa học dữ liệu chỉ là một trong bốn công ty gia đình lớn hơn yêu cầu tận dụng dữ liệu lớn một cách hiệu quả, cụ thể là: nhà phân tích dữ liệu, nhà khoa học dữ liệu, nhà phát triển dữ liệu lớn và kỹ sư dữ liệu lớn .
Mặt khác, phản ứng với những lời chỉ trích là rất nhiều. Trong một bài viết trên Tạp chí Phố Wall năm 2014 , Irving Wladawsky-Berger so sánh sự nhiệt tình của khoa học dữ liệu với sự khởi đầu của khoa học máy tính . Ông lập luận khoa học dữ liệu, giống như bất kỳ lĩnh vực liên ngành nào khác , sử dụng các phương pháp và thực tiễn từ khắp các học viện và ngành công nghiệp , nhưng sau đó nó sẽ biến chúng thành một ngành học mới . Ông đã chú ý đến những lời chỉ trích sắc sảo về khoa học máy tính, giờ đây là một ngành học được tôn trọng, đã phải một lần đối mặt. Tương tự, Vasant Dhar của NYU Stern , cũng như nhiều người đề xướng học thuật khác về khoa học dữ liệu, lập luận cụ thể hơn vào tháng 12 năm 2013 rằng khoa học dữ liệu khác với thực tiễn phân tích dữ liệu hiện có trên tất cả các ngành , chỉ tập trung vào giải thích các bộ dữ liệu . Khoa học dữ liệu tìm kiếm mô hình phù hợp và có thể hành độngđể sử dụng dự đoán .Mục tiêu kỹ thuật thực tế này đưa khoa học dữ liệu vượt ra ngoài các phân tích truyền thống. Bây giờ dữ liệu trong các ngành và các lĩnh vực ứng dụng thiếu lý thuyết vững chắc, như khoa học y tế và khoa học xã hội , có thể được tìm kiếm và sử dụng để tạo ra các mô hình dự đoán mạnh mẽ
Trong một nỗ lực tương tự như Dhar, giáo sư David Donoho của Stanford , vào tháng 9 năm 2015, đưa ra đề xuất hơn nữa bằng cách bác bỏ ba định nghĩa đơn giản và sai lệch về khoa học dữ liệu thay cho những lời chỉ trích. Đầu tiên, đối với Donoho, khoa học dữ liệu không tương đương với dữ liệu lớn , trong đó kích thước của tập dữ liệu không phải là một tiêu chí để phân biệt khoa học dữ liệu và thống kê. Thứ hai, khoa học dữ liệu không được xác định bởi các kỹ năng tính toán sắp xếp các tập dữ liệu lớn, trong đó các kỹ năng này thường được sử dụng để phân tích trên tất cả các ngành.Thứ ba, khoa học dữ liệu là một lĩnh vực được áp dụng nhiều trong đó các chương trình học thuậtngay bây giờ không chuẩn bị đầy đủ các nhà khoa học dữ liệu cho các công việc, trong đó nhiều chương trình sau đại học quảng cáo sai lệch về đào tạo phân tích và thống kê của họ như là bản chất của một chương trình khoa học dữ liệu. Là một nhà thống kê , Donoho , theo nhiều người trong lĩnh vực của mình, bảo vệ việc mở rộng phạm vi học tập dưới dạng khoa học dữ liệu, như John Chambers, người thúc giục các nhà thống kê áp dụng khái niệm học tập từ dữ liệu, hoặc như William Cleveland, người thúc giục ưu tiên trích xuất từ các công cụ dự đoán áp dụng dữ liệu so với các lý thuyết giải thích. Cùng nhau, nhữngcác nhà thống kê hình dung một lĩnh vực ứng dụng ngày càng bao quát phát triển từ các số liệu thống kê truyền thống và hơn thế nữa.
Đối với tương lai của khoa học dữ liệu, Donoho dự kiến một môi trường phát triển không ngừng cho khoa học mở , nơi các bộ dữ liệu được sử dụng cho các ấn phẩm học thuật có thể truy cập được cho tất cả các nhà nghiên cứu. Viện Y tế Quốc gia Hoa Kỳ đã công bố kế hoạch tăng cường khả năng tái tạo và minh bạch của dữ liệu nghiên cứu. Các tạp chí lớn khác cũng vậy theo sau. Bằng cách này, tương lai của khoa học dữ liệu không chỉ vượt quá ranh giới của các lý thuyết thống kê về quy mô và phương pháp, mà khoa học dữ liệu sẽ cách mạng hóa các mô hình nghiên cứu và nghiên cứu hiện tại . Như Donoho kết luận, “phạm vi và tác động của khoa học dữ liệu sẽ tiếp tục mở rộng rất lớn trong những thập kỷ tới khi dữ liệu khoa học và dữ liệu về chính khoa học trở nên phổ biến./.