Топ-100
Back

ⓘ Наука за податоци. Науката за податоци е меѓудисциплинарна област која користи научни методи, постапки, алгоритми и системи за да извлече знаење и корисни инфор ..




Наука за податоци
                                     

ⓘ Наука за податоци

Науката за податоци е меѓудисциплинарна област која користи научни методи, постапки, алгоритми и системи за да извлече знаење и корисни информации од многу структурирани и неструктурирани податоци. Науката за податоци е поврзана со податочно рударење, машинско учење и големи сетови податоци.

Науката за податоци е "концепт кој ги обединува дисциплините: статистика, анализа на податоци и нивните сродни методи" со цел да се "разберат и анализираат реалните појави" преку податоците. Оваа наука користи техники и теории извлечени од многу полиња во контекст на математика, статистика, компјутерски науки и информатика.

Добитникот на наградата Туринг, Џим Греј, ја објаснил науката за податоци како "четврта парадигма" на науката како додаток на веќе постоечките парадигми: емпириска, теоретска и пресметковна тврдејќи дека "сè во науката се менува поради влијанието на информатичката технологија" и презаситеноста од податоци.

Науката за податоци е интердисциплинарна област насочена кон извлекување на корисни информации и знаење од множества на податоци, кои се обично големи анг. big data. Ова поле опфаќа подготвување податоци за анализа, податочна анализа, и презентирање на корисната информација извлечена од процесот со цел донесување на информирана одлука на високо ниво во една организација. Како таква, таа вклучува вештини од компјутерски науки, математика, статистика, визуелизација на информации, графички дизајн, сложени системи, комуникација и бизнис. Статистичарот Нејтан Јау, потпирајќи се на Бен Фрај, исто така ја поврзал науката за податоци со интеракцијата човек-компјутер: корисниците треба да можат интуитивно да ги контролираат и истражуваат податоците. Во 2015 година, Американското здружение за статистика ги идентификувало управување со базата на податоци, статистика и машинско учење и дистрибуирани и паралелни системи како трите нови професионални заедници.

Многу статистичари, вклучително и Нејт Силвер, тврдат дека науката за податоци не е ново поле, туку е друго име за полето на статистика. Други пак тврдат дека науката за податоци е различна од статистиката затоа што се фокусира на проблеми и техники кои се уникатни за дигиталните податоци. Ванстан Дар пак, тврди дека статистиката ги нагласува квантитативните податоци и нивниот опис. Спротивно на тоа, науката за податоци се занимава со квантитативни и квалитативни податоци на пр. Слики и нагласува предвидување и дејствување согласно тие податоци. Ендру Гелман од Универзитетот Колумбија и научникот за податоци Винсент Гранвил ја опишале статистиката како несуштински дел од науката за податоци. Професорот од Стенфорд, Дејвид Донохо, расправал дека науката за податоци не се разликува од статистиката според големината на податоците и податочните множества или според употребата на компјутерите, и дека многу институции погрешно ја маркетираат обуката за анализа и статистика како суштина на програмата за наука за податоци. Тој ја дефинирал науката за податоци како применета област која произлегува од традиционалната статистика. Согласно ова, може да се заклучи дека науката за податоци се опишува како применета гранка на статистиката.

                                     

1.1. Етимологија Рана употреба

Во 1962 година, Џон Туки ја опишал областа оваа област нарекувајќи ја "анализа на податоци", што наликува на современата област наука за податоци. Подоцна, присутните на симпозиумот за статистика во 1992 година на Универзитетот во Монпелје Втори го признале појавувањето на нова дисциплина фокусирана на податоци од различно потекло и форми, комбинирајќи воспоставени концепти и принципи на статистика и анализа на податоци преку компјутер.

Терминот "наука за податоци" се појавил уште во 1974 година, кога Питер Наур го предложил како алтернативно име за компјутерски науки. Во 1996 година, Меѓународната федерација на класификациони друштва станала првата конференција на која специфично е прикажана науката за податоци како тема. Сепак, дефиницијата сè уште била во тек. Во 1997 година, Ц.Ф. Џеф Ву сугерирал дека статистиката треба да се преименува во наука за податоци. Тој образложил дека новото име ќе и помогне на истата да отфрли некои неточни стереотипи поврзани со работата во ова поле, како на пример нејзиното сметање за синоним со сметководство.

Во 1998 година, Чикио Хајаши тврдел дека науката за податоци е нов, интердисциплинарен концепт, со три аспекти: дизајн на податоци, собирање и анализа.

Во текот на 90-тите години на минатиот век, популарни јазични термини за процесот на изнаоѓање шеми и поврзаности во податочните множества кои станувале сè поголеми вклучувале "откривање на знаење" и "рударење податоци".

Современата концепција на науката за податоци како независна дисциплина понекогаш му се припишува на Вилијам Кливленд. Во негов труд од 2001 година, тој се залагал за проширување на статистиката надвор од математичката теорија и тоа во технички области; и бидејќи ова значително ќе го промени полето, постои потреба од ново име. "Науката за податоци" станала пошироко користена во следните неколку години: во 2002 година, Комитетот за податоци за наука и технологија го објавил списанието "Data Science Journal". Во 2003 година, Универзитетот Колумбија го објавил, The Journal of Data Science". Во 2014 година, Одделот за статистичко учење и рударење на податоци на Американското статистичко здружение го променил своето име во Секција за статистичко учење и наука за податоци, како одраз на растечката популарност на науката за податоци.

Професионалното звање "научник за податоци" им се припишува на ДЈ Патил и Џеф Хамербахер во 2008 година. Иако било користено од Националниот научен одбор во нивниот извештај од 2005 година, "Long-Lived Digital Data Collections: Enabling Research and Education in the 21st Century,", тој општо се однесувал на која било клучна улога во управувањето со дигиталната колекција на податоци.

Сè уште нема консензус за дефиницијата на науката за податоци.

                                     

2. Влијанија на науката за податоци

Големите збирови на податоци многу брзо стануваат витална алатка за деловните субјекти и компаниите од сите големини. Достапноста и интерпретацијата на големите податоци менуваат деловните модели на старите индустрии и овозможуваат создавање на нови. Бизнисите водени од податоци се во вредност од 1.2 трилиони долари колективно во 2020 година, што е пораст од 333 милијарди долари за 2015 година. Научниците за податоци се одговорни за разградување на големите податоци во употребливи информации и создавање на софтвер и алгоритми кои им помагаат на компаниите и организациите да утврдат оптимално работење. Бидејќи големите податоци продолжуваат да имаат големо влијание врз светот, науката за податоци го прави и тоа како резултат на блиската врска меѓу нив.

                                     

3. Технологии и техники

Постојат различни технологии и техники кои се користат во науката на податоци, кои зависат од апликацијата на истата. Во поново време, развиени се посебни платформи кои се на широко се користат за наука на податоци и машинско учење.

                                     

3.1. Технологии и техники Техники

  • Линеарна регресија
  • Машинското учење е техника што се користи за извршување на задачи со преглед на обрасци од податоци.
  • Векторска машина за поддршка SVM
  • Кластерирање е техника што се користи за групирање на податоците заедно.
  • Намалувањето на димензионалноста се користи за да се намали комплексноста на пресметката на податоците за да може побрзо да се изврши.
  • Дрвата на одлучување се користат како модели за предвидување за класификација и вклопување на податоците. Структурата на дрвото на одлучување може да се искористи за генерирање правила што можат да ги класифицираат или да предвидат некоја целна променлива, класа или етикета, врз основа на атрибутите за набљудување.
  • Логистичка регресија
                                     

3.2. Технологии и техники Јазици

  • Juliа е јазик на високо ниво со високи перформанси, со можност за динамичко програмиеање и јазик кој е добро прилагоден за бројчена анализа и компјутерска наука.
  • Пајтон е програмски јазик со едноставна синтакса која најчесто се користи за наука за податоци. Постојат голем број библиотеки кои се користат во науката за податоци, вклучително и вкочанета, панда и лута.
  • R е програмски јазик дизајниран за статистичари и податоци за рударство и е оптимизиран за пресметка.
                                     

3.3. Технологии и техники Рамки

  • Pytorch е друга рамка за машинско учење развиена од Фејсбук.
  • TensorFlow е рамка за создавање модели за машинско учење развиена од Google.
  • Apache Hadoop е софтверска рамка што се користи за обработка на податоци преку големи дистрибуирани системи.
  • Jupyter Notebook е интерактивен веб-интерфејс за Python кој овозможува побрзо експериментирање.
                                     

3.4. Технологии и техники Алатки за визуелизација

  • Google Charts е веб-услуга заснована на JavaScript, направена и поддржана од Google за создавање графички графикони.
  • Webix е пакет алатки за кориснички интерфејс кој вклучува наменски алатки за визуелизација на информации.
  • PowerBI е деловна аналитичка услуга на "Мајкрософт".
  • Qlik произведува софтвер како QlikView и Qlik Sense што се користи за визуелизација на податоци и деловна интелигенција.
  • Sisense обезбедува предност за градење визуелизации на податоци, вклучувајќи контролни табли и извештаи.
  • AnyChart обезбедува библиотеки на JavaScript и други алатки за визуелизација на податоци во графикони и контролни табли.
  • Plotly обезбедува богат сет на интерактивни библиотеки за научни графики.
  • Tableau прави разновиден софтвер што се користи за визуелизација на податоците.
                                     

3.5. Технологии и техники Платформи

  • MATLAB е компјутерска околина која многу се користи во индустријата и академијата.
  • Аnaconda обезбедува сеопфатна бесплатна дистрибуција со отворен извор на програмските јазици Python и R.
  • Dataiku е колаборативен софтвер за наука на податоци што се продава за големи податоци.
  • RapidMiner е софтверска платформа за наука за податоци развиена од истоимената компанија.
  • Databricks е клауд-платформа за облак за масовно инженерство на податоци и колаборативна наука за податоци.
                                     
  • Инженерство или техника претставува примена на наука за постигнување на потребите на човештвото. Ова се остварува низ општо знаење, математика и практично
  • комбинацијата на грчките зборови мета околу еора се гледа и логос наука што значи наука за она што се гледа, набљудува, наоколу и горе, т.е. што се случува
  • и научниотт метод. Кога научник има за цел да изготви алатка за практична примена, станува збор за применета наука Применет научник не мора да нешто со
  • Систематиката е биолошка наука чијшто предмет на проучување е разнообразието и класификацијата на организмите археи, бактерии, протисти, габи, растенија
  • протистологијата наука за праживотните малакологија - наука за мекотелите, арахнологија - наука за пајаковидните, ентомологија - наука за инсектите, акарологија
  • наука и пракса за одржување на здравјето и за проучување, превенција, дијагноза и третман на болести и повреди на луѓе. Традиционално е сметана и за уметност
  • на информации и криптографија, машинско учење, обработка на податоци и наука за податоци Во период од 1986 година до денес академик Љупчо Коцарев публикувал
  • филозофијата како и другите науки, а од 1879 година се развива како самостојна наука Според Фридрих Енгелс, соништата го поттикнале човекот да поверува дека
  • Хемија - природна наука што се занимава со проучување на структурата и својствата на материјата, како и промените кои настануваат при хемиските реакции
  • занимава со подобрување на образованието во природните науки. Меѓународен сојуз за чиста и применета физика Меѓународен совет за наука Матична страница

Users also searched:

...
...
...