https://sellio.store/pl/page/8/     https://fashionetta.org/pl/page/8/     https://home-partner.org/pl/page/8/     https://car-paradise.org/pl/page/8/     https://car-accessories.net/pl/page/8/     https://modeo-shop.com/pl/page/8/     https://wibratory.net/pl/page/8/     https://etui-empire.com/pl/page/8/     https://e-papierosy.org/pl/page/8/     https://ero-land.org/pl/page/8/     https://lampy-sklep.com/pl/page/8/     https://desteo.org/pl/page/8/     https://shopara.org/pl/page/8/     https://shopme-online.org/pl/page/8/     https://shopinio.org/pl/page/8/     https://shopopolis.org/pl/page/8/     https://shoporama.org/pl/page/8/     https://desuto.org/pl/page/8/     https://shopsy-online.org/pl/page/8/     https://e-shopsy.org/pl/page/8/     https://vandershop.net/pl/page/8/    https://etui-empire.com/pl/    https://e-lifestyle.info/    https://whycatalog.com/en/

websites-info.com

Kolejna witryna oparta na WordPressie

Nauka o danych: Jak zwiększyć przejrzystość w praktyce statystycznej

Zarówno nauka o danych, jak i statystyka zyskują na przejrzystości, otwartości na alternatywne interpretacje danych i uznawaniu niepewności. Przyjęcie przejrzystości jest dodatkowo wspierane przez ważne względy etyczne, takie jak wspólnotowość, uniwersalizm, bezinteresowność i zorganizowany sceptycyzm.

Promowanie przejrzystości jest możliwe dzięki siedmiu procedurom statystycznym:

  • Wizualizacja danych
  • Kwantyfikacja niepewności wnioskowania
  • Ocena wyborów dotyczących wstępnego przetwarzania danych
  • Przedstawianie wielu modeli
  • Zaangażowanie wielu analityków
  • Umiarkowana interpretacja wyników
  • Udostępnianie kodu i danych

W tym artykule omówimy korzyści, ograniczenia i wytyczne dotyczące stosowania przejrzystości w praktyce statystycznej. Przyjrzymy się również niektórym sposobom, w jakie Data Science wpływa na dzisiejszy biznes.

Co to jest nauka o danych i statystyka?

Jeśli jesteś już zaznajomiony z Data Science i statystyką, możesz przejść dalej. W przeciwnym razie ta sekcja posłuży jako krótki wstęp. Cassie Kozyrkov, szefowa działu Decision Intelligence w Google, nazywa Data Science „dyscypliną, która sprawia, że dane stają się użyteczne”. Sama statystyka odnosi się do gromadzenia, organizowania, interpretowania i prezentowania danych.

Data Science to interdyscyplinarna dziedzina, która wykorzystuje takie dziedziny jak statystyka, matematyka, informatyka i technologia informacyjna, aby uczynić zebrane informacje użytecznymi. Obecnie nauka o danych jest jedną z wiodących gałęzi przemysłu ze względu na ogromną ilość danych gromadzonych i wykorzystywanych przez różne korporacje, rządy i ludzi.

Według Glassdoor, data scientist zajmuje 3. miejsce wśród 50 najlepszych zawodów w USA. W rzeczywistości wiele z najlepszych zawodów łączy w sobie wykształcenie informatyczne i matematyczne, podobnie jak Data Science. Umiejętność przetwarzania danych będzie kluczem do sukcesu w erze informacji.

Następnie przyjrzyjmy się sposobom promowania przejrzystości w naukach o danych i ich zastosowaniu w dzisiejszej pracy.

Wizualizacja danych

Spójrzmy prawdzie w oczy, arkusz kalkulacyjny Excel z surowymi danymi nie jest najłatwiejszą rzeczą do zrozumienia. Dlatego właśnie naukowcy i analitycy danych są tak ważni. Pomagają oni nadać tym danym sens. Jednym z najlepszych sposobów przedstawienia informacji w celu pokazania trendów i wartości odstających jest wizualizacja danych.

Wizualizacja danych nie służy jednak tylko do ich interpretacji. Może ona także pomóc badaczom w eksploracji danych oraz tworzeniu nowych teorii i hipotez. Kluczem jest jednak wykorzystanie tych wizualizacji w celu zapewnienia przejrzystości. Moc pokazywania informacji może również wprowadzać w błąd. Na przykład przy porównywaniu zestawów danych za pomocą wizualizacji ważne jest stosowanie podobnych skal, aby nie wprowadzać w błąd.

Wizualizacja danych staje się jeszcze bardziej efektywna w przypadku modeli aktywnych i statycznych. Obecnie analitycy danych z doświadczeniem w dziedzinie informatyki mogą tworzyć zaawansowane modele, które dynamicznie reagują na dane wprowadzane przez użytkownika lub pokazują, jak dane zmieniają się w czasie.

Ilościowe określanie niepewności wnioskowania

Powszechnym błędnym przekonaniem na temat statystyki jest to, że może ona dać nam pewność. Statystyka opisuje jednak tylko to, co jest prawdopodobne. Przejrzystość można najlepiej osiągnąć poprzez przedstawienie poziomu niepewności. Kwantyfikując wnioskowanie badawcze dotyczące niepewności, można osiągnąć większy stopień zaufania.

Niektórzy badacze przeprowadzili badania artykułów z dziedziny fizjologii, nauk społecznych i medycyny. Wyniki badań wykazały, że słupki błędów, błędy standardowe i przedziały ufności nie zawsze były prezentowane w badaniach. W niektórych przypadkach pominięcie tych miar niepewności może mieć dramatyczny wpływ na sposób interpretowania informacji. W takich dziedzinach jak służba zdrowia obowiązują surowe wymagania dotyczące zgodności z bazami danych w celu ochrony danych pacjentów. Włączenie tych miar może dodatkowo chronić pacjentów, a badacze mogą przedstawić swoją metodologię i dać czytelnikom wskazówki, jak interpretować dane.

Ocena wyborów w zakresie wstępnego przetwarzania danych

Naukowcy często stają w obliczu ogromnych ilości nieuporządkowanych danych. Na przykład jeziora danych są coraz częściej stosowaną metodologią przechowywania danych niezorganizowanych i zorganizowanych. Są one wysoce skalowalne i umożliwiają przeprowadzanie wielu rodzajów analiz. Jednak po przetworzeniu danych ważne jest, aby ocenić i wyjaśnić, w jaki sposób dane te były traktowane przed przetworzeniem.

Jednym z problemów związanych z wyborami dotyczącymi wstępnego przetwarzania danych jest to, że mogą one prowadzić do tego, że badacze i naukowcy padają ofiarą swoich uprzedzeń. W rezultacie wyniki danych mogą odzwierciedlać tylko najbardziej przekonujące rezultaty.

Na przykład, w badaniu Steegen i in. ponownie przeanalizowano inne badanie, w którym oceniano związek między statusem związku kobiety (singielka vs mężatka) a jej cyklem menstruacyjnym i jego wpływem na religijność. W badaniu zastosowano różne procedury wstępnego przetwarzania danych. Ostatecznie, w badaniu wykorzystującym analizę wieloraką stwierdzono, że wpływ płodności na religijność jest zbyt wrażliwy na arbitralne wybory, a zatem „zbyt kruchy, by traktować go poważnie”.

Przedstawianie wielu modeli

Jakie jest zatem rozwiązanie problemu arbitralnych wyborów w zakresie przetwarzania wstępnego? Steegen zaleca w większości przypadków analizę wielowymiarową i twierdzi, że jest to sposób na uniknięcie i ograniczenie problemu selektywnego raportowania: „W zakresie, w jakim pojedynczy zestaw danych jest oparty na arbitralnych wyborach dotyczących przetwarzania, ich wynik statystyczny jest arbitralny”.

Na przykład, wyobraź sobie, że jesteś naukowcem badającym łańcuch dostaw w swojej firmie. W analizie danych możesz być skłonny do wykluczania odstających punktów danych. W scenariuszu analizy wielowymiarowej można uwzględnić te punkty danych. Dzięki uwzględnieniu tych informacji i zbadaniu wielu modeli badania stają się bardziej wiarygodne.

Zaangażowanie wielu analityków

Wcześniej wspomniałem o stronniczości badaczy, która jest czynnikiem decydującym o wyborze przetwarzania wstępnego. Jednym ze sposobów łagodzenia tej tendencyjności jest zaangażowanie wielu analityków. Naukowcy mogą zmniejszyć wpływ wyborów dokonywanych przez poszczególnych analityków, gdy kilka osób analizuje ten sam zbiór danych.

Podejście z udziałem wielu analityków jest również pomocne, ponieważ im bardziej złożone są dane, tym więcej rąk potrzeba do ich uporządkowania. Problemem jest jednak to, że dostępna siła robocza może ograniczać zdolność wielu analityków do zaangażowania się w jeden projekt.

Rozwiązaniem może być sztuczna inteligencja i przetwarzanie w chmurze. Blockchain jest najczęściej omawiany w odniesieniu do kupna i sprzedaży kryptowalut na różnych giełdach. Jednak blockchain zaczyna być wykorzystywany również w Data Science. Naukowcy mogliby tworzyć wiele metodologii z wykorzystaniem sieci neuronowych i technologii blockchain. W ten sposób jeden badacz mógłby nadzorować analizę wielu różnych zjawisk, badając wiele procesów uczenia maszynowego.

Skromna interpretacja wyników

Nauka o danych może być niezwykle przydatna w procesie podejmowania decyzji. Jednak,

Podejmowanie decyzji na podstawie wyników, które wyolbrzymiają ich znaczenie, powtarzalność i zdolność do generalizacji, może być niebezpieczne. Naukowcy zajmujący się danymi, którzy przedstawiają wyniki w sposób skromny, umożliwiają czytelnikom interpretację i ocenę wyników na podstawie ich własnych zalet.

Jednym z problemów jest to, że częściej używa się mocniejszych słów, takich jak „zdumiewający”, „przełomowy”, „bezprecedensowy” itp. Podręczniki zachęcają też autorów do wyolbrzymiania twierdzeń, a nie skromnego przedstawiania wyników. Unikając wyolbrzymiania twierdzeń, badacze dbają o to, by przekazywane informacje miały swoją własną wartość merytoryczną.

Dzielenie się danymi i

kodem

Znaczenie dzielenia się danymi i kodem jest nie do przecenienia. Co najważniejsze, dzielenie się danymi sprzyja odtwarzalności i umożliwia innym wykonywanie analiz wrażliwości. Inni badacze mogą też później zweryfikować oryginalną pracę.

Coraz częstszym problemem w środowisku akademickim staje się fałszowanie danych i oszustwa. Dzielenie się danymi umożliwia innym badaczom wykrycie tych problemów. Nie dalej jak w zeszłym roku Dan Ariely, profesor psychologii i ekonomii behawioralnej Jamesa B. Duke’a, został poddany kontroli dwóch swoich prac ze względu na potencjalne problemy z danymi. Gdyby dane te nie zostały udostępnione, problem ten mógłby nigdy nie zostać zauważony.

SZKOLENIE LIVE ONLINE: FUNDAMENTALNY KURS ZARZĄDZANIA D

ANYMI

Dołącz do nas na czterodniowy, dogłębny warsztat na temat DMBoK, przygotowania CDMP i podstawowych pojęć związanych z danymi – 25-28 lipca 2022

r.

Czytaj dalej: https://www.dataversity.net/data-science-how-to-shift-toward-more-transparency-in-statistical-practice/

Related Posts

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.