REJESTRACJA ZAMKNIĘTA
Przetwarzanie dużych zbiorów danych (Big Data) stało się kluczową umiejętnością specjalistów z obszaru Data Science. Coraz więcej firm z sektora prywatnego, takich jak banki, czy sieci handlowe, ale też agencji rządowych i instytucji publicznych korzysta z rezultatów osiągniętych dzięki analizie dużych zbiorów danych.
Efektywne przetwarzanie danych tego typu wymaga posiadania odpowiedniego repertuaru metod i narzędzi, które dostosowane są do specyfiki Big Data. Tego rodzaju zestaw kompetencji pozwala wspierać firmy i organizacje mające do czynienia z dużą ilością danych w podejmowaniu decyzji biznesowych, przewidywaniu kluczowych dla nich parametrów i wyciąganiu wniosków na podstawie danych historycznych.
Pierwsza edycja studiów rozpoczęła się w październiku 2016 roku. Nabór prowadzony jest dwa razy w roku.
Dotychczas studia ukończyło blisko 700 osób.
Studia przeznaczone są dla osób, które zainteresowane są wykorzystaniem potencjału analizy dużych zbiorów danych w celu wspierania procesu podejmowania decyzji: w biznesie, nauce i innych obszarach działalności. Na ścieżce Big Data uczymy pracy z dużymi danymi od etapu ich pozyskania i przygotowania do dalszej pracy analitycznej. Doświadczenie w pracy z technologiami jest mile widziane (np. podstawowa umiejętność programowania w dowolnym języku, podstawowa znajomość zagadnień związanych z bazami danych i językiem SQL), ale nie jest wymagane.
Studia prowadzone są przez praktyków: osoby na co dzień stosujące narzędzia i metody analizy dużych zbiorów danych w celu rozwiązania konkretnych problemów. Kadrę stanowią zarówno osoby pracujące w biznesie, jak w Instytucie Informatyki Politechniki Warszawskiej, który ma wieloletnie doświadczenie w obszarze eksploracji danych, implementacji systemów eksploracji tekstu, budowy ontologii, wyszukiwania informacji, sztucznej inteligencji.
Rozmowa Łukasza Kobylińskiego i Piotra Reszki o wartości wizualizacji danych i kompetencjach wymaganych od osób, które zajmują się wizualną analityką danych.
O tym, dlaczego zainteresowanie Data Science rośnie z każdym rokiem z rozmowy Łukasza Kobylińskiego i Jakuba Nowackiego
Celem studiów jest zdobycie praktycznych umiejętności analizy dużych zbiorów danych, zrozumienie podstaw, celu i obszaru zastosowania rezultatów takiej analizy. W czasie studiów słuchacze zapoznają się z najważniejszymi współczesnymi narzędziami i technologiami związanymi z zagadnieniami Big Data: Apache Hadoop i Spark w ujęciu programistycznym (MapReduce), analitycznym (Pig i Hive) i administracyjnym, a także bazy NoSQL, elementy programowania współbieżnego w językach funkcyjnych oraz podstawy uczenia maszynowego w kontekście przetwarzania dużych ilości danych.
Po zakończonej nauce Twoje kompetencje wzbogacą się o umiejętność:
Na zajęciach prowadzonych w trybie warsztatowym poznasz od strony praktycznej m.in. następujęce technologie i narzędzia:
Wszyscy wykładowcy poza doświadczeniem akademickim na co dzień związani są z projektami komercyjnymi, co w połączeniu daje dostęp do eksperckiej wiedzy i praktycznego know-how.
Wszystkie zajęcia prowadzone są w formie warsztatów ukierunkowanych na rozwijanie kompetencji i praktycznej znajomości poznawanych narzędzi i technologii.
Dobór narzędzi i technologii oparty jest o analizę obecnie najpopularniejszych rozwiązań w obszarze Big Data.
Politechnika Warszawska jest jedną z największych i najlepszych uczelni technicznych w Polsce oraz w Europie Środkowo-Wschodniej. Potwierdzają to wyniki rankingów krajowych oraz zagranicznych, w których uczelnia znajduje się w czołówce klasyfikowanych polskich uczelni technicznych.
Studia obejmują 201 godzin zajęć realizowanych w większości w formie warsztatów w trybie weekendowym zdalnym w ciągu 2 semestrów. Studia kończą się egzaminem końcowym.
Słuchacze poznają historię oraz definicję zagadnienia Big Data, ekosystem stosowanych narzędzi oraz powszechnie wykorzystywanych języków programowania, podział ról i obowiązków spotykany w rozwiązaniach Big Data, różnice pomiędzy przetwarzaniem wsadowym a strumieniowym oraz ich zastosowania.
Patryk Pilarski
Obsługi najważniejszych poleceń oraz narzędzi w systemie Linux, struktury i składni języka programowania Python, wykorzystania kolekcji oraz dedykowanych bibliotek do efektywnego przetwarzania danych takich jak NumPy, Pandas i Matplotlib.
Python
Piotr Nazimek
Uczestnicy w trakcie zajęć poznają rozwiązanie Apache Cassandra - pokrewne Google Bigtable lub Amazon Dynamo. Zarówno na poziomie czysto praktycznym - jak również zagłębiając się w architekturę systemów rozproszonych i analizując jak konieczność zapewnienia wysokiej dostępności wpływa na cały proces modelowania danych.
Cassandra, Docker, Python / Jupyter Notebook
Tomasz Fortuna
Po przeprowadzonych zajęciach słuchacze zdobędą umiejętności pozwalające na samodzielną instalacje oraz konfigurację bazy MongoDB. Zostaną zapoznani z hierarchicznym modelem danych oraz jego obsługą poprzez wbudowany w MongoDB język zapytań. Uczestnicy zdobędą umiejętności z zakresu używania Aggregation Framework, który pozwoli im na manipulacje na dużych zbiorach danych. Po zakończonych zajęciach słuchacze zdobędą również wiedzę pozwalająca im na rozpraszanie zbioru danych MongoDB za pomocą replikacji oraz shardingu.
MongoDB, JSON, JavaScript, Robomongo
Rafał Kaszczuk
Słuchacze nauczą się implementować infrastrukturę jako kod, przetwarzać dane wsadowe i strumieniowe używając usług chmurowych Amazon Web Services. Poznają podstawowe techniki projektowania architektury z użyciem usług chmurowych na przykładzie środowiska AWS.
AWS (EC2, EMR, S3, Athena, Lambda, Glue, SageMaker, usługi kognitywne i AI) przeglądowo Google, Azure
Wprowadzenie do chmur obliczeniowych. Wprowadzenie do AWS. Pierwsze kroki. Podstawowe usługi. Big Data i analityka danych. Sztuczna Inteligencja. Serverless. Bazy danych. Wyszukiwanie. Data Warehouse & Business Intelligence. ETL. Integracja. Strumienie danych. Konteneryzacja. Zarządzanie. Przegląd innych rozwiązań dostępnych w chmurze publicznej.
Radosław Szmit
W ramach przedmiotu słuchacze zapoznają się z Apache Spark w sposób prakatyczny i kompleksowy. Poznają problemy w rozwiązaniu których pomaga ta technologia. Uczestnicy nauczą się pracować z danymi wsadowymi i strumieniowymi. Posiądą praktyczną umiejętność przetwarzania dużych danych w sposób szybki i wydajny pisząc zwięzłe i klarowne aplikacje.
Spark (RDD, DF, streaming), Jupyter, Kafka, EMR i S3
Apache Spark. RDD. DataFrame. Streaming.
Patryk Pilarski
W trakcie zajęc słuchacze poznają w praktyce Hive, będą tworzyli tabele partycjonowane oraz kubełkowane, jak również będą przetwarzać rozproszone dane przy pomocy silników MapReduce oraz Tez. Słuchacze zapoznają się także z najważniejszymi poleceniami rozproszonego systemu plików Hadoop Distributed File System (HDFS), dowiedzą się czym jest YARN oraz jak używać zarządzanych przez niego zasobów oraz zdobędą umiejętności z zakresu tworzenie workflowów w Oozie.
HDFS, Hive, Yarn, MapReduce, Tez, Oozie, Zeppelin
Radek Szmit
W ramach zajęć słuchacze nauczą się trenować i oceniać modele uczenia maszynowego we współczesnych środowiskach big data. Metody będą mieć po części charakter uniwersalny, ale w ramach zajęć skupimy się przede wszystkim na problemach przetwarzania tekstów i obrazów. Przykładowe problemy, z jakimi zmierzymy się na laboratoriach to rozpoznawanie obiektów na zdjęciach oraz rozpoznawanie wydźwięku tekstu (opinion mining albo sentiment analysis).
Python / Jupyter notebooks. Narzędzia: numpy, scikit-learn, Spark MLlib, Keras, Tensorflow
Aleksander Wawer
Słuchacze zapoznają się ze specyfiką projektowania rozwiązań Big Data. Przedstawiony zostanie szereg konkretnych technologii z rodziny Big Data, zarówno klastrowych jak i chmurowych, odpowiednich do różnego rodzaju problemów. Poruszona zostanie również integracja systemów Big Data z istniejącymi systemami i oprogramowaniem.
Apache Hadoop, Apache Spark
Damian Warszawski
Budować efektywny system pobierający, przetwarzający i wprowadzający strumienie danych do systemu Big Data.
Docker, Python, Apache NiFi, Apache Kafka, Apache Flink
Tomasz Romanowski
Prezentacje w ramach przedmiotu obejmują przegląd komercyjnego wykorzystania wybranych metod z obszaru Data Science i Big Data.
W ramach tej części zostanie omówiony proces tworzenia i wdrażania modeli uczenia maszynowego, począwszy od identyfikacji problemu, poprzez zbieranie i analizę danych, budowę modelu, aż po jego wdrożenie i monitorowanie w środowisku produkcyjnym. Przedstawione zostaną kluczowe aspekty, takie jak definicja problemu, wybór i przygotowanie danych, budowanie pipeline'u ETL, oraz testowanie i optymalizacja modelu.
W tej części zostaną omówione zastosowania Data Science i Big Data w budowaniu wartości biznesowej i społecznej. Przedstawione zostanie, jak dane stają się kluczowym zasobem w nowoczesnej gospodarce, zilustrowane przykładami firm, takich jak Tesla. Zwrócona zostanie uwaga na znaczenie odpowiedniego pozyskiwania, analizy i wykorzystywania danych oraz na wyzwania, takie jak problemy z jakością danych i potencjalne błędy analityczne. Omówione zostaną tekże różne podejścia do przetwarzania i interpretacji danych oraz rola analityki predykcyjnej i analizy sieciowej w procesie podejmowania decyzji.
W każdej firmie, niezależnie od jej wielkości, efektywność procesów jest kluczowa z punktu widzenia konkurencyjności rynkowej oraz rentowności. To oczywiste. Wiele z tych procesów charakteryzuje jednak organiczny wzrost zachodzący równolegle ze wzrostem firmy czy rozwojem danej linii produktowej lub usługowej. W najlepszym razie proces projektowany jest z wykorzytaniem notacji BPMN, jednak już jego ewolucja i zmiany nie są ani monitorowane, ani dokumentowane. Narzędzia z grupy Process Intelligence, w szczególności Process Mining przychodzą tutaj na ratunek. Pozwalają zobaczyć proces takim jakim jest on w rzeczywistości, monitorować jego zmiany w czasie a przede wszystkim znajdować źródła optymalizacji. Zajęcia będą miały miał charakter wprowadzenia do technologii Process Mining. Zostaną omówione główne zagadanienia analityczne związane z analizą procesów w oparciu o dane: a) performance mining, b) analiza wariantów, c) conformance checking, d) źródła oraz przygotowanie danych. Oprócz teoretycznego wprowadzenia przejdziemy wspólnie przez praktyczne wykorzystanie narzędzia Process Mining używając jako przykładu danych pochodzących z procesu zakupowego (P2P, purchase-to-pay).
Architektura informacji, architektura systemów wyszukiwania przetwarzania języka naturalnego, podstawowe zastosowania biznesowe w przedsiębiorstwach: zarządzanie wiedzą, portal dostępu do informacji, aplikacje specjalizowane oparte na sinikach wyszukiwania.
W ramach studiów realizowane są zajęcia z programowania w Pythonie dla początkujących. Ukończony kurs e-learningowy stanowi dobre do nich wprowadzenie oraz ułatwienie w opanowaniu materiału dla osób bez doświadczenia programistycznego.
Nasi wykładowcy na co dzień pracują przy dużych projektach biznesowych. Wielu z nich prowadzi zajęcia od pierwszej edycji studiów, nowi prowadzący wybierani są w ramach starannej selekcji. Każdy z nich poza ekspercką znajomością technologii posiada doskonałe umiejętności dydaktyczne zdobyte na salach szkoleniowych, wykładowych, konferencyjnych.
Specjalista IT - naukowiec. Ukończył dwa kierunki na Politechnice Warszawskiej. Doktorant w dziedzinie Informatyka. Autor wielu artykułów naukowych o międzynarodowym zasięgu. Programista Java z wieloletnim doświadczeniem. Praktyk Big Data od czasów kiedy w Polsce nie było to jeszcze modne.
Współtwórca pierwszej polskiej wyszukiwarki internetowej NEKST opartej o przetwarzanie dużych zbiorów danych w środowisku Hadoop. Współautor Otwartego Systemu Antyplagiatowego (OSA). Tworzył również oprogramowanie dla takich firm jak T- Mobile, Orange, Synevo, Zain (Arabia Saudyjska), PZU. Wieloletni trener IT z tematyk: Java, TDD, Big Data.
Uczestniczył w wielu projektach w których wykorzystane były takie technologie jak:java, python, mikroserwisy, bazy danych, Hadoop, Kafka, Spark, Elasticsearch i cały ELK Stack, Docker, Kubernetes chmury AWS, Azure.
Uwielbia nowe technologie. Lubi zdobywać wiedzę i dzielić się nią z innymi.
Linkedin:
https://www.linkedin.com/in/arkadiuszcacko/
Jestem pasjonatem danych, zarządzania nimi i zapewniania ich ładu, rozwijania kultury organizacyjnej w oparciu o dane oraz budowania na nich wartości biznesowej. Posiadam kilkunastoletnie doświadczenie w tworzeniu i wdrażaniu rozwiązań w obszarze Data Management i Data Governance. Absolwent Wydziału Elektroniki i Technik Informacyjnych Politechniki Warszawskiej. Od początku kariery zajmowałem się Hurtowniami Danych i BI, a następnie również MDM, Big Data, Data Science oraz Analityką Biznesową. Pracowałem jako konsultant m. in. dla globalnych i regionalnych korporacji z branży farmaceutycznej, telekomunikacyjnej i handlowej. Obecnie w TVN S.A. jestem odpowiedzialny za budowę i wdrażanie strategii danych oraz rozwój ekosystemu analitycznego Big Data i Data Science. Jestem kierownikiem studiów "Big Data i Data Science w zarządzaniu" oraz wykładowcą na Akademii Leona Koźmińskiego. Uprzednio również byłem założycielem i redaktorem naczelnym portalu BI.PL, gościnnie wykładam na kilku warszawskich uczelniach, jestem trenerem, a także głównym analitykiem danych w zespole futbolu amerykańskiego Warsaw Eagles. Hobbystycznie buduję modele analityczne w obszarze sportu, gram w koszykówkę, albo wędkuję.
Linkedin:
https://www.linkedin.com/in/marcinchoinski/
Swoją przygodę ze światem IT zaczynałem od programowania w Turbo Pascalu podczas wakacji na wsi i hostowania obcym ludziom z IRCa kont shellowych - prosto ze swojej piwnicy. Z jakiegoś powodu uszło mi to na sucho i dzięki temu moje doświadczenia z programowaniem rozszerzyłem o wiele innych języków i technologii, grzebałem w bazach danych, lutowałem elektronikę, tworzyłem architekturę złożonych systemów i prowadziłem szkolenia. W Narodowym Archiwum Cyfrowym byłem odpowiedzialny za tworzenie wyszukiwarek (i migracje baz danych), w Centralnym Ośrodku Informatyki tworzyłem architekturę nowych Rejestrów Państwowych (i migrowałem bazy danych). W Exatelu współtworzyłem zespoły R&D oraz DevOps, zajmujące się agregacją i wyszukiwaniem informacji lub projektowaniem i ochroną sieci. Doprowadziłem do szczęśliwego końca kilka projektów w duchu Agile. Obecnie jestem Security Software Engineer w firmie Exatel.
Linkedin:
https://www.linkedin.com/in/tomasz-fortuna-55b34b60/
Jestem programistą .NET z wieloletnim doświadczeniem. W swojej karierze stawiałem czoła całemu spektrum projektów - od systemów księgowych dla branży finansowej po serwery multiplayer obsługujące miliony graczy w branży GameDev. Specjalizuję się w szczególności w tematach rozproszonych systemów SOA z wykorzystaniem ASP .NET oraz WCF. Zawodwo pracuję z bazą MongoDB niemal od początku jej istnienia. Posiadam certyfikaty M101J MongoDB for Java Developers, M101P MongoDB for Developers, M036 New Features and Tools in MongoDB 3.6. Jako trener oraz konsultant wspomagałem kilkadziesiąt firm we wdrażaniu bazy MongoDB. Posiadam duże doświadczenie trenerskie - od 2014 roku przeprowadziłem ponad 500 godzin szkoleń i warsztatów.
Linkedin:
https://www.linkedin.com/in/rkaszczuk/
Jestem inżynierem, w 2012 roku obroniłem rozprawę doktorską z obszaru niezawodności systemów komputerowych na Politechnice Warszawskiej. Interesuję się szeroko pojętym bezpieczeństwem teleinformatycznym oraz inżynierią oprogramowania. Zawodowo pracuję od 2003 roku. Projektuję, implementuję i weryfikuję zabezpieczenia, głównie w projektach systemów transportowych i kontroli dostępu, które wykorzystują sprzętowe moduły bezpieczeństwa. Tworzyłem oprogramowanie dla bankomatów i terminali płatniczych, realizowałem projekty kart miejskich m. in. w Białymstoku, Tarnowie, Poznaniu i Krakowie. Projektowałem i wdrażałem systemy transakcyjne oparte o blockchain. Prowadzę szkolenia od 2012 roku. W tym czasie przeszkoliłem ponad 750 osób z kilkudziesięciu różnych firm. Od 2015 roku jestem trenerem wiodącym w Sages. Specjalizuję się w szkoleniach z zakresu bezpieczeństwa takich jak: zastosowania algorytmów i protokołów kryptograficznych, infrastruktura klucza publicznego, wykorzystanie sprzętowych modułów bezpieczeństwa i bezpieczne programowane. Prowadzę również warsztaty dotyczące technologii blockchain i urządzeń internetu rzeczy (IoT, Internet of Things).
Linkedin:
https://www.linkedin.com/in/pnazimek/
Specjalizuję się w dziedzinie Data science. Dobrze czuję się
w pracy z danymi w każdym rozmiarze – od dużych po małe. Na
ścieżce kariery poszukuję interesujących wyzwań oraz
możliwości pracy z ciekawymi technologiami, w związku z czym
pracowałem w licznych projektach łączących w sobie wyzwania
z zakresu analizy i inżynierii danych. Mam doświadczanie
w projektach z zakresów: detekcji anomalii na danych
sprzedażowych, demand forecasting, segmentacji klientów.
Chętnie zgłębiam nowe technologie oraz języki programowania.
Na co dzień zajmuję się szeroko pojętym data science: R&D,
budowanie modeli, ML engineering, data engineering. Jestem
wykładowcą na studiach podyplomowych na Politechnice
Warszawskiej na ścieżce Big Data - przetwarzanie i analiza
dużych zbiorów danych. Obecnie prowadzę w ramach przedmiotu
Przetwarzanie Big Data za pomocą Apache Hadoop i Spark moduł
dotyczący technologii Spark oraz zajęcia w ramach przedmiotu
Wprowadzenie do technologii Big Data.
Jako trener Sages szkolę z między innymi następujących
zakresów: przetwarzanie Big Data z użyciem Apache Spark,
Analiza danych z użyciem Apache Spark, Analiza danych
tekstowych i języka naturalnego (Python), Bootcamp Data
Science.
Linkedin:
https://www.linkedin.com/in/pilarski-patryk/
Jestem absolwentem Politechniki Warszawskiej gdzie aktualnie mam otwarty przewód doktorski z zakresu Big Data i przetwarzania języka naturalnego. Swoją praktykę z Big Data rozpocząłem na początku 2012 roku w projekcie badawczym realizowanym przez Instytut Podstaw Informatyki Polskiej Akademii Nauk oraz Politechnikę Wrocławską. Do dzisiejszego dnia jest to jedno z największych wdrożeń Big Data w skali naszego kraju. W ramach projektu zbudowaliśmy klaster Apache Hadoop w którym są zbierane i analizowane zasoby polskiego internetu. Jednym z systemów powstałych w ramach powyższego projektu jest pierwsza polska semantyczna wyszukiwarka internetowa. Jestem jednym z twórców polskiej wyszukiwarki internetowej NEKST stworzonej przez Instytut Podstaw Informatyki Polskiej Akademii Nauk oraz Otwartego Systemu Antyplagiatowego realizowanego przez Międzyuniwersyteckie Centrum Informatyzacji. Zawodowo jestem konsultantem IT specjalizującym się w rozwiązaniach Java Enterprise Edition, Big Data oraz Business Intelligence, członekiem Warsaw Java User Group, Warsaw Hadoop User Group, Data Science Warsaw oraz Stowarzyszenia Software Engineering Professionals Polska.
Linkedin:
https://www.linkedin.com/in/rszmit/
Jest liderem technicznym oraz inżynierem systemów rozproszonych posiadającym ponad 12-letnie doświadczenie. Ma tytuł magistra z informatyki oraz dodatkową wiedzę akademicką z zakresu inżynierii biomedycznej. Jego kariera obejmuje udane projekty o dużej renomie w dziedzinach technologii finansowych, inżynierii danych i telekomunikacji. Jest oddanym entuzjastą i współtwórcą otwartego oprogramowania (Apache Atlas). Uczestniczył w wielu wystąpieniach publicznych oraz ma doświadczenie jako trener i nauczyciel.
Linkedin:
https://www.linkedin.com/in/damian-warszawski-ab5b5830/
Jestem adiunktem w Instytucie Podstaw Informatyki PAN, gdzie obroniłem w 2013 doktorat dotyczączy algorytmów rozpoznawania wydźwięku (ang. sentiment analysis) w języku polskim. Pracuję również w laboratorium Text Mining Samsunga, gdzie zajmuję się praktycznymi implementacjami technologii językowych. Moje zainteresowania i wieloletnie doświadczenie zawodowe obejmują przetwarzanie języka naturalnego, składniowe i semantyczne, głębokie uczenie maszynowe i wielowarstwowe sieci neuronowe oraz ich zastosowania do rozpoznawania znaczenia fraz i zdań
Linkedin:
https://www.linkedin.com/in/aleksander-wawer-6307b098/
Aby zapewnić aktualność programu studiów konsultujemy dobór tematyki oraz technologii z ekspertami wywodzącymi się ze środowisk akademickiego oraz biznesowego.
Kierownik Studium
Experienced CxO; strategist and leader of business and technology transformations; academic lecturer
CIO/CTO, mBank S.A.
Profesor Nadzwyczajny, Instytut Informatyki PW
Chief Science Officer, Board Member, Sages
Adiunkt w Instytucie Informatyki PW, Chief Executive Officer, Board Member, Sages
Head of Delivery Excellence, Roche Global IT Solution Centre
Profesor, Instytut Informatyki PW
Experienced Machine Learning Engineer
Data Scientist at ZPAV
Partner and Managing Director, CEE Technology Advantage Practice Leader, The Boston Consulting Group
Head of Data Practice at Tietoevry Create Poland
Ze względu na duże zainteresowanie studiami zalecamy skorzystanie z formularza kontaktowego, celem przyspieszenia procesu aplikacji.
Dowiedz się więcej