Původní file od Rudy: Nějaký děj se řídí pravidly, která neznáme. Hledáme ta pravidla, případně hledáme nějaká jiná jednodušší pravidla, kterými se zhruba řídí. Nebo se jev ani žádnými zřejmými pravidly neřídí, jeví se nahodilý. I pak hledáme nějaké zákonistosti a pravděpodobnosti, zkrátka snažíme se poznat, jak se jev obvykle chová za daných podmínek. Cílem může být poznat mechanismus chování jevu. Obvyklým cílem ale je, předpovídat výsledek jevu za daných vstuponích podmínek. jak dlouho budu čekat v menze ve frontě (čas, den, co je k jídlu, období semestru, počasí venku) jak dlouho pojede tramvaj jaké zpoždění bude mít vlak (výluky, zpoždění jiných vlaků) za jak dlouho se mi na facebooku objeví 5 nových příspěvků kolik lidí mi přijde na oslavu narozenin kdy přijde matka/otec/partnerka z práce uvaří dnes matka oběd? bude se mi líbit film co dávají v televizi? bude mě bavit seriál X? (název, anotace, rok, herci, režisér, imdb/csfd...) jaká bude venku teplota? kolik spolužáků bude ve třídě? budou mít v krámě ještě pečivo? ------------------------------------------------------------------------------- Tomáš: Měly by to být cool věci, ale pokud možno jednoduché. Face recognition, hand-writen digit recognition. ------------------------------------------------------------------------------- Jindřich: ad Rudolf: nechceme ani nemůžeme poznat mechanizmus, chceme ho simulovat, aniž bychom ho poznali (= museli se obtěžovat jeho poznáváním) ani jedna z těch otázek není cool ... chce to nějaký triviální příklad, na kterém se to bude vysvětlovat - navrhuju infantilní příběh o tom, že babička je zvědavá, jestli soused půjde dnes běhat obecně bych si představoval vysvětlování tady na tom jednoduchém příkladu s běhajícím sousedem, jednodnodušší cvičení na nějakém srandovním datasetu a jako bonus cvičení na nějakých cool real datach (MNIST) ------------------------------------------------------------------------------- Aby to dávalo alespoň trochu smysl, musí být splňené přinejmenším 2 podmínky: 1) use-case 2) proveditelnost Nesmí to být moc těžké (počasí) a musí k tomu být alespoň principielně možné nasbírat data. K zamyšlení: zákon velkých čísel, součet i. i. d. veličin Je spousta datasetů, které tohle nepochybně splňují: pro klasifikaci třeba příznaky -> nemoc pro regresi třeba cena nemovitosti v závislosti na parametrech zajímavá úložka: postahovat databázi notebooků, predikovat cenu na základě parametrů a koukat, které jsou předražené T. ------------------------------------------------------------------------------- Dadasety: https://archive.ics.uci.edu/ml/datasets.html http://grouplens.org/datasets/movielens/