Skip to content
Maciej Gawinecki edited this page Oct 15, 2019 · 12 revisions

Project pages: https://horizoncrafts.github.io/dw-cracow-project/

Projekt "Tomato"

Problem

Jak wyciągać składniki z kuchennych przepisów i je agregować? Jak z listy posiłków zrobić liste zakupów?

Inne rozwiązania

"Wyciąganie" składników i ich ilości z przepisów w języku angielskim:

Dane

ML

  • Custom entity extraction: liczby, jednostki, produkty i reszta w jakiś sposób muszą być wyciągnięte.
  • Entity linking: Skąd wiemy, że "pomidory" i "dojrzałe pomidory" są o tym samym produkcie? Albo jak łączymy składnik z encją produktu? W jaki sposób odróżniamy, ze pomidory i puszka pomidorów odnoszą się do różnych produktów?

Wyzwania

  • Niejednoznaczność:

  • Ewaluacja:

    • Ocena rozwiązań wymaga dużo pracy z ręcznym anotowaniem korpusów
  • Język polski

    • Niektóre elementy NLP wymagają dobrego wsparcie do shallow parsing, np. CRF wymaga POS tagging, a nie znalazłem dobrych darmowych narzędzi w Pythonie, które to robią.

Dotychczasowe efekty

  1. Scrapery i parsery do przepisów i produktów.
  2. Stemmer do języka polskiego w Pythonie.
  3. Ewaluacja Ingredient-Product Matching w opaciu o TF/IDF

Projekt "Parliament"

Problem

Po pobierznym zbadaniu tematu...

  • Brak łatwodostępnych i czytelnych danych o pośle:
    • Profil Analityczny - na co głosował, na co nie
    • Profil Syntetyczny - z którą stroną sceny sympatyzuje; w jakie tematy się angażuje (ekonomia, społeczne, ekologia, itp)

Inne rozwiązania

Z tego, co na szybko zbadałem, temat był atakowany ostatnio w 2015 roku. W sumie, trzeba by sprawdzić czy inicjatorzy poprzednich przedsięwzięć nie mieli od tamtego czasu wypadków, lub nie siedzą w więzieniach za podatki itp... ;)

Dane

Inicjalne i potem regularne pobranie (scrape) danych ze stron sejmu np: https://www.sejm.gov.pl/Sejm8.nsf/agent.xsp?symbol=posglos&NrKadencji=8

Dane mogą być odkładane na git do csv, lub bazy danych, może BQ?

Extra: wystawić te dane przez API.

Data Science

  • Przede wszystkim, możliwość zobaczenia detalicznej informacji o głosowaniach posłów. W jakich tematach się udziela, itp. Wizualizacje.
  • zmierzona przynależność posłów do ugrupowania
  • ocena poglądów posła, np na podstawie tego kiedy głosował przeciwnie do swojego ugrupowania, lub dziwnie zniknął (oddał głos w poprzedzającym i następnym głosowaniu, ale w problematycznej sprawie nie) itp
  • Wykrywanie tematów "trudnych", czyli kiedy posłowie nagle zniknęli na chwilę, lub wstrzymali się.

ML

  • NLP: klasyfikacja tematów głosowania. Prawo-lewo, konserwatywne-liberalne; ekonomia-ekologia-społeczne-systemowe-zdrowie-edukacja etc.
  • którzy posłowie prawdopodobnie opuszczą szeregi swojej partii?
  • do której partii dołączą?
  • jak będą głosować - robimy to dla zabawy/nauki - porażka mile widziana (mam na myśli nasz projekt, przecież nie to co się dzieje w Parlamencie...)

Linki

http://smarterpoland.pl/index.php/2015/09/jak-oni-glosowali-mini-data-hackaton-26-09-2015/

https://mojepanstwo.pl

trochę kodu, ale w R:

https://github.com/mi2-warsaw/sejmRP/tree/master/sejmRP

Analizy, wizualizacje:

https://marcinciura.wordpress.com/2015/07/01/the-vector-space-of-the-polish-parliament-in-pictures/

https://biokompost.wordpress.com/2011/10/01/statystyczna-mapa-sejmu/

Dyskusja o API (-7 lat):

https://www.wykop.pl/link/810505/api-polskiego-sejmu/

https://www.spidersweb.pl/2015/01/parlament-aplikacja.html