MedAssist: dlaczego polskie kliniczne NLP różni się od angielskiego.

Produkty klinicznego NLP są prawie wyłącznie angielskie. Bazy słownictwa, korpusy fine-tuningu, ontologie anatomiczne — SNOMED CT, UMLS, MedDRA — wszystkie zostały zbudowane po angielsku i tłumaczone na zewnątrz. Dla polskiej pracy klinicznej ta warstwa translacyjna zawodzi w sposób, który ma znaczenie w punkcie opieki.

Trzy rzeczy, które naprawdę się psują

1. Deklinacja i zaginiony podmiot. Polski to język silnie fleksyjny. Nazwa leku zmienia formę w zależności od przypadku gramatycznego — paracetamol, paracetamolu, paracetamolem. Angielskie tokenizery klinicznego NLP traktują je jako różne ciągi znaków. Wyszukiwanie dawkowania w bazie leków wytrenowanej na angielskich formach całkowicie pomija formę polską.

2. Kliniczny polski to nie formalny polski. Polscy klinicyści używają ciężkich skrótów — "OB podwyższone, CRP 48, PLT 450, bez gorączki". Standardowe modele polskiego NLP obsługują polszczyznę prasową i prawniczą. Tokenizują kliniczne skróty jako szum. Polskie kliniczne NLP musi być wytrenowane na rzeczywistych notatkach klinicznych, nie na polskiej Wikipedii.

3. Rama regulacyjna jest polska i inna. ICD-10-PL ma kody specyficzne dla Polski. Interakcje leków odwołują się do polskiego receptariusza, nie do rejestru FDA. Kody refundacyjne pochodzą z NFZ (Narodowy Fundusz Zdrowia), nie z CPT. „Dobry" angielski kliniczny NLP przeniesiony do Polski będzie z pewnością produkował błędne kody z błędnym poziomem ufności.

Co faktycznie zrobiliśmy

Agent transkrypcji MedAssist (agent/transcribe-pl) był trenowany na polskich notatkach klinicznych i rzeczywistych transkryptach konsultacji, nie na ogólnojęzykowych korpusach polskich. Jego słownictwo to słownictwo, którego klinicyści faktycznie używają na dyżurze. Obsługa skrótów jest medycznie specyficzna, nie ogólna.

Agent kodowania ICD-10 (agent/code-icd10) odwołuje się do ICD-10-PL jako podstawowego źródła, z fallback do ICD-10 WHO tam, gdzie polska rozszerzenie jest nieobsługiwane. Agent interakcji lekowych (agent/check-interactions) priorytetyzuje polskie dane receptariuszowe, które mają inne pokrycie nazw handlowych niż receptariusze UK lub USA.

Brama QA (agent/qa-clinical) flaguje miejsca, gdzie ufność agenta spada poniżej progu — co w praktyce jest dokładnie tam, gdzie naiwnie przeniesiony system nadal raportowałby wysoką ufność i mylił się.

Dlaczego to jest obronna fosa

Jakość klinicznego NLP narasta na danych klinicznych. System wytrenowany po angielsku, retrenowany na polskim, widzi mniej przykładów, ma mniejsze pokrycie skrótów i uderza w niedopasowanie ramy regulacyjnej przy każdym spotkaniu. System zbudowany od początku po polsku nie ma tych długów.

A rama regulacyjna się porusza. RODO ma specyficzne przepisy dotyczące danych klinicznych. Kody rozliczeniowe NFZ zmieniają się decyzjami refundacyjnymi. Receptariusz przesuwa się co kwartał. Produkt, który traktuje polskie jako wyjście translacyjne, będzie opóźniał się za tymi zmianami. Ten, który traktuje polskie jako swoją natywną ramę, nadąża.

„Kliniczne NLP to nie tłumaczenie. To regulacyjna, językowa i epistemiczna przebudowa na każdą jurysdykcję."

Co to oznacza dla przychodni kupujących kliniczne NLP

Zapytaj dostawcę: jaki był pierwszy język trenowania? Jeśli odpowiedź brzmi angielski z polskim jako lokale, kupujesz warstwę translacyjną. Jeśli to polskie od początku, kupujesz właściwy produkt.

MedAssist jest w aktywnym budowaniu, ze slotami dla przychodni pilotażowych otwierającymi się na wdrożenie w Q3 2026. Zapytania: enterprise@blackflake.com.

— Bartek Kubas · Twórca platformy · Blackflake 15 maja 2026 · Łódź, Polska