Med_Normalization

Machine learning approach to Latvian medical text normalization

Šajā repozitorijā ir ievietoti kodu fragmenti, kas pielietoti mašīnmācīšanās metodes datu kopas un mT5 modeļa izstrādē.

contract_abbreviations: Satur kodu un datus, kas realizē saīsinājumu savēršanu medicīniskos tekstos.

main.py: veic galveno saīsinājumu savēršanu
split_data.py: veic atlasītās datu kopas sadalīšanu train/validate/test datu kopās
data: satur atlasītos medicīniskos teikumus un savēršamo terminu sarakstu

mT5_apmaciba: Satur kodu, kas realizē mT5 modeļa apmācību un testēšanu

fine_tune_mT5.py: Veic mT5 modeļa apmācību latviešu valodas medicīnisko tekstu normalizēšanai
run_test_dataset.py: Testē apmācīto mT5 modeli uz testēšanas datu kopu
speed_test.py: Salīdzina modeļa inferences laikus ar CPU un GPU
dataset: Satur modeļa apmācībā pielietoto datu kopu
dataset/statistics: Satur informāciju par to cik termini un saīsinājumi atrasti pilnajā datu kopā (train/validate/test)

medical_atlase: Satur kodu, kas atbild par medicīnisko tekstu atlasi no pilnā Tīmeklis2020 korpusa.

keybert: Satur KeyBERT metodes realizāciju un no Tēzaura atlasītos medicīniskos terminus
dokumenti.py: Satur kodu, kas atlasa no Tīmeklis2020 korpusa tos dokumentus, kas satur medicīnisku terminu.

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
contract_abbreviations		contract_abbreviations
mT5_apmaciba		mT5_apmaciba
medical_atlase		medical_atlase
README.md		README.md

Provide feedback