diff --git a/src/wiqaya/data/ar.txt b/src/wiqaya/data/ar.txt index 1fcab22..05e9980 100644 --- a/src/wiqaya/data/ar.txt +++ b/src/wiqaya/data/ar.txt @@ -966,7 +966,7 @@ zwimel ابو فص ابو قرعة اتن -احا +*احا* احترم نفسك احتلام احلي كث @@ -1275,10 +1275,11 @@ zwimel نكت امه نياكة نياكه -نيك +*نيك* واطي وسخ ولد القحبة ولد القحبه يا هبيلة يلعن +*كس* \ No newline at end of file diff --git a/src/wiqaya/filter.py b/src/wiqaya/filter.py index 9680b4c..e7e3cbb 100644 --- a/src/wiqaya/filter.py +++ b/src/wiqaya/filter.py @@ -43,6 +43,7 @@ class Wiqaya: return text def _process(self, text: str) -> list[str]: + # حذف التشكيل من الكلمات العربية لتجنب التحايل if self.lang == "ar": text = remove_tashkeel(text) return text.lower().split() \ No newline at end of file