ניתוח תחבירי אוטומטי של טקסט בשפה העברית

הדגמה

ניתוח תחבירי מונחה פסוקיות

ניתוח תחבירי מונחה תלויות

אודות

שפה מורכבת ממילים המצורפות זו לזו ליצירת משפטים. אף כי מילים בודדות מסוגלות לבטא מגוון רב של משמעויות, צירופן של המילים למשפטים הוא זה שמאפשר תקשורת יעילה והמשגה של רעיונות מורכבים. כשמילים מצורפות לכדי משפט, אופן הצירוף נשלט על ידי אוסף של חוקים, המהווים את התחביר (syntax או grammar) של השפה. על המשפטים לעמוד באילוצים מבניים המוגדרים על ידי התחביר, והמבנה של המשפט הוא הקובע את משמעותו.

ניתוח תחבירי של משפט הנו שלב ראשון בדרך לניתוח מעמיק יותר של הטקסט.

עמוד זה מדגים שני מנתחים תחביריים אוטומטיים (parsers) לשפה העברית, שפותחו במסגרת עבודת הדוקטורט שלי.

הגישה היא מונחית־נתונים – אלגוריתם למידה עובר תהליך של אימון סטטיסטי בהתבסס על רשימה של משפטים והניתוח התחבירי הידוע שלהם. תוצאתו של תהליך האימון היא מודל סטטיסטי המהווה מנתח תחבירי (parser), המסוגל לקבוע מבנה תחבירי למשפטים חדשים שלאלגוריתם הלומד לא הייתה גישה אליהם.

המנתחים התחביריים לעברית אומנו על אוסף של כ-5000 משפטים מהעיתונות הכתובה, והם מתאימים ביותר לניתוח משפטים עיתונאיים. עם זאת, ניתן להשתמש בהם גם לניתוח משפטים מז'אנרים אחרים, כגון ווקיפדיה, טוויטר, בלוגים או ספרות יפה. צפוי כי איכות הניתוח תרד ככל שנתרחק מהטקסט העיתונאי.

פרטים טכניים (הרבה) יותר ניתן למצוא בעמוד הפרסומים האקדמיים.

שימוש

המנתחים מופצים תחת רשיון GPL והינם חופשיים לשימוש אקדמי ולא מסחרי, תחת תנאי ה-GPL.

להורדה: תלויות | פסוקיות