אודות המערכת

 

המערכת מאפשרת חיפוש לשוני בקורפוס עברי רחב היקף. 

 

המערכת מבוססת על מנוע החיפוש Lucene, עם התאמות המאפשרות הגדרת יחסי סדר ומרחק בין יחידות חיפוש שונות, וכן הגדרת מספר מאפיינים לכל יחידת חיפוש (כלומר, ניתן להתייחס ליחידת החיפוש כאל צורת מילה מסויימת, או כאל מאפיין של המילה כגון חלק דיבר (שם-עצם, תואר) או מין תחבירי (זכר/נקבה) ).

 

המערכת פותחה במסגרת פרוייקט סיום בתואר ראשון במדעי המחשב על ידי נתן גרונצוויג.  המערכת מתוחזקת על ידי קבוצת עיבוד השפה באוניברסיטת בן גוריון.

 

לפניות:

yoavg@cs.bgu.ac.il

 

אודות הניתוח המורפולוגי

 

הטקסטים במערכת תוייגו באופן אוטומטי על ידי המכריע המורפולוגי של קבוצת עיבוד השפה באוניברסיטת בן גוריון, בהתבסס על הלקסיקון העברי שפותח ב"מילה": מרכז הידע לתקשוב בשפה העברית.

אנו מעריכים את רמת הדיוק של התיוג בכ-92% עבור טקסטים חדשותיים וספרותיים, ומעט נמוך מזה עבור טקסטים מסוגות שונות.

 

ניתן להתרשם מהמכריע המורפולוגי וכן לנתח טקסטים חדשים בכתובת:

http://www.cs.bgu.ac.il/~nlpproj/demo/

 

עבודות אקדמיות המתארות את המכריע המורפולוגי:

 

Meni Adler and Michael Elhadad, An Unsupervised Morpheme-Based HMM for Hebrew Morphological Disambiguation, in Proceedings of COLING-ACL 2006, Sydney, Australia, July 2006

 

Meni Adler, Hebrew Morphological Disambiguation: An Unsupervised Stochastic Word-based Approach, Phd. Thesis, Ben Gurion University, September 2007

 

Meni Adler, Yoav Goldberg, David Gabay and Michael Elhadad, Unsupervised Lexicon-Based Resolution of Unknown Words for Full Morphological Analysis, ACL 2008

 

Yoav Goldberg, Meni Adler and Michael Elhadad, EM Can Find Pretty Good HMM POS-Taggers (When Given a Good Start), ACL 2008