אודות הקורפוסים

במידה ולא צויין אחרת, הטקסטים תוייגו עבור חלקי דיבר באופן אוטומטי על ידי המכריע המורפולוגי שפותח בקבוצת עיבוד השפה הטבעית באוניברסיטת בן גוריון בנגב על ידי מני אדלר. אנו מעריכים את רמת הדיוק של המתייג בכ-92% עבור טקסטים חדשותיים, ומעט נמוך יותר עבור סוגות שונות.

להלן פירוט הקורפוסים הזמינים במערכת:

מזהה הקורפוס תיאור מספר טוקנים מספר משפטים
annotated תכנים מעיתון "הארץ" שתוייגו באופן ידני 89,365 4782
blogs טקסט מתוך בלוגים 59,501,851 6,814,475
haaretz תכנים מעיתון "הארץ" 11,086,278 589,252
makor טקסט ספרותי - מקור 719,302 34,577
medicalq שאלות ותשובות בנושא רפואה -- באדיבות האתר doctors.co.il 1,748,369 140,376
targum טקסט ספרותי - תרגום 729,616 43,711
themarker תכנים ממגזין "the marker" (כלכלה) 694,167 31,541

קורפוס הבלוגים נאסף על ידי טל לינזן.

ניתן להוסיף קורפוסים נוספים על פי בקשה