במידה ולא צויין אחרת, הטקסטים תוייגו עבור חלקי דיבר באופן אוטומטי על ידי המכריע המורפולוגי שפותח בקבוצת עיבוד השפה הטבעית באוניברסיטת בן גוריון בנגב על ידי מני אדלר. אנו מעריכים את רמת הדיוק של המתייג בכ-92% עבור טקסטים חדשותיים, ומעט נמוך יותר עבור סוגות שונות.
להלן פירוט הקורפוסים הזמינים במערכת:
| מזהה הקורפוס | תיאור | מספר טוקנים | מספר משפטים |
| annotated | תכנים מעיתון "הארץ" שתוייגו באופן ידני | 89,365 | 4782 |
| blogs | טקסט מתוך בלוגים | 59,501,851 | 6,814,475 |
| haaretz | תכנים מעיתון "הארץ" | 11,086,278 | 589,252 |
| makor | טקסט ספרותי - מקור | 719,302 | 34,577 |
| medicalq | שאלות ותשובות בנושא רפואה -- באדיבות האתר doctors.co.il | 1,748,369 | 140,376 |
| targum | טקסט ספרותי - תרגום | 729,616 | 43,711 |
| themarker | תכנים ממגזין "the marker" (כלכלה) | 694,167 | 31,541 |
קורפוס הבלוגים נאסף על ידי טל לינזן.
ניתן להוסיף קורפוסים נוספים על פי בקשה