import codecs
import math
import random
import string
import time
import numpy as np
from sklearn.metrics import accuracy_score

'''
Define different constants for the task of question classification 
based on the definition of the task.
In the question classification case, there are 2 labels per question: coarse and fine.
'''
coarse_categories = ["ABBREVIATION", "ENTITY", "DESCRIPTION", "HUMAN", "LOCATION", "NUMERIC VALUE"]
fine_categories = {}
fine_categories["ABBREVIATION"] = ["abb", "exp"]
# @Todo more here...

# Build the category_lines dictionary, a list of names per language
coarse_category_lines = {}
all_categories = []

# @Todo: Define the way the lines should be parsed
def parseLine(line):
  return line

# @Todo: Read a file and split into lines - create the appropriate data structure
def readLines(filename):
  lines = codecs.open(filename, "r",encoding='utf-8', errors='ignore').read().strip().split('\n')
  return [parseLine(line) for line in lines]


# This installs the Spacy library (13MB)
!pip install spacy
# This downloads pre-trained models for POS tagging / NER / Noun chunks in English (34MB)
!python -m spacy download en_core_web_sm

Requirement already satisfied: spacy in c:\users\michael\.conda\envs\nlp21\lib\site-packages (2.3.4)
Requirement already satisfied: tqdm<5.0.0,>=4.38.0 in c:\users\michael\.conda\envs\nlp21\lib\site-packages (from spacy) (4.49.0)
Requirement already satisfied: catalogue<1.1.0,>=0.0.7 in c:\users\michael\.conda\envs\nlp21\lib\site-packages (from spacy) (1.0.0)
Requirement already satisfied: murmurhash<1.1.0,>=0.28.0 in c:\users\michael\.conda\envs\nlp21\lib\site-packages (from spacy) (1.0.5)
Requirement already satisfied: thinc<7.5.0,>=7.4.1 in c:\users\michael\.conda\envs\nlp21\lib\site-packages (from spacy) (7.4.4)
Requirement already satisfied: setuptools in c:\users\michael\.conda\envs\nlp21\lib\site-packages (from spacy) (49.6.0.post20201009)
Requirement already satisfied: srsly<1.1.0,>=1.0.2 in c:\users\michael\.conda\envs\nlp21\lib\site-packages (from spacy) (1.0.5)
Requirement already satisfied: plac<1.2.0,>=0.9.6 in c:\users\michael\.conda\envs\nlp21\lib\site-packages (from spacy) (0.9.6)
Requirement already satisfied: blis<0.8.0,>=0.4.0; python_version >= "3.6" in c:\users\michael\.conda\envs\nlp21\lib\site-packages (from spacy) (0.7.4)
Requirement already satisfied: requests<3.0.0,>=2.13.0 in c:\users\michael\.conda\envs\nlp21\lib\site-packages (from spacy) (2.24.0)
Requirement already satisfied: numpy>=1.15.0 in c:\users\michael\.conda\envs\nlp21\lib\site-packages (from spacy) (1.19.4)
Requirement already satisfied: cymem<2.1.0,>=2.0.2 in c:\users\michael\.conda\envs\nlp21\lib\site-packages (from spacy) (2.0.5)
Requirement already satisfied: wasabi<1.1.0,>=0.4.0 in c:\users\michael\.conda\envs\nlp21\lib\site-packages (from spacy) (0.8.0)
Requirement already satisfied: preshed<3.1.0,>=3.0.2 in c:\users\michael\.conda\envs\nlp21\lib\site-packages (from spacy) (3.0.5)
Requirement already satisfied: chardet<4,>=3.0.2 in c:\users\michael\.conda\envs\nlp21\lib\site-packages (from requests<3.0.0,>=2.13.0->spacy) (3.0.4)
Requirement already satisfied: idna<3,>=2.5 in c:\users\michael\.conda\envs\nlp21\lib\site-packages (from requests<3.0.0,>=2.13.0->spacy) (2.10)
Requirement already satisfied: certifi>=2017.4.17 in c:\users\michael\.conda\envs\nlp21\lib\site-packages (from requests<3.0.0,>=2.13.0->spacy) (2020.12.5)
Requirement already satisfied: urllib3!=1.25.0,!=1.25.1,<1.26,>=1.21.1 in c:\users\michael\.conda\envs\nlp21\lib\site-packages (from requests<3.0.0,>=2.13.0->spacy) (1.25.11)
Requirement already satisfied: en_core_web_sm==2.3.1 from https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-2.3.1/en_core_web_sm-2.3.1.tar.gz#egg=en_core_web_sm==2.3.1 in c:\users\michael\.conda\envs\nlp21\lib\site-packages (2.3.1)
Requirement already satisfied: spacy<2.4.0,>=2.3.0 in c:\users\michael\.conda\envs\nlp21\lib\site-packages (from en_core_web_sm==2.3.1) (2.3.4)
Requirement already satisfied: cymem<2.1.0,>=2.0.2 in c:\users\michael\.conda\envs\nlp21\lib\site-packages (from spacy<2.4.0,>=2.3.0->en_core_web_sm==2.3.1) (2.0.5)
Requirement already satisfied: thinc<7.5.0,>=7.4.1 in c:\users\michael\.conda\envs\nlp21\lib\site-packages (from spacy<2.4.0,>=2.3.0->en_core_web_sm==2.3.1) (7.4.4)
Requirement already satisfied: tqdm<5.0.0,>=4.38.0 in c:\users\michael\.conda\envs\nlp21\lib\site-packages (from spacy<2.4.0,>=2.3.0->en_core_web_sm==2.3.1) (4.49.0)
Requirement already satisfied: plac<1.2.0,>=0.9.6 in c:\users\michael\.conda\envs\nlp21\lib\site-packages (from spacy<2.4.0,>=2.3.0->en_core_web_sm==2.3.1) (0.9.6)
Requirement already satisfied: blis<0.8.0,>=0.4.0; python_version >= "3.6" in c:\users\michael\.conda\envs\nlp21\lib\site-packages (from spacy<2.4.0,>=2.3.0->en_core_web_sm==2.3.1) (0.7.4)
Requirement already satisfied: numpy>=1.15.0 in c:\users\michael\.conda\envs\nlp21\lib\site-packages (from spacy<2.4.0,>=2.3.0->en_core_web_sm==2.3.1) (1.19.4)
Requirement already satisfied: wasabi<1.1.0,>=0.4.0 in c:\users\michael\.conda\envs\nlp21\lib\site-packages (from spacy<2.4.0,>=2.3.0->en_core_web_sm==2.3.1) (0.8.0)
Requirement already satisfied: requests<3.0.0,>=2.13.0 in c:\users\michael\.conda\envs\nlp21\lib\site-packages (from spacy<2.4.0,>=2.3.0->en_core_web_sm==2.3.1) (2.24.0)
Requirement already satisfied: murmurhash<1.1.0,>=0.28.0 in c:\users\michael\.conda\envs\nlp21\lib\site-packages (from spacy<2.4.0,>=2.3.0->en_core_web_sm==2.3.1) (1.0.5)
Requirement already satisfied: preshed<3.1.0,>=3.0.2 in c:\users\michael\.conda\envs\nlp21\lib\site-packages (from spacy<2.4.0,>=2.3.0->en_core_web_sm==2.3.1) (3.0.5)
Requirement already satisfied: catalogue<1.1.0,>=0.0.7 in c:\users\michael\.conda\envs\nlp21\lib\site-packages (from spacy<2.4.0,>=2.3.0->en_core_web_sm==2.3.1) (1.0.0)
Requirement already satisfied: setuptools in c:\users\michael\.conda\envs\nlp21\lib\site-packages (from spacy<2.4.0,>=2.3.0->en_core_web_sm==2.3.1) (49.6.0.post20201009)
Requirement already satisfied: srsly<1.1.0,>=1.0.2 in c:\users\michael\.conda\envs\nlp21\lib\site-packages (from spacy<2.4.0,>=2.3.0->en_core_web_sm==2.3.1) (1.0.5)
Requirement already satisfied: chardet<4,>=3.0.2 in c:\users\michael\.conda\envs\nlp21\lib\site-packages (from requests<3.0.0,>=2.13.0->spacy<2.4.0,>=2.3.0->en_core_web_sm==2.3.1) (3.0.4)
Requirement already satisfied: idna<3,>=2.5 in c:\users\michael\.conda\envs\nlp21\lib\site-packages (from requests<3.0.0,>=2.13.0->spacy<2.4.0,>=2.3.0->en_core_web_sm==2.3.1) (2.10)
Requirement already satisfied: certifi>=2017.4.17 in c:\users\michael\.conda\envs\nlp21\lib\site-packages (from requests<3.0.0,>=2.13.0->spacy<2.4.0,>=2.3.0->en_core_web_sm==2.3.1) (2020.12.5)
Requirement already satisfied: urllib3!=1.25.0,!=1.25.1,<1.26,>=1.21.1 in c:\users\michael\.conda\envs\nlp21\lib\site-packages (from requests<3.0.0,>=2.13.0->spacy<2.4.0,>=2.3.0->en_core_web_sm==2.3.1) (1.25.11)
[+] Download and installation successful
You can now load the model via spacy.load('en_core_web_sm')


import spacy
nlp = spacy.load('en_core_web_sm')
doc = nlp('Apple is looking at buying U.K. startup for $1 billion')
print(doc.ents)
print(doc.ents[0].label_)

(Apple, U.K., $1 billion)
ORG


import spacy
nlp = spacy.load('en_core_web_sm')
doc = nlp('Apple is looking at buying U.K. startup for $1 billion')
  
# Token level features retrieved by Spacy: token, lemma, POS
for x in doc:   # Each x is a Token
    print(f"Token: {x} - Lemma: {x.lemma_} - POS: {x.pos_}")

Token: Apple - Lemma: Apple - POS: PROPN
Token: is - Lemma: be - POS: AUX
Token: looking - Lemma: look - POS: VERB
Token: at - Lemma: at - POS: ADP
Token: buying - Lemma: buy - POS: VERB
Token: U.K. - Lemma: U.K. - POS: PROPN
Token: startup - Lemma: startup - POS: NOUN
Token: for - Lemma: for - POS: ADP
Token: $ - Lemma: $ - POS: SYM
Token: 1 - Lemma: 1 - POS: NUM
Token: billion - Lemma: billion - POS: NUM


# Span level features retrieved by Spacy: named entities, start (0-based index), end (index just after the span), category
print(doc.ents)
for e in doc.ents: 
    print(f"{e} - {e.start} - {e.end} - {e.label_}")

(Apple, U.K., $1 billion)
Apple - 0 - 1 - ORG
U.K. - 5 - 6 - GPE
$1 billion - 8 - 11 - MONEY


# Span level features retrieved by Spacy: noun chunks
print(list(doc.noun_chunks))
for c in doc.noun_chunks: 
    print(f"{c.start} - {c.end} - {c.root}")

[Apple, U.K. startup]
0 - 1 - Apple
5 - 7 - startup


from nltk.corpus import conll2002

etr = conll2002.chunked_sents('esp.train') # In Spanish
eta = conll2002.chunked_sents('esp.testa') # In Spanish
etb = conll2002.chunked_sents('esp.testb') # In Spanish

dtr = conll2002.chunked_sents('ned.train') # In Dutch
dta = conll2002.chunked_sents('ned.testa') # In Dutch
dtb = conll2002.chunked_sents('ned.testb') # In Dutch


!pip install gensim

Requirement already satisfied: gensim in c:\users\michael\.conda\envs\nlp21\lib\site-packages (3.8.3)
Requirement already satisfied: scipy>=0.18.1 in c:\users\michael\.conda\envs\nlp21\lib\site-packages (from gensim) (1.5.3)
Requirement already satisfied: six>=1.5.0 in c:\users\michael\.conda\envs\nlp21\lib\site-packages (from gensim) (1.15.0)
Requirement already satisfied: numpy>=1.11.3 in c:\users\michael\.conda\envs\nlp21\lib\site-packages (from gensim) (1.19.4)
Requirement already satisfied: smart-open>=1.8.1 in c:\users\michael\.conda\envs\nlp21\lib\site-packages (from gensim) (3.0.0)
Requirement already satisfied: requests in c:\users\michael\.conda\envs\nlp21\lib\site-packages (from smart-open>=1.8.1->gensim) (2.24.0)
Requirement already satisfied: chardet<4,>=3.0.2 in c:\users\michael\.conda\envs\nlp21\lib\site-packages (from requests->smart-open>=1.8.1->gensim) (3.0.4)
Requirement already satisfied: certifi>=2017.4.17 in c:\users\michael\.conda\envs\nlp21\lib\site-packages (from requests->smart-open>=1.8.1->gensim) (2020.12.5)
Requirement already satisfied: idna<3,>=2.5 in c:\users\michael\.conda\envs\nlp21\lib\site-packages (from requests->smart-open>=1.8.1->gensim) (2.10)
Requirement already satisfied: urllib3!=1.25.0,!=1.25.1,<1.26,>=1.21.1 in c:\users\michael\.conda\envs\nlp21\lib\site-packages (from requests->smart-open>=1.8.1->gensim) (1.25.11)

Assignment 2

Due: Mon 04 Jan 2021 Midnight

Content

Q1. Questions Classification

Q1.1. Describe the dataset qualitatively

Q1.2. Dataset Reader

Q1.3. Dataset Exploration

Q1.4. Classifier Interface, Evaluation Metrics, Confusion Matrix

Q1.5 Baseline Classifier

Q1.6 Features-based Classifier

Q1.6.1 Feature Extraction

Q1.6.2 Train Models

Q1.7 Optional

Q2. Document Classification

Q2.1. Reuters Dataset

Q2.1.1 Descriptive Statistics

Q2.1.2 Partial-fit classifiers

Q2.1.3 Hashing Vectorizer

Q2.2. BBC News Dataset

Q2.2.1 Dataset Exploration

Q2.2.2 Features Extraction

Q2.2.3 Model Training and Evaluation

Q3. Named Entity Recognition

Named Entity Recognition

Dataset

Q3.1 Features

Q3.1.1 Feature Extraction

Q3.1.2 Model Training

Q3.1.3 Greedy Tagging vs. Sequence Tagging

Q3.2 Using Word Embeddings