# Step 1: Import Required Libraries
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.linear_model import LogisticRegression
from sklearn.svm import LinearSVC
from sklearn.metrics import classification_report, accuracy_score, confusion_matrix
import matplotlib.pyplot as plt
import seaborn as sns

import pandas as pd

# Load data from reviews.csv
df = pd.read_csv("reviews.csv")
df.head()

X_train, X_test, y_train, y_test = train_test_split(
    df['text'], df['label'], test_size=0.3, stratify=df['label'], random_state=42
)

vectorizer = TfidfVectorizer()
X_train_tfidf = vectorizer.fit_transform(X_train)
X_test_tfidf = vectorizer.transform(X_test)

nb_model = MultinomialNB()
nb_model.fit(X_train_tfidf, y_train)
y_pred_nb = nb_model.predict(X_test_tfidf)
print('Naïve Bayes Accuracy:', accuracy_score(y_test, y_pred_nb))
print(classification_report(y_test, y_pred_nb, zero_division=0))

Naïve Bayes Accuracy: 1.0
              precision    recall  f1-score   support

           0       1.00      1.00      1.00       144
           1       1.00      1.00      1.00       156

    accuracy                           1.00       300
   macro avg       1.00      1.00      1.00       300
weighted avg       1.00      1.00      1.00       300

lr_model = LogisticRegression()
lr_model.fit(X_train_tfidf, y_train)
y_pred_lr = lr_model.predict(X_test_tfidf)
print('Logistic Regression Accuracy:', accuracy_score(y_test, y_pred_lr))
print(classification_report(y_test, y_pred_lr, zero_division=0))

Logistic Regression Accuracy: 1.0
              precision    recall  f1-score   support

           0       1.00      1.00      1.00       144
           1       1.00      1.00      1.00       156

    accuracy                           1.00       300
   macro avg       1.00      1.00      1.00       300
weighted avg       1.00      1.00      1.00       300

svm_model = LinearSVC()
svm_model.fit(X_train_tfidf, y_train)
y_pred_svm = svm_model.predict(X_test_tfidf)
print('SVM Accuracy:', accuracy_score(y_test, y_pred_svm))
print(classification_report(y_test, y_pred_svm, zero_division=0))

SVM Accuracy: 1.0
              precision    recall  f1-score   support

           0       1.00      1.00      1.00       144
           1       1.00      1.00      1.00       156

    accuracy                           1.00       300
   macro avg       1.00      1.00      1.00       300
weighted avg       1.00      1.00      1.00       300

def plot_cm(y_true, y_pred, title):
    cm = confusion_matrix(y_true, y_pred)
    sns.heatmap(cm, annot=True, fmt='d', cmap='Blues')
    plt.title(title)
    plt.xlabel('Predicted')
    plt.ylabel('True')
    plt.show()

plot_cm(y_test, y_pred_nb, 'Naïve Bayes Confusion Matrix')
plot_cm(y_test, y_pred_lr, 'Logistic Regression Confusion Matrix')
plot_cm(y_test, y_pred_svm, 'SVM Confusion Matrix')

	text	label
0	Highly recommend	1
1	Worst product I’ve used	0
2	Would not recommend	0
3	Awesome	1
4	Helpful support team	1

Text Classification using Naïve Bayes, Logistic Regression, and SVM¶

What is Vectorization?¶

Common Methods of Vectorization:¶

Drawbacks of Basic Vectorization:¶

Step 2: Create a Larger and Balanced Dataset¶

Step 3: Train-Test Split¶

Step 4: TF-IDF Vectorization¶

Step 5: Naïve Bayes Classifier¶

Step 6: Logistic Regression¶

Step 7: Support Vector Machine (SVM)¶

Step 8: Confusion Matrix Comparison¶