{ "cells": [ { "cell_type": "markdown", "id": "4037071f", "metadata": {}, "source": [ "# fastTextによる分類\n", "\n", "[fastText](https://fasttext.cc/)\n", "は分類器の学習もサポートしていており、単語埋め込みも含めて学習することで精度の向上が期待できます。\n", "\n", "```{note}\n", "fastTextを使うためには事前にfasttextパッケージをインストールしておきます。\n", "\n", " !pip install fasttext==0.9.1\n", "```" ] }, { "cell_type": "markdown", "id": "c744ebe5", "metadata": {}, "source": [ "**データのロード**" ] }, { "cell_type": "code", "execution_count": 1, "id": "375b8518", "metadata": {}, "outputs": [], "source": [ "import pandas as pd\n", "from sklearn import model_selection\n", "\n", "data = pd.read_csv(\"input/pn_same_judge_preprocessed.csv\")\n", "train, test = model_selection.train_test_split(data, test_size=0.1, random_state=0)" ] }, { "cell_type": "markdown", "id": "6b82af17", "metadata": {}, "source": [ "## ラベルの準備\n", "\n", "fastTextが必要とするラベルを付与します。" ] }, { "cell_type": "code", "execution_count": 2, "id": "74bca0eb", "metadata": {}, "outputs": [], "source": [ "def apply_fn(row):\n", " tokens = row[\"tokens\"]\n", " label = f\"__label__{row['label_num']}\"\n", " return f\"{label} {tokens}\"" ] }, { "cell_type": "code", "execution_count": 3, "id": "6880dc0a", "metadata": {}, "outputs": [], "source": [ "for target in [train, test]:\n", " target[\"model_input\"] = target.apply(apply_fn, axis=\"columns\")" ] }, { "cell_type": "code", "execution_count": 4, "id": "881962e0", "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
textlabel_numtokensmodel_input
2310また利用したいホテルである。0また 利用 する たい ホテル だ ある 。__label__0 また 利用 する たい ホテル だ ある 。
308お腹いっぱい食べてしまいました。0お腹 いっぱい 食べる て しまう ます た 。__label__0 お腹 いっぱい 食べる て しまう ます た 。
684とにかく狭い。1とにかく 狭い 。__label__1 とにかく 狭い 。
\n", "
" ], "text/plain": [ " text label_num tokens \\\n", "2310 また利用したいホテルである。 0 また 利用 する たい ホテル だ ある 。 \n", "308 お腹いっぱい食べてしまいました。 0 お腹 いっぱい 食べる て しまう ます た 。 \n", "684 とにかく狭い。 1 とにかく 狭い 。 \n", "\n", " model_input \n", "2310 __label__0 また 利用 する たい ホテル だ ある 。 \n", "308 __label__0 お腹 いっぱい 食べる て しまう ます た 。 \n", "684 __label__1 とにかく 狭い 。 " ] }, "execution_count": 4, "metadata": {}, "output_type": "execute_result" } ], "source": [ "train.head(n=3)" ] }, { "cell_type": "code", "execution_count": 5, "id": "363d0d21", "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
textlabel_numtokensmodel_input
3574当日貸切状態で、最高の部屋を用意していただきました。0当日 貸切 状態 で 、 最高 の 部屋 を 用意 する て いただく ます た 。__label__0 当日 貸切 状態 で 、 最高 の 部屋 を 用意 する て いただく...
1386マタニティ旅行で利用しました。0マタニティ 旅行 で 利用 する ます た 。__label__0 マタニティ 旅行 で 利用 する ます た 。
499コンビニも近いです。0コンビニ も 近い です 。__label__0 コンビニ も 近い です 。
\n", "
" ], "text/plain": [ " text label_num \\\n", "3574 当日貸切状態で、最高の部屋を用意していただきました。 0 \n", "1386 マタニティ旅行で利用しました。 0 \n", "499 コンビニも近いです。 0 \n", "\n", " tokens \\\n", "3574 当日 貸切 状態 で 、 最高 の 部屋 を 用意 する て いただく ます た 。 \n", "1386 マタニティ 旅行 で 利用 する ます た 。 \n", "499 コンビニ も 近い です 。 \n", "\n", " model_input \n", "3574 __label__0 当日 貸切 状態 で 、 最高 の 部屋 を 用意 する て いただく... \n", "1386 __label__0 マタニティ 旅行 で 利用 する ます た 。 \n", "499 __label__0 コンビニ も 近い です 。 " ] }, "execution_count": 5, "metadata": {}, "output_type": "execute_result" } ], "source": [ "test.head(n=3)" ] }, { "cell_type": "markdown", "id": "7257055b", "metadata": {}, "source": [ "ファイルに保存します。" ] }, { "cell_type": "code", "execution_count": 6, "id": "927755a1", "metadata": {}, "outputs": [], "source": [ "train[[\"model_input\"]].to_csv(\"input/pn_ft_train.csv\", header=None, index=None)\n", "test[[\"model_input\"]].to_csv(\"input/pn_ft_test.csv\", header=None, index=None)" ] }, { "cell_type": "code", "execution_count": 7, "id": "127ce02c", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "__label__0 また 利用 する たい ホテル だ ある 。\r\n", "__label__0 お腹 いっぱい 食べる て しまう ます た 。\r\n", "__label__1 とにかく 狭い 。\r\n" ] } ], "source": [ "!head -n3 input/pn_ft_train.csv" ] }, { "cell_type": "code", "execution_count": 8, "id": "f5c477ec", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "__label__0 当日 貸切 状態 で 、 最高 の 部屋 を 用意 する て いただく ます た 。\r\n", "__label__0 マタニティ 旅行 で 利用 する ます た 。\r\n", "__label__0 コンビニ も 近い です 。\r\n" ] } ], "source": [ "!head -n3 input/pn_ft_test.csv" ] }, { "cell_type": "markdown", "id": "2e8f850c", "metadata": {}, "source": [ "## 学習する" ] }, { "cell_type": "code", "execution_count": 9, "id": "449e63f7", "metadata": {}, "outputs": [ { "name": "stderr", "output_type": "stream", "text": [ "Read 0M words\n", "Number of words: 3075\n", "Number of labels: 2\n", "Progress: 100.0% words/sec/thread: 1201377 lr: 0.000000 loss: 0.212663 ETA: 0h 0m\n" ] } ], "source": [ "import fasttext\n", "\n", "model = fasttext.train_supervised(input=\"input/pn_ft_train.csv\")" ] }, { "cell_type": "code", "execution_count": 10, "id": "329839b8", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(419, 0.9093078758949881, 0.9093078758949881)" ] }, "execution_count": 10, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model.test(\"input/pn_ft_test.csv\")" ] }, { "cell_type": "code", "execution_count": 11, "id": "b01932cf", "metadata": {}, "outputs": [], "source": [ "def prob_fn(item):\n", " input_text = \" \".join(item.split()[1:])\n", " pred = model.predict(input_text)\n", " label = pred[0][0]\n", " score = pred[1][0]\n", " if label == \"__label__1\":\n", " pass\n", " elif label == \"__label__0\":\n", " score = 1 - score\n", " else:\n", " raise Exception(f\"Label is not expected one: {label}\")\n", " label_map = {\"__label__1\": 1, \"__label__0\": 0}\n", " return label_map[label], score\n", "\n", "pred = test[\"model_input\"].apply(lambda x: prob_fn(x)[0])\n", "score = test[\"model_input\"].apply(lambda x: prob_fn(x)[1])" ] }, { "cell_type": "code", "execution_count": 12, "id": "0635ad61", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "3574 0\n", "1386 0\n", "499 0\n", "3756 0\n", "914 0\n", "Name: model_input, dtype: int64" ] }, "execution_count": 12, "metadata": {}, "output_type": "execute_result" } ], "source": [ "pred.head()" ] }, { "cell_type": "code", "execution_count": 13, "id": "439d1270", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "3574 0.017346\n", "1386 0.000513\n", "499 0.006268\n", "3756 0.018718\n", "914 0.019504\n", "Name: model_input, dtype: float64" ] }, "execution_count": 13, "metadata": {}, "output_type": "execute_result" } ], "source": [ "score.head()" ] }, { "cell_type": "code", "execution_count": 14, "id": "595a277c", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": 14, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "from sklearn.metrics import ConfusionMatrixDisplay\n", "\n", "ConfusionMatrixDisplay.from_predictions(y_true=test[\"label_num\"], y_pred=pred)" ] }, { "cell_type": "code", "execution_count": 15, "id": "deb451ec", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": 15, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "from sklearn.metrics import PrecisionRecallDisplay\n", "\n", "PrecisionRecallDisplay.from_predictions(y_true=test[\"label_num\"], y_pred=score, name=\"fastText\")" ] } ], "metadata": { "kernelspec": { "display_name": "Python 3 (ipykernel)", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.8.6" } }, "nbformat": 4, "nbformat_minor": 5 }