トークナイザーとは?

読み方: トークナイザー

30秒まとめ

テキストをAIモデルが処理可能なトークン列に変換するコンポーネント。

トークナイザーの意味・定義

トークナイザー(Tokenizer)は、入力テキストをAIモデルが処理できるトークン(最小単位)の列に変換するコンポーネントです。LLMはテキストを直接理解するのではなく、トークンに分割してから処理します。代表的なトークナイゼーション手法として、BPE(Byte-Pair Encoding)、WordPiece、SentencePieceなどがあります。英語では単語の一部(サブワード)が1トークンになることが多く、日本語では1文字が1〜3トークンになるのが一般的です。トークナイザーの設計はモデルの性能に大きく影響し、特に多言語対応においては日本語や中国語などの処理効率が重要な課題です。OpenAIのtiktokenやGoogleのSentencePieceなど、各社が独自のトークナイザーを開発・公開しています。API利用時の料金計算やコンテキストウィンドウの制限もトークン数に基づくため、トークナイザーの仕組みを理解することはAI活用において重要です。

関連するAIツール

関連する用語

運営者が開発したAIマーケティングツール