בסביבת למידת מכונה, המונח "טוקן" הוא מונח עקרוני שמשמש לתיאור יחידות הטקסט שהמודלים המתמטיים משתמשים בהן. טוקן יכול להיות מילה שלמה, יחידה חלקית של מילה או אפילו תו בודד. ב-ChatGPT, כל מילה, יחידה חלקית או תו מייצג טוקן בנפרד.
השימוש בטוקנים במודלים כמו ChatGPT נעשה על מנת לפרק את הטקסט ליחידות קטנות שהמודל יכול לעבד בצורה מתמטית. השימוש בטוקנים מסייע למודל להבין את מבנה הטקסט ולבצע חישובים על פי זה. עבור שפה כמו האנגלית, טוקן אחד יכול להיות כל חלק ממילה או תו, והמודל משתמש בכמות מסוימת של טוקנים כדי להבין ולהגיב לקלט.
בדיוק מה נחשב לטוקן וכמה טוקנים בדיוק נמצאים בטקסט תלוי בגודל ובמבנה של הטקסט עצמו. ההבנה של הגדרה זו יכולה לעזור למשתמשים להבין את הפונקציות והתכונות של ChatGPT ומודלים דומים.