Meta เปิดตัว Llama 2 ในฤดูร้อนปี 2023 Llama เวอร์ชันใหม่ได้รับการปรับแต่งอย่างละเอียดด้วยโทเค็นมากกว่าโมเดล Llama ดั้งเดิมถึง 40% ซึ่งเพิ่มความยาวบริบทเป็นสองเท่าและมีประสิทธิภาพเหนือกว่าโมเดลโอเพ่นซอร์สอื่นๆ ที่มีอยู่อย่างมาก วิธีที่เร็วและง่ายที่สุดในการเข้าถึง Llama 2 คือผ่าน API ผ่านแพลตฟอร์มออนไลน์ อย่างไรก็ตาม หากคุณต้องการประสบการณ์ที่ดีที่สุด การติดตั้งและโหลด Llama 2 บนคอมพิวเตอร์ของคุณโดยตรงจะดีที่สุด
ด้วยเหตุนี้ เราจึงได้สร้างคำแนะนำทีละขั้นตอนเกี่ยวกับวิธีใช้ Text-Generation-WebUI เพื่อโหลด Llama 2 LLM เชิงปริมาณในเครื่องคอมพิวเตอร์ของคุณ
ทำไมต้องติดตั้ง Llama 2 ในเครื่อง
มีเหตุผลหลายประการที่ทำให้ผู้คนเลือกที่จะรัน Llama 2 โดยตรง บางส่วนทำเพื่อข้อกังวลด้านความเป็นส่วนตัว บางส่วนทำเพื่อการปรับแต่ง และอื่น ๆ เพื่อความสามารถแบบออฟไลน์ หากคุณกำลังค้นคว้า ปรับแต่ง หรือบูรณาการ Llama 2 สำหรับโปรเจ็กต์ของคุณ การเข้าถึง Llama 2 ผ่าน API อาจไม่เหมาะกับคุณ จุดประสงค์ของการเรียกใช้ LLM ภายในเครื่องพีซีของคุณคือเพื่อลดการพึ่งพา เครื่องมือ AI ของบุคคลที่สาม และใช้ AI ได้ทุกที่ทุกเวลาโดยไม่ต้องกังวลว่าข้อมูลที่อาจละเอียดอ่อนจะรั่วไหลไปยังบริษัทและองค์กรอื่นๆ
วิธีจัดเรียงอีเมลใน gmail
จากที่กล่าวมา เรามาเริ่มด้วยคำแนะนำทีละขั้นตอนในการติดตั้ง Llama 2 ในเครื่อง
ขั้นตอนที่ 1: ติดตั้งเครื่องมือสร้าง Visual Studio 2019
เพื่อให้สิ่งต่าง ๆ ง่ายขึ้น เราจะใช้ตัวติดตั้งแบบคลิกเดียวสำหรับ Text-Generation-WebUI (โปรแกรมที่ใช้ในการโหลด Llama 2 ด้วย GUI) อย่างไรก็ตาม เพื่อให้ตัวติดตั้งนี้ทำงานได้ คุณต้องดาวน์โหลด Visual Studio 2019 Build Tool และติดตั้งทรัพยากรที่จำเป็น
ดาวน์โหลด: วิชวลสตูดิโอ 2019 (ฟรี)
- ไปข้างหน้าและดาวน์โหลดซอฟต์แวร์รุ่นชุมชน
- ตอนนี้ติดตั้ง Visual Studio 2019 จากนั้นเปิดซอฟต์แวร์ เมื่อเปิดแล้ว ให้ทำเครื่องหมายที่ช่อง การพัฒนาเดสก์ท็อปด้วย C++ และกดติดตั้ง
เมื่อคุณได้ติดตั้งการพัฒนาเดสก์ท็อปด้วย C++ แล้ว ก็ถึงเวลาดาวน์โหลดตัวติดตั้ง Text-Generation-WebUI เพียงคลิกเดียว
ขั้นตอนที่ 2: ติดตั้ง Text-Generation-WebUI
ตัวติดตั้งแบบคลิกเดียว Text-Generation-WebUI เป็นสคริปต์ที่สร้างโฟลเดอร์ที่ต้องการโดยอัตโนมัติและตั้งค่าสภาพแวดล้อม Conda และข้อกำหนดที่จำเป็นทั้งหมดเพื่อรันโมเดล AI
หากต้องการติดตั้งสคริปต์ ให้ดาวน์โหลดตัวติดตั้งแบบคลิกเดียวโดยคลิกที่ รหัส > ดาวน์โหลด ZIP.
ดาวน์โหลด: ตัวติดตั้งการสร้างข้อความ-WebUI (ฟรี)
- เมื่อดาวน์โหลดแล้ว ให้แตกไฟล์ ZIP ไปยังตำแหน่งที่คุณต้องการ จากนั้นเปิดโฟลเดอร์ที่แตกออกมา
- ภายในโฟลเดอร์ ให้เลื่อนลงและค้นหาโปรแกรมเริ่มต้นที่เหมาะสมสำหรับระบบปฏิบัติการของคุณ รันโปรแกรมโดยดับเบิลคลิกที่สคริปต์ที่เหมาะสม
- หากคุณใช้ Windows ให้เลือก start_windows ไฟล์ชุด
- สำหรับ MacOS ให้เลือก start_macos สคริปต์เปลือก
- สำหรับลินุกซ์ start_linux เชลล์สคริปต์
- โปรแกรมป้องกันไวรัสของคุณอาจสร้างการแจ้งเตือน นี่เป็นเรื่องปกติ ข้อความแจ้งเป็นเพียง โปรแกรมป้องกันไวรัสบวกเท็จ สำหรับการเรียกใช้แบตช์ไฟล์หรือสคริปต์ คลิกที่ วิ่งยังไงก็ได้ .
- เทอร์มินัลจะเปิดขึ้นและเริ่มการตั้งค่า ในช่วงเริ่มต้น การตั้งค่าจะหยุดชั่วคราวและถามคุณว่าคุณกำลังใช้ GPU อะไร เลือกประเภท GPU ที่เหมาะสมที่ติดตั้งบนคอมพิวเตอร์ของคุณแล้วกด Enter สำหรับผู้ที่ไม่มีการ์ดแสดงผลเฉพาะ ให้เลือก ไม่มี (ฉันต้องการรันโมเดลในโหมด CPU) . โปรดทราบว่าการทำงานในโหมด CPU จะช้ากว่ามากเมื่อเปรียบเทียบกับการใช้งานโมเดลด้วย GPU เฉพาะ
- เมื่อการตั้งค่าเสร็จสมบูรณ์ คุณสามารถเปิด Text-Generation-WebUI ในเครื่องได้แล้ว คุณสามารถทำได้โดยเปิดเว็บเบราว์เซอร์ที่คุณต้องการและป้อนที่อยู่ IP ที่ให้ไว้ใน URL
- ขณะนี้ WebUI พร้อมใช้งานแล้ว
อย่างไรก็ตามโปรแกรมนี้เป็นเพียงตัวโหลดโมเดลเท่านั้น มาดาวน์โหลด Llama 2 เพื่อให้ตัวโหลดโมเดลเปิดตัวกัน
ขั้นตอนที่ 3: ดาวน์โหลดโมเดล Llama 2
มีหลายสิ่งที่ควรพิจารณาเมื่อตัดสินใจว่าคุณต้องการ Llama 2 รอบใด ซึ่งรวมถึงพารามิเตอร์ การหาปริมาณ การเพิ่มประสิทธิภาพฮาร์ดแวร์ ขนาด และการใช้งาน ข้อมูลทั้งหมดนี้จะแสดงอยู่ในชื่อโมเดล
- พารามิเตอร์: จำนวนพารามิเตอร์ที่ใช้ในการฝึกโมเดล พารามิเตอร์ที่ใหญ่กว่าทำให้โมเดลมีความสามารถมากกว่าแต่ก็ต้องแลกกับประสิทธิภาพ
- การใช้งาน: สามารถเป็นแบบมาตรฐานหรือแบบแชทก็ได้ โมเดลการแชทได้รับการปรับให้เหมาะสมเพื่อใช้เป็นแชทบอต เช่น ChatGPT ในขณะที่รูปแบบมาตรฐานคือโมเดลเริ่มต้น
- การเพิ่มประสิทธิภาพฮาร์ดแวร์: หมายถึงฮาร์ดแวร์ใดที่รันโมเดลได้ดีที่สุด GPTQ หมายถึงโมเดลได้รับการปรับให้ทำงานบน GPU เฉพาะ ในขณะที่ GGML ได้รับการปรับให้ทำงานบน CPU
- การหาปริมาณ: หมายถึงความแม่นยำของน้ำหนักและการเปิดใช้งานในแบบจำลอง สำหรับการอนุมาน ความแม่นยำของ q4 จะเหมาะสมที่สุด
- ขนาด: หมายถึงขนาดของรุ่นเฉพาะ
โปรดทราบว่าบางรุ่นอาจมีการจัดเรียงที่แตกต่างกันและอาจไม่มีข้อมูลประเภทเดียวกันแสดงด้วยซ้ำ อย่างไรก็ตาม แบบแผนการตั้งชื่อประเภทนี้เป็นเรื่องปกติใน กอดใบหน้า ไลบรารี่โมเดลจึงยังควรค่าแก่การทำความเข้าใจ
ในตัวอย่างนี้ โมเดลสามารถระบุได้ว่าเป็นโมเดล Llama 2 ขนาดกลางที่ได้รับการฝึกอบรมเกี่ยวกับพารามิเตอร์ 13 พันล้านพารามิเตอร์ที่ปรับให้เหมาะสมสำหรับการอนุมานการแชทโดยใช้ CPU เฉพาะ
วิธีเปลี่ยนไอคอนตัวสำรวจไฟล์
สำหรับผู้ที่ใช้งาน GPU เฉพาะ ให้เลือก GPTQ ส่วนรุ่นที่ใช้ CPU ให้เลือก จีจีเอ็มแอล . หากคุณต้องการแชทกับโมเดลเหมือนกับที่คุณทำกับ ChatGPT ให้เลือก แชท แต่หากคุณต้องการทดลองกับโมเดลที่เต็มความสามารถ ให้ใช้ มาตรฐาน แบบอย่าง. สำหรับพารามิเตอร์ โปรดทราบว่าการใช้โมเดลที่ใหญ่กว่าจะให้ผลลัพธ์ที่ดีกว่าโดยแลกกับประสิทธิภาพการทำงาน โดยส่วนตัวแล้วฉันขอแนะนำให้คุณเริ่มต้นด้วยรุ่น 7B สำหรับการหาปริมาณ ให้ใช้ q4 เนื่องจากมีไว้สำหรับการอนุมานเท่านั้น
ดาวน์โหลด: จีจีเอ็มแอล (ฟรี)
ดาวน์โหลด: GPTQ (ฟรี)
เมื่อคุณทราบแล้วว่าคุณต้องการ Llama 2 ซ้ำเท่าใด คุณสามารถดาวน์โหลดโมเดลที่คุณต้องการได้เลย
ในกรณีของฉัน เนื่องจากฉันใช้สิ่งนี้บนอัลตร้าบุ๊ก ฉันจะใช้โมเดล GGML ที่ปรับแต่งมาเพื่อการแชทโดยเฉพาะ โทร-2-7b-chat-ggmlv3.q4_K_S.bin.
หลังจากการดาวน์โหลดเสร็จสิ้น ให้วางโมเดลลงไป ข้อความ-รุ่น-webui-main > โมเดล .
เมื่อคุณดาวน์โหลดโมเดลของคุณและวางลงในโฟลเดอร์โมเดลแล้ว ก็ถึงเวลากำหนดค่าตัวโหลดโมเดล
ฉันจะทำภาพตัดปะภาพบน facebook ได้อย่างไร
ขั้นตอนที่ 4: กำหนดค่าการสร้างข้อความ-WebUI
ตอนนี้เรามาเริ่มขั้นตอนการกำหนดค่ากันดีกว่า
- เปิด Text-Generation-WebUI อีกครั้งโดยเรียกใช้ไฟล์ start_(ระบบปฏิบัติการของคุณ) ไฟล์ (ดูขั้นตอนก่อนหน้าด้านบน)
- บนแท็บที่อยู่เหนือ GUI ให้คลิก แบบอย่าง. คลิกปุ่มรีเฟรชที่เมนูแบบเลื่อนลงโมเดลและเลือกโมเดลของคุณ
- ตอนนี้คลิกที่เมนูแบบเลื่อนลงของ รถตักโมเดล และเลือก GPTQ อัตโนมัติ สำหรับผู้ที่ใช้โมเดล GTPQ และ ซีทรานส์ฟอร์มเมอร์ส สำหรับผู้ที่ใช้รุ่น GGML สุดท้ายให้คลิกที่ โหลด เพื่อโหลดแบบจำลองของคุณ
- หากต้องการใช้โมเดล ให้เปิดแท็บแชทและเริ่มทดสอบโมเดล
ยินดีด้วย คุณโหลด Llama2 บนคอมพิวเตอร์ของคุณสำเร็จแล้ว!
ลองใช้ LLM อื่นๆ
ตอนนี้คุณรู้วิธีเรียกใช้ Llama 2 โดยตรงบนคอมพิวเตอร์ของคุณโดยใช้ Text-Generation-WebUI แล้ว คุณควรจะสามารถเรียกใช้ LLM อื่นๆ นอกเหนือจาก Llama ได้ด้วย เพียงจำหลักการตั้งชื่อโมเดลไว้ และเฉพาะเวอร์ชันเชิงปริมาณของโมเดล (โดยปกติคือความแม่นยำระดับ q4) เท่านั้นที่สามารถโหลดบนพีซีทั่วไปได้ LLM เชิงปริมาณจำนวนมากมีอยู่บน HuggingFace หากคุณต้องการสำรวจโมเดลอื่นๆ ให้ค้นหา TheBloke ในไลบรารีโมเดลของ HuggingFace และคุณจะพบโมเดลต่างๆ มากมาย