วิธีบล็อกโปรแกรมรวบรวมข้อมูลของ OpenAI จากการขูดเว็บไซต์ของคุณ

วิธีบล็อกโปรแกรมรวบรวมข้อมูลของ OpenAI จากการขูดเว็บไซต์ของคุณ
ผู้อ่านเช่นคุณช่วยสนับสนุน MUO เมื่อคุณทำการซื้อโดยใช้ลิงก์บนเว็บไซต์ของเรา เราอาจได้รับค่าคอมมิชชั่นจากพันธมิตร อ่านเพิ่มเติม.

แม้ว่าผู้ใช้จะชื่นชอบ ChatGPT สำหรับข้อมูลจำนวนมหาศาลที่มีอยู่ในปัจจุบัน แต่เจ้าของเว็บไซต์ก็พูดเช่นเดียวกันไม่ได้





วิดีโอ MUO ประจำวันนี้ เลื่อนเพื่อดำเนินการต่อกับเนื้อหา

ChatGPT ของ OpenAI ใช้โปรแกรมรวบรวมข้อมูลในการขูดเว็บไซต์ แต่ถ้าคุณเป็นเจ้าของเว็บไซต์และไม่ต้องการให้โปรแกรมรวบรวมข้อมูลของ OpenAI เข้าถึงเว็บไซต์ของคุณ ต่อไปนี้เป็นบางสิ่งที่คุณสามารถทำได้เพื่อป้องกัน





การรวบรวมข้อมูล OpenAI ทำงานอย่างไร

ก โปรแกรมรวบรวมข้อมูลเว็บ (หรือที่เรียกว่าสไปเดอร์หรือบอตเครื่องมือค้นหา) เป็นโปรแกรมอัตโนมัติที่สแกนอินเทอร์เน็ตเพื่อหาข้อมูล จากนั้นจะรวบรวมข้อมูลในลักษณะที่เครื่องมือค้นหาของคุณเข้าถึงได้ง่าย





โปรแกรมรวบรวมข้อมูลเว็บจัดทำดัชนีทุกหน้าของทุก URL ที่เกี่ยวข้อง โดยปกติแล้วจะเน้นไปที่เว็บไซต์ที่เกี่ยวข้องกับคำค้นหาของคุณมากกว่า ตัวอย่างเช่น สมมติว่าคุณกำลังกูเกิลข้อผิดพลาดของ Windows บางอย่าง โปรแกรมรวบรวมข้อมูลเว็บภายในเครื่องมือค้นหาของคุณจะสแกน URL ทั้งหมดจากเว็บไซต์ที่เห็นว่าเชื่อถือได้มากกว่าในหัวข้อข้อผิดพลาดของ Windows

วิธีใช้ฟิลเตอร์ใบหน้า snapchat

โปรแกรมรวบรวมข้อมูลเว็บของ OpenAI เรียกว่า GPTBot และอ้างอิงจาก เอกสารของ OpenAI การให้ GPTBot เข้าถึงเว็บไซต์ของคุณสามารถช่วยฝึกโมเดล AI ให้ปลอดภัยและแม่นยำยิ่งขึ้น และยังช่วยเพิ่มขีดความสามารถของโมเดล AI ได้อีกด้วย



วิธีป้องกันไม่ให้ OpenAI รวบรวมข้อมูลเว็บไซต์ของคุณ

เช่นเดียวกับโปรแกรมรวบรวมข้อมูลเว็บอื่น ๆ ส่วนใหญ่ GTPBot สามารถถูกบล็อกไม่ให้เข้าถึงเว็บไซต์ของคุณได้โดยการแก้ไขเว็บไซต์ โรบ็อต.txt โปรโตคอล (หรือที่เรียกว่าโปรโตคอลการยกเว้นโรบ็อต) ไฟล์ .txt นี้โฮสต์อยู่บนเซิร์ฟเวอร์ของเว็บไซต์ และจะควบคุมวิธีที่โปรแกรมรวบรวมข้อมูลเว็บและโปรแกรมอัตโนมัติอื่นๆ ทำงานบนเว็บไซต์ของคุณ

นี่คือรายการสั้น ๆ ของสิ่งที่ หุ่นยนต์.txt ไฟล์สามารถทำได้:





  • มันสามารถบล็อก GTPBot ไม่ให้เข้าถึงเว็บไซต์ได้อย่างสมบูรณ์
  • สามารถบล็อกเฉพาะบางหน้าจาก URL ไม่ให้เข้าถึงโดย GPTBot
  • มันสามารถบอก GPTBot ว่าลิงก์ใดสามารถติดตามได้และไม่สามารถติดตามได้

ต่อไปนี้เป็นวิธีควบคุมสิ่งที่ GPTBot สามารถทำได้บนเว็บไซต์ของคุณ:

บล็อก GPTBot ไม่ให้เข้าถึงเว็บไซต์ของคุณโดยสมบูรณ์

  1. ตั้งค่าไฟล์ robot.txt แล้วแก้ไขด้วยเครื่องมือแก้ไขข้อความใดๆ
  2. เพิ่ม GPTBot ในไซต์ของคุณ โรบ็อต.txt ดังนี้
 User-agent: GPTBot 
Disallow: /

บล็อกเฉพาะบางหน้าไม่ให้เข้าถึงโดย GPTBot

  1. ตั้งค่า หุ่นยนต์.txt ไฟล์ แล้วแก้ไขด้วยเครื่องมือแก้ไขข้อความที่คุณต้องการ
  2. เพิ่ม GPTBot ในไซต์ของคุณ โรบ็อต.txt ดังนี้
 User-agent: GPTBot 
Allow: /directory-1/
Disallow: /directory-2/

อย่างไรก็ตาม โปรดทราบว่าการเปลี่ยนแปลง หุ่นยนต์.txt ไฟล์นี้ไม่ใช่วิธีแก้ปัญหาย้อนหลัง และข้อมูลใดๆ ที่ GPTBot อาจรวบรวมไว้แล้วจากเว็บไซต์ของคุณจะไม่สามารถกู้คืนได้





OpenAI อนุญาตให้เจ้าของเว็บไซต์ยกเลิกการรวบรวมข้อมูล

นับตั้งแต่มีการใช้โปรแกรมรวบรวมข้อมูลเพื่อฝึกโมเดล AI เจ้าของเว็บไซต์ก็มองหาวิธีที่จะรักษาข้อมูลของตนให้เป็นส่วนตัว

บางคนกลัวว่าโมเดล AI มักจะขโมยงานของพวกเขา แม้กระทั่งการเข้าชมเว็บไซต์ที่น้อยลงเนื่องจากข้อเท็จจริงที่ว่าตอนนี้ผู้ใช้ได้รับข้อมูลโดยไม่ต้องไปที่เว็บไซต์ของตน

สรุปแล้ว ไม่ว่าคุณต้องการบล็อกแชทบอท AI ไม่ให้สแกนเว็บไซต์ของคุณโดยสมบูรณ์หรือไม่นั้นเป็นทางเลือกของคุณโดยสิ้นเชิง