วีดีโอ: ราà¸à¸«à¸à¹à¸²à¸¢à¸à¸à¸à¸±à¸ (ธันวาคม 2024)
ดูภาพถ่ายทั้งหมดในคลังภาพ
ในการรับข่าวสารของฉันฉันมักจะสแกน Google News ซึ่งรวบรวมบทความจากทั่วโลกจากสิ่งที่ "หุ่นยนต์" ได้กำหนดไว้ว่ามีแนวโน้ม มันคือทั้งหมดที่เกี่ยวกับสิ่งที่มีแนวโน้ม โดยทั่วไปแล้วมักจะคิดถึงข่าวด่วนและไม่สนใจความเห็นที่สำคัญเช่นคอลัมน์ของฉัน แต่ดูเหมือนว่าจะชอบลิงค์ที่ตายแล้วซึ่งฉันหมายถึง วารสารวอลล์สตรีทเจอร์นัล ซึ่งต้องสมัครสมาชิกเพื่ออ่าน
วันนี้เป็นกรณีในจุด มีข่าวใหม่จาก CES เกี่ยวกับ Dish Network ที่เสนอราคาเพื่อซื้อ Clearwire แต่แทนที่จะเชื่อมโยงกับเรื่องราวใด ๆ ที่เกี่ยวข้องโดยเว็บไซต์ที่อ่านได้ฟรี Google ตัดสินใจว่าเรื่องเด่นควรมาจาก วารสารวอลล์สตรีทเจอร์นัล
ในอดีต Google มีข้อตกลงบางประเภทที่อนุญาตให้ผู้ใช้อย่างน้อยอ่านย่อหน้านำไปสู่หรือแม้แต่บทความทั้งหมดก่อนที่จะถูกบล็อกโดย paywall หากคุณไม่ทราบเคล็ดลับการบายพาส (อธิบายด้านล่าง) สิ่งนี้จะไม่ใช้อีกต่อไป ตอนนี้คุณทำงานเป็น paywall และคุณทำเสร็จแล้ว ฉันคิดว่าสมาชิกที่แท้จริงได้รับผ่านมานี้ แต่ฉันสงสัยว่า Google บอทจะไปหาเรื่องราวในตอนแรกได้อย่างไร Google จ่ายเงินหรือเปล่า ฉันสงสัยมัน. ดังนั้นต้องมีแบ็คแบ็คบางอย่างสำหรับบ็อตของ Google ใช่ไหม
นี่เป็นของปลอมและสร้างความเสียหายให้กับผู้ใช้ Google Google ต้องเผชิญกับปัญหาทั้งหมดนี้เพื่อกำจัดผู้คนที่พยายามจะเล่นระบบ แต่มันทำให้ Wall Street Journal ดึงความสนใจออกมา นี่คือการชำระเงินสำหรับการสมัครสมาชิก วารสารวอลล์สตรีท นั่นคือสิ่งที่ Google ต้องการหรือไม่ Google กำลังถูกตัดหรือไม่
เป็นเรื่องยากสำหรับ Google ที่จะแก้ไขปัญหานี้ มันใช้เวลาหนึ่งนาที - ห้ายอด นั่นทำงานมากเกินไปหรือไม่
หาก บริษัท มี paywall อยู่ในบริการของตน Google ไม่ควรทำการค้นหาเว็บไซต์เลย บอทควรรู้ว่ามี paywall และหลีกเลี่ยงการค้นหา และใช่ฉันต้องการคำอธิบายว่าบอตสามารถค้นหาไซต์ที่ถูกบล็อกโดย paywall ได้อย่างไร มันเป็นเรื่องลึกลับ
paywall ควรตรงกับ "robots.txt" ที่บอกให้ bot bot หายไป แต่มีบางอย่างเกี่ยวกับความสัมพันธ์ของ WSJ กับ Google วิธีที่ง่ายที่สุดในการฆ่าบอททั้งหมดคือเมตาแท็กในไฟล์ robots.txt ดังนั้น: .
WSJ แทนที่จะบล็อกเฉพาะไดเรกทอรีย่อยบางอย่าง แต่เห็นได้ชัดว่าไม่ใช่ทั้งหมด และที่น่าแปลกใจก็คือถ้าคุณทำการค้นหา Google News สำหรับบทความเดียวกันที่แน่นอนแทนที่จะเพียงแค่คลิกที่ลิงค์ในบทสรุปคุณจะได้รับบทความผ่านกลไกอื่น ๆ
ฉันท้าทายผู้อ่านด้านเทคนิคมากขึ้นเพื่อค้นหาว่าเกิดอะไรขึ้นกับสองสิ่งนี้โดยการตรวจสอบไฟล์ robots.txt ที่ WSJ ใช้ มีเอกสารสาธารณะที่นี่
ไม่ว่ากรณีใดก็ตามเว็บไซต์มี paywalls ด้วยเหตุผลทางการเงิน หากพวกเขาต้องการเล่นเกมที่มีเนื้อหาเป็นสิ่งหนึ่ง แต่ควรห้ามจากผลการค้นหาในลักษณะเดียวกับที่ Google พยายามขัดขวางผู้คนที่พยายามเล่นเกมระบบ Google จะห้ามนักเขียนบล็อกที่โชคร้ายที่มีหมวกหล่นสำหรับพฤติกรรมบางอย่าง วิธีจัดการกับเว็บไซต์ที่ใหญ่กว่าแบบเดียวกัน
คุณสามารถติดตาม John C. Dvorak บน Twitter @therealdvorak
เพิ่มเติม John C. Dvorak:
ไปนอกหัวข้อกับ John C. Dvorak
ดูภาพถ่ายทั้งหมดในคลังภาพ