কম্পিউটার

আর্টিকেল স্ক্র্যাপিং এবং কিউরেশনের জন্য পাইথন মডিউল সংবাদপত্র?


আমরা বিভিন্ন ডোমেন যেমন ডেটা মাইনিং, তথ্য পুনরুদ্ধার ইত্যাদি থেকে ওয়েব পৃষ্ঠাগুলিতে বিষয়বস্তু বের করতে পারি। সংবাদপত্র এবং ম্যাগাজিনের ওয়েবসাইট থেকে তথ্য বের করতে আমরা সংবাদপত্রের লাইব্রেরি ব্যবহার করতে যাচ্ছি।

এই লাইব্রেরির মূল উদ্দেশ্য হল সংবাদপত্র এবং অনুরূপ ওয়েবসাইটগুলি থেকে নিবন্ধগুলি বের করা এবং কিউরেট করা৷

ইনস্টলেশন:

  • নিউজপেপার লাইব্রেরি ইনস্টল করার জন্য, আপনার টার্মিনালে চালান:

$ pip ইনস্টল করা সংবাদপত্র3k
  • lxml নির্ভরতার জন্য, আপনার টার্মিনালে নিচের কমান্ড চালান

$pip lxml ইনস্টল করুন
  • পিআইএল ইনস্টল করতে, চালান

$pip বালিশ ইনস্টল করুন
  • NLP কর্পোরা ডাউনলোড করা হবে:

$ curl https://raw.githubusercontent.com/codelucas/newspaper/master/download_corpora.py | পাইথন

পাইথন নিউপেপার লাইব্রেরি নিবন্ধের সাথে সম্পর্কিত তথ্য সংগ্রহ করতে ব্যবহৃত হয়। এতে লেখকের নাম, নিবন্ধের প্রধান চিত্র, প্রকাশনার তারিখ, নিবন্ধে উপস্থিত ভিডিও, নিবন্ধটি বর্ণনাকারী মূল শব্দ এবং নিবন্ধের সারাংশ অন্তর্ভুক্ত রয়েছে।

#সংবাদপত্র আমদানি নিবন্ধ থেকে #ইমপোর্ট প্রয়োজনীয় লাইব্রেরি# url লিঙ্ক-যা আপনি এক্সট্রাক্ট করতে চান ="https://www.wsj.com/articles/lawmakers-to-resume-stalled-border-security-talks-11549901117"# নিবন্ধটি ডাউনলোড করুন>>> সংবাদপত্র আমদানি নিবন্ধ থেকে>>> url ="https://www.wsj.com/articles/lawmakers-to-resume-stalled-border-security-talks-11549901117">>> নিবন্ধ =নিবন্ধ (url)>>> article.download()# নিবন্ধটি পার্স করুন এবং লেখকের নাম আনুন>>> article.parse()>>> print(article.authors)

আউটপুট:

<প্রে>>>> প্রিন্ট("আর্টিকেল প্রকাশের তারিখ:")>>> print(article.publish_date)# বড় ছবির ইউআরএল বের করুন>>> print(article.top_image)

আউটপুট:

https://images.wsj.net/im-51122/social# NLPprint ব্যবহার করে কীওয়ার্ড বের করুন ("নিবন্ধে কীওয়ার্ড", article.keywords)# নিবন্ধের ছাপের সারাংশ ("আর্টিকেল সারাংশ", article.summary) )

নীচে সম্পূর্ণ প্রোগ্রাম:

সংবাদপত্র আমদানি থেকে Articleurl ="https://www.wsj.com/articles/lawmakers-to-resume-stalled-border-security-talks-11549901117"আর্টিকেল =Article(url)article.download()আর্টিকেল। parse()print(article.authors)print("নিবন্ধ প্রকাশের তারিখ:")print(article.publish_date)মুদ্রণ("নিবন্ধের প্রধান চিত্র:")print(article.top_image)article.nlp()প্রিন্ট ("কীওয়ার্ড নিবন্ধে")প্রিন্ট(আর্টিকেল.কিওয়ার্ড)প্রিন্ট("আর্টিকেল সামারি")প্রিন্ট(আর্টিকেল.সারাংশ)

আউটপুট:

['ক্রিস্টিনা পিটারসন', 'অ্যান্ড্রু ডুহরেন', 'নাটালি অ্যান্ড্রুজ', 'ক্রিস্টিনা.পিটারসন Wsj.Com', 'Andrew.Duehren Wsj.Com', 'Natalie.Andrews Wsj.Com']নিবন্ধ প্রকাশের তারিখ:নিবন্ধে প্রধান চিত্র নেই:https://images.wsj.net/im-51122/socialকিওয়ার্ডস নিবন্ধে নীতি', 'আইন প্রণেতারা', 'এড়িয়ে চলুন', 'শাটডাউন', 'পৌছান', 'উইকএন্ড', 'ফান্ড', 'ট্রাম্প', 'ইউনিয়ন', 'চুক্তি', 'ওয়াল দক্ষিণ মার্কিন সীমান্তে একটি প্রাচীর নির্মাণের জন্য তার স্টেট অফ দ্য ইউনিয়ন ভাষণ, এটিকে একটি "নৈতিক সমস্যা" বলে অভিহিত করেছেন৷ ফটো:গেটিওয়াশিংটন- সিনিয়র আইনপ্রণেতারা সোমবার রাতে বলেছেন যে তারা এক মাসব্যাপী শেষ করার জন্য একটি সুইপিং চুক্তিতে নীতিগতভাবে একটি চুক্তিতে পৌঁছেছেন৷ সীমান্ত নিরাপত্তা নিয়ে লড়াই করুন এবং এই সপ্তাহান্তে একটি আংশিক সরকারী শাটডাউন এড়ান৷ হাউস এবং সিনেট অ্যাপ্রোপ্রিয়েশন কমিটির শীর্ষ চারজন আইন প্রণেতারা সোমবার তিনটি রুদ্ধদ্বার বৈঠকের পর আবির্ভূত হন এবং ঘোষণা করেন যে তারা একটি ফ্রেমে সম্মত হয়েছেন৷ সমস্ত সাতটি ব্যয় বিলের জন্য ইওয়ার্ক যার অর্থায়ন শনিবার সকাল 12:01 এ শেষ হয়ে যায়৷

  1. কেন পাইথন প্রতিযোগিতামূলক কোডিংয়ের জন্য সবচেয়ে উপযুক্ত

  2. পাইথন গেটপাস মডিউল

  3. পাইথনে ভগ্নাংশ মডিউল

  4. ওয়েব স্ক্র্যাপিংয়ের জন্য পাইথন সরঞ্জাম