বইমেলা হোক বা নাহোক চটপট নামিয়ে নিন রঙচঙে হাতে গরম গুরুর গাইড ।

এই সুতোর পাতাগুলি [1]     এই পাতায় আছে1--10


           বিষয় : archive.org Wget for dummies
          বিভাগ : অন্যান্য
          শুরু করেছেন :h
          IP Address : 340123.99.121223.132 (*)          Date:11 Jun 2018 -- 10:55 AM




Name:  h          

IP Address : 340123.99.121223.132 (*)          Date:11 Jun 2018 -- 10:56 AM

ইমরান/অরিজিত/সোমনাথ, আমাকে বল/বলো একটু এই পার্ট টা ঠিক বুজেছি কিনা। টেকনিকালি চ্যালেঞ্জড ছোটো দের লানগুয়েজে বলো।
প্রথম চ্যালেঞ্জ এক বা দশ লক্ষ বইয়ের মধ্যে কোন একশো বা তিরিশ হাজার বাংলা বই সেটা খুঁজে পাওয়া একটা সমস্যা আর যেগুলো চেনা গেল, তার মধ্যে অজানা অচেনা ননস্ট্যান্ডার্ড হলেও হতে পারে, আইডেন্টিফায়ার পড়ে লিস্টে তোলা টা দ্বিতীয় চ্যালেঞ্জ।

বেশ তাইলে মূল সমস্যা হল, দুইটা ধরণের প্যাটার্ন খোজা , তাই কি?

আমি ভাবছিলাম wget কি করে কঠিন হবে। আর কানেকশন ম্যানেজমেন্ট এর সমস্যা টা তো প্যাটার্ন বের করার পরের সমস্যা , রাইট?


Name:  h          

IP Address : 340123.99.121223.132 (*)          Date:11 Jun 2018 -- 11:27 AM

আইডেন্টিফায়ারটা কি ফাইল এর নামে থাগবে?


Name:  অরি র কোন একটা নাম, হরম মত শুন          

IP Address : 340123.99.121223.132 (*)          Date:11 Jun 2018 -- 11:28 AM

প্যাটার্ন আছে কিনা সেটাও সিওর না। নর্মালি আইডেন্টিফায়ারগুলো ইউনিক আইডি হয়, র‍্যান্ডমলি জেনারেটেড।



Name:  ~          

IP Address : 90056.160.011223.3 (*)          Date:11 Jun 2018 -- 01:41 PM

এইটা মূল রিকোয়ারমেন্ট ছিল। লিংক দুটো খুব কজের কিন্তু।

গুরুর কলকাতাবাসী ইউনিক্স এক্সপার্টরা কেউ দায়িত্ব নিয়ে একটা কাজ করতে পারবেন? আর্কাইভ ডট অর্গে বত্রিশ হাজারের বেশি বাংলা বই রয়েছে। ইউনিক্স দিয়ে নামানো যায় বাল্কে। পুরোটা নামিয়ে দেবেন? আমি একটা ২ টিবি হার্ড ডিস্কে কপি করে আনব? কিভাবে নামানো যাবে সেটা সাইটের FAQ তে লেখা আছে।

How do I bulk download?

At this time there are two methods to do bulk downloading. Both require some comfort working in a unix environment:
wget - please see http://blog.archive.org/2012/04/26/downloading-in-bulk-using-wget for guidance
python wrapper - the Internet Archive has created a python wrapper useful for many functions including bulk download. It can be found at https://github.com/jjjake/internetarchive

বাকি রিলেটেড পোস্ট গুলো অর কেউ কপি করুক, আমার রাতের আগে সময় নাই।


Name:  Hrym          

IP Address : 891212.185.5678.71 (*)          Date:11 Jun 2018 -- 02:12 PM

অ্যাডভান্সড সার্চে language:Bengali বলে এই লিস্ট আসছে - আইডেন্টিফায়ারেরঃ

yugvytd56d6futf8iohuihy77g8h55896789
ConstantsOfJihad_201612
sab698_gmail_201702
106thIssue20thOctober2016QatarMobileVerFinal
FatwaGangohiR.
LetsUniteForAlQuds
catecheticalexpo00mund
subosah_tuta
my_393
halal_blood
jonsmith02_yopmail_20170605_0917
alfatimin_gmail_20171019_1144
AmiToNamazPorteChaiKintu
27bayannews
AdnaniDeathAndMubahala
dawisl_1_mail
archive45_yopmail_20171121
abu_hilal_tuta
jobline999_gmail_201612
jobline999_gmail_2016
de71975_gmail
Bkash
alfatimin_gmail_20171016_1538
jobline999_gmail_20161219_1307
ThePathToPeaceJustRelationsBetweenNations
NaseehaRegardingIbadah
alfajr_blood
AnsarGazwatulHindVision-1
being_20150705_1009
g562023_nwytg_1
alfatimin_gmail_20171016_1740
jyotiringana1871kali
BurkinaFaso2016
Ayat12016_20135685683568586536856858701
md_Md_1
muftioliullah_1
vbcxdfszrxdatsrwrdssees56sdtdytdfh6674
Azharmea_gmail_Eelm_20141122
HindSwaraj-tag-1-18-
iscabd91_gmail
iscabd91_gmail_20161228
shaholiullahdeholovi
fidayiovijan
NeamenElectronicCircuitAnalysisAndDesign2ndEd
MazhabSonkrantoBoi
muftioliullah_3_20180518
HindSwaraj-tag-1-08-
HindSwaraj-tag-2-01-
islamicbissokos
IslamicOthersBooks3

অবভিয়াসলি প্যাটার্ন নেই কোনো। কিন্তু মোটে ৫০টা। এই যে বল্ল ৩২০০০ বই আছে?


Name:  Hrym          

IP Address : 891212.185.5678.71 (*)          Date:11 Jun 2018 -- 02:15 PM

আচ্ছা, সংখ্যা লিমিট করা যায় - ৫০/১০০ ইত্যাদি। কিন্তু নর্মালি ফাঁকা রাখলে যে পুরো লিস্ট দেখানোর কথা সেটা হচ্ছে না।


Name:  ~          

IP Address : 90056.160.011223.3 (*)          Date:11 Jun 2018 -- 05:15 PM


https://s33.postimg.cc/9gc22otkv/Capture.jpg

আর্কাইভ ডট অর্গ খুলে টেকস্ট সিম্বলে ক্লিক করলে 16,235,050 RESULTS eBooks and Texts দেখাবে। বাঁদিকে নিচে Language ক্লিক করে ফিল্টার Bengali সিলেক্ট করলে ৩২৩৬৯ টা বই দেখাবে। আমার যদিও শুধু DLI এর বইগুলোতেই ইন্টারেস্ট তবে এই ল্যাঙ্গুয়েজ দিয়ে সর্ট করে সব বাংলা বই পাওয়া সহজ হবে মনে হয়েছিল।


Name:  পুরোনো গল্পগুচ্ছ          

IP Address : 781212.194.340123.19 (*)          Date:11 Jun 2018 -- 10:06 PM

Hrym Date:10 Jun 2018 -- 08:16 AM
wget ব্যাপারটা অত সহজ নয়। যা নামানো হবে সবের আইডেন্টিফায়ার একটা ফাইলে রেখে wget চালাতে হবে।

তার পর হল ভল্যুম। এক রাতে না নামলে wget এ হবে না, ওটা রিজিউম করে না। তখন rsync এর ব্যবস্থা আছে কিনা দেখতে হবে।
Hrym Date:10 Jun 2018 -- 08:19 AM
সে না হয় ছোট ছোট লিস্ট বানানো হল, কিন্তু ইন্ডিভিজুয়াল আইডেন্টিফায়ার বের করবে কে?
~ Date:10 Jun 2018 -- 01:08 PM
মোদ্দা কথা বাল্ক ডাউনলোড ইউনিক্স এ ও খুব সুবিধের কিছু নয়, তাই তো? মানে, ল্যাঙ্গুয়েজ = বাংলা সেট করে সমস্ত PDF ফাইল নামিয়ে ফেলা যাবে না? ৩২০০০ ফাইল নামাতে হলে ৩২০০০ ফাইলের লিংক এক জায়গায় রেখে তবে নামাতে দিতে হবে? পাইথন র্যাুপার না কি সেটাও খুব একটা কিছু সুবিধের নয়? ফাইল আইডেন্টিফায়ারের যে গাদা সিম্বলজি দিয়েছে, তাতে জেনারেল সমস্ত বাংলা বইয়ের ক্ষেত্রে কিছু করা যাবে না? 100 GB করে আবার এক একটা ব্যাচ ডাউনলোডের লিমিট রয়েছে দেখলাম মনে হয়?
যাঃ তাহলে আর বাল্ক ডাউনলোডের অপশন দিয়ে লাভ কি হল? :(
Hrym Date:11 Jun 2018 -- 09:28 AM
@ওমনাথ - *নিক্সে wget-টাই একটা বড় সুবিধা। একটা স্ক্রিপ্টে ইনপুট হিসেবে আইডেন্টিফায়ারের লিস্ট দিয়ে দিলে বাকিটা নিজে নিজেই করবে। হ্যাঁ, কানেকশন কেটে গেলে মুশকিল, তবে সেটা সম্ভবত স্ক্রিপ্টে হ্যান্ডল করা যাবে। কিন্তু আইডেন্টিফায়ারগুলো বসে বসে বের করতে হবে - তার কোনো শর্টকাট নেই। ইন্ডিভিজুয়াল ফাইল রাইট ক্লিক করে সেভ করতে হবে না, এই সুবিধাটাই অনেক।

পাইথন স্ক্রিপ্টটা দেখিনি, কারণ অফিসে জিটল্যাব খোলা যায় না। সাড়ে আটটার পর বাড়ি গিয়ে আর কম্পিউটার খোলার এন্থু থাকে না। পড়াশোনাও থাকে, আর যেহেতু বইপত্র ট্যাবে ভরে দেওয়া যায়, তাই সেটার জন্যেও কম্পু খুলতে হয় না।
Hrym Date:11 Jun 2018 -- 09:32 AM
আর্কাইভ যদি হ্যাশট্যাগ রেখে থাকে (মানে #bengali জাতীয় কিছু), তাহলে সেইটা দিয়ে সব বাংলা বইয়ের আইডেন্টিফায়ার বের করা সম্ভব। এপিআই দিয়ে থাকলে তো আরোই ভালো। পাইথন স্ক্রিপ্টটা খুলে দেখতে পারিস এরকম অপশন দিয়েছে কিনা।
~ Date:11 Jun 2018 -- 09:47 AM
আমি পাইথন জানি না।
Hrym Date:11 Jun 2018 -- 09:48 AM
জিটহাবে ঢুকে ডাউনলোড করে আমায় মেল করে দে।
h Date:11 Jun 2018 -- 09:51 AM
পাইথন স্ক্রিপ্ট পড়তে চেষ্টা করতে পারি। বলছি যে আমারে একটু বোঝাও, যে বিভিন্ন জায়গা থেকে পড়ে একটা আইডেন্টিফায়ার লিস্ট আমরা কেন লিখে নিতে পারবো না।
Hrym Date:11 Jun 2018 -- 10:01 AM
https://archive.org/services/swagger/?url=%2Fservices%2Fsearch%2Fbeta%
2Fswagger.yaml#/search
এইটা একটু নেড়েচেড়ে দেখতে হবে। সময় পেলে আমি দেখে নেবো।
Hrym Date:11 Jun 2018 -- 10:06 AM
এইখানে কাস্টম ফিল্ডে ল্যাঙ্গুয়েজ বেঙ্গলি দিলে লিস্ট দেখায় (সব দেখায় কিনা জানি না)। কিন্তু এইটাই এপিআই পেজে গিয়ে করতে বল্ল - সরি, উই আর কাইন্ডা বিজি।
Hrym Date:11 Jun 2018 -- 10:00 AM
আর্কাইভ কীভাবে রাখে দেখতে হবে। যদি সার্চ বক্সে নাম দিয়ে সার্চ করা হয় সেটা কোনো এপিআই না দিলে অটোমেট করা মুশকিল। যদি ক্যাটেগরি দিয়ে ভাগ করা থাকে (মানে কোথাও বল্লাম "বাংলা" আর সে আমাকে সব বাংলা বই দেখিয়ে দিলো) তাহলেও এপিআই লাগবে পুরো লিস্টটা বের করার জন্যে, তারপর হয়তো সেখান থেকে আইডেন্টিফায়ার বের করে নেওয়া যাবে।
এইটা অলরেডি পাইথন র‍্যাপারটা করে থাকতে পারে। না দেখলে বলতে পারবো না। আশা করা যায়, কারণ এপিআই (বিটা ভারসন) আছে দাবী করছে।
Hrym Date:11 Jun 2018 -- 10:06 AM
এইখানে কাস্টম ফিল্ডে ল্যাঙ্গুয়েজ বেঙ্গলি দিলে লিস্ট দেখায় (সব দেখায় কিনা জানি না)। কিন্তু এইটাই এপিআই পেজে গিয়ে করতে বল্ল - সরি, উই আর কাইন্ডা বিজি।



Name:  ~          

IP Address : 781212.194.340123.19 (*)          Date:11 Jun 2018 -- 10:43 PM

জিটহাব এ যা আছে
A Python and Command-Line Interface to Archive.org
1,212 commits
2 branches
32 releases
21 contributors
AGPL-3.0
Python 99.5% Makefile 0.5%
Python Makefile
Branch: master
New pull request
Find file
Clone or download
Fetching latest commit…
docs Fix typo "form" in import May 3, 2018
internetarchive BUGFIX: modify_metadata debug + other args not honoured May 18, 2018
snap Add the packaging metadata to build the ia snap Jul 10, 2017
tests updates for screenname. May 11, 2018
.gitignore Refactor tests. Fix bugs. Nov 13, 2016
.travis.yml Dropping testing support for py26. Dec 7, 2017
AUTHORS.rst Handle case where invalid media-type is returned. Nov 20, 2016
CONTRIBUTING.rst Fix some misspellings Apr 7, 2017
HISTORY.rst v1.8.0.dev1 May 11, 2018
LICENSE Changed license to AGPL 3, the default IA Free Software license. May 15, 2014
MANIFEST.in cleaned up manifest Feb 23, 2016
Makefile updated publish. Jul 25, 2017
README.rst deduped snap badge. Jul 25, 2017
setup.cfg pep8 fixes. Mar 5, 2018
setup.py pep8 fixes. Mar 13, 2018
tox.ini Dropping testing support for py26. Dec 7, 2017

পুরোটা নামিয়ে এখানে রাখা রইল
https://drive.google.com/open?id=0Bz-RYfLHhM5wWEJfN3l4MzJkTkE

README.rst

A Python and Command-Line Interface to Archive.org

travis Snap Status

This package installs a command-line tool named ia for using Archive.org from the command-line. It also installs the internetarchive Python module for programatic access to archive.org. Please report all bugs and issues on Github.

Installation

You can install this module via pip:

$ pip install internetarchive
Binaries of the command-line tool are also available:

$ curl -LO https://archive.org/download/ia-pex/ia
$ chmod +x ia
$ ./ia help
Documentation

Documentation is available at https://internetarchive.readthedocs.io.

Contributing

All contributions are welcome and appreciated. Please see https://internetarchive.readthedocs.io/en/latest/contributing.html for more details.

The Internet Archive Python Library
https://internetarchive.readthedocs.io/en/latest/



http://blog.archive.org/2012/04/26/downloading-in-bulk-using-wget/


Name:  ~          

IP Address : 781212.194.340123.19 (*)          Date:11 Jun 2018 -- 10:57 PM

আইডেন্টিফায়ার মেটাডেটা তে থাকবে।
https://internetarchive.readthedocs.io/en/latest/metadata.html#archive
-org-identifiers


যেকোনো একটা রিলেটেড ফাইল খুলে তার মেটাডেটা থেকে কপি করা যেতে পারে। যেমন
Sudhindranath Datter Kabyasangraha
by Not Available

Publication date 1960
Topics North
Collection digitallibraryindia; texts
Language Bengali
Book Source: Digital Library of India Item 2015.301410

dc.contributor.author: Not Available
dc.date.accessioned: 2015-08-10T12:48:05Z
dc.date.available: 2015-08-10T12:48:05Z
dc.date.digitalpublicationdate: 2013/01/19
dc.date.citation: 1960
dc.identifier.barcode: 99999990337838
dc.identifier.origpath: /data14/upload/0028/668
dc.identifier.copyno: 1
dc.identifier.uri: http://www.new.dli.ernet.in/handle/2015/301410
dc.description.scannerno: SC-02
dc.description.scanningcentre: North Eastern States Libraries
dc.description.main: 1
dc.description.tagged: 0
dc.description.totalpages: 464
dc.format.mimetype: application/pdf
dc.language.iso: Bengali
dc.publisher.digitalrepublisher: Digital Library Of India
dc.publisher: Day’s Publishing, Calcutta
dc.source.library: Birchandra State Central Library, Tripura
dc.subject.keywords: Bangla Kabya
dc.subject.keywords: Haimanti
dc.subject.keywords: Mahasatya
dc.subject.keywords: Utpakhi
dc.subject.keywords: Jatismar
dc.title: Sudhindranath Datter Kabyasangraha
dc.type: Print - Paper
dc.type: Book

Identifier in.ernet.dli.2015.301410
Identifier-ark ark:/13960/t4sj6x35r
Ocr language not currently OCRable
Ppi 600
Scanner Internet Archive Python library 1.2.0.dev4

তবে আমি খুব সিওর নই ওরা সমস্ত আইডেন্টিফায়ার খুব কনসিসটেন্টলি টাইপো ছাড়া ফিলাপ করেছে। dc.language.iso: Bengali যে বহু জায়গায় Bangla হয়ে নেই কে বলবে? বা in.ernet.dli. এর বদলে যে বহু যায়গায় শুধু dli লেখা নেই তারই বা কি সিওরিটি। যাই হোক, দেখ কিছু করা যায় কিনা! তবে টেরাবাইট লেভেলের ডেটা হবে, আর সেসব এক রাতে হারগিজ নামবে না।

এই সুতোর পাতাগুলি [1]     এই পাতায় আছে1--10