alt.binaries.lsShow header Prev. Next
Re: To csv creators and others - "A guide to naming lolita pictures.doc" (0/1) 27.0 kBytes yEnc FlashNewsgroups.com
one tin soldier (ridesaway@bloodymorningafter.org) 2009/05/03 13:27

On Sun, 03 May 2009 12:20:08 +0000, EAX <eax@less.than> wrote:

>On 02 May 2009 16:22:44 GMT, "mr.bill" <mrbill@invalid.ls> wrote:
>
>>>1) To include or not to include thumbnails for missing or corrupt
>>>pictures in csv?
>>>
>>This is a personal thing I think.  I don't include thumbnails for
>>corrupt images since many times the thumb doesn't get posted with a
>>nearly complete image, and it drives folks crazy to have a missing file
>>in their csv.  I do include them for missing images, if available, as
>>proof that a particular image wasn't inadvertently overlooked.  I
>>know of only one instance in LS where this was the case.
>>
>>Most will understand that a missing thumb is not the end of the world,
>>so go ahead and include them if you want.  There is precedence for both.
>
>I want to explain the goal of this discussion. Your work of creating
>csvs for LS sites is almost complete. LS is most circulated stuff.
>There are almost all LS sites from at least three different people in
>p2p networks and on the other hand those sites are often posted to
>Usenet. So we can get several packages of the same site, compare them
>each with other, produce a most correct version of the site and build
>csv on it.
>
>But there are many other non-LS sites. Some of them are neither posted
>to Usenet for years nor available in p2p. And if posted or available,
>they are often incomplete. Often there are no even two different
>packages of the same site. Often there are no html or indices
>available.
>
>Today we have only one set of csvs by Count Draculol which covers most
>of the non-LS sites. But his csvs are mostly inaccurate. So we often
>have some long missing gaps in our collections as per CD's csvs, but
>those missing files are often marked in CD's csvs as repaired,
>retouched, rotated, corrupt and so on. On the other side, we may have
>authentic replacements for such files (and even some extra files,
>which look authentic), but they don't match CD. What to do in such
>cases?
>
>I think we should continue CD's work. If some extra file is available,
>that should be included in existent csv, replacement for that existent
>csv should be created. Not another version of csv, but replacement.
>There is nothing good when many different versions of csv for the same
>site exist and folks don't know which of them to use, so they try to
>be complete on all existent csvs and have multiple duplicate
>collections as a result.
>
>The goal of this discussion is to make a set of general rules for
>creating csvs. Not only for LS sites or vice versa for non-LS sites,
>but for all those sites together. Such rules should take into
>consideration interests of the majority of people. Only then people
>will use csvs created in accordance with the rules.
>
>It is better to make the rules and publish them before the first csv
>will be created using those rules because it is easier to change the
>rules than to change many csvs.
>
>I could write a draft version of the rules, but I still have a couple
>of unresolved questions which I want to ask.
>
>I think the answer to the first question is more likely yes.
>Thumbnails should be included in csv if available for missing or
>corrupt images.
>
>>>2) To repair or not to repair some JPEG headers?
>>>
>>>When I created a csv for My-Little-Lolita, I found that three pictures
>>>had a junk at the end of COM segment and thus they didn't pass my
>>>checks. Then I removed that junk (replaced 2-3 bytes with zeroes) and
>>>the files became identical to the other files and passed my checks.
>>>
>>>Now I have the same situation with Virgin-Pussy-World. There are four
>>>JPEG files having a junk at the end of COM segment. All the other
>>>files had zeroes at the end of that segment. Should I repair such
>>>files or keep them untouched? The changes don't touch an image at all,
>>>only metadata are changed.
>>>
>>>I think that a junk in COM segments is a result of some bug in image
>>>creating program.
>>
>>This doesn't seem to be an issue where two versions of an image exist
>>and the problem is deciding which is the correct one.  Therefore, some
>>other questions to ask might be:
>>
>>What were the headers like on the website?
>>
>>Which version of the image would you want given to you if you were
>>making a csv from scratch?  An original or a modified?
>>
>>What might happen if after changing headers, an original csv surfaces
>>from an old-timer who ripped the site personally in 2002?
>>
>>As we both know, many LS files exist which have untouched images, but
>>fail csv because of header removal.  Proprietary, but otherwise useless
>>bytes in jpg headers are almost standard anymore.
>>
>>Perhaps a comment in the csv pointing out the presence or removal of
>>junk bytes might work.
>>
>>Changing a csv does not change the files in circulation.  It serves as a
>>measuring stick against which the veracity of a collection can be
>>determined.
>
>Now I think it was a mistake to change those bytes. I should undo the
>changes in order to not produce any redundant versions of files. Most
>likely original files were with junk bytes. Since those bytes don't
>affect an image, there is no reason to change anything.
>
>>My .02 Euros.
>
>Thank you for your input, mr.bill.
>
>There is the next question: should we never rename files, should we
>rename files in some cases or should we rename them almost always?
>
>The first case is clear. We want to preserve original files as much as
>we can. But this case generates a number of problems:
>
>1) Some sites use the naming convention when files in all sets have
>the same names "<prefix><N>.jpg", where <N> is the number of image in
>the set. So if we have an individual file, we can't say which set it
>belong to. And when we download entire site from Usenet we get a mess
>on the disk.
>
>2) Some sites use the naming convention when files in all sets have
>the names in format "<prefix>-<S>-<N>.jpg", where <S> is the number of
>set image belong to, and <N> is the number of image in the set. But
>sometimes such sites have mistakes in naming and numbering and can be
>very tricky. For instance, the prefix for some set may contain a
>misprint ("lsrar" instead of "lsbar", "un" instead of "ua") or there
>are may be additional characters such as spaces in filenames
>("lsrar-019a-040 .jpg", "ps-021b-089 .jpg"). Some image may have one
>number of the set in its name, but belongs to the other set
>("lsbar-005b-075.jpg" from set 021b). Some video may have an extension
>that do not correspond to the format of the file ("mpg" instead of
>"avi").
>
>3) The order of the pictures on the website may disagree with the
>order of the same pictures being alphabetically sorted by a file
>manager or an image viewer. This is the most serious problem for me.
>For instance, some set has more than 99 pictures, but uses two-digit
>numbering. On the site the images may be placed in the following
>order:
>
>...
>img09.jpg
>img10.jpg
>img11.jpg
>...
>img99.jpg
>img100.jpg
>img101.jpg
>...
>
>But an image viewer places the same files in the following order:
>
>...
>img09.jpg
>img10.jpg
>img100.jpg
>img101.jpg
>...
>img11.jpg
>...
>img99.jpg
>
>So we will view the images in wrong order. In order to solve this
>problem we can rename "img09.jpg" to "img009.jpg" and so on, i.e. pass
>to three-digit numbering. But how to determine the right order of
>images from the following set (Lolitas-Explosion\42)?
>
>bodylanguage001.jpg
>bodylanguage002.jpg
>bodylanguage003.jpg
>bodylanguage004.jpg
>bodylanguage005.jpg
>bodylanguage006.jpg
>bodylanguage007.jpg
>bodylanguage008.jpg
>bodylanguage009.jpg
>bodylanguage010.jpg
>bodylanguage011.jpg
>lastsummerday001.jpg
>lastsummerday002.jpg
>lastsummerday003.jpg
>lastsummerday004.jpg
>morningdreams001.JPG
>morningdreams002.JPG
>morningdreams003.JPG
>morningdreams004.JPG
>morningdreams005.JPG
>morningdreams006.JPG
>morningdreams007.JPG
>morningdreams008.JPG
>morningdreams009.JPG
>morningdreams010.JPG
>morningdreams011.JPG
>morningdreams012.JPG
>morningdreams013.JPG
>morningdreams014.JPG
>morningdreams015.JPG
>morningdreams016.JPG
>morningdreams017.JPG
>morningdreams018.JPG
>morningdreams019.JPG
>thegate001.jpg
>thegate002.jpg
>thegate003.jpg
>thegate004.jpg
>thegate005.jpg
>thegate006.jpg
>thegate007.jpg
>thegate008.jpg
>thegate009.jpg
>thegate010.jpg
>thegate011.jpg
>thegate012.jpg
>thegate013.jpg
>thegate014.jpg
>thegate015.jpg
>
>BTW, these images were placed on the website in the same alphabetic
>order as shown. Maybe there is no problem at all and all sites place
>the images in alphabetic order? But what if not?
>
>4) The order of the pictures on the website may be completely wrong.
>For instance, images were numbered back to front and at the first
>image we can see a naked model while at the last image she is dressed.
>Should we repair such mistakes or let them be intact?
>
>So, if renaming is allowable in some cases, which cases should they
>be? And if renaming is allowable, why not to rename always? Especially
>when html is available and we can know the order of images on the
>site. Renaming all images to kind "<prefix>-<S>-<N>.jpg" we can solve
>all mentioned problems. We can even choose unique prefixes for
>diffirent sites (like CD did). But we will completely lost original
>filenames.

I've little to add to this discussion, but would like to bring
to your attention a guide to file naming written by Theseus in
early 2002.  This document highlights a few of the file-naming
conventions in use at that time and notes some inconsistencies
in the way files had been renamed up to that point.

While this document does not address many of your concerns, it
does serve to illustrate the difficulties inherent in devising
an all-inclusive CSV-creation strategy.

--
ots

Follow-ups:12
Next Prev. Article List         Favorite